Analisis Regresi Linier Berganda di Software R / R Studio
Dalam artikel sebelumnya, telah dibahas tentang analisis regresi linier sederhana yang memfokuskan pada hubungan antara dua variabel saja. Namun, dalam dunia nyata, hubungan antara sebuah variabel dengan variabel lain seringkali lebih kompleks dan melibatkan lebih dari satu faktor.
Oleh karena itu, pada artikel ini akan membahas mengenai analisis regresi linier berganda di software R/R Studio yang merupakan teknik statistik yang dapat digunakan untuk menganalisis hubungan antara satu variabel terikat (dependent variable) dengan dua atau lebih variabel bebas (independent variable). Teknik ini dapat membantu dalam mengidentifikasi faktor-faktor yang mempengaruhi variabel terikat dan juga memperkirakan besarnya pengaruh masing-masing faktor terhadap variabel terikat tersebut.
Outline Artikel
- Regresi Linier Berganda di Software R/R Studio
- Langkah-langkah Regresi Linier Berganda di Software R/R Studio
- Output Analisis Regresi Linier Berganda
- Contoh Kasus
- Output Soal Regresi Linier Berganda
- Interpretasi Output
Regresi Linier Berganda di Software R/R Studio
R adalah bahasa pemrograman open-source yang populer di
kalangan ilmuwan data dan statistikawan. R Studio adalah lingkungan
pengembangan terintegrasi (IDE) yang memudahkan penggunaan R. Analisis regresi
linier berganda sangat berguna dalam menganalisis hubungan antara dua
variabel. Namun, dalam kehidupan nyata, hubungan antara sebuah variabel dan
variabel lainnya seringkali lebih kompleks dan melibatkan lebih dari satu
faktor. Oleh karena itu, dalam tutorial ini, akan dibahas langkah-langkah untuk
melakukan analisis regresi linier berganda menggunakan R Studio.
Tutorial ini akan membantu pembaca untuk memahami cara
menggunakan R Studio untuk membuat model regresi linier berganda,
menginterpretasikan output dari model tersebut, dan melakukan analisis
statistik untuk mengevaluasi keakuratan model regresi. Dalam tutorial ini juga
akan disajikan contoh kasus untuk memperjelas pemahaman pembaca mengenai
regresi linier berganda.
Melalui tutorial ini, diharapkan pembaca dapat memperluas
pengetahuan dan keterampilan analisis data mereka dengan menggunakan R Studio
untuk melakukan analisis regresi linier berganda. Tutorial ini juga dapat
memberikan wawasan dan pemahaman yang lebih baik mengenai penggunaan R Studio
dalam analisis data yang kompleks, sehingga pembaca dapat memanfaatkannya untuk
tujuan bisnis, akademik, dan penelitian.
Regresi linier berganda adalah teknik analisis statistik
yang digunakan untuk mengetahui hubungan antara variabel independen (X) dan
variabel dependen (Y) dengan mengontrol pengaruh dari beberapa variabel
independen lainnya. Analisis regresi linier berganda sangat berguna untuk
memprediksi nilai Y berdasarkan nilai-nilai variabel independen yang telah
diketahui. Dalam artikel ini, saya akan membahas langkah-langkah regresi linier
berganda di software R/R Studio, output analisis regresi linier berganda, contoh
kasus, output soal regresi linier berganda, interpretasi output, dan
kesimpulan.
Langkah-langkah Regresi Linier Berganda di Software R/R
Studio
Berikut adalah langkah-langkah yang harus dilakukan dalam
melakukan analisis regresi linier berganda di software R/R Studio.
Import Data
Langkah pertama dalam melakukan analisis regresi linier
berganda di software R/R Studio adalah mengimpor data ke dalam lingkungan R/R
Studio. Data dapat diimpor dalam berbagai format seperti .csv, .txt, .xlsx,
atau .rds. Jika data sudah berada dalam format yang sesuai, kita dapat
menggunakan fungsi read.csv(), read.table(), read.xlsx(), atau readRDS() untuk
memuat data.
Dalam melakukan import data, pastikan bahwa data yang
diimpor memiliki struktur yang benar dan sesuai dengan variabel yang akan
digunakan dalam analisis. Sebagai contoh, pastikan bahwa data memiliki baris
dan kolom yang sesuai, variabel memiliki tipe data yang tepat, dan tidak ada
missing value pada data.
Melakukan Uji Normalitas
Langkah selanjutnya adalah melakukan uji normalitas pada
data. Uji normalitas dilakukan untuk memastikan bahwa data terdistribusi secara
normal. Hal ini penting karena regresi linier berganda membutuhkan asumsi bahwa
data terdistribusi normal.
Terdapat beberapa metode untuk melakukan uji normalitas pada
data, seperti uji Shapiro-Wilk, uji Kolmogorov-Smirnov, dan uji
Anderson-Darling. Untuk melakukan uji normalitas pada data, kita dapat
menggunakan fungsi seperti shapiro.test(), ks.test(), dan ad.test().
Jika data terdistribusi normal, maka kita dapat melanjutkan
ke langkah selanjutnya. Namun, jika data tidak terdistribusi normal, maka
analisis regresi linier berganda tidak dapat dilakukan dan perlu dilakukan
transformasi data.
Membuat Model Regresi
Setelah data terdistribusi secara normal, selanjutnya adalah
membuat model regresi linier berganda. Dalam model regresi linier berganda,
variabel dependen (Y) harus dihubungkan dengan beberapa variabel independen
(X).
Dalam membuat model regresi linier berganda, perlu
diperhatikan pemilihan variabel independen yang akan dimasukkan dalam model.
Variabel independen yang dipilih harus memiliki hubungan atau pengaruh terhadap
variabel dependen.
Dalam R/R Studio, kita dapat menggunakan fungsi lm() untuk
membuat model regresi linier berganda. Fungsi ini memungkinkan kita untuk
memasukkan variabel dependen dan independen, serta dapat menghasilkan output
yang berisi koefisien regresi dan hasil uji signifikansi.
Menentukan Koefisien Regresi
Koefisien regresi digunakan untuk mengetahui seberapa besar
pengaruh dari setiap variabel independen terhadap variabel dependen. Untuk
menentukan koefisien regresi, digunakan metode Ordinary Least Square (OLS).
Dalam R/R Studio, hasil koefisien regresi dapat diperoleh
dari output fungsi lm(). Koefisien regresi akan menunjukkan arah dan besar
pengaruh setiap variabel independen terhadap variabel dependen. Jika koefisien
regresi positif, maka peningkatan nilai variabel independen akan meningkatkan
nilai variabel dependen, dan sebaliknya jika koefisien negatif.
Menguji Signifikansi Koefisien Regresi
Setelah mendapatkan koefisien regresi, selanjutnya adalah menguji
signifikansi koefisien regresi. Uji signifikansi koefisien regresi dilakukan
untuk mengetahui apakah variabel independen berpengaruh signifikan terhadap
variabel dependen atau tidak.
Menguji Kualitas Model
Setelah uji signifikansi koefisien regresi, langkah
selanjutnya adalah menguji kualitas model. Dalam uji kualitas model, digunakan
beberapa metode, seperti uji R Square, uji Adjusted R Square, dan uji F
Statistik.
Output Analisis Regresi Linier Berganda
Output analisis regresi linier berganda pada software R/R
Studio terdiri dari beberapa bagian, yaitu:
Koefisien Regresi
Output koefisien regresi menunjukkan nilai koefisien untuk
setiap variabel independen dalam model regresi. Koefisien regresi menunjukkan
seberapa besar pengaruh dari setiap variabel independen terhadap variabel
dependen.
Signifikansi Koefisien Regresi
Output signifikansi koefisien regresi menunjukkan apakah
variabel independen berpengaruh signifikan terhadap variabel dependen atau
tidak
Kualitas Model Output
Kualitas model terdiri dari beberapa bagian, yaitu R Square,
Adjusted R Square, dan F Statistik. R Square adalah ukuran seberapa besar
variasi dari variabel dependen dapat dijelaskan oleh variabel independen dalam
model. Adjusted R Square menyesuaikan R Square untuk jumlah variabel independen
dalam model. F Statistik adalah ukuran keseluruhan signifikansi model regresi.
Residuals
Residuals adalah selisih antara nilai aktual variabel
dependen dan nilai yang diprediksi oleh model. Output residual menunjukkan
seberapa akurat model dalam memprediksi nilai variabel dependen.
Contoh
Kasus
Soal
Contoh
kasus yang digunakan adalah untuk menganalisis hubungan antara curah hujan
dengan penjualan payung. Curah hujan dijadikan variabel bebas (X1), Durasi
Hujan dijadikan variabel bebas (X2) dan penjualan payung dijadikan variabel
terikat (Y). Tujuan analisis ini adalah untuk mengetahui seberapa besar
pengaruh curah hujan dan durasi hujan terhadap penjualan payung.
Curah Hujan |
Durasi Hujan |
Penjualan Payung |
3.2 |
2.5 |
20 |
4.5 |
3.1 |
25 |
2.1 |
1.8 |
15 |
5.7 |
4.2 |
30 |
6.3 |
5.1 |
35 |
2.8 |
2.0 |
18 |
4.1 |
3.4 |
24 |
5.5 |
4.8 |
32 |
1.9 |
1.5 |
12 |
3.8 |
2.9 |
22 |
4.6 |
3.8 |
26 |
2.5 |
2.1 |
16 |
6.1 |
5.0 |
36 |
3.6 |
2.7 |
21 |
5.2 |
4.5 |
28 |
2.3 |
1.9 |
14 |
3.9 |
3.2 |
23 |
4.8 |
3.9 |
27 |
2.9 |
2.2 |
19 |
6.5 |
5.5 |
38 |
5.4 |
4.6 |
31 |
4.4 |
3.6 |
25 |
3.5 |
2.8 |
20 |
2.2 |
1.7 |
14 |
5.8 |
4.9 |
33 |
3.3 |
2.6 |
19 |
4.9 |
4 |
28 |
6.2 |
5.2 |
36 |
2.7 |
2.0 |
17 |
4.3 |
3.5 |
24 |
Memasukkan data ke dalam R/R Studio
Pertama, kita perlu memasukkan data curah hujan, durasi hujan, dan penjualan payung ke dalam R/R Studio. Untuk melakukan hal ini, kita dapat menulis script berikut:
> curah_hujan <- c(3.2, 4.5, 2.1, 5.7, 6.3, 2.8, 4.1, 5.5, 1.9, 3.8, 4.6,
2.5, 6.1, 3.6, 5.2, 2.3, 3.9, 4.8, 2.9, 6.5, 5.4, 4.4, 3.5, 2.2, 5.8,
3.3, 4.9, 6.2, 2.7, 4.3)
> durasi_hujan <- c(2.5, 3.1, 1.8, 4.2, 5.1, 2.0, 3.4, 4.8, 1.5, 2.9, 3.8,
2.1, 5.0, 2.7, 4.5, 1.9, 3.2, 3.9, 2.2, 5.5, 4.6, 3.6, 2.8, 1.7, 4.9,
2.6, 4.0, 5.2, 2.0, 3.5)
> penjualan_payung <- c(20, 25, 15, 30, 35, 18, 24, 32, 12, 22, 26, 16, 36,
21, 28, 14, 23, 27, 19, 38, 31, 25, 20, 14, 33, 19, 28, 36, 17, 24)
Selain itu, jika data sudah disimpan
dalam suatu file, missal excel, maka bisa mengimport dengan script berikut
(warna merah melupakan lokasi folder file)
> library(readxl)
> Data1 <- read_excel("C:/Users/Data/Folder/Data1.xlsx")
Visualisasi Data
Setelah memasukkan data, kita dapat memvisualisasikan data menggunakan plot. Hal ini dapat dilakukan dengan menggunakan script berikut:
> plot(curah_hujan, penjualan_payung, main = "Hubungan antara Curah Hujan dan Penjualan Payung",
xlab = "Curah Hujan (mm)", ylab = "Penjualan Payung")
> plot(durasi_hujan, penjualan_payung, main = "Hubungan antara Durasi Hujan dan Penjualan Payung",
xlab = "Durasi Hujan (mm)", ylab = "Penjualan Payung")
Melakukan Regresi
Linier Berganda
Setelah memvisualisasikan data, langkah selanjutnya adalah melakukan regresi linier berganda. Kita dapat melakukan regresi linier berganda dengan menggunakan fungsi lm(). Scriptnya adalah sebagai berikut:
> model_regresi <- lm(penjualan_payung ~ curah_hujan+durasi_hujan)
> summary(model_regresi)
Output Soal
Regresi Linier Berganda
Setelah
script telah selesai di running / di jalankan, berikut adalah contoh output
dari analisis regresi linier berganda menggunakan Software R/R Studio:
Interpretasi
Output
Output tersebut merupakan hasil dari model regresi linier
berganda yang dibuat dengan menggunakan variabel bebas curah_hujan dan
durasi_hujan serta variabel terikat penjualan_payung. Berikut adalah penjelasan
masing-masing output dari model tersebut:
Call: lm(formula = penjualan_payung ~ curah_hujan +
durasi_hujan)
- Call
ini menunjukkan formula model regresi linier berganda yang digunakan dalam
analisis ini, yaitu model dengan variabel terikat penjualan_payung dan dua
variabel bebas curah_hujan dan durasi_hujan.
Residuals: Min 1Q Median 3Q Max -2.10232 -0.60407 -0.04186
0.48709 1.72639
- Residuals
menunjukkan residual dari model regresi linier berganda yang dibuat.
Residual adalah selisih antara nilai aktual variabel terikat dengan nilai
yang diprediksi oleh model regresi linier berganda.
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.9871 0.5612 5.323 1.28e-05 *** curah_hujan 3.5953 0.7895 4.554
0.000101 *** durasi_hujan 1.8710 0.9102 2.056 0.049601 *
- Coefficients
menunjukkan koefisien estimasi untuk masing-masing variabel dalam model
regresi linier berganda. Koefisien estimasi menunjukkan seberapa besar
pengaruh setiap variabel bebas terhadap variabel terikat. Dalam model ini,
terdapat tiga koefisien estimasi, yaitu koefisien untuk intercept,
curah_hujan, dan durasi_hujan.
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’
0.05 ‘.’ 0.1 ‘ ’ 1
- Signif.
codes menunjukkan level signifikansi dari masing-masing koefisien
estimasi. Semakin sedikit bintang yang digunakan, semakin signifikan
koefisien estimasi tersebut.
Residual standard error: 0.906 on 27 degrees of freedom
- Residual
standard error menunjukkan besarnya rata-rata kesalahan prediksi model.
Dalam hal ini, rata-rata kesalahan prediksi adalah sebesar 0.906.
Multiple R-squared: 0.9857, Adjusted R-squared: 0.9846
- Multiple
R-squared menunjukkan seberapa besar variasi dalam variabel terikat dapat
dijelaskan oleh masing-masing variabel bebas. Nilai multiple R-squared
adalah 0.9857, artinya sekitar 98.57% variasi dalam variabel terikat dapat
dijelaskan oleh variabel bebas dalam model ini. Adjusted R-squared
menghitung multiple R-squared yang telah disesuaikan dengan jumlah
variabel bebas dan jumlah sampel dalam model, dan nilainya adalah 0.9846.
T-value
- T-value
adalah nilai statistik yang menunjukkan seberapa signifikan koefisien
variabel bebas terhadap variabel terikat dalam model regresi. Semakin
besar nilai absolut dari t-value, semakin signifikan variabel bebasnya.
Dalam output ini, kita dapat melihat bahwa koefisien curah_hujan memiliki
t-value sebesar 4.554, sedangkan koefisien durasi_hujan memiliki t-value
sebesar 2.056. Nilai t-value untuk kedua koefisien ini lebih besar dari 2,
sehingga dapat disimpulkan bahwa kedua variabel bebas tersebut signifikan
secara statistik terhadap variabel terikat.
F-statistic
- F-statistic
adalah nilai statistik yang menguji apakah ada setidaknya satu variabel
bebas yang signifikan secara statistik dalam memprediksi variabel terikat
dalam model regresi. Semakin besar nilai F-statistic, semakin signifikan
model regresi tersebut. Dalam output ini, kita dapat melihat bahwa
F-statistic sebesar 930.7 dengan p-value < 2.2e-16. Hal ini menunjukkan
bahwa model regresi linier berganda yang dibuat sangat signifikan secara
statistik.
Model Regresi Linier Berganda
- Model
regresi linier berganda yang dibuat adalah:
Penjualan_payung
= 2.9871 + 3.5953 * Curah_hujan + 1.8710 * Durasi_hujan
Dalam model ini, nilai koefisien untuk curah_hujan adalah 3.5953 dan untuk durasi_hujan adalah 1.8710. Hal ini menunjukkan bahwa setiap peningkatan satu unit pada curah hujan akan meningkatkan penjualan payung sebanyak 3.5953 unit, sementara setiap peningkatan satu unit pada durasi hujan akan meningkatkan penjualan payung sebanyak 1.8710 unit.
Posting Komentar untuk "Analisis Regresi Linier Berganda di Software R / R Studio"