Tulisan ini menyambung tulisan sebelumnya mengenai Analisis Regresi dengan Excel.
Kali ini kita akan membahas dan menginterpretasikan hasil-hasil
tersebut. Oleh karenanya, untuk bisa memahami tulisan ini, sebaiknya
terlebih dahulu membaca tulisan yang disebutkan diatas.
Tampilan pertama dari output regresi Excel sebagai berikut:
Tabel Summary output ini melaporkan kekuatan hubungan antara model (variabel bebas) dengan variabel terikat.
Multiple R (R
majemuk) adalah suatu ukuran untuk mengukur tingkat (keeratan) hubungan
linear antara variabel terikat dengan seluruh variabel bebas secara
bersama-sama. Pada kasus dua variabel (satu variabel terikat dan satu
variabel bebas), besaran r (biasa dituliskan dengan huruf kecil untuk
dua variabel) dapat bernilai positif maupun negatif (antara -1 – 1),
tetapi untuk lebih dari dua variabel, besaran R selalu bernilai positif
(antara 0 – 1). Nilai R yang lebih besar (+ atau -) menunjukkan
hubungan yang lebih kuat.
R Square (R2)
sering disebut dengan koefisien determinasi, adalah mengukur kebaikan
suai (goodness of fit) dari persamaan regresi; yaitu memberikan
proporsi atau persentase variasi total dalam variabel terikat yang
dijelaskan oleh variabel bebas. Nilai R2 terletak antara 0 – 1, dan kecocokan model dikatakan lebih baik kalau R2 semakin mendekati 1. (uraian lebih lanjut mengenai R2 lihat pembahasan di bawah)
Adjusted R Square. Suatu sifat penting R2
adalah nilainya merupakan fungsi yang tidak pernah menurun dari
banyaknya variabel bebas yang ada dalam model. Oleh karenanya, untuk
membandingkan dua R2 dari dua model, orang harus
memperhitungkan banyaknya variabel bebas yang ada dalam model. Ini
dapat dilakukan dengan menggunakan “adjusted R square”. Istilah
penyesuaian berarti nilai R2 sudah disesuaikan dengan banyaknya variabel (derajat bebas) dalam model. Memang, R2 yang disesuaikan ini juga akan meningkat bersamaan meningkatnya jumlah variabel, tetapi peningkatannya relatif kecil.
Seringkali juga disarankan, jika variabel bebas lebih dari dua, sebaiknya menggunakan adjusted R square.
Standard Error. Merupakan
standar error dari estimasi variabel terikat(dalam kasus kita adalah
permintaan). Angka ini dibandingkan dengan standar deviasi dari
permintaan. Semakin kecil angka standar error ini dibandingkan angka
standar deviasi dari permintaan maka model regresi semakin tepat dalam
memprediksi permintaan
Tabel ANOVA (Analysis of Variance)
menguji penerimaan (acceptability) model dari perspektif statistik
dalam bentuk analisis sumber keragaman. ANOVA ini sering juga
diterjemahkan sebagai analisis ragam.
Dari tabel ANOVA tersebut diungkapkan
bahwa keragaman data aktual variabel terikat (permintaan) bersumber
dari model regresi dan dari residual. Dalam pengertian sederhana untuk
kasus kita adalah variasi (turun-naiknya atau besar kecilnya)
permintaan disebabkan oleh variasi dari harga dan pendapatan (model
regresi) serta dari faktor-faktor lainnya yang mempengaruhi permintaan
yang tidak kita masukkan dalam model regresi (residual).
Degree of Freedom (df) atau derajat
bebas dari total adalah n-1, dimana n adalah banyaknya observasi.
Karena observasi kita ada 10, maka derajat bebas total adalah 9.
Derajat bebas dari model regresi adalah 2, karena ada dua variabel
bebas dalam model kita (harga dan pendapatan). Derajat bebas untuk
residual adalah sisanya yaitu derajat bebas total – derajat bebas
regresi = 9 – 2 = 7.
Kolom SS (Sum of Square) atau jumlah
kuadrat untuk regression diperoleh dari penjumlahan kuadrat dari
prediksi variabel terikat (permintaan) dikurangi dengan nilai rata-rata
permintaan dari data sebenarnya. Jadi secara manual kita cari dulu
rata-rata permintaan dari data asli kita. Kemudian masing-masing
prediksi permintaan (lihat tabel residual output di bawah) dikurangi
dengan rata-rata tersebut kemudian dikuadratkan. Selanjutnya, seluruh
hasil perhitungan tersebut dijumlahkan. Contohnya, rata-rata permintaan
dari data kita = 820. Berdasarkan tabel residual output dibawah, untuk
observasi pertama prediksi permintaan = 498.2362193. Selanjutnya kita hitung (498.24 – 820 )2 = 103531.93. Untuk observasi kedua dihitung (262.98 – 820)2
= 310271.8. Demikian seterusnya sampai data terakhir. Selanjutnya,
hasil-hasil perhitungan tersebut dijumlahkan dan hasilnya = 769993.78.
Kolom SS untuk residual diperoleh dari
jumlah pengkuadratan dari residual. Lihat cara menghitung residual pada
tabel residual output dibawah. Nilai-nilai residual tersebut
dikuadratkan, kemudian hasilnya dijumlahkan dan hasilnya adalah 46006.22.
Kolom SS untuk total adalah penjumlahan
dari SS untuk regresi dengan dengan SS untuk residual. Sebenarnya SS
total ini adalah variasi (besar-kecil,naik-turun) dari permintaan. Ini
diukur dengan mengurangi nilai masing-masing permintaan aktual dengan
rata-ratanya, kemudian dikuadratkan. Hasil perhitungan tersebut
kemudian dijumlahkan.
Lalu, apa artinya dari angka-angka tersebut ? Sekarang perhatikan ketiga hasil kita, SS regresi, SS residual dan SS total.
SS total kita adalah 816000.
Artinya, variasi dari pemintaan yang dikuadratkan adalah sebesar nilai
tersebut. Lalu apa yang menyebabkan permintaan tersebut bervariasi ?
Sebagian berasal dari variabel bebas (harga dan pendapatan) yaitu
sebesar 769993.78 (regresi). Lalu sisanya, yang sebesar 46006.22
disebabkan oleh variabel lain yang juga mempengaruhi pendapatan, tetapi
tidak dimasukkan dalam model (residual).
Kalau kita bandingkan (bagi) antara SS
regresi dengan SS total, maka akan kita dapatkan proporsi dari total
variasi permintaan yang disebabkan oleh variasi harga dan pendapatan.
Coba kita bagi: 769993.78 / 816000 = 0.9436. Anda ingat ini angka apa ? ……….. Ya, benar. Ini adalah R2 atau koefisien determinasi yang telah kita bahas diatas.
Selanjutnya kolom berikutnya dari ANOVA
adalah kolom MS (Mean of Square) atau rata-rata jumlah kuadrat. Ini
adalah hasil bagi antara kolom SS dengan kolom df. Dari perhitungan MS
ini, selanjutnya dengan membagi antara MS Regresi dengan MS Residual
didapatkan nilai F. Nilai F ini yang dikenal dengan F hitung dalam
pengujian hipotesa dibandingkan dengan nilai F tabel. Jika F hitung
> F tabel, maka dapat dinyatakan bahwa secara simultan
(bersama-sama) harga dan pendapatan berpengaruh signifikan terhadap
permintaan. Selain itu, kita juga bisa membandingkan antara taraf nyata
dengan p-value (dalam istilah Excel adalah Significance F). Jika
taraf nyata > dari p-value maka kesimpulannya sama dengan di atas.
Misalnya kita menetapkan taraf nyata 5%. Karena p-value (Significance F) = 0.000, maka dapat disimpulkan bahwa harga dan pendapatan secara bersama-bersama berpengaruh signifikan terhadap permintaan.
Tabel berikutnya dari output Excel menampilkan nilai-nilai koefisien, standard error, tsat, P-value dan selang kepercayaan.
Dalam pengujian hipotesis regresi,
tahap berikutnya setelah pengujian secara simultan (uji F seperti yang
telah kita sampaikan sebelumnya) adalah pengujian koefisien regresi
secara parsial. Pengertian pengujian secara parsial ini dalam kasus
kita adalah untuk menjawab pertanyaan “dengan asumsi faktor-faktor lain
tetap/tidak berubah, apakah harga atau pendapatan berpengaruh terhadap
permintaan ?”.
Dalam uji parsial, kita menggunakan uji t, yaitu membandingkan
antara t-hitung (t Stat) dengan t tabel. Jika t hitung > t tabel
pada taraf nyata tertentu, maka dapat disimpulkan variabel tersebut
berpengaruh secara signifikan.
t hitung ditampilkan pada kolom 4, yang
merupakan hasil bagi antara kolom 2 (coefficients) dengan kolom 3
(Standard Error). Catatan: perhitungan ini dalam kasus yang umum
digunakan dimana Hipotesis nol (H0) = 0. Untuk kasus dimana kita merumuskan H0 lebih besar/kecil dari 0, maka perlu dilakukan perhitungan manual.
Selain membandingkan dengan nilai
t-tabel, kita juga bisa menarik kesimpulan signifikansinya dengan
membandingkan taraf nyata dengan p-value (kolom 5). Jika misalkan kita
menggunakan taraf nyata 5 %, maka variabel dengan p-value sama atau
lebih kecil dari 5 %, dapat dinyatakan sebagai variabel yang secara
parsial berpengaruh signifikan.
Berdasarkan hal tersebut, terlihat bahwa harga maupun pendapatan secara parsial berpengaruh terhadap permintaan.Selanjutnya, kolom 6 dan 7 memberikan selang kepercayaan untuk koefisien. Di judulnya tertulis Lower 95% dan Upper 95%. Angka 95% adalah penetapan kita pada waktu pengolahan dengan Excel dan bisa dirubah sesuai keinginan.
Apa artinya selang kepercayaan tersebut
? Nilai koefisien yang diberikan pada output regresi merupakan dugaan
titik (point estimate) dari parameter koefisien regresi (ingat,
pengertian parameter koefisien regresi adalah koefisien regresi yang
dihasilkan dari pengolahan data populasi. Karena umumnya kita hanya
mengolah data sampel, maka koefisien regresi yang diberikan sifatnya
adalah dugaan/taksiran kita terhadap keadaan/koefisien populasi
(parameter) yang sebenarnya). Namun, jika informasinya hanya dari
dugaan titik, kita tidak tahu seberapa besar kesalahan atau tingkat
kepercayaan dari dugaan parameter tersebut. Oleh karenanya, dalam
statistika juga diberikan dugaan selang (confidence interval), dimana
nilai paramater sebenarnya diharapkan berada dalam selang tersebut
dengan tingkat kepercayaan tertentu.
Berdasarkan hal tersebut, dari output
Excel terlihat bahwa dengan tingkat kepercayaan 95%, maka koefisien
regresi untuk pendapatan yang sebesar 0.36, dalam faktanya di tingkat
populasi akan berkisar antara 0.13 – 0.58
Selanjutnya dari informasi kolom 1 – 5
(tabel 3) ditambah informasi dari tabel 1 dan tabel 2, kita dapat
meringkas persamaan regresi menjadi sebagai berikut (banyak cara untuk
menampilkan hasil regresi, menurut saya ini yang cukup sederhana dan
informatif):
Se (274.67) (4.57 ) (0.09) F = 58.58**
t ( 2.21) (-2.90)* (3.78)**
Pada baris pertama, adalah persamaan
regresi dengan koefisiennya. Baris kedua adalah standar error untuk
masing-masing koefisien dan baris ketiga adalah nilai t hitungnya.
Disampingnya nilai R2 dan F hitung. Perhatikan pada nilai t
dan F ada bintang 1 dan bintang 2. Seringkali orang menandai dengan
bintang 1 yang menunjukkan uji tersebut signifikan pada taraf nyata 5 %
dan bintang 2 sebagai signifikan pada taraf nyata 1 %.
Sekarang kita baca hasilnya. Dari
persamaan regresi menunjukkan koefisien harga bernilai negatif yang
berarti ada pengaruh negatif (berlawanan arah) antara harga dan
permintaan. Besaran koefisiennya berarti bahwa dengan asumsi pendapatan
tidak berubah, maka setiap kenaikan harga 1000 rupiah (karena dalam
kasus kita satuannya adalah ribu rupiah), maka permintaan barang akan
turun/berkurang sebanyak 13.31 unit (karena dalam kasus kita satuannya
adalah unit).
Begitu juga untuk interpretasi
koefisien pendapatan. Dengan asumsi harga tidak berubah, maka setiap
kenaikan pendapatan sebesar 1000 rupiah akan meningkatkan permintaan
sebanyak 0.36 unit (ingat, karena koefisien regresinya positif, berarti
pengaruhnya searah).
Konstanta yang sebesar 607.53 secara
matematis berarti bahwa ketika variabel bebas nilainya 0, maka variabel
terikat nilainya adalah sebesar konstanta tersebut. Tapi hati-hati
dalam membaca konstanta dalam kasus kita ini. Selain karena nilainya
tidak signifikan, juga secara logika kita tidak akan pernah berhadapan
dengan harga dan pendapatan yang nilai 0. Harga barang dengan nilai 0
bukan barang ekonomi (yang tidak masuk dalam analisis kita). Demikian
juga, tidak mungkin orang yang tidak punya pendapatan bisa membeli
barang yang ada harganya.
RESIDUAL OUTPUT
Kolom pertama dari residual output
adalah nomor urutan data kita, sesuai dengan urutan data yang kita
input. Kolom kedua (predicted permintaan) adalah kolom yang memuat
perkiraan/prediksi variabel terikat (dalam kasus kita adalah
permintaan) untuk nilai-nilai dari variabel bebas dari data asli kita.
Prediksi ini didasarkan dari output persamaan regresi sebelumnya.
Misalnya untuk observasi pertama, harga = 35 dan pendapatan = 1000,
maka prediksi permintaan adalah:
Persamaan regresi : Permintaan = 607.53 – 13.31 Harga + 0,36 Pendapatan
Prediksi : Permintaan = 607.53 – 13.31 (35) + 0,36 (1000) = 498.2362193
Kolom ketiga (residuals) adalah selisih
antara prediksi variabel terikat (dalam hal ini permintaan) dengan
nilai sebenarnya. Misalnya untuk observasi pertama, nilai sebenarnya
untuk permintaan adalah 500. Sehingga selisihnya (residual) = 500 –
498.2362193 = 1.763780707
Kolom keempat (Standard Residuals)
adalah residual yang distandarisasikan, yang juga dikenal sebagai
residual Pearson. Rata-rata dari standar residual = 0 dan standar
deviasinya =1. (Anda bisa membuktikan dengan mencari rata-rata dan
standar deviasi dari nilai-nilai kolom keempat ini).
Standar residual dihitung dengan cara
membagi residual (kolom 3) dengan standar deviasi residual tersebut.
Jadi, untuk mencari standar residual, kita cari dulu standar deviasi
kolom 3, kemudian masing-masing nilai pada kolom ketiga, dibagi dengan
standar deviasi. Sebagai contoh, standar deviasi dari kolom ketiga
setelah dihitung adalah 71.49686574. Nah, pada observasi pertama, maka standar residualnya adalah 1.763780707/71.49686574 =0.024669343. Demikian seterusnya.
PROBABILITY OUTPUT
Disamping residual output terdapat
tabel probability output. Inti dari tabel ini adalah menggambarkan
persentile dan nilai-nilai dari variabel terikat (yaitu permintaan).
GRAFIK-GRAFIK
Terdapat beberapa grafik yang ditampilkan dalam output regresi Excel, yaitu:
1. Grafik yang menghubungkan antara variabel bebas (harga dan pendapatan) dengan residual
2. Grafik plot yang menghubungkan
antara variabel bebas (harga dan pendapatan) dengan variabel terikat
(permintaan) baik permintaan atas dasar data aktual maupun prediksi.
3. Grafik normal probability atas dasar persentil untuk variabel terikat (permintaan).
Dalam kasus kita, grafik-grafik tersebut dapat Anda lihat pada tulisan Analisis Regresi dengan Excel sebelumnya.
Tidak ada komentar:
Posting Komentar