Analisis regresi logistik digunakan untuk menjelaskan hubungan antara variabel respon yang berupa data dikotomik/biner dengan variabel bebas yang berupa data berskala interval dan atau kategorik (Hosmer dan Lemeshow, 1989). Variabel yang dikotomik/biner adalah variabel yang hanya mempunyai dua kategori saja, yaitu kategori yang menyatakan kejadian sukses (Y=1) dan kategori yang menyatakan kejadian gagal (Y=0). pada model model linear umum komponen acak tidak harus mengikuti sebaran normal, tapi harus masuk dalam sebaran keluarga eksponensial. Sebaran bernoulli termasuk dalam salah satu dari sebaran keluarga eksponensial. Variabel respon Y ini, diasumsikan mengikuti distribusi Bernoulli.
Timbul pertanyaan:Perbedaan antara regresi logistik dengan analisis regresi biasa? kenapa tidak pakai analisis regresi biasa aja?
Sebenarnya untuk masalah diatas bisa digunakan analisis regresi OLS. Tapi harus memenuhi asumsi bahwa 0 <= E(Yi ÷ Xi) <= 1. Namun persyaratan tersebut sulit untuk terpenuhi. sehingga metode regresi OLS kurang cocok untuk data kuantitatif dan lebih baik menggunakan metode regresi logistik.
contoh Kasus dalam regresi logsitik biner:
- Pengaruh Tingkat Pendidikan, Lapangan Kerja yg dimasuki, Pendapatan, Pengeluaran, Jumlah ART terhadap status kemiskinan (Miskin/TIdak Miskin).
- Pengaruh Pendapatan Keluarga, Banyaknya Anggota Keluarga, Jenis rumah, Usia Kepala Keluarga terhadap Kepemilikan rumah (Punya rumah/tidak)
Berdasarkan dua contoh tersebut mungjkin sudah membuka pikiran untuk kasus seperti apa regresi logistik digunakan. intinya variabel dependentnya dikotomi artinya memiliki dua kategori seperti pada kasus diatas yang ditebal.
Kenapa cuma dua kategori aja? tidak bisa lebih dari tiga kategori?
Untuk metode ini tidak bisa karena hanya bisa dua sesuai dengan namanya. untuk masalah diatas ada metode lain yang bisa digunakan yaitu regresi logistik ordinal.
Bagaimana langkah-langkah atau prosedur statistiknya? sebagai referensi buat skripsi.heheheBentuk umum model peluang regresi logistik dengan p variabel penjelas, diformulasikan sebagai berikut:
dengan π(x) adalah peluang kejadian sukses dengan nilai probabilita 0≤π(x)≤1 dan βj adalah nilai parameter dengan j = 1,2,......,p. π(x) merupakan fungsi yang non linier, sehingga perlu dilakukan transformasi ke dalam bentuk logit untuk memperoleh fungsi yang linier agar dapat dilihat hubungan antara variabel bebas dan variabel tidak bebas. Dengan melakukan transformasi dari logit π(x), maka didapat persamaan yang lebih sederhana, yaitu:
Jika dari beberapa variabel bebas ada yang berskala nominal atau ordinal, maka variabel tersebut tidak akan tepat jika dimasukkan dalam model logit karena angka-angka yang digunakan untuk menyatakan tingkatan tersebut hanya sebagai identifikasi dan tidak mempunyai nilai numerik dalam situasi seperti ini diperlukan variabel dummy. Untuk variabel bebas dengan skala ordinal maupun nominal dengan k kategori, akan diperlukan sebanyak k-1 variabel dummy.
Asumsi-asumsi dalam regresi logistik:
- Tidak mengasumsikan hubungan linier antar variabel dependen dan independent
- Variabel dependen harus bersifat dikotomi (2 variabel)
- Variabel independent tidak harus memiliki keragaman yang sama antar kelompok variabel
- Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat eksklusif
- Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel prediktor (bebas).
Pendugaan Parameter
Metode untuk mengestimasi parameter-parameter yang tidak diketahui dalam model regresi logistik ada 3 yaitu:1. Metode kemungkinan maksimum (Maximum Likelihood Method)
2. Metode kuadrat terkecil tertimbang noniterasi (Noniterative Weight Least Square Method)
3. Analisis fungsi diskriminan (Discriminant Fuction Analysis)
Pada dasarnya metode maksimum Likelihood merupakan metode kuadrat terkecil tertimbang dengan beberapa proses iterasi, sedangkan metode noniterative weight least square method hanya menggunakan satu kali iterasi. kedua metode ini asymptoticaly equivalent, artinya jika ukuran sampel besar keduanya akan menghasilkan estimator yang identik. Penggunaan fungsi diskriminan mensyaratkan variabel penjelas yang kuantitatif berdistribusi normal. Oleh karena itu, penduga dari fungsi diskriminan akan over estimate bila variabel penjelas tidak berdistribusi normal.
Dari Ketiga metodei di atas, metode yang banyak digunakan adalah metode maksimum likelihood dengan alasan lebih praktis (Nachrowi dan Usman, 2002). Metode maksimu likelihoood ini menduga parameter dengan nilai yang memaksimumkan fungsi likelihood (likelihood function).
Uji Signifikansi Model
Untuk mengetahui pengaruh variabel bebas terhadap variabel tidak bebas secara bersama-sama (overall) di dalam model, dapat menggunakan Uji Likelihood Ratio. Hipotesisnya adalah sebagai berikut:Ho: β1 = β2 =....= βp = 0 (tidak ada pengaruh veriabel bebas secara simultan terhadap variabel tak bebas)
H1: minimal ada satu βj ≠ 0 (ada pengaruh paling sedikit satu veriabel bebas terhadap variabel tak bebas)
Untuk j = 1,2,...,p
Statistik uji yang digunakan adalah:
Dengan :
Lo = Maksimum Lieklihood dari model reduksi (Reduced Model) atau model yang terdiri dari konstanta saja
Lp = Maksimum Likelihood dari model penuh (Full Model) atau dengan semua variabel bebas.
Statistik G2 ini mengikuti distribusi Khi-kuadrat dengan derajad bebas p sehingga hipotesis ditolak jika p-value < α, yang berarti variabel bebas X secara bersama-sama mempengaruhi variabel tak bebas Y.
Uji Parsial dan Pembentukan Model
Pada umumnya, tujuan analsis statistik adalah untuk mencari model yang cocok dan keterpautan yang kuat antara model dengan data yang ada. Pengujian keberartian parameter (koefisien β) secara parsial dapat dilakukan melalui Uji Wald dengan hipotesisnya sebagai berikut:Ho: βj = 0 (variabel bebas ke j tidak mempunyai pengaruh secara signifikan terhadap variabel tidak bebas)
H1: βj ≠ 0 (variabel bebas ke j mempunyai pengaruh secara signifikan terhadap variabel tidak bebas)
Untuk j = 1,2,....,p
Dengan statistik uji sebagai berikut:
Hipotesis akan ditolak jika p-value < α yang berarti variabel bebas Xj secara partial mempengaruhi variabel tidak bebas Y.
Odds Ratio
Odds ratio merupakan ukuran risiko atau kecenderungan untuk mengalami kejadian ‘sukses ‘ antara satu kategori dengan kategori lainnya, didefinisikan sebagai ratio dari odds untuk xj = 1 terhadap xj = 0. Odds ratio ini menyatakan risiko atau kecenderungan pengaruh observasi dengan xj = 1 adalah berapa kali lipat jika dibandingkan dengan observasi dengan xj = 0. Untuk variabel bebas yang berskala kontinyu maka interpretasi dari koefisien βj pada model regresi logistik adalah setiap kenaikan c unit pada variabel bebas akan menyebabkan risiko terjadinya Y = 1, adalah exp(c.βj) kali lebih besar.Odds ratio dilambangkan dengan θ, didefinisikan sebagai perbandingan dua nilai odds xj = 1 dan xj = 0, sehingga:
Silahkan klik link berikut Tutorial regresi logistik dengan SPSS
No comments:
Post a Comment