Data Outliers

Outliers adalah data yang menyimpang terlalu jauh dari data yang lainnya dalam suatu rangkaian data (pencilan). Adanya data outliers ini akan membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Istilah outliers juga sering dikaitkan dengan nilai esktrem, baik ekstrem besar maupun ekstrem kecil. Sebagai ilustrasi, jika ada empat mahasiswa, mahasiswa pertama mempunyai uang saku per bulan Rp. 500 ribu, mahasiswa kedua Rp. 600 ribu, mahasiswa ketiga Rp. 700 ribu, dan mahasiswa keempat karena merupakan anak orang kaya (sultan), mempunyai uang saku per bulan sampai dengan Rp. 5 juta. Secara sekilas tampak bahwa nilai 5 juta relatif jauh dibandingkan uang saku ketiga mahasiswa yang lain.

Kalau kita rata-ratakan uang saku keempat mahasiswa tersebut, maka rata-ratanya adalah sebesar (500 ribu + 600 ribu + 700 ribu + 5 juta)/4= 6,8 juta/4 = 1,7 juta. Tiga mahasiswa yang lain tentunya keberatan jika dinyatakan bahwa rata-rata uang saku mereka adalah Rp. 1,7 juta per bulan karena jauh sekali dari nilai yang sebenarnya. Contoh lain misalnya kita ingin merata-ratakan kekayaan seorang PNS usia 30 tahunan, dengan memasukkan seorang PNS yang kebetulan mempunyai kekayaan sekitar Rp. 25 Milliar…he he he he

Penangangan Data Outliers

Harus kita apakah data outliers? Apakah harus kita keluarkan? Atau ada treatment yang lain. Pengeluaran data outliers memang tidak disalahkan, akan tetapi harus dikaji dulu, apakah data tersebut merupakan bagian dari populasi atau bukan? Sebagai contoh, seorang PNS dengan kekayaan dalam contoh di atas, sebaiknya dikeluarkan dari model penelitian karena ‘tidak’ mewakili fenomena PNS yang sebenarnya (jangan-jangan memang begitu ya fenomenanya? He he). Dalam contoh keempat mahasiswa di atas, jika tujuannya adalah untuk melihat apakah perlu menaikkan SPP atau tidak, ya sebaiknya dikeluarkan karena tentunya 3 orang yang mempunyai uang saku di bawah 1 juga akan keberatan. Akan tetapi dalam kasus yang lain, data tersebut boleh saja dipergunakan jika memang mewakili kondisi subjek penelitian. Misalnya, penelitian perusahaan selama krisis di mana hampir semua perusahaan mengalami kerugian. Akan tetapi ada satu atau beberapa perusahaan yang dengan jitu melakukan strategi sehingga menghasilkan profit. Nah, hasil penelitian akan lebih menarik jika data outliers tidak dikeluarkan. Dalam hal ini, peneliti bahkan dapat mengkaji strategi apa yang digunakan sehingga dapat dijadikan rujukan bagi perusahaan yang lain.

Dalam statistik, data outliers sering menimbulkan hasil yang bias. Oleh karena itu, harus diberikan perlakuan khusus. Pengeluaran data outliers atau penggunaan data outliers tidak semata-mata merujuk kepada statistiknya, tetapi juga adjustment dari peneliti. Jika memang data outliers tersebut tidak dapat dikeluarkan karena masih merupakan fenomena subjek penelitian ya sebaiknya tetap dipergunakan. Agar efek outliers dapat direduksi, maka data dilakukan transformasi data, misalnya dengan logaritma natural, atau akar kuadrat. Atau juga bisa menggunakan alat statistik non parametrik, sehingga data outliers tidak akan nampak sebagai outliers karena data dianggap berskala ordinal. Sebagai contoh, keempat mahasiswa tadi diubah menjadi data ordinal, sehingga mahasiswa dengan uang saku Rp. 500 ribu menjadi 1, uang saku Rp. 600 ribu menjadi 2, uang saku Rp. 700 ribu menjadi 3, dan yang paling besar menjadi 4. Ini hanya contoh saja, dan sebagai informasi data dalam bentuk ordinal tidak dapat dirata-ratakan, akan tetapi dapat digunakan untuk mencari korelasi dengan variabel lain.

Berikut adalah simulasi trimming data outliers dengan SPSS Versi 25:


Share:

SBY (Tidak) Dipilih oleh 60% Rakyat Indonesia ?

Kali ini postingannya agak sedikit berbau politik tapi tetap berkaitan dengan statistik. Ya….kerennya, statistik praktis lah…he he….. tapi ini hanya fakta kok, jadi gak perlu dianggap secara serius. Intinya apakah benar, pada pemilu 2009, pemenangnya didukung oleh 60% rakyat Indonesia?
Nah, berdasarkan data KPU, dari 121.504.481 pemilih yang sah, maka pasangan SBY-Boediono mendapatkan suara sah sebanyak 73.874.562 sehingga secara sederhana dapat kita hitung bahwa 73.874.562/121.504.481 = 0,6080 atau jika dinyatakan dalam persen adalah 60,80%. Pasangan Mega-Prabowo mendapatkan suara sah sebanyak 32,548,105 atau 26,79% dan pasangan Jk-Wiranto sebanyak 15,081,814 atau 12,41%. Nah dari hitungan itu tampak bahwa dukungan kepada pasangan SBY-Boediono adalah 60,80% sehingga sah terpilih menjadi presiden.
Quick count
Gambar Quick Count
Di sini persoalannya adalah apakah pasangan pemenang tersebut benar-benar didukung oleh 60,80% rakyat Indonesia? Kalau dari suara sah memang benar, tapi apakah suara sah tersebut benar-benar mewakili seluruh rakyat Indonesia? Topik di sini tidak terkait dengan tuduhan penggelembungan suara atau pun manipulasi DPT. Itu bukan wewenang kami. Tapi coba lihat logika berikut:
Dari sekitar 240 juta rakyat Indonesia, tidak semua mempunyai hak untuk memilih. Mengapa? Tentu saja, karena dari 240 juta rakyat Indonesia masih ada yang balita, anak-anak atau dianggap tidak mampu menggunakan haknya, misalnya karena sakit gila dan alasan lain yang sah. Dari 240 juga tersebut, dilakukan pendataan dan terpilih sebanyak 176.367.056. Jadi 240 juga rakyat Indonesia diwakili oleh sekitar 176 juta saja. Logis? Anda terima? Tentu saja!!! Karena sekitar 64 juta yang tidak mempunyai hak pilih masih berstatus balita, anak-anak atau mereka yang dianggap belum dewasa. Jadi ya…OK lah kalau begitu.
Coba kita perhatikan, dari sekitar 176 juta rakyat yang mempunyai hak pilih, ternyata hanya sekitar 121 juta saja yang menggunakan haknya dan dianggap sah. Lha sisanya? Jika dihitung rinci, maka terdapat 176.367.056 - 121.504.481 = 54,862,575 orang yang tidak menggunakan hak pilih, atau dianggap tidak sah suaranya. Bandingkan dengan 73 juta yang memilih peserta pemenang pemilu. Jumlah 54 juta suara ini tidak dapat diabaikan karena sekitar 31,11% dari total rakyat yang mempunyai hak suara. Jika dihitung 54,862,575/176.367.056 = 31,11%. Dalam teori statistik, jumlah ini tidak boleh diabaikan karena nilai yang lazim digunakan dalam statistik hanyalah sekitar 5%. Ke-54 juta orang yang tidak menggunakan hak pilih ini tentunya mempunyai alasan yang kuat karena jumlahnya sangat signifikan. Mungkin saja sudah skeptis dengan para calon, atau alasan lain yang tentunya tidak boleh dianggap bahwa mereka menyetujui apapun hasil pemilu.
Seandainya saya disuruh memilih makanan, sate, pecel atau bakso yang kebetulan saya tidak suka semua, maka saya memilih puasa. Tapi ternyata kebanyakan teman saya memilih bakso. Apakah saya juga dianggap suka bakso? Tentunya saya keberatan. Saya masuk kelompok yang tidak suka bakso, juga tidak suka sat dan pecel.
Jadi kalau suara sah sebanyak sekitar 121 juta mewakili seluruh rakyat Indonesia yang jumlahnya sekitar 240 juga kurang relevan. Yang dianggap mewakili seluruh rakyat Indonesia adalah 176 juta yang terdaftar di KPU. Jadi kalau kita hitung ulang, maka:

SBY-Boediono = 73.874.562/176.367.056 = 41,89%
Mega-Prabowo = 32,548,105/176.367.056 = 18,45%
JK-Wiranto = 15,081,814/176.367.056 = 8,55%
Golput = 54,862,575/176.367.056 = 31,11%.

Perhitungan di atas sepertinya lebih relevan. Jadi sebenarnya yang mendukung SBY-Boediono adalah sebanyak 41,89% dari seluruh rakyat Indonesia, dan tentunya yang tidak mendukung sebanyak 58,11%. Pasangan SBY-Boediono memang secara sah menjadi pemenang pemilu. Tapi untuk menyatakan bahwa didukung oleh 60% rakyat Indonesia??? Tunggu dulu. Data membuktikan bahwa sekitar 58,11% rakyat Indonesia tidak mendukung………dan secara kebetulan jumlahnya hampir mencapai 60%... he he……So……..

Sumber data: www.kpu.go.id
Share:

Analisis Diskriminan

Analisis diskriminan berguna pada situasi di mana kita ingin membentuk sebuah model prediktif dari beberapa kelompok (group) berdasarkan pada karakteristik pada masing-masing kasus. Prosedur pembentukan fungsi diskriminan (atau, pada lebih dari dua kelompok, serangkaian set dari fungsi diskriminan) berdasarkan pada kombinasi linear dari variabel-variabel prediktor yang memberikan pembeda terbaik dari kelompok-kelompok tersebut. Fungsi dibentuk dari sebuah sampel pada sebuah kasus di dalam sebuah group yang telah diketahui; fungsi lalu dapat diaplikasikan pada kasus baru dengan pengukuran pada variabel-variabel prediktor yang tidak diketahui masuk pada kelompok mana.

Catatan: Pengelompokan variabel dapat mempunyai lebih dari dua nilai. Kode untuk masing-masing pengelompokan variabel harus integer, akan tetapi, kita dapat menspesifikasikan nilai maksimum dan minimum. Kasus-kasus pada nilai di luar batas tidak termasuk pada analisis.

Sebagai contoh: Berdasarkan rata-rata, orang-orang pada daerah empat musim mengkonsumsi kalori per hari lebih banyak dibandingkan orang yang tinggal di daerah tropis. Peneliti ingin mengkombinasikan informasi ini pada sebuah fungsi untuk membedakan bagaimana seorang individu dapat dibedakan dalam dua daerah. Peneliti beranggapan bahwa informasi tentang ukuran populasi dan ekonomi juga penting. Analisis diskriminan memungkinkan kita mengestimasi koefisien dari fungsi linear diskriminan, yang merupakan bentuk lain dari persamaan regresi. Dengan demikian, dengan menggunakan koefisien a, b, c dan d, persamaannya adalah:

D= a * climate + b * urban + c * populasi + d * pdb

Jika variabel-variabel dapat membedakan dua iklim tersebut, maka nilai D akan berbeda antara daerah empat musim dan daerah tropis. Jika kita menggunakan metode stepwise, maka kita dapat menemukan varabel apa yang tidak masuk ke dalam fungsi. Asumsi pada analisis diskriminan:

  1. Prediktor tidak mempunyai korelasi yang tinggi satu dengan yang lain
  2. Rata-rata dan varians pada prediktor tidak berkorelasi
  3. Corelasi antara dua prediktor adalah konstan pada semua group
  4. Nilai masing-masing prediktor harus berdistribusi normal
Analisis diskriminan berguna pada situasi di mana kita ingin membentuk sebuah model prediktif dari beberapa kelompok (group) berdasarkan pada karakteristik pada masing-masing kasus
Contoh Kategorisasi dalam Analisis Diskriminan


Share:

Artikel Terbaru

Translate

Instagram

Instagram
Gabung Instagram Kami

Artikel Terbaru

Jual Data Laporan Keuangan Perusahaan yang Listing di BEI Tahun 2020

Setiap perusahaan yang telah go public wajib untuk menyerahkan laporan keuangan ke badan otoritas, sebagai salah satu bentuk pertanggungjawa...

Artikel Populer Seminggu Terakhir

Komentar Terbaru

`

Ingin menghubungi kami untuk kerja sama?

Nama

Email *

Pesan *