Monday, December 2, 2013

Perbedaan popularitas software Analisis data

Saat sekarang banyak sekali software statistik yang ada di pasaran. mulai dari yang berbayar hingga tidak berbayar. maraknya software ini tidak terlepas dari mulai banyak orang atau organisasi menyadari pentingnya statistik di era modern ini. pengambilan keputusan bukan hanya dari feeling/pra duga tetapi perlunya analisis secara ilmiah yang dapat dipertanggungjawabkan. hal ini hampir sama dengan makna "membangun tanpa data itu mahal"
popularitas software statistik

nah pertanyaannya, dari banyak software itu software mana yang kita pakai? banyak pertimbangan yang perlu direnungkan. apakah yang bisa jalan di komputer kita? apakah yang sesuai dengan metode yang digunakan? jika tidak, bagaimana dengan kemapuannya? apakah menggunakan bahasa sendiri? atau dari luar yang sering diperoleh dari paket/library(misal: R,Python, SQL)apakah support penuh (programing atau point and click)? apakah visualnya sesuai dengan kemauanmu (statis atau interaktif)? apakah outputnya sesuai denganmu (cut dan copy vs Latex integration) apakah bisa dikerjakan untuk data yang besar? apakah kolega mu menggunakannya sehingga mudah untuk berbagi data dan program?

selain itu, pangsa pasar dari perusahaan software tersebut bisa dijadikan pertimbangan dan tren peningkatan atau penurunan. software yang populer dan banyak digunakan bisa dijadikan pertimbangan. untuk kali akan dibahas berbagai macam survei mengenai popularitas dan atau pangsa pasar yang bisa menjadi pertimbangan buat kita.


Penjualan dan download


The TIOBE Community Programming Index membuat peringkat tentang bahasa program yang paling populer. peringkat ini dihitung dari wikipedia, book on amazon, hasil search engine dan dikombinasikan menjadi suatu index. di januari 2012, R berada diperingkat 24 dan SAS berada diperingkat 31. kemudian pada mei 2013, mereka bertukar posisi dimana SAS peringkat 22 dan R di peringkat 24. bahasa program yang lain yang fokus analisis data yang masuk dalam 100 besar yaitu S. di tahun sebelumnya SPSS masuk dalam peringkat 50-100 tetapi setelah bulan februari 2013 SPSS sudah keluar dari 100 besar.

The Transparent Language Popularity Index hampir sama dengan TIOBE index juga melakukan survei. mei 2013, peringkat R yaitu 14 sedangkan SAS berada diperingkat 27. posisi ini hampir sama untuk priode 6 bulan. index ini juga memeringkat R sebagai bahasa script yang berada di posisi 6 setelah PHP,Python dan perl. SAS juga berada di peringkat 4 untuk penayangan sebagai aplikasi bisnis seperti COBOL atau PL/SQL.

Diskusi Internet


Ada beberapa ukuran yang stabil dan obyektif mengenai perangkat lunak analitik. Schawrtz (2009) menyarankan estimasi relatif popularitas dengan menghitung jumlah diskusi melalui email yang ditujukan untuk masing-masing. Paket yang paling banyak digunakan memiliki daftar diskusi, atau "listservs" dikhususkan untuk diskusi.Yang kurang populer juga tidak memiliki diskusi tersebut atau, seperti daftar untuk Minitab atau S-PLUS, mungkin hanya selusin atau lebih email per tahun.
software data analysis

Gambar di atas menunjukkan tingkat aktivitas masing-masing hanya listserv pembahasan utama dalam bulan tertentu (misalnya forum, kelompok berita dan kelompok Google dikecualikan). Plot ini berisi data sampai akhir 2012. Kita bisa melihat bahwa diskusi R telah berkembang paling pesat dan, selama beberapa tahun terakhir, R adalah software yang paling banyakb dibahas setelah itu diikuti oleh Stata, SAS dan SPSS. Stata menunjukkan pertumbuhan diskusi stabil sampai melewati SAS pada tahun 2010.

Dari tahun 2011 dan seterusnya, R dan Stata juga SAS dalam penurunan dalam diskusi listserv. Mengingat peningkatan tajam dalam popularitas analisis bisnis, Big Data, dan sebagainya, tidak mungkin bahwa orang yang menggunakan atau berbicara tentang alat ini sedikit. Sebaliknya, forum diskusi alternatif telah muncul. Situs Stack Overflow (http://stackoverflow.com) mencakup berbagai program dan topik statistik, sementara cross validation (http://stats.stackexchange.com/), hanya berfokus pada analisis statistik. Sebuah situs ketiga, talk Statistic (http://www.talkstats.com), juga berfokus pada analisis statistik. Berdasarkan tiga website tersebut, pengguna menandai topik mereka sehingga sangat mudah untuk fokus pencarian.
spss software data analysis


Kita bisa melihat bahwa diskusi R secara signifikan lebih tinggi daripada paket lain, yang tidak jauh berbeda di antara mereka sendiri. Sebagian besar perbedaan ini adalah karena pengaruh dari Stack Overflow, mencerminkan popularitas jauh lebih besar dari R sebagai bahasa pemrograman. Namun, bahkan dengan menghilangkan efek itu, mudah untuk melihat bahwa R masih mendominasi diskusi di forum yang lebih berorientasi statistik. Data ini merupakan data kumulatif, sehingga kita bisa mendapatkan tampilan tahunan tetapi hanya bisa menampilkan data R dan SAS.
software data analysis


Kita melihat bahwa diskusi SAS dan R yang kurang lebih sama hingga pada pertengahan tahun 2009 setelah itu diskusi R mulai meningkat secara cepat dibandingkan SAS. Halaman yang menyediakan data ini tidak menampilkan data untuk SPSS atau Stata. Hal ini mungkin karena jumlah data yang terlalu sedikit.

website forum diskusi populer lainnya adalah LinkedIn.com dan Quora.com. Tak satu pun dari situs tersebut mudah untuk menghitung jumlah posting, tetapi mereka bisa menampilkan jumlah orang yang telah bergabung dengan kelompok diskus.
software data analysis


Pada Gambar di atas kita mendapatkan tampilan dari penggunaan perangkat lunak perusahaan. disini kita tidak tahu rasio perusahaan untuk penggunaan akademis dari LinkedIn, tetapi di antara akademisi kita tahu (beberapa) mereka menggunakannya sangat sedikit. berdasarkan hasil itu, SAS adalah peringkat pertama setelah itu R. selain itu terihat bahwa SPSS lebih tinggi dari Stata. orang-orang yang telah bergabung dengan sebuah kelompok, mungkin bukan orang-orang yang melakukan diskusi. Namun, anggota grup harus proxy wajar untuk popularitas atau pangsa pasar.

Blog


Di blog internet, orang menulis tentang software yang menarik bagi mereka, menunjukkan bagaimana untuk memecahkan masalah dan menafsirkan peristiwa yang terjadi di lapangan. Semakin populer paket perangkat lunak, semakin banyak blogger menulis tentang hal tersebut. Blog konsolidator seperti Tal Galili R-Bloggers.com dan PROC-X.com, serta sasCommunity.org Planet dan statsblogs.com menggabungkan berbagai blog dalam satu lokasi. Sementara setiap blogger tertentu dapat menulis hanya sebuah artikel setiap minggu atau lebih, dengan menggabungkan mereka, konsolidator dasarnya memberikan berita harian pada berbagai paket. Sejauh ini hanya R dan SAS yang cukup populer untuk memiliki versi konsolidasi blog mereka.R mempunyai 452 blog yang membahasnya, sementara SAS sebanyak 40. setelah itu Stata 8.sisanya kurang begitu banyak seperti pada tabel di bawah.

blog software data analysis


Persaingan penggunaan


Kaggle.com adalah sebuah situs web yang mensponsori kontes analisis data. Orang post masalah analisis data di sana dengan jumlah uang yang mereka bersedia membayar orang atau tim yang memecahkan masalah mereka yang terbaik. Pada 2012/01/02 ada lebih dari 25.000 analis yang bekerja di lebih dari 72.000 masalah. Gambar di bawah menunjukkan software yang digunakan oleh analis data yang bekerja. R berada pada posisi pertama. Dominasi penggunaan R lebih besar di antara para pemenang kontes, lebih dari 50% di antaranya digunakan R. Hasil angka-angka ini terjadi karena lisensi dari perangkat lunak berpemilik melarang penggunaannya untuk kepentingan organisasi luar (universitas dapat membantu hibah federal menyediakan lembaga seperti NSF dan NIH, tapi tidak dapat memecahkan masalah bagi instansi pemerintah secara umum atau organisasi nirlaba).
software data analysis


Survei Penggunaan


Salah satu cara untuk memperkirakan popularitas relatif software analisis data melalui survei. Rexer Analytics melakukan survei setiap tahun tentang software yang digunakan untuk data mining. Perbedaan antara software untuk analisis data klasik dan data mining lebih merupakan konsep pemasaran dari perbedaan dalam kemampuan analitik.Data diperoleh dari responden melaporkan menggunakan pada tahun 2010 (data 2012 belum tersedia). berdasarkan hasil di bawah terlihat bahwa  R berada di peringkat pertama dengan 47% pengguna data mining. SAS dan SPSS berada di posisi kedua dengan persentasi 32%.

software data analysis



Hasil dari survei serupa yang dilakukan oleh KDnuggets situs web data mining pada tahun 2012 ditunjukkan pada Gambar di bawah . Yang satu ini menunjukkan R di tempat pertama dengan 30,7 % dari pengguna melaporkan telah digunakan untuk proyek. Excel hampir sama populer . Ini tampaknya keluar dari topik, tapi Excel adalah alat yang hampir setiap orang memiliki dan tahu bagaimana menggunakan. Sungguh menarik untuk dicatat bahwa empat dari lima paket yang digunakan adalah open source. Sementara paket open source jelas memiliki peran utama dalam analisis , orang melaporkan menggunakan perangkat lunak komersial lainnya ( 1086 ) dari open source ( 927 ).
software data analysis


Situs KDnuggets melakukan polling yang sama, kali ini bertanya, "Apa bahasa pemrograman yang digunakan untuk analisis data mining / data dalam 12 bulan terakhir?" R mendominasi polling ini,
software data analysis



Buku


Jumlah buku yang diterbitkan pada setiap perangkat lunak mencerminkan popularitas relatif mereka. Amazon.com menawarkan metode pencarian canggih yang bekerja dengan baik untuk semua perangkat lunak kecuali R. selain R data dicari di amazon sedangkan untuk R dari website http://www.r-project.org/doc/bib/R-books.html Aspek yang paling mengejutkan dari hasil adalah bagaimana sangat dominan beberapa tiga paket terkenal tidak memiliki buku sama sekali yang ditulis(BMDP, Statistika, Systat). Revolusi R dan R-PLUS tidak memiliki buku dengan nama-nama mereka dalam judul, tapi tentu saja buku-buku tentang R berlaku untuk mereka juga.
software data analysis


pencarian artikel ilmiah (google schoolar)


Semakin populer paket perangkat lunak, semakin besar kemungkinan akan muncul dalam publikasi ilmiah sebagai topik dan sebagai metode analisis. Google Scholar menawarkan cara mudah untuk mengukur aktivitas tersebut. Namun, tidak ada pencarian sebesar ini yang akan sempurna dan akan mencakup beberapa artikel yang tidak relevan dan menolak beberapa yang relevan. Hasil pencarian dijelaskan di http://librestats.com/2012/04/12/statistical-software-popularity-on-google-scholar/. Gambar di bawah menunjukkan jumlah artikel untuk paling populer dari enam paket statistik tahun 1995 hingga tahun 2012. SPSS memiliki hasil yang mengejutkan atas sebagian paket lain untuk banyak saat ini. hasil pencarian SPSS ini tampaknya cukup besar, tapi setelah studi yang cukup luas dari artikel dikembalikan oleh pencarian, Ini sudah relevan. namun tahun tahun berikutnya SPSS mengalami penurunan sehingga tidak terlalu jauh berbeda.
schoolar google software data analysis


Popularitas website


Ukuran lain popularitas perangkat lunak adalah jumlah halaman web lain yang berisi link yang mengarah ke situs web utama perangkat lunak. Gambar di bawah diperoleh dengan menggunakan data dari Google pada tanggal 5 Januari 2012.

popularity website software data analysis



Sekarang SPSS merupakan bagian dari IBM, mendominasi hasil. Ini mencerminkan berbagai macam produk yang menjual IBM, termasuk hardware dan layanan yang tidak ada hubungannya dengan analisis data komputer. Namun, SPSS.com situs yang lebih tua tidak lagi muncul di awal pencarian web dan situs IBM yang diarahkan ke memiliki ukuran kecil link masuk karena tidak dimaksudkan untuk menjadi link langsung.

R adalah di baris berikutnya dengan lebih dari setengah ukuran IBM, diikuti oleh SAS kurang dari nilai R. Perangkat lunak lain berikut sesuai dalam urutan bahwa penulis menduga mencerminkan pangsa pasar masing-masing. Revolusi R Perusahaan dan R-PLUS adalah versi komersial R yang relatif cukup baru ke pasar. WPS merupakan implementasi dari Bahasa SAS dan Carolina adalah compiler SAS-to-Java.

pagerank software data analysis



Jumlah link masuk merupakan bagian penting dari algoritma PageRank yang terkenal dari Google. PageRank dibuat dengan mencari besarnya/terkenalnya link.Link dari situs besar seperti WikiPedia akan membaerikan bobot jauh lebih besar daripada akan link dari kursus silabus profesor . range nilai PageRank adalah dari 1 sampai 10. Gambar di bawah menunjukkan plot data pagerank ( dikumpulkan pada pada tanggal 4 Januari 2012) . Perangkat lunak ini yang paling tinggi tingkatan, SAS dan SPSS ( IBM ). Di bagian paling bawah adalah World Programming System  ( WPS ) dan Carolina, dua perusahaan yang menggunakan bahasa SAS. Ada beberapa perubahan dalam peringkat ini sejak tahun lalu , dengan SAS, SPSS dan Revolusi Analytics naik satu peringkat dan R , Stata dan Carolina turun satu poin.


Pasar Kerja


Pekerjaan penting bagi kita, sehingga software skill apa yang pengusaha mencari ? Sebuah jawaban yang menyeluruh atas pertanyaan ini akan memerlukan waktu untuk menganalisis job description. Namun, kita bisa mendapatkan gambaran kasar dengan mencari di situs iklan pekerjaan . Indeed.com adalah situs yang paling populer pencarian pekerjaan di dunia. Sebagai CEO dan co - founder Paul Forster menyatakan , itu termasuk "semua pekerjaan dari lebih dari 1.000 sumber yang unik , terdiri dari major job boards - monster , CareerBuilder , HotJobs , Craigslist - serta ratusan surat kabar , asosiasi , dan website perusahaan . " Bob muenchen menggunakan program untuk mengakses website itu secara mingguan dan mencari deskripsi pekerjaan untuk kata kunci seperti "SPSS" atau "Minitab" ini diulangi selama 2, 3 dan minggu ke-4 bulan Maret tahun 2012 dan 2013 . Singkatan "SAS" adalah umum dalam penyimpanan komputer , jadi pencarian itu dihindari kemudian dengan mengganti mencari dengan keyword "SAS!SATA!Storage!Firmware" (tanda seru merupakan logic "tidak") . Sedangkan R tidak mengikuti topik terkait seperti "R&D" dengan menggunakan "R SAS" atau "SAS R" , termasuk setiap paket dalam grafik . Data untuk tahun 2013 disajikan pada Gambar berikut.

job work software data analysis




SAS peringkat tertinggi dalam lowongan pekerjaan dalam pencarian, dengan SPSS peringkat kedua dengan lebih dari seperempat dari pekerjaan. R berada di tempat ketiga dengan lebih dari setengah pekerjaan yang tersedia untuk SPSS. Dibandingkan dengan R atau Minitab, SAS memiliki lebih dari tujuh kali lebih banyak pekerjaan yang tersedia.

Sejak 2012, job description yang mencakup SAS mengalami penurunan sebesar 961 (7,3%) dan Minitab menurun 154 (8,7%). Pekerjaan untuk R meningkat sebesar 497 (42%) melewati Minitab ke tempat ketiga dengan selisih tipis. Bahkan, semua paket kecuali SPSS dan Systat menunjukkan perubahan jauh lebih kecil (Holm-corrected paired t-tests). Karena perbandingan ini didiperoleh pada tiga titik data setiap tahun, disini tidak dapat disimpulkan dari banyak efek perubahan ini, namun peningkatan 48% untuk R adalah penting.

job software data analysis


kesimpulan


Dari sebagian besar ukuran yang dibahas di sini, R bersaing ketat dengan vendor perangkat lunak komersial. Namun, penulis menyarankan tidak mengeneralisasi dari data ini. Setiap software memiliki keunggulan masing-masing. SAS dan SPSS terus mendominasi di bidang bisnis dan Stata cukup baik di bidang ilmiah. Masing-masing paket dominan di satu pasar atau yang lain.

Kalau ada kritik, saran dan pertanyaan silahkan komentarnya di kolom komentar di bawah. Kalau tidak punya akun silahkan ditulis sebelah kiri yaitu kolom “Chatbox”. Mohon dicantumkan email atau contact yang bisa dihubungi.

Sumber: The Popularity of Data Analysis Software

No comments:

Post a Comment