Daftar Website Dataset untuk Project Data Science Anda

Daftar Website Dataset untuk Project Data Science Anda

Anda pasti pernah mendengar atau membaca kedua kata ini, Data Science. Data Science dapat dikatakan sebagai upaya untuk mencoba mengerti, memahami, dan memberikan solusi dari masalah dengan menggunakan data. Dalam dekade terakhir ini, jumlah data yang meningkat secara eksponensial dan akan terus meningkat. International Data Corporation (IDC) memprediksi jumlah data baru di tahun 2020 akan mencapai 35 trilyun gigabyte, dan nyatanya di tahun 2018 jumnlah data baru telah mencapai 33 trilyun. Di tahun 2025 nanti, IDC memprediksikan jumlah data baru akan mencapai 175 trilyun gigabyte atau 175 zettabyte.

Data Science, Data Scientist, kedua istilah ini menjadi semakin populer seiring banyaknya sektor yang melihat peran penting dari keduanya. Tambah lagi sudah sangat banyak software-software atau aplikasi-aplikasi open-source sehingga membuat hal-hal yang terkait Data Science menjadi sangat mudah untuk diakses oleh banyak orang.

Data Scientist memerlukan kumpulan data atau dataset untuk membuat sebuah project, sehingga sangat penting untuk memilih dataset yang tepat sesuai dengan masalah yang ingin dipecahkan. Lalu bagaimana dengan mereka yang sedang belajar untuk menjadi seorang Data Scientist?, dimana mereka bisa mendapatkan dataset yang seperti itu?. Tentu saja ini karena mereka belum mengetahui bahwa sangat banyak website yang menyediakan dataset yang bisa digunakan tanpa perlu membayar satu sen pun. Berikut ini beberapa sumber yang menyediakan dataset dari berbagai bidang mulai dari Astronomy, Economy, Medical, dan masih banyak lagi.

UCI Machine Learning Repository (bit.ly/2VdCCT2)

UCI Machine Learning Repository merupakan website arsip yang sangat populer dengan koleksi-koleksi datasetnya. Website ini ada sejak tahun 1987 dan dibuat oleh David Aha dan mahasiswa-mahasiswa pascasarjana di UC Irvine. Sejak itu data-data di website ini digunakan oleh banyak mahasiswa, pengajar, dan peneliti dari berbagai penjuru dunia sebagai sumber dataset untuk project machine learning mereka.

Kaggle (bit.ly/2A43E8g)

Kaggle merupakan all-in-one website dimana selain populer sebagai penyedia begitu banyak dataset dengan berbagai ukuran, bentuk, dan sumber, Kaggle juga terkenal karena kompetisi-kompetisi Data Science dan Machine Learning yang diadakannya dan menyediakan layanan cloud computation environment dimana anda bisa menjalankan script bahasa pemrograman untuk menggunakan dataset yang ada di Kaggle.

Google Dataset Search (https://bit.ly/2V9obiU)

Pada bulan September tahun 2018, Google merilis Dataset Search Engine yang memiliki lebih dari 25 juta dataset. Di awal tahun 2020, Google menambahkan fitur baru dimana hasil pencarian dataset dapat diseleksi atau difilter berdasarkan tipe dari datasetnya.

VisualData (https://bit.ly/37WP3Yx)

VisualData merupakan search engine untuk Computer Vision Dataset. Website ini dikembangkan oleh Jie Feng (jiefeng.org) dan dirilis di tahun 2017. Dataset yang ada di website ini dilengkapi dengan informasi relevan untuk memudahkan pengguna mencari dataset yang diinginkan. Anda juga dapat mengakses model atau code dari penelitian yang menggunakan Dataset tersebut.

Academic Torrent (https://bit.ly/2B5TynB)

Academic Torrent merupakan portal d dataset dan paper penelitian yang dapat diunduh via Bittorrent. Dataset yang ada di portal ini sangat beragam, mulai dari data citra atau gambar, teks, suara. Selain itu, dengan menggunakan teknologi torrent, user juga dapat berperan dalam distribusi dataset. Academic Torrent pertama kali dikembangkan oleh Joseph Paul Cohen PhD, Henry Z Lo PhD dan Jonathan Nogueira.

Microsoft Research Open Data (https://bit.ly/3ev17mt)

Pada bulan Juli 2018, Microsoft bersama dengan sejumlah komunitas penelitan merilis Microsoft Research Open Data. Microsoft Research Open Data menyediakan banyak dataset yang dapat digunakan secara gratis dan juga dataset dari penelitian-penelitian state-of-the-art. Dataset yang disediakan terbagi dalam beberapa kategori seperti Computer Science, Physics, Healthcare, Education, Earth Science, Mathemtics dan lain-lain. Dataset ini dapat diunduh atau digunakan pada Cloud-based Data Science Virtual Machine.

Amazon Open Data (https://bit.ly/3dt2O2thttps://bit.ly/3dt2O2t)

Amazon menyediakan sejumlah dataset yang dapat digunakan pada platform-platform yang mereka sediakan seperti Amazon EC2, Amazon Athena, AWS Lambda dan AWS EMR. Pada Amazon Open Data, anda bisa mendapatkan dataset seperti SpaceNet, NASA NEX dataset, Million Song dataset, Google Books n-grams dan masih banyak lagi.

Youtube Dataset (https://bit.ly/2Yw7CzX)

Youtube 8M adalah dataset yang dibuat oleh Video Understanding Group di Google Research. Proses yang dilakukan dalam mengumpulkan video-video di dataset ini dapat dibaca di paper penelitian ini. Pada bulan Juni 2019, Google AI merilis dataset baru yaitu Youtube-8M Segment dan mengadakan kompetisi dengan menggunakan dataset ini di Kaggle. Dataset ini merupakan pilihan yang sangat tepat untuk project-project machine learning yang berkaitan dengan Video.

Reddit –> r/datasets (https://bit.ly/2Ytjv9F)

Reddit merupakan tempat dimana orang-orang dapat melihat, membagikan, mendiskusikan hampir apa saja yang diinginkan termasuk dataset yang berhubungan dengan Data Science, AI, Deep Learning dan masih banyak lagi. Subsection atau biasa disebut juga subreddit yang membahas hal ini adalah /r/datasets/, selain itu ada juga /r/dataisbeautiful untuk diskusi-diskusi mengenai data visualization.

Semoga daftar-daftar website ini dapat membantu dan memberikan manfaat. Selamat mencoba, Good luck.