- Home>
- DATA ANALIS UNTUK MEMBANGUN MACHINE LEARNING
Rabu, 15 Mei 2024
sumber : https://storage.googleapis.com/britech-blog-engineer-bri-3/2022/1/2022-01-19-112742977502-647b341a-e6ee-404d-9b35-b3160df22cfa.jpg
Dalam era digital saat ini, data telah menjadi aset yang sangat berharga. Data tidak hanya sekedar angka atau teks yang tersimpan dalam komputer, tetapi merupakan sumber informasi yang dapat mengungkap pola, tren, dan wawasan yang berharga. Dalam konteks bisnis, kesehatan, teknologi, dan berbagai bidang lainnya, kemampuan untuk menganalisis data dan menerapkan teknik machine learning telah menjadi keterampilan yang sangat dibutuhkan.
1. Data
Data adalah kumpulan fakta, angka, teks, gambar, atau suara yang dikumpulkan dan diolah untuk mendapatkan informasi yang bermanfaat. Dalam konteks teknologi, data sering digunakan untuk analisis dan pemodelan dalam berbagai bidang seperti bisnis, kesehatan, ilmu sosial, dan lainnya. Data bisa berbentuk terstruktur (seperti database) atau tidak terstruktur (seperti teks atau gambar).
2. Data Analyst
Data Analyst adalah seorang profesional yang bertugas mengumpulkan, memproses, dan menganalisis data untuk membantu pengambilan keputusan. Mereka menggunakan berbagai teknik dan alat statistik untuk mengidentifikasi tren, pola, dan wawasan dari data. Tugas utama seorang data analyst meliputi pengumpulan data, pembersihan data, analisis data, dan visualisasi hasil analisis.
3. Big Data
Big Data mengacu pada kumpulan data yang sangat besar dan kompleks sehingga sulit untuk diproses menggunakan alat manajemen data tradisional. Big Data memiliki tiga karakteristik utama, yaitu Volume (jumlah data yang besar), Velocity (kecepatan data masuk), dan Variety (beragamnya jenis data). Analisis Big Data membutuhkan teknik dan alat khusus untuk menangani skalanya, seperti Hadoop, Spark, dan NoSQL databases.
4. Pandas DataFrame
sumber : https://files.realpython.com/media/A-Guide-to-Pandas-Dataframes_Watermarked.7330c8fd51bb.jpg
Pandas DataFrame adalah struktur data dua dimensi yang digunakan dalam bahasa pemrograman Python untuk menyimpan dan memanipulasi data tabel. Setiap kolom dalam DataFrame bisa memiliki tipe data yang berbeda, seperti angka, string, atau objek lainnya. Pandas menyediakan berbagai fungsi untuk melakukan operasi pada data seperti filtering, grouping, merging, dan reshaping.
5. Library Visualisasi Data Pada Bahasa Python
sumber: https://assets-global.website-files.com/61af164800e38cf1b6c60b55/64eae47ec7954f09e37c1865_macam-macam-library-python-64eae203c3e7a.webp
Berikut adalah lima library visualisasi data pada Python beserta penjelasannya:
- Matplotlib: Library dasar untuk membuat plot statis, animasi, dan interaktif. Matplotlib sangat fleksibel dan bisa digunakan untuk membuat berbagai jenis grafik.
- Seaborn: Dibangun di atas Matplotlib, Seaborn menyediakan antarmuka tingkat tinggi untuk membuat plot statistik yang lebih menarik dan informatif.
- lotly: Library untuk membuat grafik interaktif dan dinamis. Plotly mendukung berbagai jenis grafik seperti line plot, scatter plot, bar plot, dan lainnya.
- Bokeh: Digunakan untuk membuat visualisasi data interaktif berbasis web. Bokeh memungkinkan pengguna untuk membuat grafik yang dapat di-zoom dan dipan.
- Altair: Library deklaratif untuk membuat visualisasi statistik interaktif. Altair memungkinkan pengguna untuk mendeskripsikan visualisasi dalam bentuk yang mudah dibaca dan singkat.
6. Machine Learning
sumber : https://www.simplilearn.com/ice9/free_resources_article_thumb/Deep-Learning-vs-Machine-Learning.jpg
Machine Learning adalah cabang kecerdasan buatan yang menggunakan algoritma dan teknik statistik untuk memberikan kemampuan pada komputer untuk "belajar" dari data. Dalam machine learning, model dibangun berdasarkan data pelatihan dan kemudian digunakan untuk membuat prediksi atau keputusan tanpa pemrograman eksplisit untuk tugas tersebut.
7. Outlier pada Data Analytic
sumber : https://www.berca.co.id/wp-content/uploads/2020/10/1.-Vertica.png
Outlier adalah data yang memiliki nilai yang sangat berbeda dari sebagian besar data lainnya dalam set data. Outlier dapat mempengaruhi hasil analisis dan model machine learning secara signifikan. Identifikasi dan penanganan outlier adalah langkah penting dalam analisis data untuk memastikan hasil yang akurat dan handal.
8. Model Supervised Learning
sumber : https://media.geeksforgeeks.org/wp-content/uploads/20231121154747/Supervised-learning.png
Supervised Learning adalah jenis machine learning di mana model dilatih menggunakan data berlabel. Data berlabel berarti setiap input data memiliki output atau target yang sesuai. Contoh algoritma supervised learning adalah regresi linear, decision tree, random forest, dan support vector machine. Model ini belajar dari data pelatihan untuk memprediksi output pada data baru yang tidak berlabel.
9. Cross Validation Sampling
sumber : https://dataaspirant.com/wp-content/uploads/2020/12/1-Cross-Validation.png
Cross Validation adalah teknik untuk mengevaluasi kinerja model machine learning dengan membagi data menjadi beberapa subset atau "fold". Salah satu fold digunakan sebagai data uji sementara yang lain sebagai data pelatihan. Proses ini diulang beberapa kali dengan fold yang berbeda sebagai data uji setiap kali. Teknik ini membantu untuk mendapatkan estimasi yang lebih akurat mengenai kinerja model.
10. Hyperparameter Tuning
sumber : https://media.licdn.com/dms/image/D4D12AQE1nvYs7huU9Q/article-cover_image-shrink_600_2000/0/1675541919955?e=2147483647&v=beta&t=AEsNgWmaGq7F8A0X7SUUboeKD3vx0js8tP-8ArQSi6U
Hyperparameter Tuning adalah proses untuk menemukan kombinasi terbaik dari hyperparameter dalam model machine learning. Hyperparameter adalah parameter yang tidak dipelajari dari data pelatihan tetapi harus ditetapkan sebelum proses pelatihan dimulai, seperti learning rate, jumlah layer dalam neural network, atau parameter regulasi. Teknik seperti Grid Search dan Random Search sering digunakan untuk hyperparameter tuning.
11. Google Collab
sumber : https://colab.research.google.com/img/colab_favicon_256px.png
Google Colab (Collaboratory) adalah layanan berbasis cloud yang memungkinkan pengguna untuk menulis dan mengeksekusi kode Python di notebook. Google Colab menyediakan lingkungan yang mirip dengan Jupyter Notebook dan memiliki akses ke sumber daya komputasi Google, seperti GPU dan TPU. Layanan ini sangat populer di kalangan peneliti dan praktisi data science karena kemudahannya dalam berbagi dan berkolaborasi.