Tutorial Belajar Data Science Dengan Python Pandas untuk Analisa Data – Hello teman-teman bagaimana nih kabarnya? Semoga baik-baik aja ya. Pada artikel kali ini kita akan membahas tutorial tentang analisa data Korban kapal Titanic menggunakan pandas. Proses analisa data ini dilakukan dengan menggunakan Pemrograman Python pada Jupyter Notebook yang sudah diinstall pada Komputer kita. Sedangkan Untuk Datasetnya kita menggunakan data titanic.csv, titanic.xlsx, titanic.txt yang dapat di download pada Link Berikut
Baca Juga: Data Science bagi Pemula | #1 Melakukan Analisa Produk Menggunakan Pemrograman Python
Adapun Penjelasan setiap koding dan penjelasan Lengkap tentang hasil/output dari Analisa Data korban kapal Titanic dapat teman-teman lihat pada Video Youtube kami ini.
KONSEP DASAR TENTANG PANDAS
Pada proses Analisa data menggunakan Python, kita sering memanfaatkan sebuah library yang sering kita manfaatkan untuk membantu proses analisa data ini. Library ini sangat banyak digunakan khususnya pada bidang Data Science. Pada pertemuan ini kita akan belajar tentang penggunaan library ini yang sering disebut dengan PANDAS. Pandas adalah pustaka (library) Python yang sangat populer untuk analisis dan manipulasi data. Pandas menyediakan struktur data dan fungsi analisis data yang intuitif dan efisien, terutama untuk data tabular (seperti spreadsheet atau database SQL). Pandas sering digunakan dalam berbagai bidang, termasuk keuangan, riset ilmiah, statistik, dan data science.
Pandas sering digunakan untuk proses analisa data karena library ini memiliki banyak kegunaan seperti berikut ini:
- Memiliki fitur untuk mengelola struktur data yang ada menggunakan dataframe dan series
- Library ini mendukung untuk melakukan proses membaca dan menulis data ke dalam file seperti CSV, XLSX, TXT, SQL dan lain-lain
- Memiliki fitur untuk melakukan proses pengelompokan dan agregasi data yang dapat membantu kita dalam menganalisa data
- memiliki fitur yang bisa digunakan untuk menggabungkan dan menghubungkan dataset yang digunakan pada proses analisa data
- Kemampuan untuk melakukan filtering dan seleksi data yang dibutuhkan untuk analisa
Selain yang disebutkan tersebut, pandas memiliki banyak fitur yang dapat membantu kita dalam proses analisa dan pemberihan data sehingga dapat digunakan dengan mudah. Oleh sebab itu pada materi kali ini kita akan membahas tentang sintak yang sering digunakan pada pandas ini. Penasaran bukan bagaimana kelanjutannya? yok kita simak penjelasanya seperti dibawah ini!!
CHEATSHEAT BELAJAR PANDAS DENGAN PYTHON
Pada tahapan ini kita akan belajar tentang analisa data menggunakan pandas. pada materi ini kita hanya fokus belajar tentang penggunaan library pandas pada python. Jadi sebelum melakukan proses pembelajaran, pastikan kamu sudah mendownload dan menginstall python dan Jupyter Notebook pada komputer kamu. Python ini dapat kamu download pada situs resminya di python.org. Adapun tahapan yang perlu kamu lakukan untuk belajar pandas dengan python ini dapat dilihat seperti dibawah ini
♦ Instalasi Library Pandas pada Jupyter Notebook (Python) ♦
Pertama-tama kita harus menginstall library pandas ini pada jupyter notebook yang sudah kita install pada Komputer kita sebelumnya. Proses instalasi ini dapat dilakukan dengan menggunakan perintah pip.
pip install pandas
♦ Mengenal Struktur Data Pandas (DataFrame) ♦
Pada saat menggunakan pandas pada project kita, pertama-tama kita harus mengimport library pandas yang sudah diinstall sebelumnya. Kemudian barulah kita buat struktur data pada pandas ini yaitu DataFrame. DataFrame merupakan struktur data yang sering digunakan pada pandas. Hal ini karena struktur data ini dapat digunakan untuk menyimpan data dalam bentuk 2 dimensi (Data dalam bentuk Tabel) yang memiliki baris dan kolom.
import pandas as pd data = { 'nama': ['Ivan','Bob','Budi','Abdi'], 'city': ['Pekanbaru','Jakarta','Padang','Medan'], 'age': [23,30,21,25], 'income': [700,200,500,900] } df = pd.DataFrame(data) print(df)
Agar data yang kita inginkan dapat menggunakan struktur data pandas ini, kita harus melakukan konversi menggunakan pd.DataFrame terlebih dahulu. Kemudian panggil data array yang ingin kita konversikan ke dalam DataFrame tersebut. Lalu kita dapat mencetak hasil data tersebut dengan menggunakan sintak print. Sehingga hasil dari proses ini dapat dilihat seperti gambar dibawah ini
♦ Membaca Data pada File (CSV/TXT/EXCEL) ♦
Pandas memiliki fitur yang dapat digunakan untuk membaca data dari sebuah file seperti CSV, TXT, XLXS dan lain-lain. sintak yang digunakan untuk membaca setiap file ini berbeda-beda seperti pd.read_csv untuk file CSV atau file TXT dan sintak pd.read_excel untuk membaca file XLSX (Excel).
df_csv = pd.read_csv('titanic.csv', delimiter=';') print(df_csv)
Jika data yang disimpan ini memiliki pemisah yang berbeda, maka kita perlu untuk mendefinisikan pemisah data ini. Pada kasus diatas, data pada file CSV ini dipisah dengan simbol titik koma (;). Maka kita hanya perlu menambahkan parameter delimiter=’;’ untuk medefinisikan pemisahan setiap data kita.
♦ Membaca Informasi Data ♦
Pandas memilik fitur yang dapat kita gunakan untuk membaca informasi data yang kita miliki. Fitur ini biasanya digunakan oleh data science untuk melihat informasi lengkap dari data sebelum dianalisa. Ada beberapa sintak yang sering digunakan seperti untuk melihat informasi kolom, informasi baris, informasi tipe data yang disimpan dan lain-lainnya.
# Info Kolom print(df_csv.columns) # Info Baris print(df_csv.index) # Info tipe data kolom print(df_csv.dtypes) # Info baris dan kolom print(df_csv.shape) # Info Deskripsi data print(df_csv.describe()) # Info Detail Dataframe print(df_csv.info())
Contohnya jika kita menggunakan sintak df_csv.info() kita akan melihat informasi lengkap dari data tersebut seperti banyak data, tipe data dan nama kolom yang ada.
♦ Mencetak Data Pada DataFrame ♦
Pandas memilik fitur yang dapat kita gunakan untuk melihat data yang ada. Terdapat beberapa sintak yang sering digunakan seperti melihat 5 data pertama, melihat 5 data terakhir, melihat data berdasarkan kolom tertentu atau melihat data dari baris tertentu.
# 5 Data Pertama df_csv.head() # 5 Data Terakhir df_csv.tail() # Lihat kolom PassengerId df_csv.PassengerId # Lihat kolom PassengerId dan Name print(df_csv[['PassengerId','Name']]) # Data Indek 3 print(df_csv.iloc[3])
Contohnya jika kita ingin melihat 5 data pertama yang ada pada dataframe kita, maka kita dapat menggunakan sintak df_csv.head() untuk menampilkan 5 data pertama yang tersimpan pada dataframe tersebut.
♦ Filtering Data Pada DataFrame ♦
Pandas memilik fitur untuk melakukan filter data berdasarkan data yang kita inginkan. Filter ini dapat kita lakukan dengan mencari data berdasarkan satu atau banyak kolom.
# Filter data Sex = Female df_csv.loc[df_csv['Sex'] == 'female'] # Filter dari 2 Kolom df_csv[(df_csv['Sex'] == 'male') & (df_csv['Embarked'] == 'S') ]
Contohnya disini kita ingin melakukan filtering data berupa kolom gender yaitu female yang ada pada data titanic kita ini. Disini dapat menggunakan sintak df_csv.loc untuk melakukan filtering tersebut.
♦ Modifikasi Kolom Pada Dataframe ♦
Pandas memilik fitur untuk melakukan modifikasi kolom yang tersimpan pada dataframe. Fitur ini meliputi proses Copy data ke dalam variabel baru berdasarkan kolom-kolom tertentu saja, menambahkan kolom baru atau menghapus kolom baru.
# Copy kolom tertentu data_baru = df_csv[['PassengerId','Survived','Name','Sex']].copy() data_baru.head() # Tambah kolom tertentu data_baru['total_baru'] = data_baru['PassengerId'] + 5 data_baru.head() # Hapus kolom tertentu data_baru = data_baru.drop(columns=['total_baru']) data_baru.head()
Contohnya disini kita ingin mengcopy data ke variabel baru dan hanya menyimpan data berupa [‘PassengerId’,’Survived’,’Name’,’Sex’], maka kita dapat menggunakan sintak copy().
♦ Export/Download Data dalam Bentuk File (CSV/TXT/EXCEL) ♦
Pandas memilik fitur untuk melakukan download file dan data yang diinginkan. Proses download ini dapat kita sesuaikan dengan kebutuhan kita seperti file Excel, SQL dan lain-lain.
# Dalam CSV data_baru.to_csv('output/file_csv.csv', index=False) # Dalam Excel data_baru.to_excel('output/file_excel.xlsx', index=False)
Contohnya kita ingin melakukan download file dalam bentuk CSV maka kita dapat menggunakan sintak data_baru.to_csv. Proses download ini kita perlu memanggil nama variabel yang menyimpan data yang ingin kita download seperti data_baru yang berupa nama dari variabel data yang disimpan
♦ Agregasi Data dan Group By ♦
Pandas memilik fitur untuk melakukan proses agregasi dan Group By. Fitur ini sering digunakan pada data science untuk melihat informasi data yang ada seperti total data, jumlah rata-rata data, nilai tengah dan lain-lain. Selain itu kita juga dapat melihat informasi data berdasarkan kolom tertentu dan mengecek apakah data yang kita miliki ini ada yang bernilai Null atau tidak ada data. Fitur ini sering digunakan jika data yang kita miliki ini banyak yang kosong sehingga kita perlu untuk mengubah isian data supaya dapat digunakan untuk proses analisa. Proses agregasi ini hanya dapat digunakan untuk data yang bersifat numerik atau angka.
# Group by Survived (rata-rata) data_copy.groupby(['Survived']).mean() # Nilai Median (Tengah) data_copy.groupby(['Survived']).median() # Total selamat/tidak data_copy.groupby(['Survived']).count()['PassengerId'] # Cek total Null Kolom totalNull = data_copy.isnull().sum() totalNull
Contohnya disini kita ingin melihat nilai tengah yang ada pada data titanic ini, maka kita dapat memanfaatkan fitur groupby dan median untuk menampilkan data yang kita butuhkan.
Sekian materi tentang Analisa Data Korban Titanic Menggunakan Pemograman PYTHON dan Library pandas. Untuk Project lengkapnya dapat didownload pada link ((GITHUB)) kami ini.