Let's Explore IT !

Kata mbah Bardolo, IT tidak hanya teknik.. IT tidak hanya sains..
Tetapi IT adalah juga seni, humanisme dan cinta....

Monday 2 July 2018

[Artificial Intellegence] Meningkatkan Performa Machine Learning dengan Otak-atik Data

Seperti yang sudah sering disebutkan dalam artikel-artikel sebelumnya (baca: AI dan Machine learningFase naik turun Kecerdasan Buatan), saat ini machine learning kembali menjadi idola dalam riset-riset kecerdasan buatan. Apalagi setelah diperkenalkannya deep learning pada tahun 2006 dan diikuti dengan munculnya GPU Server pada tahun 2009. Dalam dunia akademik, machine learning saat ini juga menjadi salah satu topik riset yang diminati baik untuk skripsi, tesis mahasiswa atau bahkan penelitian mandiri yang dilakukan dosen-dosen di bidang TI. Lalu apa yang bisa diteliti dari Machine Learning? Salah satunya adalah tentang bagaimana meningkatkan performa dari suatu metode dalam machine learning. Jasson Brownlee dalam Machine Learning Mastery mencatat bahwa secara garis besar terdapat 4 cara untuk melakukan improve terhadap performa machine learning. Keempat cara tersebut adalah sebagai berikut:
  1. Peningkatan performa dengan Data.
  2. Peningkatan performa dengan Algoritma
  3. Peningkatan performa dengan Tuning
  4. Peningkatan performa dengan Ensembles.
Selanjutnya tulisan ini akan mencoba membahas terlebih dahulu salah satu strategi peningkatan  performa machine learning dengan mengotak-atik data. Mudah-mudahan ke depan dapat diikuti dengan pembahasan mengenai peningkatan performa dengan algoritma, tuning dan ensembles.

Data adalah "makanan pokok" dari sebuah machine learning.  Jadi machine learning yang canggih pun tidak berarti apa-apa tanpa adanya data. Data merupakan bahan yang digunakan untuk melakukan pembelajaran (training) sehingga mesin dapat mengeluarkan hasil analisis yang benar tentang sesuatu. Sebagai contoh jika kita akan membuat machine learning yang mampu mengenali seekor kucing, maka untuk kebutuhan training perlu disediakan data yang berupa ratusan, ribuan atau bahkan jutaan gambar kucing. Setelah training selesai dilakukan, maka diharapkan mesin dapat mengenali gambar kucing dalam berbagai pose dan bentuk. Lalu bagaimana melakukan strategi peningkatan performa mesin dengan mengotak-atik data? Untuk itu, cobalah berkreasi dengan data Anda. Cobalah memikirkan perpektif baru dan berbeda pada data Anda. Berikut adalah beberapa hal yang bisa dilakukan.

Cari lebih banyak data.

Hal ini penting dilakukan karena metode machine learning modern non-linear seperti deep learning membutuhkan lebih banyak data untuk meningkatkan performanya. Teknik peramalan iklim misalnya, membutuhkan data yang sangat besar bahkan sampai 30 tahun terakhir data iklim harian untuk kebutuhan training dan testing.

Menciptakan alternatif data sendiri

Jika Anda tidak mendapatkan lebih banyak data, maka lakukan generate data untuk menciptakan sendiri data tersebut. Salah satu caranya adalah dengan agumentasi dan permutasi data. Augmentasi merupakan teknik manipulasi data tanpa kehilangan inti atau esensi dari data tersebut. Sebagai contoh jika Anda memerlukan 1000 gambar kucing, tetapi ternyata hanya mendapatkan 700 gambar, maka Anda bisa melakukan rotate, flip atau bahkan crop terhadap gambar-gambar yang sudah ada sehingga kebutuhan akan 1000 gambar tersebut terpenuhi.



Pembersihan Data (Data Cleansing)

Membersihkan data dapat meningkatkan performa machine learning. Pembersihan data yang dimaksud adalah proses mendeteksi data-data yang rusak, tidak lengkap, tidak akurat atau memiliki memiliki format yang tidak sesuai. Data tersebut kemudian dapat dibersihkan dengan cara mengubah, mengoreksi atau bahkan menghapusnya jika perlu.

Resampling Data

Resampling adalah melakukan sampling kembali terhadap data sampel yang sudah dikoleksi sebelumnya. Resampling adalah melakukan sampling terhadap data sampel yang sudah dikoleksi.  Beberapa teknik yang dapat digunakan untuk resampling diantaranya adalah Bootstrap untuk mengevaluasi seberapa baik statistic dapat mengestimasi parameter. Serta Jacknife, yaitu teknik resampling yang digunakan terutama apabila terdapat nilai-nilai pencilan pada data. Pada teknik tersebut, nilai pencilan dikeluarkan satu-persatu lalu sampai akhirnya dilakukan resampling pada data yang tidak memiliki pencilan lagi.

Feature Selection.

Feature selection atau seleksi fitur adalah salah satu metode yang digunakan untuk mengurangi dimensi data, menghilangkan data yang tidak relevan, serta meningkatkan hasil akurasi. Seleksi fitur merupakan cara untuk memberikan hasil yang terbaik pada machine learning. Pekerjaan utama seleksi fitur adalah memilih fitur yang akan digunakan dan mengkombinasikan fitur-fitur tersebut untuk menghasilkan konsep induksi yang benar atau hasil yang sesuai.

Feature Engineering.

Feature engineering atau rekayasa fitur adalah proses menggunakan domain pengetahuan dari data untuk membuat fitur sendiri sehingga algoritma pembelajaran mesin dapat bekerja. Fitur dibuat dari data mentah untuk membantu memfasilitasi proses dalam machine learning. Dalam kalangan ahli komputasi, menyebut bahwa rekayasa fitur adalah seni. Jika rekayasa fitur dilakukan dengan benar, hal itu dapat meningkatkan kekuatan prediksi dari sebuah algoritma machine learning.

Literatur :
  • Machine Learning Mastery, jasson Brownlee
Baca juga :

0 comments:

Post a Comment

Silakan masukkan komentar Anda... Bebas kok :-)

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India