Kamis, 28 Mei 2020

Penerapan Metode Decision Tree untuk Identifikasi Pasien COVID-19

Penulis: Ni Putu Ayu Sherly Anggita Sugiarta, Dr. Ngurah Agus Sanjaya, S.Kom., M.Kom.

Program Studi Informatika, Fakultas MIPA, Universitas Udayana

(https://www.unud.ac.id, https://if.unud.ac.id)


Dalam beberapa bulan terakhir, dunia digemparkan oleh wabah penyakit yang bernama COVID-19. Penyakit ini pertama kali dideteksi pada akhir Desember 2019 lalu di Wuhan, China. COVID-19 merupakan penyakit menular yang disebabkan oleh jenis baru dari coronavirus [1]. Hanya dalam beberapa bulan, virus ini menyebar dengan sangat cepat hampir ke seluruh negara, termasuk juga Indonesia. Sampai dengan 27 Mei 2020, WHO mencatat sejumlah 5.491.678 orang terkonfirmasi positif COVID-19 dan terdapat 349.190 kematian yang diakibatkan dari 217 negara yang terpapar oleh virus ini [2]. Dilansir dari situs resmi World Health Organization (WHO) [3], gejala-gejala umum yang timbul dari COVID-19 di antaranya adalah deman, rasa lelah, batuk kering. Namun dalam beberapa kasus, pasien mungkin mengalami sakit dan nyeri, sakit tenggorokan, diare, konjungtivitis, sakit kepala, kehilangan fungsi perasa dan penciuman, ruam pada kulit, atau perubahan warna jari tangan atau kaki. Bahkan untuk gejala serius, pasien dapat mengalami sesak nafas, nyeri pada dada, ataupun tidak bisa bicara. COVID-19 menyebar melalui tetesan air liur atau cairan yang keluar dari hidung ketika orang yang terinfeksi batuk atau bersin. Singkatnya dapat dikatakan bahwa untuk meminimalkan persebaran COVID-19 adalah dengan mendeteksi sedini mungkin orang-orang yang positif COVID-19, sehingga nantinya orang-orang tersebut dapat ditangani secara langsung oleh tenaga medis dan akan memperkecil risiko penyebaran ke orang-orang sekitarnya.

Dari pembahasan di atas, akan muncul pertanyaan “Bagaimana caranya mendeteksi apakah seseorang terinfeksi COVID-19 atau tidak?”. Untuk menjawab pertanyaan tersebut, kita dapat memanfaatkan perkembangan teknologi khususnya machine learning untuk membuat suatu sistem klasifikasi. Klasifikasi yang dimaksud adalah menentukan apakah seseorang positif COVID-19 atau tidak dengan melihat dari riwayat kontak fisik ataupun gejala-gejala yang dialaminya. Salah satu metode yang dapat digunakan untuk klasifikasi adalah Decision Tree (Pohon Keputusan). Dalam beberapa penelitian [4]–[7], dikatakan bahwa akurasi yang dihasilkan oleh metode ini dapat dibilang cukup baik. Konsep dari Decision Tree adalah mengubah data (tabel) menjadi pohon keputusan dan aturan-aturan yang dapat dilihat pada Gambar 1.


Gambar 1. Konsep dari Decision Tree

Decision Tree merupakan model prediksi dengan menggunakan diagram alir berbentuk struktur pohon, dimana setiap internal node menyatakan pengujian terhadap suatu atribut, setiap cabang menyatakan suatu kondisi yang harus dipenuhi, dan leaf node menyatakan kelas suatu data. Banyak algoritma yang dapat digunakan dalam pembentukan decision tree/pohon keputusan seperti ID3, C4.5, CART, dan GUIDE. Gambar 2 merupakan contoh dari model decision tree yang terbentuk.

Gambar 2. Pohon Keputusan


Pemilihan atribut sebagai root node berdasarkan pada nilai gain tertinggi dari setiap atribut yang ada [8]. Untuk perhitungan nilai gain dapat dilakukan dengan menggunakan persamaan (1). Namun sebelum mengukur Information Gain (IG), terlebih dahulu harus dihitung nilai entropy dari dataset dengan menggunakan persamaan (2). Entropy merepresentasikan ukuran ketidakpastian (impurity) dari atribut dataset, sedangkan IG merepresentasikan ukuran efektivitas suatu atribut dalam mengklasifikasikan data. Model klasifikasi dibuat dengan melatih dataset yang sudah diklasifikasikan dalam artian dataset tersebut sudah diketahui kelasnya. Proses pelatihan dilakukan dengan menerapkan prinsip k-fold cross validation, dimana data set akan dibagi menjadi k bagian. Iterasi akan dilakukan sebanyak k kali, dimana pada setiap iterasinya akan menggunakan bagian ke-k sebagai data uji dan bagian lainnya digunakan sebagai data testing. Selanjutnya dilakukan pengujian terhadap model yang dihasilkan dengan menggunakan akurasi, presisi, dan recall yang dapat dicari menggunakan confusion matrix.



Referensi

[1]      WHO, “Pertanyaan dan jawaban terkait Coronavirus.” https://www.who.int/indonesia/news/novel-coronavirus/qa-for-public (accessed May 28, 2020).

[2]      WHO, “Coronavirus disease (COVID-19) pandemic.” https://www.who.int/emergencies/diseases/novel-coronavirus-2019 (accessed May 28, 2020).

[3]      WHO, “Coronavirus.” https://www.who.int/health-topics/coronavirus#tab=tab_3 (accessed May 28, 2020).

[4]      L. . Sharmila, C. Dharuman, and P. Venkatesan, “Disease Classification Using Machine Learning Algorithms-A Comparative Study,” Int. J. Pure Appl. Math., vol. 114, no. 6, pp. 1–10, 2019, [Online]. Available: https://www.ssrn.com/abstract=3350251.

[5]      A. K. Singh, “A Comparative Study on Disease Classification using Machine Learning Algorithms,” SSRN Electron. J., 2019, doi: 10.2139/ssrn.3350251.

[6]      F. Maspiyanti and J. Gatc, “Diagnosa Penyakit Jantung Pada Ponsel Menggunakan Pohon Keputusan,” J. Teknol. Terpadu, vol. 1, no. 1, pp. 13–20, 2015.

[7]      A. B. Wibisono and A. Fahrurozi, “Perbandingan Algoritma Klasifikasi Dalam Pengklasifikasian Data Penyakit Jantung Koroner,” J. Ilm. Teknol. dan Rekayasa, vol. 24, no. 3, pp. 161–170, 2019, doi: 10.35760/tr.2019.v24i3.2393.

[8]      T. Thi Bi Dan, S. Widya Sihwi, and R. Anggrainingsih, “IMPLEMENTASI ITERATIVE DICHOTOMISER 3 PADA DATA KELULUSAN MAHASISWA S1 DI UNIVERSITAS SEBELAS MARET,” J. Teknol. Inf. ITSmart, vol. 4, no. 2, p. 84, Sep. 2016, doi: 10.20961/its.v4i2.1770.