Amirul, Mukminin (2025) OPTIMASI FILTERING SPAM MENGGUNAKAN METODE NAIVE BAYES PADA GMAIL. Sarjana thesis, Universitas Nahdlatul Ulama Sidoarjo.
SI_21421008_Amirul Mukminin_Optimasi Filtering Spam - Amir ID.pdf
Restricted to Registered users only
Download (5MB)
Abstract
Email spam merupakan salah satu tantangan utama dalam komunikasi digital karena tidak hanya mengganggu aktivitas pengguna, tetapi juga berpotensi membawa risiko keamanan seperti penipuan dan penyebaran malware. Penelitian ini bertujuan untuk membangun sistem klasifikasi email spam dan non-spam (ham) menggunakan metode Naive Bayes, dengan fokus pada optimalisasi proses filtering melalui seleksi fitur dan representasi teks yang efektif. Dataset yang digunakan berasal dari akun Gmail pribadi berbahasa Indonesia, sehingga mencerminkan kondisi nyata di lapangan. Pengolahan data dimulai dengan proses pembersihan dan normalisasi teks, diikuti dengan pembobotan menggunakan Term Frequency-Inverse Document Frequency (TF-IDF) untuk membentuk fitur numerik. Selanjutnya, metode Chi Square digunakan untuk menyeleksi fitur yang paling berpengaruh terhadap kelas target, dengan tujuan mengurangi noise dan meningkatkan kinerja model klasifikasi. Evaluasi model dilakukan berdasarkan metrik akurasi, presisi, Recall, dan F1-Score, serta melalui pengujian tambahan pada lima subset data uji secara manual untuk mengamati performa model terhadap kasus nyata. Hasil eksperimen menunjukkan bahwa sistem klasifikasi berbasis Naive Bayes mampu mencapai akurasi sebesar 88,18%, dengan performa klasifikasi yang konsisten pada data uji kecil sekalipun. Temuan ini membuktikan bahwa pendekatan berbasis probabilistik sederhana dapat menjadi solusi yang andal dalam filtering spam, terutama jika dikombinasikan dengan strategi pemilihan fitur yang tepat. Penelitian ini memberikan kontribusi dalam pengembangan sistem filtering email yang adaptif terhadap data berbahasa Indonesia dan menunjukkan bahwa filtering yang efektif tidak selalu memerlukan model kompleks.
========================================================================================================================
Spam email is one of the main challenges in digital communication because it not only disrupts user activities but also has the potential to bring security risks such as fraud and malware distribution. This study aims to build a spam and non spam (ham) email classification system using the Naïve Bayes method, focusing on optimizing the filtering process through effective feature selection and text representation. The dataset used comes from a personal Indonesian Gmail account, so that it reflects real conditions in the field. Data processing begins with the text cleaning and normalization process, followed by weighting using Term Frequency-Inverse Document Frequency (TF IDF) to form numeric features. Furthermore, the Chi-Square method is used to select the features that have the most influence on the target class, with the aim of reducing noise and improving the performance of the classification model. Model evaluation is carried out based on accuracy, precision, Recall, and F1-Score metrics, as well as through additional testing on five subsets of test data manually to observe the model's performance against real cases. The experimental results show that the Naïve Bayes-based classification system is able to achieve an accuracy of 88.18%, with consistent classification performance even on small test data. These findings prove that a simple probabilistic-based approach can be a reliable solution in spam filtering, especially when combined with the right feature selection strategy. This study contributes to the development of an adaptive email filtering system for Indonesian language data and shows that effective filtering does not always require a complex model.
| Item Type: | Thesis (Sarjana) |
|---|---|
| Uncontrolled Keywords: | Kata kunci: Email spam, Gmail, Naive Bayes, TF-IDF, Chi-Square, Filtering, Bahasa Indonesia. Keywords: Email spam, Gmail, Naïve Bayes, TF-IDF, Chi-Square, Filtering, Indonesian. |
| Subjects: | T Technology > T Technology (General) |
| Divisions: | Fakultas Ilmu Komputer > Sistem Informasi |
| Depositing User: | Perpustakaan UNUSIDA |
| Date Deposited: | 01 Dec 2025 02:27 |
| Last Modified: | 01 Dec 2025 02:27 |
| URI: | http://digilib.repository.unusida.ac.id/id/eprint/849 |

