Skip to:Bottom
|
Content
Cover image for Veri Kalitesinin bozulduğu durumlarda veri madenciliği sınıflandırma Algoritmalarının per  /Saygın Diler; danışman Yıldırım Demir.
Title:
Veri Kalitesinin bozulduğu durumlarda veri madenciliği sınıflandırma Algoritmalarının per /Saygın Diler; danışman Yıldırım Demir.
Author:
Diler, Saygın.
Personal Author:
Publication Information:
Van : Van Yüzüncü Yıl Üniversitesi, 2023.
Physical Description:
xvi, 146 sayfa : tablo, şekil, grafik ; 30 cm. + 1 CD.
Abstract:
ÖZET: Bu tez çalışmasında, veri madenciliği sınıflandırma algoritmalarının veri kalitesinin bozuk olduğu durumlarda nasıl performans gösterdikleri ve veri kalitesinden nasıl etkilendikleri incelenmiştir. Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada, veri kalitesini bozan etmenler arasında yer alan sansür veri, eksik veri ve çoklu doğrusal bağlantının veri setinde bulunması durumunda veri madenciliği sınıflandırma algoritmalarının performansları incelenmiştir. Naive Bayes (NB), Lojistik Regresyon (LR), K-En Yakın Komşu (kNN), Destek Vektör Makineleri (SVM) ve Aşırı Gradyan Arttırma (XGBoost) sınıflandırma algoritmaları ile uygulama gerçekleştirilmiştir. Sansürlü verilerinin etkisini veri setinde gösterilmesi amacı ile kNN imputasyon yöntemi kullanılmış ve daha sonra uygulamalar gerçekleştirilmiştir. Eksik veri setleri için, tam veri setleri sırası ile tamamen rastgele eksik (MCAR) yapısında %5, %15 ve %30 eksiltilerek uygulama gerçekleştirilmiştir. Çoklu doğrusal bağlantı bulunan veri setleri için korelasyon matrisleri ile koşul indeksi belirtildikten sonra uygulama gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için farklı örneklemlerde hem gerçek ver setleri hem de simülasyon çalışmaları ile ayrı ayrı uygulama yapılmıştır. Çalışma sonuçlarına göre, sansür veri için SVM ve Lojistik Regresyon algoritmasının, eksik veri ve çoklu doğrusal bağlantı varlığında büyük örneklemli veri setlerinde XGBoost algoritmasının çalışmada kullanılan algoritmalara kıyasla etkin performans sergilediği söylenebilir.

ABSTRACT:In this thesis, the performance of data mining classification algorithms and their sensitivity to data quality issues are examined when the data is of poor quality. Modeling studies using data mining algorithms have increased with the advancement of computer technology. However, data quality plays an important role in the classification performance achieved in studies using these algorithms. In this study, the impact of factors that affect data quality, such as censored data, missing data, and multicollinearity, on the performance of data mining classification algorithms is investigated. The classification algorithms Naive Bayes (NB), Logistic Regression (LR), K-Nearest Neighbor (kNN), Support Vector Machines (SVM), and Extreme Gradient Boosting (XGBoost) are applied. To demonstrate the impact of censored data on the dataset, the kNN algorithm is used with an imputation method, and then the applications are performed. For missing data sets, complete data sets are randomly reduced at rates of 5%, 15%, and 30% using the Missing Completely At Random (MCAR) structure, and the applications are performed. For data sets with multicollinearity, after condition indices are specified using correlation matrices, the applications are performed. To examine the performance of the methods, applications are performed separately on both real data sets and simulation studies in different samples. According to the results of the study, it can be said that the SVM and Logistic Regression algorithm for censored data, and the XGBoost algorithm for large sample datasets in the presence of missing data and multicollinearity show effective performance compared to the algorithms used in the study.
Added Author:

Available:*

Library
Material Type
Item Barcode
Shelf Number
Status
Searching...
Thesis 099298 310/TEZ/DİLv/2023.
Searching...

On Order

Go to:Top of Page