Veri boşlukları nelerdir ve bunlarla nasıl başa çıkılır?

Türleri ve yöntemleri:

Verilerde genellikle boşluklar vardır. Bunun nedeni bilgilerin yanlış girilmesi veya gizlenmesidir.

Böyle bir sorunu çözmenin en iyi yolu boşlukları doldurmak gibi görünüyor olsa da bu her zaman doğru değildir. Boşluk doldurma tipinin yanlış seçimi sonuçları kötüleştirebilir. Uygulamada kullanılabilecek boşlukları işleme yöntemlerini bu makalede size anlıyoruz, iyi okumalar.

Veri boşluğu türleri

Boşlukları tedavi etmek için neden göründüklerini anlamanız gerekir. Aşağıda 3 anahtar tipi size anlatacağız.

MCAR (Missing Completely At Random / Tamamen rastgele yoktur)

Bu durumda, veri boşlukları gözlemlenen ve gözlemlenemeyen değişkenlerden bağımsızdır. Verilerdeki boşluklar sistematik hataya yol açmaz, ancak daha az bilgi olduğu için rastgele hatayı artırır.

Örneğin, tıbbi testler yapılırken, bazı hastaların kayıtlarında, laboratuvar örneklerinin yanlış işlenmesi nedeniyle eksik değerler olabilir.

MAR (Missing At Random / rastgele kayıp)

Bu terim genellikle yanıltıcıdır, çünkü gerçekte MAR için eksik veriler rastgele değildir. Boşluk, tam bilginin mevcut olduğu değişkenler tarafından tam olarak açıklanabilir.

Örneğin, bir terapistin randevusunda, yaşlı insanlarda basınç neredeyse her zaman ölçülür, ancak gençlerde ölçülmez. Bu nedenle, "baskı" sütunundaki boşluklar gençlerde daha sık görülür. Aynı zamanda, basınçları genellikle daha düşüktür. Ancak, "basınç" sütunundaki boşlukların dağılımı rasgele olmamakla birlikte, her hasta yaş grubu içinde rastgele olacaktır.

MNAR (Missing Not At Random / rastgele olmayan bir şekilde yok)

Boşluk riski verilere göre belirlenir. Ancak MNAR arasındaki fark, bir sütundaki boşluk olasılığının içindeki bilgilere bağlı olmasıdır.

Örneğin, insanlara uyuşturucu kullanıp kullanmadıkları sorulduğunda, katılımcılar kabul etmek istemiyorlarsa alanları boş bırakabilirler. Ambulansla gelen sigara içen bir hasta sigara içip içmediğini belirtmemişse ameliyat sonrası komplikasyon riski artabilir.

Rastgele olmayan eksik veriler, sonuçları değiştirebilecekleri için önemlidir, ancak bu tür boşlukların üstesinden gelmek daha zordur.

Boşlukları işleme yöntemleri

Listwise Deletion (Complete-case Analysis) / Tam gözlemlerin analizi

Çoğu kitaplık varsayılan olarak bu yöntemi kullanır. Amacı, veri setinde boşlukların olduğu her şeyi kaldırmaktır.

Bu yöntem MCAR ile birlikte kullanılırsa, modelin parametreleri büyük ölçüde bozulmaz. Ancak sonraki hesaplamalarda, satırlar silindiği için mevcut bilgiler kullanılmayacaktır. Daha fazla rastgele hata olacak ve sonuçların temsil edilebilirliği azalacaktır.

Bu nedenle, MAR ve hatta MNAR kullanılırken numunenin istatistiksel özellikleri daha fazla değişecektir.

Pairwise Deletion (Available-case Analysis) / İkili silme

Sütunlar arasındaki bağımlılıkları araştırırken, incelenen sütunlarda boşlukların olduğu veri noktalarını kaldırırız. Yani, A ve B'nin ilişkili olup olmadığını anlamak istiyorsak, en az bir sütunda boşluk bulunan tüm satırların atıldığı önceki yöntemin aksine, boşluğun C olup olmadığına bakmayız.

Avantajları ise modeli oluştururken şu anda mevcut olan tüm bilgilerin kullanılmasıdır. Ancak bu yöntemi kullanmak bazen yanlış sonuçlar verir. Örneğin, korelasyon birliğini aşabilir.

Last observation carried forward / Son gözlemin sonucunun tekrarlanması

Bu yöntem, bir zaman serisindeki boşlukları doldururken, sonraki ve önceki değerlerin birbiriyle ilişkili olması durumunda kullanılır.

Örneğin, hava sıcaklığını her dakika ölçüyoruz. Normal koşullar altında değer ölçümler arasında değişmez. Ve bu, böyle bir durumda boşlukları doldurmanın mümkün olduğu anlamına gelir.

Ancak dezavantajları da var. Bunu kullanmak istatistiksel özellikleri bozabilir. Örneğin, aykırı değer çoğaltılacaktır (yani boşluklar anormal bir değerle doldurulacaktır). Ek olarak, verilerde ardışık birçok boşluk varsa, yöntem sonuçları bozacaktır.

Indicator Method / Gösterge yöntemi

Buradaki boşluklar aynı değerlerle doldurulur. Genellikle — ortalama veya medyan (sütunla). Örneğin, "sıcaklık", "36,6"dır.

Bu yöntemi kullanırken, sonuçları önemli ölçüde değiştirebilse de, kayıp değerlerle ilgili diğer bilgiler kullanılır.

Regression imputation / Regresyon suçlaması

Eksik değerler, parametre olarak diğer değişkenler kullanılarak yani regresyon kullanılarak tahmin edilir.

Çalışma şekli: Diğer sütunlardan alınan verilere dayanarak bir sütunun değerini tahmin eden bir model yapmanız ve tahmin ettiği şeyle boşlukları doldurmanız gerekir.

Örneğin, istediğinden daha az kazanan bir kişi, gelirinden bahsetmekten rahatsız olabilir. Bu nedenle, böyle bir kişi için değişken bir maaşın değeri olmayacaktır. Ancak boşlukları değişkenin ortalama değeri ile doldurursak, gerçek kazancından daha yüksek olacaktır. Böylece analize sistematik bir hata katılmış olur.

Yazar: Oleksiy Simonchuk

Paylaş: