Makine öğrenmesinde Veri Ön İşleme (Data Processing) makine öğrenmesi algoritmalarını kullanmadan önce mutlaka yapılması gereken ve öğrenmeyi doğrudan etkileyip kolaylaştıran bir adımdır. Bu yazıda bazı python kütüphanelerini kullanarak verilerimizi ön işleme yöntemlerinden geçirmeye değineceğiz.

Veri Ön İşleme Yöntemleri

  • Eksik Verilerin Düzeltilmesi
  • Kategorik Verilerin Elverişli Hale Getirilmesi
  • Numpy Arrayların DataFrame’ye Dönüştürülmesi ve Birleştirilmesi
  • Standartlaştırma İşlemleri

Kullanılacak Olan Veri Seti

Aşağıda gerçeği yansıtmayan veri setini kullanarak işlemlerimizi yapmaya çalışacağız.

Kullanacağımız veri setini aşağıdaki linke tıklayarak indirebilirsiniz.

evfiyat.csv

makine öğrenmesi için örnek ev fiyat veri seti

Verilerin Okunması

Veri setini indirdikten sonra aynı dizinde olan python dosyanıza aşağıdaki kodları çalıştırarak. Kütüphanelerin doğru çalışıp çalışmadığını test edebilirsiniz.

veriseti = pd.read_csv(‘evfiyat.csv’)
print(veriseti)

Eksik Verilerin Düzeltilmesi

Bazen veri setimizin içinde eksik veriler bulunabilir. Bu alanlar makine öğrenmesi algoritmaları için sıkıntı yaratabiliyorlar. Eksik veriler için farklı yöntemler (eksik olan veriyi kaldırma, tahmin etme) olmasına karşın ortalama alma yöntemi ile eksik verileri tamamlama yöntemine değineceğiz.

Kategorik Verilerin Elverişli Hale Getirilmesi

Kategorik veri örneği olarak veri setimizdeki şehir alanını verebiliriz. Bunlara aslında İstanbul için 1 Ankara için 2 diyerek numaralandırabiliriz fakat bu işlem oldukça risklidir. Çünkü bazı algoritmalar bunu Ankara iki tane İstanbul eder gibi algılayabilir. LabelEncoder ve OneHotEncoder kullanarak veri setimizi daha elverişli hale getirebiliriz.

Numpy Arrayların DataFrame’ye Dönüştürülmesi ve Birleştirilmesi

Eksik verileri düzeltirken ve OneHotEncoder LabelEncoder işlemlerinde verilerimizin bir kısmı numpy array tipine dönüştü şimdi bu verileri birleştirerek tekrar dataframe haline dönüştürelim.

Standartlaştırma İşlemleri

Veri Standardizasyonu, farklı veri kümelerinin yapısını ortak veri formatına dönüştüren bir veri işleme yöntemidir.  Normalleştirme işlemi veriyi 0 ile 1 arasında tanımlarken standartlaştırma işlemi ise standart sapmaya göre sıfıra sağdan veya soldan yaklaşma ile tanımlanıyor. Genelde kullanılan standartlaştırma işleminin kullanımını inceleyelim.

Bu işlemlerin sonunda veri setimizi aşağıdaki şekilde elverişli hale getirmiş olduk.

evfiyat veri seti elverişli hali
Tagged With:

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.