Veri madenciliği – Giris

Veri Madenciliği Nedir?

Bilgisayar biliminde, ham verilerin faydalı bilgilere dönüştürülmesi sürecidir. Bilgi keşfi olarak da adlandırdığımız, veri madenciliği, büyük hacimli verilerde ilginç ve kullanışlı kalıpları ve ilişkileri keşfetme yöntemidir.

Makine öğrenimi, istatistik, yapay zeka ve veritabanı teknolojilerini kullanan ve bunların araçlarını birleştiren çok disiplinli bir beceridir.

Veri madenciliği, iş dünyasında (sigorta, bankacılık, perakende), bilim araştırmalarında (astronomi, ilaç) ve devlet güvenliğinde (suçluların ve teröristlerin tespiti) yaygın olarak kullanılmaktadır.

 

Veri Madenciliği Uygulama Süreci

İş anlayışı:

Bu aşamada, iş ve veri madenciliği hedefleri belirlenir.

  • Öncelikle, iş ve müşteri hedeflerini anlamanız gerekir. Müşterinizin ne istediğini tanımlamanız gerekir (çoğu zaman kendileri bile bilmezler)
  • Mevcut veri madenciliği senaryosunun stokunu alın. Değerlendirmenizde kaynaklar, varsayım, kısıtlamalar ve diğer önemli faktörleri alın
  • İş hedeflerini ve mevcut senaryoyu kullanarak, veri madenciliği hedeflerinizi tanımlanır
  • İyi bir veri madenciliği planı çok detaylıdır ve hem iş hem de veri madenciliği hedeflerini gerçekleştirmek için geliştirilmelidir

Veri anlayışı:

Bu aşamada, veri madenciliği hedeflerine uygun olup olmadığını kontrol etmek için veri üzerinde uygunluk kontrolü yapılır.

  • İlk olarak, veriler kuruluşta bulunan birden fazla veri kaynağından toplanır.
  • Bu veri kaynakları, birden çok veritabanını, tekdüze dosyaları veya veri küplerini içerebilir. Veri Entegrasyonu sürecinde ortaya çıkabilecek nesne eşleştirme ve şema entegrasyonu gibi sorunlar oluşabilir. Çeşitli kaynaklardan gelen verilerin kolayca eşleşmesi mümkün olmayan oldukça karmaşık ve zor bir süreçtir. Örneğin, tablo A must_no adında bir giriş içerirken, başka bir B tablosu must-id adında bir giriş içerebilir.
  • Bu nedenle, bu iki nesnenin de aynı değere sahip olup olmadıklarını garanti etmek oldukça zordur. Burada, veri entegrasyon sürecindeki hataları azaltmak için Meta veriler (Meta veri, diğer veriler hakkında bilgi sağlayan “veri [bilgi]” dir.) kullanılmalıdır.
  • Bir sonraki adım eldeki verilerin özelliklerini aramaktır. Verileri araştırmanın iyi bir yolu, sorgulama, raporlama ve görselleştirme araçlarını kullanarak veri madenciliği sorularına (iş aşamasında kararlaştırılmış) cevap vermektir.
  • Sorgu sonuçlarına dayanarak, veri kalitesi belirlenmelidir. Eğer eksik veri varsa kazanılmalıdır.

Veri Hazırlama:

Bu aşamada, veriler üretime hazır hale getirilir. Veri hazırlama süreci, projenin yaklaşık % 90’ını tüketir.

Farklı kaynaklardan elde edilen veriler seçilmeli, temizlenmeli, dönüştürülmeli, formatlanmalı, anonim hale getirilmeli ve oluşturulmalıdır (gerekirse).

Veri temizleme, rahatsız edici verileri düzelterek ve eksik değerleri doldurarak verileri “temizlemeye” yönelik bir işlemdir.

Örneğin, müşteri demografisi profili için yaş verileri eksik; veriler eksik ve doldurulmalıdır. Bazı durumlarda veri aykırı olabilir. Örneğin, yaş 300 değerini almıştır. Veriler tutarsız olabilir; Örneğin, müşterinin adı farklı tablolarda farklıdır.

Veri dönüştürme işlemleri, verileri veri madenciliğinde yararlı hale getirmek için değiştirir. Aşağıdaki dönüşüm uygulanabilir

Veri dönüşümü:

Veri dönüştürme operasyonları veri madenciliği sürecinin başarısına katkıda bulunacaktır.

Yumuşatma: Rahatsız edici verileri çıkarmaya yardımcı olur.

Toplama:  Özet veya toplama işlemleri verilere uygulanır. Yani, haftalık satış verileri aylık ve yıllık toplamı hesaplamak için toplanır.

Genelleştirme: Bu adımda, düşük düzeydeki veriler, kavram hiyerarşilerinin yardımıyla üst düzey kavramlarla değiştirilir. Örneğin, şehir ilçe ile değiştirilir.

Normalleştirme/Standardizasyon: Standardizasyon ya da normalleşmenin amacı, bütün değerler kümesinin belirli bir özelliğe sahip olmasını sağlamaktır. Nitelik verileri aşağı veya yukarı doğru ölçeklendiğinde normalleştirme/standardizasyon gerçekleştirilir. Öznitelik verileri -1.0 ila 1.0, 0.0 ila 1.0 gibi küçük bir belirtilen aralıkta düşecek şekilde ölçeklenir.

Öznitelik yapısı: Yeni nitelikler verilen özniteliklerden oluşturulmuş ve yüksek boyutlu verilerde yapının doğruluğunu artırmak ve anlaşılmasına yardımcı olmak için eklenmiştir. Öznitelik yapısına göre eksik bilgiler keşfedebilir.

Modelleme:

Bu aşamada, veri modellerini belirlemek için matematiksel modeller kullanılır.

  •  İş hedeflerine göre hazırlanan veri seti için uygun modelleme teknikleri seçilir
  •  Modelin kalitesini ve geçerliliğini sınamak için bir senaryo oluşturulur
  •  Model hazırlanan veri kümesinde çalıştırılır
  •  Sonuçlar, modelin veri madenciliği hedeflerini karşılayabildiğinden emin olmak için tüm paydaşlar, ilgili kişiler tarafından değerlendirilir.

Değerlendirme:

Bu aşamada, tanımlanan modeller iş hedeflerine göre değerlendirilmektedir.

  • Veri madenciliği modeli tarafından oluşturulan sonuçlar, iş hedeflerine göre değerlendirilir
  • İş ve veri madenciliği hedeflerini belirlemek yinelemeli bir süreçtir. Aslında, işi anlamaya çalışırken, yeni iş gereksinimleri veri madenciliği nedeniyle ortaya çıkabilir.
  • Modeli dağıtım veya yayma  aşamasına taşımak için bir glt(go) veya gitme(no-go) kararı alınır

Dağıtım/Yayılma:

Dağıtım aşamasında, veri madenciliği keşiflerinizi günlük iş operasyonlarına taşıyorsunuz.

  • Veri madenciliği sürecinde ortaya çıkan enformasyon veya bilgi, teknik olmayan paydaşlar için anlaşılması kolay olmalıdır
  • Veri madenciliği keşiflerinin taşınması, bakımı ve izlenmesi için ayrıntılı bir dağıtım planı oluşturulur
  • Proje süresince öğrenilen dersler ve önemli deneyimlerle nihai bir proje raporu oluşturulur. Bu, kuruluşun iş politikasını geliştirmesine yardımcı olur.

Veri madenciliği teknikleri:

Veri madenciliği teknikleri, matematik, sibernetik, genetik ve pazarlama gibi birçok araştırma alanında kullanılmaktadır. Bu teknikleri verimlilik sağlamak ve müşteri davranışlarını tahmin etmek için bir araç iken, doğru kullanıldığında, bir işletmeyi öngörü analiziyle rekabette öne çıkarabilir.

Sınıflandırma: Sınıflandırma, çeşitli özellikleri birlikte algılanabilir kategorilere toplamamızı sağlayan, daha fazla sonuç çıkarmaya veya daha sonra da kullanabilir bazı işlevlere hizmet eden karmaşık veri madenciliği tekniğidir. Kısaca, veri sınıflandırması, en etkin ve verimli kullanımı için veriyi kategorilere ayırma sürecidir. Bu analiz, veriler ve meta veriler hakkında önemli ve ilgili bilgileri almak için kullanılır. Örneğin, farklı özellikleri (koltuk sayısı, araba şekli, direksiyon gibi) tanımlayarak otomobilleri farklı tiplere (sedan, 4×4, üstü açılabilir gibi) kolayca sınıflandırabilirsiniz. Yeni bir araba verildiğinde, öznitelikleri bilinen tanımınızla karşılaştırarak bunu belirli bir sınıfa dahil edebilirsiniz.

Ek olarak, sınıflandırmayı başka tekniklere ya da başka tekniklerin sonucu olarak kullanabilirsiniz. Örneğin, bir sınıflandırmayı belirlemek için karar ağaçlarını kullanabilirsiniz. Kümeleme de, kümeleri tanımlamak için farklı sınıflandırmalardaki ortak özellikleri kullanmanıza izin verir.

Bu teknikte iki ana süreç vardır:

Öğrenme – Bu süreçte veriler sınıflandırma algoritması ile analiz edilir.
Sınıflandırma – Bu süreçte veriler sınıflandırma kurallarının hassaslığını ölçmek için kullanılır.

Farklı sınıflandırma modelleri vardır;

Karar ağaçları İndüksiyonu ile sınıflandırma
Bayesian Sınıflandırması
Nöral ağlar
Destek vektör makineleri (SVM)
Birleştirmeye dayalı sınıflandırma

Kümeleme: Kümeleme analizi, birbirine benzeyen verileri belirlemek için kullanılan veri madenciliği tekniğidir. Bu süreç, veriler arasındaki farklılıkları ve benzerlikleri anlamaya yardımcı olur.

Kümeleme her iki şekilde de çalışabilir. Belli bir noktada bir kümenin olduğunu varsayabilir ve doğru olup olmadığını görmek için teşhis kriterlerimizi kullanabilirsiniz. Altta şekildeki grafik iyi bir örnek göstermektedir. Burada, satış verilerinin bir örneği müşterinin yaşını satışın büyüklüğüyle karşılaştırır. Yirmilerindeki insanların (evlilikleri ve çocukları), ellili ve altmışlılarının (çocuklar evden ayrıldıklarında) daha fazla harcanabilir gelire sahip olmalarını beklemek mantıksız değildir.

Kümeleme

Örnekte, biri 2,000 ABD Doları / 20-30 yaş grubu ve diğeri 7,000-8,000 / 50-65 yaş grubu olmak üzere iki kümeyi tanımlayabiliriz.

Bu şekilde kümeleyerek işaretlemek, en yakın komşu benzerliği olarak adlandırılan basitleştirilmiş bir örnektir.

Kümelenmeyi karşıt perspektiften de uygulayabilirsiniz; Bazı giriş nitelikleri verildiğinde, farklı eserleri tanımlayabilirsiniz. Örneğin, son zamanlarda yapılan 4 basamaklı bir PIN numarası çalışması, birinci ve ikinci çiftler için 1-12 ve 1-31 aralığındaki rakamlar arasında kümeler buldu. Bu çiftleri çizerek, tarihler (doğum günleri, yıldönümleri) ile ilgili küme saptayabilir veya belirleyebilirsiniz.

Regresyon: Regresyon analizi, değişkenler arasındaki ilişkiyi tanımlamak ve analiz etmek için gerekli veri madenciliği yöntemidir. Diğer değişkenlerin varlığı verildiginde belirli bir değişkenin olasılığını belirlemek için kullanılır.

Dıştakini algılama: Bu tür veri madenciliği tekniği, veri kümesindeki veri öğelerinin beklenen bir desen veya beklenen davranışla eşleşmeyen gözlemini ifade eder. Bu teknik, izinsiz giriş, tespit, sahtekarlık veya hata tespiti gibi çeşitli alanlarda kullanılabilir. Dış algılamaya ayrıca Outlier Analysis veya Outlier madenciliği denir.

Sıralı Modeller: Bu veri madenciliği tekniği, belirli dönemdeki veride benzer modelleri veya eğilimleri keşfetmeye veya tanımlamaya yardımcı olur.

Örneğin, müşteri verileriyle müşterilerin belirli bir ürün grubunu yılın farklı zamanlarında birlikte satın aldığını belirleyebilirsiniz. Bir alışveriş sepeti uygulamasında, bu bilgileri, belirli öğelerin satın alma sıklığına bağlı olarak sepete otomatik olarak eklenmesini önermek üzere kullanabilirsiniz.

Tahmin: Tahmin, eğilimler, sıralı desenler, kümelenme, sınıflandırma vb. gibi diğer veri madenciliği tekniklerinin bir kombinasyonunu kullanır. Gelecekteki bir olayı tahmin etmek için geçmiş olayları veya örnekleri doğru bir dizide analiz eder.

Örneğin, kredi kartı yetkilendirmesini kullanarak, bir işlemin hileli olup olmadığını geçmiş işlemlerin karar ağacı analizini sınıflandırma ve ilişkilendirme ile yaparak belirleyebilirsiniz. ABD’ye uçuş satın alınmış olması ABD’de yapılan işlemin geçerli olmasını muhtemel kılacaktır.

İlişkilendirme kuralları: Bu veri madenciliği tekniği, iki veya daha fazla öğe arasındaki ilişkiyi bulmaya yardımcı olur. Veri kümesindeki gizli bir örüntüyü, modeli keşfeder. Örneğin, insanların satın alma alışkanlıklarını izlerken, bir müşterinin çilek aldığında her zaman krema satın aldığını izleyip bir sonraki seferde çilek satın aldığında krema önerebilirsiniz.

Bu tekniklerin farklı sıralanması da söz konusu, örneğin IBM’in sıralaması şöyle

Bu sıralamada karar ağaçları ve uzun sureli (bellek) işleme dışında bilgi vermiştik.

Karar ağaçları: Diğer tekniklerin çoğuna (öncelikli olarak sınıflandırma ve tahmin) bağlı olarak karar ağacı, ya seçim kriterlerinin bir parçası olarak ya da genel yapı içindeki belirli verilerin kullanımını ve seçimini desteklemek için kullanılabilir. Karar ağacına, iki (veya bazen daha fazla) cevabı olan basit bir soruyla başlarsınız. Her bir cevap, verilerin sınıflandırılmasına veya tanımlanmasına yardımcı olmak için kategorilere ayrılacak yeni bir soruya dayanır veya her cevaba göre bir tahmin yapılabilir.

Bir karar ağacı, bir kök düğümünü, dallarını ve yaprak düğümlerini içeren bir yapıdır.  Ağaçtaki en üstteki düğüm, kök düğümdür. Her bir iç düğüm bir öznitelik üzerinde bir testi belirtir, her bir dal bir testin sonucunu gösterir ve her bir yaprak düğümü bir sınıf etiketine sahiptir.

Bu karar ağacı bir müşterinin bilgisayar alip almamaya yatkınlığı konusunda bilgi verir. Her iç düğüm, bir öznitelik üzerinde bir testi temsil ederken, her yaprak düğümü de bir sınıfı temsil eder.

Karar ağacının faydaları −

  • Herhangi bir alan bilgisi gerektirmez.
  • Anlaması kolaydır.
  • Bir karar ağacının öğrenme ve sınıflandırma adımları basit ve hızlıdır..

Uzun süreli (bellek) işleme:

…….devami gelecek….

 

Last updated by at .

Leave a Reply