Veri Madenciliği, büyük veri yığınları içerisinden genellikle faydalı bilgilerin bilgisayar programları aracılığıyla aranarak analiz edilmesidir.
Büyük veri yığınları içerisinde gizli kalmış bilgilerin veri tabanını kullanarak çekilmesini sağlayan bir veri analiz işlemidir.
Veri Madenciliğinin ilişkili olduğu birçok disiplinler vardır.
Bunlar;
- Veri Tabanı Sistemleri,
- Yapay Öğrenme,
- Yapay Sinir Ağları,
- İstatistik,
- Veri Görselliği,
- Makine Öğrenmesi,
Veri madenciliğinin uygulanmasında belirli süreç izlenmektedir.
- Öncelikle problem tanımlanmalıdır.
- Daha sonra veriler hazırlanır, model kurulur, değerlendirilir ve izlenir.
- Sonrasında model doğrulanarak veri tabanında karar destek sistemleri sayesinde veri ambarlarına aktarılır.
- Veri Ambarı veri tabanı içerisindeki en fazla öneme sahip bilgileri bir araya getirerek daha kısa sürede ve kolay bir şekilde analiz yapılmasını sağlamaktadır.
Veri Madenciliğinin günümüzde ve gelecekte oldukça üzerine düşülecektir.
Veri Madenciliği konusunda bazı metotlar bulunmaktadır.
Bunlar;
- Sınıflama,
- Regresyon,
- Kümeleme,
- Birliktelik Kuralları,
olmak üzere 4 gruba ayrılmaktadır.
Sınıflama ve Regresyon Modellerinde,
- Karar Ağaçları,
- Yapay Sinir Ağları,
- K-en Yakın Komşu,
- Genetik Algoritmalar,
gibi teknikler bulunmaktadır.
Bu tekniklerden Karar Ağaçları en popüler olan sınıflama tekniğidir.
Yapay Sinir Ağları ise beynin sinir sistemi yapısına benzetilmektedir. Fakat yorumlanması zor olan bir tekniktir.
Genetik Algoritmalar sezgisel bir yaklaşım olması ile birlikte optimizasyon problemleri çözümünde kullanılan bir tekniktir. Genetik Algoritmalar Veri Madenciliğinde oldukça tercih edilen ve genellikle yapay sinir ağlarıyla kullanılan bir tekniktir.
K-en Yakın Komşu Algoritması ise uzaklıkların Öklid ile hesaplanarak gözlem değerlerinin hangi sınıfta yer alacağının belirlendiği bir tekniktir.
Veri Madenciliği birçok alanda kullanıldığı gibi Türkiye’de bulunan örnekleri;
- Mühendislik,
- Tıp,
- Bankacılık,
- Eğitim,
- Ticaret,
- Telekomünikasyon
gibi alanlarda uygulamaları bulunmaktadır.
Yapılan bu uygulamalarda veri madenciliği algoritma ve modelleri kullanılarak analizler yapılmaktadır.
Eğitim alanında gerçekleştirilen çalışmalar genellikle öğrencilerin başarı durumlarını ele alarak yapılmaktadır. Bu sayede gelecek nesiller için varsayımlar ortaya konulmaktadır.
Mühendislik alanında yapılan çalışmalarda daha çok algoritmalar üzerine yani yeni algoritmaların keşfi ve var olan algoritmaların geliştirilmesine dayalıdır.
Ticari alanda yapılan çalışmalar ise daha çok pazarların kurulması, müşteri memnuniyeti, gereksinimlerin karşılanıp karşılanmayacağı gibi tahminlerin yapılabilmesine veri madenciliği olanak sağlamaktadır.
Türkiye’ de tıp alanında veri madenciliği yeteri kadar genişlememiştir.
Veri madenciliği daha çok müşterilerin gelecek hakkındaki izlenimlerini raporlamaya yönelik analizlerde daha iyi sonuçlar vermektedir.
Veri madenciliği gelişen teknoloji sayesinde ülkemize hatta tüm dünyaya fayda sağlayacaktır.