Veri Madenciliği (Data Mining) Nedir?

Veri Madenciliği (Data Mining) Nedir?

Aralık 17, 2019 0 Yazar: digitalyazarlar

Önceleri kişisel ya da herhangi bir konuyla ilgili veriler elle kayda alınırdı. Şimdi ise artık çağın dijitalleşmesinden ve internetin günlük yaşantımızda elimizin altında olmasından dolayı bu verilerin internet ortamına aktarılması veri akışını hızlandıran büyük bir yenilik. Veri tabanlarına durmaksızın akan verilerin hızına yetişebilmek neredeyse imkânsız. Çünkü sınırsız bir ortamda depolanabilir olmaları sebebiyle çeşitleri her geçen gün artışa geçiyor. İşte veri madenciliği aslında bu noktada ipleri ele alıyor.

Big Data, Veri Madenciliği
Dijital dünyadaki büyük verileri ayırmak ve istenilen verileri toplamak için veri madenciliğinden yararlanılıyor…

Veri madenciliğini işlemeden önce verinin ne anlam ifade ettiğini tanımlamak daha doğru olacaktır. Veri, bir konu hakkında yapılan tartışma, araştırma sonucu elde edilen işlenmemiş bilgiler bütünüdür.

Veri madenciliği ise var olan pek çok verilerin arasından gerekli olan bilgiyi toplama yani madenleme işidir. Bunu normal madencilik anlayışına da benzetebiliriz. Uzun süren zahmetli, ince çalışmalar sonucu yer altında ulaşılan zenginliğin internetin yer altında verileri üzerinde ince eleyip sık dokunarak yapılan halidir.

Veri madenciliğinin ortaya çıkışı aslında 1950’lerde bilgisayarın keşfedilmesiyle yapılan sayımlara dayanıyor. Akabinde 1960’lı yıllar arasında veri tabanları ve perseptonlar toplanan verilerin depolanmasını sağlıyor. Var olan veri tabanlarının bir şekilde yönetilmesi gerektiği için 1970’li yıllarda ise makine öğrenimine ihtiyaç duyuluyor. Tabii ki bu veriler tek bir veri tabanında toplanmıyor. Her verinin saklanması için pek çok veri tabanı bulunuyor. Veri tabanlarından veri sorgulaması yapmak için 1980 yılında SQL dili ortaya çıkarılıyor. Şartların ve teknolojinin ilerlemesi yeni arayışlar içerisine girilmesini sağlarken veri tabanlarından verilerin çekilmesiyle yapılan veri madenciliği için 1990’lı yıllarda özel bir yazılım yapılıyor ve bu yazılım veri madenciliğini gerçekleştirmede büyük bir kolaylık sağlıyor. En küçük bir bilginin bile veriyi ifade etmesi veri madenciliğinin her alana yayılmasını sağlıyor.

Veri Madenciliği Nasıl Yapılır?

Veri madenciliği öncelikle problemin tanımlanmasının yanı sıra veri temizleme, veriyi birleştirme, ihtiyaç duyulan veriyi seçme, veri dönüştürme işlemlerinden geçiyor. Veri madenciliğine kadar bu işlemleri tek tek inceleyecek olursak;

  • Problemin Tanımlanması: Veri madenciliğinin ilk aşaması fakat başarının elde edilmesinde önemli bir yer tutan problemin tanımlanması için soruna odaklanılması gerekir. Eldeki sorunların tam örtüşmemesi için yapılan çalışmalar sorunu çözmede pek yeterli gelmeyebilir. Sorunların çözülmemesi başka problemleri doğurabilir. Bunun yanı sıra yanlış kararların sebep olabileceği sorumluluklar ve doğru kararlar alındığı zaman sağlanacak faydalar bu kısımda değerlendirilir.
  • Veri Temizleme: Veri tabanlarında bulunan bilgiler pek çok yerden toplandığı için yeterli gelmeyen, verilerin alındığı yere göre bir yerde farklı bambaşka bir yerde daha farklı ve hiç alakası olmayan bilgiler yer alabilir. Konu üzerine yapılacak olan araştırma için elde edilen bilgiler derin bir süzgeçten geçirilmeli ve bu işlem sırasında ince eleyip sık dokunmalıdır.
  • Veriyi Birleştirme: Bilgi süzgecinden sonra elde edilen temiz ve işlenmemiş veriler işlenmek üzere belli bir tabana alınır. Zira veri aktarımı sırasında aynı verinin defalarca bulunması veri işlemede zorluk çıkarabilir. Bu yüzden veriler birleştirilerek ortaya tek bir bilgi bütünü çıkarılır.
  • Veri Seçimi: İstenilen bilgi üzerine toplanan bilgiler veri tabanında yapılacak olan analiz için seçilmelidir. Verileri seçerken çözüm odaklı olunmalı ve bilgiler iyi bir şekilde analiz edilmelidir.
  • Veri Dönüştürme: Seçilen veriler istenilen formlara dönüştürülerek veri madenciliğinde kullanılabilecek hale getirilir. Verinin hiçbir değişikliğe uğramadan direkt olarak veri madenciliğine gönderilmesi doğru değildir. Verideki değişkenleri ortalamalarına, standart sapmalarına ve varyanslarına göre ayırmak gerekir. Ortalaması ve varyansı büyük olan veri daha baskındır. Verinin değişkenleri ne çok büyük ne de çok küçük olmalıdır. Bu durumun önüne geçilmesi için değişkenlerin normal ve standart durumlarda olması gerekir.
veri madenciliği nasıl yapılır?
Veri madenciliği problemin tanımlanması, verilerin birleştirilmesi, temizlenmesi, seçimi ve dönüştürülmesi işlemlerinden geçiyor…

Bu aşamadan sonra veri madenciliği devreye giriyor. Veri madenciliği için oluşturulan yazılımlarda çeşitli algoritmalar uygulanarak elde edilen veriler toplanıyor ve işleniyor. Veri madenciliğinden sonra ise bu bilgiler birçok metotlar kullanılarak örüntülerle tanımlanıyor ve elde edilen bilgiler kullanıcıya sunuluyor.

Veri Madenciliği İçin Hangi Yöntemler Kullanılır?

Veri madenciliği çalışmalarında istatistiksel yöntemler, bellek tabanlı yöntemler, genetik algoritmalar, yapay sinir ağları ve karar ağaçları sıkça kullanılır. Veri madenciliği yöntemlerini derinlemesine incelemek gerekir. Hep birlikte bu yöntemlere bakalım.

İstatistiksel Yöntemler: Veri madenciliğinde verilerin istatistiksel olarak desteklenmesi veriler üzerinde daha çabuk sonuca gidilmesini sağlar. Son yıllarda ortaya çıkan pek çok istatistiki yöntemler farklı tekniklerin ortaya çıkmasına sebep olmuştur. Bu teknikler için sınıflandırma, ayırma, regrasyon, öbekleme, hipotez, varyans analizleri yapılmaktadır.

Bellek Tabanlı Teknikler: 1950’li yıllarda ortaya çıkan bu teknik, o zamanın şartlarına göre hesaplama ve bellekten dolayı kullanılamamıştır. Ancak günümüzde bilgisayarların kapasitesinin artması ve teknolojiye uyumlu olması tekrar bu tekniğin kullanılmasını sağlamıştır. Bu yöntemin benzeri k -komşu algoritmasıdır.

Genetik Algoritmalar: Veri madenciliği algoritmalarının gelişmesini sağlayan tekniktir. Bu teknik model halindeki veriye uygulanır ve gizli kalan kalıpları ortaya çıkararak veri üzerine tahminler yapılır. Risk ve perakende analizlerinde çokça tercih edilen tekniktir.

Yapay Sinir Ağları: Yapay sinir ağları ile istatistiksel yöntemler gibi veriyle ilgili parametrik model varsayımı mümkün değildir. Bellek tabanlı yöntemlere göre az işlem gerektirir ve aşırı bellek kullanımına ihtiyaç duyulmaz. Yapay sinir ağlarındaki öğrenmeyi sağlayan algoritmalar, veriden üniteler arasındaki bağlantı ağırlıklarını hesaplar.

Karar Ağaçları: İstatistiksel yöntemler ve yapay sinir ağları aracılığıyla veriden fonksiyon öğrenildiğinde bu fonksiyon insanlar tarafından anlaşılması güçtür. Karar ağaçlarında ağaçlar oluştuktan sonra kökten yaprağa doğru kurallar baştan aşağı yazılır. Kuralların bu şekilde yazılması veri madenciliği çalışmalarında doğru sonuçlara ulaşılmasını sağlar.

Veri Madenciliğinden Nerelerde Yararlanılır?

Veri madenciliğinde yapay zeka önemli bir yere sahip.

Veri madenciliğini kullanan pek çok sektör bulunmaktadır. Aslında önemli olan veri madenciliğinin nerelerde kullanıldığı değil, veri bütününün oluşturulması esnasında verilerin işlenmesinden elde edilen sonuçların doğruluğudur. Ancak veri madenciliğinin kullanıldığı alanlara da değinmek gerekir.

Günümüzde pazarlama alanında çokça kullanılan veri madenciliği, bir ürünün müşteriler tarafından satın alınması örüntülerini belirlemede tercih edilir. Bunun yanı sıra online platformlardan ya da mağazalardan ürün satın alacak olan müşterileri yaşadığı yerlere yani demografik özelliklerine göre ayırabilir. E-Ticaret üzerinden yaklaşım yapacak olursak, siteye giren ve ürün alan müşterileri elde tutmak ya da gerek doğrudan gerek eldeki müşteriler aracılığıyla gelen yeni müşterileri kazanmak için yine veri madenciliğinden yararlanılır. Veri madenciliği dijital pazarlama alanında sadece bunlarla sınırlı değildir. Ayrıca müşteri ilişkilerinin yönetilmesi, müşterinin ürün satın aldığında o ürün hakkındaki değerlendirmesi ve işletmenin ürünler hakkındaki satış tahminleri yine veri madenciliğinin alanını yansıtır.

Veri madenciliğinin bir başka kullanım alanı bankacılıktır. Günümüzde yaptığımız alışverişlerde yapılan ödemelerin güvenli olmamasından dolayı müşterilerin kredi kartı bilgilerinin çalınması ya da kredi kartı dolandırıcılığı hat safhada. Bundan dolayı kredi kartı dolandırıcılarının tespit edilebilmesi için veri madenciliği kullanılabiliyor. Müşterilerin konut, araba gibi ihtiyaçlarını karşılamalarını sağlayan krediler için bankaya talepte bulunduklarında bankalar bu talepleri değerlendirmek üzere veri madenciliğini sıkça kullanırlar.

Bir başka kullanım alanı olan enerji sektöründe petrol ve gaz endüstrisindeki yapısal verilerden elde edilen çok sayıda verinin bulunması bu süreci tam anlamıyla ön plana çıkarıyor. Veri madenciliği enerji sektöründe birçok önemli bilgilerin yapılarının belirlenmesinden tutun da ileriye dönük planların ortaya çıkarılmasında katkıda bulunuyor. Veri madenciliği bu sektörlerin yanı sıra özellikle son dönemde çok popüler olan veri haberciliğinin yanı sıra telekomünikasyonda, biyolojik verilerin analiz edilmesinde, yapay zekâ çalışmalarında, nanoteknoloji sektöründe, tıp ve sağlık alanlarında, e-ticarette ve daha pek çok alanda çokça kullanılıyor.

0Shares