CRISP-DM nedir?

Evren Arslan
3 min readJan 11, 2020

--

CRISP-DM metodolojisi, çok çeşitli iş uygulamaları ve endüstrilerde veri madenciliğinin kullanımını artırmayı ve doğru sonuçları elde etmeyi amaçlayan bir süreçtir. CRISP-DM, veri madenciliği projelerinde başarılı bir sonuç elde etmek için altı adımdan oluşan bir süreçtir.

CRISDM image — https://commons.wikimedia.org/wiki/File:CRISP-DM_Process_Diagram.png
CRISP-DM Şeması — https://commons.wikimedia.org/wiki/File:CRISP-DM_Process_Diagram.png

Business Understanding : Veri madenciliği projelerindeki en önemli aşama bu aşamadır, çünkü projenin amacı bu adımda tanımlanır. Bu adımdaki zorluk, proje paydaşlarının birbiriyle ilişkili konulardaki bilgilerinin farklı olması, proje ile ilgili önyargıları ve yöntemleri olmasıdır. Tüm paydaşlar aynı konuyu aynı şekilde göremezler bu nedenle farklı yorumlar sizin için temel meseleyi anlamak ile ilgili zorlayabilir. Bu sebeple projenin ana hedefinin ne olduğunu tüm proje paydaşlarıyla görüşüp akabinde proje sponsoru ile el sıkışarak doğru bir şekilde belirlemek için gerekli tüm eforu göstermelisiniz. Eğer bunu doğru bir şekilde yapamazsanız tüm eforunuz boşa gidecektir.

Data Understanding : Eğer ki business understanding adımında herşey yolunda gider ise tespit edilen hedefe uygun verilerin toplanması işlemi bu adımda yapılır. Projenin ne istediğini ve ihtiyaçlarının anlaşılması, hangi verilerin toplanacağını, hangi kaynaklardan ve hangi yöntemlerle toplanacağını belirleyecektir. Dolayısı ile bu adımda hedefe yönelik tüm verinin toplanmasının tamamlanması gerekecektir.

Data Preparation : Veriler toplandıktan sonra, daha fazla veriye ihtiyaç olmadığı belirlenmedikçe kullanılabilir bir alt kümeye dönüştürülmelidir. Dolayısı ile bir veri kümesi seçildikten sonra, şüpheli, eksik veya belirsiz durumlar için kontrol edilmelidir. Kontrol sürecinde bir problem tespit edilirse bir sonraki adıma geçmeden önce bu problem giderilmelidir.

Modeling : Veriler üzerindeki problemler giderildikten sonra veri setleri üzerinden hedefe yönelik modeller oluşturulması bu adımda yapılır. Amaç veri seti üzerinden anlamlı ve yeni bilgiler veren modeller oluşturulmaktır. Aslında veri madenciliğinin temel amacı da budur: anlamı ve faydası olan yeni bilgilerin var olan veriden oluşturmak. Model oluşturma adımı veri içindeki ilgi çekici özellikleri ve örüntüleri ortaya çıkarır. Modeller verilerin bir kısmı üzerinde seçilir ve gerekirse var olan alanlar üzerinden hesaplamalar ile yeni alanlar yaratılır. Model seçimi bir tarafı ile sanat diğer tarafı ile bilimdir.

Evaluation : Bir önceki adımda seçilen model mutlaka test edilmelidir. Bunun için önceden tespit edilmiş test senaryolarına ihtiyaç duyulur. Dolayısı ile ilk adımda belirlenmiş olan hedefe uygun olarak yazılmış test senaryoları üzerinden seçilmiş olan model bu adımda test edilir. Bu sayede yeni veriler üzerinden seçilmiş bu modelin işe yarayıp yaramayacağı anlaşılacaktır. Eğer ki bu adımda veriler üzerinden yapılan testlerin sonucu istenileni vermiyor ise business understanding adımına geri dönülür.

Deployment : Bu adımda, model, veri kümesinin kapsamı dışındaki yeni verilerde ve yeni paydaşlar tarafından kullanılır. Bu aşamadaki yeni etkileşimler, veri kümesi ve modeli için yeni değişkenleri ve ihtiyaçları ortaya çıkarabilir. Bu sebeple en başta belirlenmiş olan iş ihtiyaçlarında değişiklik ihtiyacı ortaya çıkabilir ve süreç değişiklik ihtiyaçları sebebi ile yeniden başlayabilir.

CRISP-DM oldukça esnek ve döngüsel bir modeldir. Modelin bu özelliği her adımda bir önceki adıma tekrar dönmeyi ve değişiklik yapmayı gerekli kılabilir. Unutulmaması gereken şey ilk adımdaki iş ihtiyacını karşılamaktır. Zaman zaman iş birimlerinin hatta proje sponsorunun iş ihtiyacını eksik tanımlaması durumu ile karşılabilirsiniz. Bu durumda vazgeçmeden adımları en baştan başlatarak adım adım ilerlemektir. Proje tamamlandıktan sonra deployment adımında kullanıcıların farklı talepleri olabilir. Bu tarz durumlarda döngüsel çerçeveyi ihmal etmez iseniz başarıya ulaşacaksınız.

Kolay gelsin…

--

--