
Adatelemzés lépesei – Hallgatói beszámoló III. rész
“Cross-Industry Standard Process for Data Mining” modell – Kulcs az adatvezérelt döntéshozáshoz
Olvasási idő: ~ 5 perc
Az adatelemzés és adatvezérelt döntéshozás témakörét vettük át mélyebb részletekbe merülve az AI Strategy & Data-Driven Leadership képzés harmadik kurzusán, melybe Szalai Ferenc, Tóth C. Zoltán, Szatmári Tamás és Byssz Róbert kalauzolt el minket.
Ahogyan gazdaságunk napjainkban egyre inkább válik tudásvezéreltté, fontos szerepük van a nem kézzelfogható erőforrásoknak, így például a tudásnak. A tudás egyik explicit forrása lehet az adatok rendelkezése állása. A rendelkezésre álló vállalati adatvagyon hasonlóan kezelhető. Az adatelemzés lépéseit az ún. “CRISP-DM” modell (Cross-Industry Standard Process for Data Mining), ma már iparági standard folyamat hat ciklusán vezethetjük végig, melyek a következők:
- Szervezeti megértés (ötlet, feltételezés, probléma definiálása)
- Adatmegértés (adattisztítás, adattranszformáció)
- Adatelőkészítés
- Modellezés
- Kiértékelés (hitelesítés, eredmények bemutatása, döntés)
- Alkalmazás
Ezt a folyamatot néhány szóban összefoglalni nem kis feladat, de megpróbálkozom vele.
Tételezzük fel, hogy van egy ötletünk, esetleg egy üzleti problémába ütköztünk, vagy azonosítani akarjuk a potenciális fejlődési területeket a vállalatban, esetleg egy fejlesztési projekt sikerességét szeretnénk tudni. Mindezt célszerű számszerűsíteni, adatokkal alátámasztani.
Adat
Az adatokról már sok mindent tanultunk a képzés során, például hogy üzleti stratégiánk megválasztásánál nem mindegy, hogy mennyi adat áll rendelkezésünkre, ezért megkülönböztetjük a Small Data és a Big Data világát. Tételezzük fel, hogy korán észleltük Big Data “forradalmat” és időben be is kapcsolódtunk, ezért rendelkezünk Big Data-val, tehát nagyon sok adatunk van, mely gyakran érkezik és nagyon változatos.
Hogyan lépjünk tovább, ha már van adatunk?
Tegyük fel, hogy gyűjtött adataink nem homogének (a gyakorlatban legtöbbször ez így van). Ahhoz, hogy ezt felismerjük, elemzésre van szükség. Elemzésre napjainkban a vállalatok már sok esetben külön erre a célra dedikált, speciális tudással és kompetenciákkal felvértezett munkavállalókat alkalmaznak, az adattudósokat (hívhatjuk továbbá Chief Data Officer (CDO)-nak, Data Scientist-nek, Data Engineer-nek, Data Analyst-nak, stb.). Az ő feladatuk továbbá, hogy az adatokat megtisztítsák az esetleges torzításoktól, és adattranszformációval átalakítsák azonos nagyságrendre és használható formára. Ezután következhet az adatok feltárása és a modellezés.
Pareto az adatelemzési folyamatban?
Ennél a ciklusnál megállnék egy pillanatra, ugyanis számomra az újdonság erejével hatott a megismert tény, hogy egy-egy adatvezérelt projekt során is visszaköszön a Pareto- elv: a folyamat teljes munkaigényének körülbelül 20%-ára megy el a folyamat teljes idejének 80%-a.
A gyakorlat
A modell lehetséges gyakorlati alkamazását üzleti esettanulmányok bemutatásán keresztül ismerhettük meg. Megtudtuk, hogyan lehet Big data projektet bevezetni cloud segítségével, mit jelent a komplex problémamegoldás és hogyan jelenik meg a gyakorlatban, valamint ha riportolásról van szó, milyen metrikákat és lehetséges tesztelési, ábrázolási módszereket hívhatunk segítségül: így például a “lag&lead” mérőszámokat, az “A/B” tesztelést, a hőtérkép módszert és a “fake door” tesztelés módszerét.

Tóth Erika Viktória
A cikk szerzőjéről:
Okleveles közgazdász, IT projekt – és folyamatmenedzser, PhD hallgató
2016-ban végzett okleveles közgazdászként vezetés-és szervezés mesterszakon. 2018 óta PhD hallgató, kutatási témája a mesterséges intelligencia és a gépi tanulás hatásának vizsgálata a tudásmenedzsmentre. Az akadémiai szféra mellett már a kezdetektől célja volt részt venni a versenyszférában is, ezáltal gyakorlati tapasztalattal és tacit tudással támogatni az elsajátított elméleti tudását, ezért már korai egyetemi tanulmányai mellett (2012 óta) elkezdett IT üzleti folyamatmenedzsmenttel és IT projektek vezetésével foglalkozni, jelenleg is egy világhírű szoftvergyártónál dolgozik ezen a területen. Elkötelezett a korszerű technológiák megismerésében, a tudásmenedzsment és mesterséges intelligencia üzleti aspektusainak kutatásában, a folyamatoptimalizálásban, valamint a folyamatos fejlődésre és tanulásra való törekvésben.
Kedved támadt az adatok gyűjtéséhez, rendszerezéséhez és értelmezéséhez szükséges adatelemzési tudásodat mélyíteni? Tarts velünk következő kurzusunkon! Jelentkezz most 10%-os kedvezménnyel!