
A Big Data és Machine learning megoldások ma már mindenki számára elérhetőek
Olvasási idő: ~ 7 perc
Henk Zsuzsannát, a Doctusoft Head of Data kollégáját kérdezte intézetünk arról, hogyan épül fel egy machine learning projekt, mik a felhőalapú adatszolgáltatások újításai és az adatvezérelt működésben rejlő lehetőségek. Ha foglalkoztat, hogyan tudják a vállalatok használni az AI és Big Data megoldásokat, illetve hogy milyen adattárolási és adatelemzési lehetőségek érhetők el a piacon, érdemes elolvasnod a Doctusoft, Head of Data szakemberével készített interjúnkat.
Manapság az AI és a machine learning nagyon felkapott fogalmak az IT-ban, de mit is jelenthet ez konkrétan egy vállalat életében? Tudsz mondani egy alkalmazási példát?
Talán az egyik leggyakoribb példa a perszonalizáció, amikor az a cél, hogy egy vállalat személyre szabottan tudjon kapcsolatba lépni az ügyfeleivel. Mi ebben a machine learning? Vegyünk egy e-commerce céget példának. Ekkor a felhasználók múltbeli online viselkedési adataiból kiindulva tudunk következtetni arra, meg tudjuk jósolni, hogy hogyan fog viselkedni a jövőben. Például egy felhasználó kosárba rakott egy adott terméket egy webáruházban, de nem vette meg. Azt látjuk az adatokban, hogy ha egy felhasználó már kosárba helyezte a terméket, ennyire érdeklődött iránta, akkor nagyobb valószínűséggel veszi azt meg, és így érdemes lehet mondjuk küldeni neki egy emailt, hogy az adott termék most akciós. De ugyanígy a perszonalizációról szólnak a különböző ajánlások is, pl. amikor az Amazonon könyv ajánlást kapsz a korábbi vásárlásaid alapján, vagy a Pinteresten a hírfolyamban abban a témában jelennek meg képek, amelyekre korábban kerestél, hogy a Facebookról már ne is beszéljünk.
Mik a főbb elemei szerinted egy Machine Learning megoldásnak egy vállalatnál?
Az első elem, hogy kellenek adatok :). Egy vállalatnak számos adatforrása lehet, pl. felhasználói adatbázis, online és offline felhasználói viselkedési adatok, marketing adatok, értékesítési adatok, termékadatok, stb. Jelenleg az a trend, az iparági best practice, hogy gyűjtsél minél több adatot, és kösd össze a különböző adatforrásaidat, mert így tudsz minél értékesebb nem egyértelmű összefüggéseket, ‘actionable business insightokat’ felfedezni az adatban.
A második fő elem, hogy ezeket a különböző adatforrásokat össze kell kapcsolni egymással, a belőlük származó adatokat ki kell nyerni, valamelyest feldolgozni, transzformálni, és be kell kötni egy adattárolóba.
Ekkor már tök jó, vannak adataid, de most jön még csak a java, hogy mit is szeretnél az adathalmazzal kezdeni.
Itt kezdődik az adatelemzés, a különböző hipotézisek felállítása és tesztelése, statisztikák készítése, machine learning modellek létrehozása, azaz az összefüggések feltárása és felhasználása.
Szerintem itt mindig fontos, hogy olyan összefüggéseket keressünk az adatban, ami alapján majd konkrét üzleti akciót tudunk végrehajtani, tehát ami “actionable” és döntéstámogató, mert az egészet azért csináljunk, hogy az insight alapján aztán majd valamit cselekedjünk, pl. optimalizáljunk egy folyamaton, vagy növeljük a bevételt.
Külön kiemelném még az információk, összefüggések kommunikálásának mikéntjét, mint plusz fontos elem. Szerintem nem elég, ha a data scientist le tud kérdezni valamit az adatbázisból SQL-ben, vagy egy machine learning modellt lefuttatva az eredmények egy CSV fájlban tárolódnak, hanem az üzleti vezetők számára is értelmezhetőek kellenek legyenek ezek az információk. Ezért fontos a vizualizáció.
Szerinted mennyire érhető el könnyedén a cégek számára a Big Data és ML-hez szükséges technológia?
Nagyonis. Manapság már nem csak a nagy cégek engedhetik meg maguknak a nagyméretű adathalamazok tárolására, elemezésére alkalmas kapacitásokat, mint a Facebook vagy a Google, hanem a felhős megoldások a startupok és KKV-k számára is elérhetővé tették ezeket a technológiai feltételeket. A saját adattárolási és számítási kapacitások kiépítése és üzemeltetése helyett igénybevehető a felhő szolgáltatók infrastruktúrája és szolgáltatásai, mégpedig pont olyan mennyiségben, amennyire az adott cégnek szüksége van, és a használat alapú árazás miatt pont olyan költségráfordítással, amennyit a szolgáltatásból az adott cég ténylegesen igénybe vett. Ez megoldja a méretgazdaságosság, a tőkeintenzív beruházás, és adott esetben még a szaktudás igény egy részének problematikáját is. Ráadásul mivel a felhő szolgáltatóknál viszont nagyon is érvényesül a méretgazdaságosság, nem is rossz árakat kínálnak. Nem véletlenül alakult ki az előbb említett trend sem, miszerint gyűjts össze annyi adatot, amennyit tudsz, manapság az adat tárolása relatíve olcsó.
De nem csak az árról van itt szó. Ahhoz, hogy hatékony Big Data és ML megoldásaink legyenek, nem szívesen várunk egy lekérdezés eredményre órákat. A manapság már rendelkezésre álló technológiai megoldások ezt a kérdést is megoldották, másodperces, perces lekérdezési idők érhetőek el tera- és petabythos adatmennyiség esetén is.
További fontos dolog, hogy az infrastruktúra mellett sok magas szintű adatelemző és machine learning szolgáltatás is rendelkezésre áll, nem kell minden nulláról kitalálni. Ezen belül is több fokozat van, de hogy mondjak egy példát a Google kötődésű technológiák világából: tegyük fel, hogy képfelismerésre van szükséged. Választhatod azt az utat, hogy létrehozol, programozol, betanítasz egy saját machine learning modellt. Egy magasabb szintű fokozat, hogy az ún. Cloud AutoML szolgáltatásnak beküldöd a tanulóadatodat, és ez alapján a szolgáltatás betanítja és létrehozza neked az egyedi machine learning modelled. Egy ennél is magasabb szintű verzió, ha a Cloud Vision API-t használod, ekkor még csak a modell létrehozásához szükséges tanulóadatot sem neked kell szolgáltatnod, egyszerűen beküldöd az API-nak az osztályozásra váró képet, és az megmondja, mi van rajta (persze csak ha az adott témára van modellje).
Tapasztalataid szerint, azok a cégek, akik adatvezérelt működésre akarnak áttértni, melyik fázisban szoktak elakadni?
Nagyon változó. Van aki még az adatokat sem gyűjti, csak megfogalmazódott már benne, hogy nagy potenciál rejlene benne, és szeretne tanulni, megérteni a kérdéskört. Van akinek meg már kész adatmodelljei vannak, de szeretne még jobb vagy más adatfelhasználási use case-eket megvalósítani. Itt a fontos dolog szerintem, hogy akármilyen fázisban is van egy cég, nem szabad félni attól, hogy akkor most bele kell vágni egy hatalmas projektbe, ami évekig fog húzódni, mire egyáltalán kiderül, hogy tényleg megvalósítható-e és megtérül-e a megoldás. Mivel ahogy korábban mondtam manapság ez már nem egy beruházásigényes dolog, kicsiben, kis proof of concpet megoldásokkal is el lehet indulni, és így jelentősen csökken a rizikó.
A Doctusoft is bemutat egy esettanulmányt a AI Strategy & Data-driven Leadership Képzésünkön. Mit gondolsz, kiknek lehet érdekes a program?
Ez a képzés szerintem ahhoz nyújtana nagy segítséget, hogy megismerjék az emberek, hogy az adatvezérelt mindset, az automatizáció, az adatvizualizácó fogalma átfogóan mit takar a gyakorlatban, hogy hogyan épülnek fel konkrétan ilyen projektek, milyen technológiák és trendek vannak ebben a témakörben, és hogy mindezt hogy tudná alkalmazni a hallgató az ő konkrét esetében.