„A tájékozottságnak létrejöhet egy olyan szintje is, amikor az emberek adatok alapján vannak tájékoztatva és nem vélemények mentén.”

Seres Szilvia beszélgetése Nagy-Rácz István data scientist-tel, a Dmlab alapítójával, egyik operatív vezetőjével.

Korán kezdtél el programozással foglalkozni?

Nem tudom elmondani magamról, hogy olyan informatikus vagyok, aki korán elkezdett programozni, bár a korosztályomból sokan foglalkoztak vele. Műszaki informatikusként – ma már mérnökinformatikusnak hívják – végeztem a Budapesti Műszaki és Gazdaságtudományi Egyetemen (BME) 2007-ben. Itt találkoztam először komolyabban programozással, annak minden előnyével és leginkább hátrányával együtt. Erős voltam matekból és fizikából, így kötöttem ki a BME-n, de nagyon nem szerettem eleinte a választott szakomat. Mivel nem volt közelebbi kapcsolatom előtte ez informatikával, ezért elég sokat szenvedtem az elején, ami abban csúcsosodott ki, hogy három évig azt szerveztem és terveztem, hogy hogyan „pattanjak” meg a szakról.

Sikerült?

Maradtam, ugyanis rátaláltam a második évem végén egy szakmérnöki képzésre, amit graduálisan is el lehetett végezni. Ezen a képzésen – ami nem is a Villamosmérnöki Karon volt – bankinformatikai szakmérnököket képeztek. Dr. Kiss Ferenc akkor még a Gazdaság- és Társadalomtudományi Karon tanított, és ez az ő képzése volt. Itt találkoztam először adatelemezéssel, ami azonnal megfertőzött. Ezzel a képzéssel értem révbe, mert olyan dolgot találtam, aminek köze volt az informatikához, de az üzleti dolgokhoz is. Beleszerettem a tudományterületbe és mivel a saját szakomon is diplomázni szerettem volna, ezért kerestem olyan valakit, aki ott ezzel foglalkozott. Így találkoztam össze Gáspár Csabával, aki a konzulensem lett. Egy évvel járt előttem a tématerületben, mert ő is akkor választotta ki magának.

Annyira jól sikerült a diplomázás és a koprodukció, hogy a diploma után először az egyetemen belül alakítottunk egy kutató csoportot, amit szintén Dmlab-nek hívtak.   2007-ben elkezdtem a doktorimat is a BME-n, de soha nem fejeztem be. Három alapítója volt az ős Dmlab-nek. A harmadik alapító az alapítás után rövid idővel kiment egy MSc programot megcsinálni Amerikába, ami annyira jól sikerült, hogy kint is ragadt. Prekopcsák Zoltán volt a negyedik ember utánunk a sorban, aki csatlakozott, az ő gyökerei is ide nyúlnak vissza. Zoli a Radoop-nak volt a vezetője, amit a RapidMiner vásárolt fel. Egyetemi projektként indult, amiből egy belsős Dmlab projekt lett, amit inkubáltunk. A másik, későbbi technológiai spin-offunk az enbrite.ly nevű startup, ami reklám csalások felderítésére szakosodott. Itt egy olyan terméket fejlesztettünk, amely a weboldalakon lévő felhasználók viselkedésének elemzésével kiszúrja a robotokat és a gyanús forgalmat, és így az egész online reklámpiacot ellenőrizhetőbbé és átláthatóbbá teszi.

Gáspár Csaba és Nagy-Rácz István, Dmlab

Mivel foglalkoztatok a Dmlab-ben az indulásakor?

Csináltuk a doktorinkat, kutattunk, publikáltunk, egyetemistákat oktattunk a területre, amiben kevés tapasztalattal rendelkeztünk, de nagyon hamar elkezdtünk ipari projekteken is dolgozni. Ez oda csúcsosodott ki, hogy idővel azt vettük észre, hogy már semmi egyetemi dolgot nem csinálunk azonkívül, hogy időt szánunk arra a fura hobbinkra, hogy oktatjuk az embereket, ami mindig is közel állt a szívünkhöz. Emiatt úgy döntöttünk, hogy óraadó tanárként maradunk – bent hagyjuk a lábunkat az egyetemen – de teljesen elhagytuk az akadémiai szférát 2010-ben. A Dmlab-ot onnantól kezdve céges formában éltük meg, és ezt is kommunikáltuk róla.  Tulajdonképpen ettől tudott azzá válni, ami mára lett.

Milyen volt az adatos hőskor?

Úgy interpretáljuk, hogy már a hőskor után érkeztünk erre a területre. Magyarországra a 90-es évek elején hamar berobbant az üzleti intelligencia kifejezés. Nagyon sok cég volt, aki ezzel foglalkozott. Ez tipikusan azt jelentette, hogy a Magyarországon lévő, az anyavállalatukat valamilyen Nyugat-Európai országban bíró bankok adattárházakat építettek ezekkel a cégekkel. Összecsatornázták mindenféle rendszerekből az adatokat, ellátták üzleti jelentéssel és riportokat definiáltak. Azok a cégek, akik a hőskorban foglalkoztak az adatos történettel ebbe az üzleti intelligencia időszakba érkeztek bele. Mi ennek a végén, 2007-ben jöttünk. A Covid után talán már nehezen emlékszünk rá, de 2007-2008-ban volt egy elég jelentős világesemény, egy gazdasági válság, ami a cégek egy részét padlóra küldte. Az üzleti intelligenciával foglalkozó cégek nagy része is eltűnt, aminek nem csak a világválság volt az oka, hanem az, hogy azok a szereplők, akik ezeket a cégeket megbízták – nagy telkócégek, bankok és biztosítók  –  már annyira előre jártak ezen a területen hogy felépítették – vagy legalábbis azt gondolták – a belső kompetenciát a területen, és kvázi nem jutott projekt az outsource-olt cégeknek.

Mi túléltük, ami annak köszönhető, hogy ennek az egész adatos történetnek a „tetején ülünk” abból a szempontból, hogy nagyon távol vagyunk az adatok operatív részétől. Az adatok legoperatívabb része az tényleg az adattárházas világ, hogy gyűjtsük össze az adatokat és ezekből csináljunk különböző riportokat. Nyilván rengeteg projekt van Magyarországon a mai napig, ami ezzel foglalkozik, nagyon sok egyébként nevében adatos vagy data scientist cég bevételének nagy része innen származik. Mi viszont mindig is azzal foglalkoztunk, hogy ezeknek az adatoknak a kiaknázása hogyan történjen meg, azon belül is ez a prediktív analitika, gépi tanulás, manapság mesterséges intelligenciának nevezett terület. De amíg ide elérkeztünk addig nagyon sok időnk telt el azzal, hogy tanítsuk a piacot, hogy miért jó az adataik alapján döntéseket hozni. Ez egy sokkal szűkebb terület, ami látszódik a csapatunk méretünkből, az árbevételünkből, vagy a projektjeink számából is.

Milyen projektjeitek voltak? Kik voltak az első ügyfeleitek?

Az egyik első, amire emlékszem 2007-ben egy Malév projekt volt. Ma már a cég sem létezik. Azt elemeztük, hogy hogyan vesznek repülőjegyet az online felhasználóik. Ez az az időszak volt, amikor még nem volt Google Analytics, az az nem lehetett bekötni egy tracking kódot az oldalba, és azon keresztül könnyen megnézni, hogy mi történik rajta. Emlékszem, hogy csináltunk ilyen projektet egy nagy utazási irodának is. Ez a maihoz képest még egy teljesen más világ volt, nem volt még annyira digitális, mint a mostani. Ma a Skyscanner, az Airbnb világában már megmosolyogni való, hogy ilyen projektek voltak, de ez nem csak Magyarországon volt így. A Malév annak idején ezzel a feladattal úttörőnek számított.

Az ügyfeleink jelentős része induláskor azokból a cégekből tevődött össze, akik a pénzügyi szektorban vagy a telkóiparban voltak benne, mert ez az egész adatos történet náluk indult el. Ott volt először nagy mennyiségű digitális adat az ügyfelekről. Klasszikus projektek voltak, amiket számukra csináltunk olyan üzleti problémákra fókuszálva, mint például, hogy mikor morzsolódik le az ügyfél? Mennyi az értéke? Mikor kell neki eladni egy következő terméket?

Ezek az üzleti problémák hívták  nagyon gyorsan életre az adatelemzést. Kvázi egy digitális forradalom is végbement a szemünk előtt, amiben felnőttek és nagyra nőttek olyan cégek mint a Google, a Facebook, vagy az Airbnb, akik óriási adatmennyiségen ülnek, és azért lettek nagyon sikeresek, mert korán rájöttek arra, hogy az adataikat hogyan tudják felhasználni. Ha ma 2020-ban ránézek arra, hogy milyen ügyfeleink vannak, akkor ma már az olajipartól, a logisztikáig, a média világától, a gyógyszergyártáson át az építőiparig mindenhonnan vannak.

Nagy-Rácz István

Mennyire konkrétak a megkereséseitek? Mekkora szabadságotok van egy-egy projektben?

Nagy szabadságfokunk van a projektjeinkben és manapság már sokkal jellemzőbb, hogy a megkereséseink annyival konkrétabbak, hogy valamilyen üzleti probléma kapcsán találnak meg minket leggyakrabban. Vegyük a logisztikát vagy a szállítmányozást. Dolgoztunk korábban a DPD csomagküldő cég francia központjával. Rengeteg adatot gyűjtenek arról, hogy merre járnak a csomagszállítóik és szerettek volna ezekkel valamit kezdeni, de nem tudták, hogy mit. Ez a Big Data hype hajnalán volt, amikor elkezdtek hinni abban, hogy ők felülhetnek a hullámra, de nem tudták, hogy hogyan kezdjenek neki. Odaadták az adatokat, és azt kérték, hogy mondjuk meg, hogy ezekből mit lehet kihozni. Ennek a projektnek a végét úgy kell elképzelni, hogy amikor visszamentünk hozzájuk 28 darab üzleti ötlettel, hogy ezekkel lehetne valamit kezdeni, akkor volt belőle 4, amibe olyannyira szerelmesek lettek, hogy azokon el is kezdtünk dolgozni.

Mondok az iparágból egy másik példát is. Dolgoztunk együtt a Waberers-sel, akit egy konkrét üzleti probléma érdekelt. Az volt a kérdésük, hogy hogyan lehetne a szállítmányozási költségüket csökkenteni, hogyan lehetne, hogy kevesebb üzemanyagot fogyasszanak a kamionsofőrjeik. Építettünk nekik egy olyan rendszert, ami sofőr szinten megmondta, hogy az adott sofőr, adott útvonalon, adott szállítmányt víve, mi az, amit elrontott, hogyan fogyaszthatott volna kevesebbet. Itt nem az volt, hogy kezdjünk valamit az adatokkal, hanem egy konkrét üzleti problémát mondtak el, amit az adataikkal megoldottunk teljesen szabadon. A végén az érdekelte csak őket, hogy a megoldás stabil legyen, elég pontosan mondja meg, hogy mennyi üzemanyagot használnak el a sofőrök, és üzleti szempontból adjon jól kiértékelhető megoldást.

Nagy-Rácz István

Mennyire vagytok proaktívak a területen?

Jellemző, hogy 80%-ban reaktívak vagyunk és 20%-ban proaktívak. Minden projektünk egy zöldmezős beruházás, amit a 0-ról építünk fel. Akkor építjük meg  először és annak a szereplőnek, aki megvette. Mivel a cégek megtalálnak minket az üzleti problémáikkal, ezért nagyon kicsi az a láb, amikor kvázi proaktívan sales-elünk és azt mondjuk, hogy ok megcsináltuk a Wabereres-nek, akkor az összes logisztikai céget megkeressük ezzel az ötlettel és náluk is házalunk. Ennek az is az oka, hogy ezek az adatos megoldások, bár mondhatjuk, hogy dobozosíthatóak, igazából mégsem azok.

A megoldás ugyanis dobozosítható, az az el lehetne adni másik cégnek, de ezeknek a megoldásoknak a hatékonysága nem a metodikán múlik, hanem az adatokon. Ha egy cégnek nincsenek jó adatai, akkor a megoldás nem lesz jó, és az is biztos, hogy teljesen más formátumú lesz az adat, mint amit a versenytársak használnak. Ezért mindegyik projekt – még ha ugyanazt az üzleti problémát is célozza – nagyban eltér.

Volt azonban egy-két iparág a múltban, amiben proaktívak voltunk. Az egyik ilyen a logisztika volt. Nagyon hamar elkezdtünk foglalkozni ezzel a területtel és gyorsan találtunk olyan üzleti problémákat, amelyeket megtudtunk oldani adat alapon.  Ez a proaktív sales tevékenység ezen a területen jól is működött, sok projektet tudtunk csinálni. A másik ilyen terület, amit betámadtunk – de ott nem voltunk ennyire sikeresek – az az energiaipar volt. Azért kezdtünk el ezzel foglalkozni, mert van egy nagyon régre visszanyúló furcsa hobbink, ami onnan ered, hogy tevékenységünk hajnalán nagyon sokat vettünk részt adatbányász versenyeken. Nagyon hamar kialakult annak a hagyománya, hogy nemzetközi versenyeket szervezzenek. Régebben ezeket tudományos konferenciákhoz kapcsolták, de később létrejöttek olyan online platformok, amelyek csak azzal foglalkoznak, hogy ilyen versenyeket szervezzenek. Sokszor voltunk a nemzetközi mezőnyben az első öt között, de volt sok első három helyezésünk is.

Rengeteg energetikai szektorból származó adatbányászati versenyen indultunk.  Olyan feladataink voltak, mint például jelezzük előre, hogy egy szélerőmű farm mennyi áramot fog termelni  az alapján, hogy az időjárás hogyan fog alakulni, vagy a napenergia hogyan fog alakulni. Ezeken a versenyeken nagyon jó helyezést értünk el és rájöttünk arra, hogy ebben abszolút van üzleti potenciál is, ezért elkezdtünk proaktívan sales-elni, mert azt gondoltuk, hogy itt még bőven a Vadnyugat előtt betudunk szállni. Azonban az derült ki, hogy ez a Vadnyugatos időszak még húzódik, igazából most kezdenek egy-két éve belépni  az adatos területre a nagy energetikai cégek, annak ellenére, hogy iszonyat mennyiségű adaton ülnek még a legkisebbek is. Operatív szinten dolgoznak ugyan az adatokkal, óriási potenciál van benne, de a terület berobbanása még várat magára, bár van pár magyar szereplő is, például az Alteo Csoport, akik az élen járnak. A vezetés is hisz az adatvezéreltségben és van egy erős belső kompetencia is, amire tudnak építeni. Mi olyan területeken voltunk proaktívak, ahol azt láttuk, hogy még nagyon az elején tartunk és szerettünk volna az elsők lenni. Voltak sikeres és kevésbé sikeres próbálkozásaink, de a Dmlab-ra az a jellemző, hogy minket megtalálnak az ügyfelek.

Nagy-Rácz István

Állami projektjeitek is vannak?

Vannak, de azt látom, hogy még nagyon az elején tartanak a történetnek. Egy-két éves távlatban előre és visszatekintve is azt gondolom, hogy itt óriási változások zajlanak. Szerintem most kezdenek rájönni az állami vezetők arra, hogy az adatokban óriási potenciál van, aminek nagyon sok aspektusa van. Azzal együtt, hogy rájöttek arra, hogy ezekkel az adatokkal lehet valamit kezdeni, az is kiderült, hogy a másik oldalon ezeknek az adatoknak nagyon nagy része nem Magyarországon tárolódik, és nem is feltétlenül magyar cég a tulajdonosuk.

Mondok egy aktuális példát. Itt voltunk a Covid-járványhelyzetben, amikor viszonylag gyorsan felvetette valaki, hogy az emberek mozgását nagyon jól lehetne modellezni mobilcella információk alapján. Voltak olyan csapatok, akik dolgoztak is ilyen adatokon és segítették az operatív törzset is. Viszont nagyon gyorsan rájöttek a magyar államigazgatásban arra, hogy ezeknek az adatoknak a nagy része nem Magyarországon van, sőt nem is egy magyar szereplő birtokolja őket.

Gondoljunk csak bele, hogy az iskolák megpróbáltak átállni a digitális oktatásra. Milyen platformokon történt mindez? Microsoft Teams, Zoom, Google Classroom, stb. Arról, hogy mit csináltak a diákok és a tanárok a digitális oktatás alatt, arról csak Magyarországon nincsen adat. Van ugyan törekvés erre a Köznevelési Elektronikus Ügyintézési Rendszerrel (KRÉTA), vagy a Neptun-nal, az az vannak Magyarországon is adatok, de az első adandó alkalommal, amikor elkezdtünk menni az oktatásban a digitalizáció irányába, akkor a létrejött adatok nem nálunk keletkeztek. Arról, hogy a Műegyetemen hogyan folyt az oktatás többet tud a Microsoft Redmondban, mint amennyit tud az Oktatási Hivatal vagy az adott minisztérium.

Látok törekvést arra, hogy Magyarországon megpróbálnak nagy adatgyűjtő gócpontokat kialakítani és minél több adatot becsatornázni  ezekbe az államigazgatásban. Például innovatív példa, amit a NAV csinál. Az online pénztárgépek, az online számlák 2020. július 1-től azt mutatják, hogy a NAV rájött arra, hogy ezeknek az adatoknak az elemzésével sokkal hatékonyabban tudja végezni a munkáját. Óriási adatmennyiségről beszélünk, és nem gondolom, hogy mindenféle kompetenciával – legyen az technikai vagy humán – rendelkezik a NAV, hogy ezeket az adatokat kiaknázza, de látszódik, hogy ebbe az irányba van mozgolódás. Látom még az adatgyűjtési oldalon azt is, hogy minden vezéreltségi történet azzal kezdődik, hogy az adat pazarlóból valahogy adatgyűjtögetővé válik valaki, majd adatvezéreltté. Azt gondolom, hogy Magyarországon ebben az adatgyűjtőgető fázisban van jelenleg a közigazgatás.

Dmlab

Említetted korábban az adatgazdák szerepét, illetve hogy rengeteg adat bár itt képződik, mégsem Magyarországon van. Léteznek modellek az adatkezelésre vonatkozóan?

A világon három nagy iskola, modell ütközik össze, attól függően, hogy melyik országról és kontinensről beszélünk. Észak-Amerikában úgy tekintenek az adatra, hogy az a cégekké. Az, hogy egy Facebook, egy Google Amerikában nőtt nagyra annak nem csak az az oka, hogy nagyon okosak az amerikai mérnökök, hanem az is, hogy ott sokkal rugalmasabb környezete van az emberekről gyűjtött adatok felhasználásának. Ennek az a mentalitás is az alapja, hogy a cégek arra használják az adatokat, hogy jobbá tegyék a működésüket.  Amikor Donald Trump-ot amerikai elnökké választották, akkor az első törvény csomagjában volt egy olyan törvény is, ami arra adott engedélyt a telkócégeknek, hogy a felhasználóik  internetes viselkedését kvázi áruba bocsássák. Mit is jelent ez valójában? Attól félünk 2020-ban mindenhol a világon, hogy a Facebook és a Google mennyi mindent tud rólunk. Miközben ennél többet csak az internet szolgáltatónk tud rólunk, például, hogy én mit nézek a mobilnetemen vagy az otthoni netemen azt a Telekom pontosan tudja rólam. Azzal, hogy ezeket az adatokat áruvá tették Amerikában, már tényleg mindent el lehet mondani az egyénről. A javaslat mindenféle tüntetés, ellenzés, felháborodás nélkül ment át a döntéshozókon.

A másik oldalon van Kína és barátai a klubban, akik azt gondolják, hogy az adat az államé. Az a scoring rendszer, társadalmi kreditrendszer, amit Kína működtet és amivel az állampolgárait próbálja minősíteni, az abból adódik, hogy rengeteg adatot birtokol róluk. Ezt segíti továbbá, hogy Kínában nagyon sok technológiai cég állami tulajdonban is van.

A harmadik modell ránk jellemző itt az Európában, hogy megpróbáljuk az önrendelkezés jogát minél közelebb tartani a felhasználóhoz. A GDPR rendelet ennek a legutóbbi törekvése, hogy próbáljuk meg az adatok feletti rendelkezés jogát a cégek és az állam helyett minél közelebb tudni az egyénhez.

Hogy néz ki a Dmlab csapata jelenleg?

12-en vagyunk, időben mindig 5 és 25 között mozgott a csapat létszáma. Amikor Gáspár Csabával ketten maradtunk tulajdonosok, akkor deklaráltuk, hogy nem akarunk nagy csapatot építeni. Mivel egy nagyon szűk területen mozgunk, erre nincs is nagy esélyünk. A prediktív analitika egy ekkora csapatot tud eltartani. Van köztünk BME-n végzett mérnök-infós, vagy BME-n végzett fizikus, illetve van más szakon végzett informatikus és létezik a támogatói oldal (sales, marketing, üzletfejlesztés). Az a tapasztalatunk, hogy adatelemző három irányból lehet az ember: mérnök vonalról, ami ritka, de mi ehhez a forráshoz nagyon közel vagyunk, közgazdász vonalról, hiszen valamilyen üzleti oldalról érkezik, vagy pedig természettudományi területről, ami fura módon nagyon sokszor fizikust jelent és nem matematikust.  Nálunk amiatt vannak az informatikusok túlnyomó többségben, hogy a projektek nagy része kvázi szoftverfejlesztési projekt, aminek a mélyén lehet, hogy adatelemzés van, de nekünk a végén egy szoftver terméket kell leszállítanunk, amit valakinek meg kell írnia.

Dmlab

A BME-s oktatásotok révén kvázi a tehetséges hallgatókat is eléritek a cég számára?

Olyan tárgyakat oktatunk az egyetemen ami a szakterületünkhöz kapcsolódik, az az nem alapszakos hallgatókat tanítunk. A tárgyainkat akkor veszi fel egy hallgató, ha érdeklődik a téma iránt kvázi proaktívan. Mivel látjuk, hogy kik azok, akik tehetségesek, ezért nagyon jó a lehetőségünk van arra, hogy a tehetséges, fiatalokat becsatornázzuk a Dmlab-ba és kineveljük őket. A csapatunkban sok az emiatt az egyetemi kapcsolódás. Ma már nagyon sokat oktatunk Dmlab-en belül is, illetve sok olyan oktatásunk van, amikor egyedi tematika alapján csapatokat képzünk, és sokszor oktatunk kvázi más parterekkel együtt is. Például a Kürt Akadémia Data scientist képzése az egyik legrégebbi data scientist képzés Magyarországon, aminek a szakmai képzés vezetője vagyok, és aminek a képzési csomagját is mi raktuk össze. Szeretjük a szakmát, az oktatást, de a szervezést körülötte nem, jobban is csinálják mások, ezért ezt másra bízzuk.

Nagy-Rácz István

Van szerelem projekted?

Az olyan projektek állnak legközelebb a szívünkhöz, aminek nagy a hatása. Az nagyon jó, ha azt láthatjuk, hogy amit csináltunk, az valamilyen módon megváltoztatta a világot, a céget, vagy a cégen belül egy csapat életét. Mondok egy példát. A MOL-t az érdekelte, hogy az olajfinomítás során fellépő furcsa jelenségnek, a kokszrobbanásnak mi az oka. Nagyon sok adatot gyűjtenek az olajfinomítás során. Nem értettünk az olajiparhoz, de rá tudtunk mutatni azokra az összefüggésekre, amelyekből az ott dolgozó szakértőkkel ki tudtuk azt találni közösen, hogy mi az oka ezeknek a robbanásoknak, amivel 10%-ra tudták csökkenteni ezeket. Nem szállítottunk le egy rendszert, ami azóta is ott működik, hanem megkaptuk az adatokat, megtaláltuk az összefüggéseket, és kitaláltuk közösen a MOL szakembereivel a megoldást. Ez abból a szempontból egy kedves projekt nekünk, hogy elég nagy a hatása. A másik véglet, amikor az általunk elkészített rendszert látjuk nap mint nap használatban. Most fejeztünk be egy nagy ingatlanforgalmazó cégnek egy olyan rendszerfejlesztését, ahol az értékbecslést automatizálták. Egy olyan megoldást építettünk nekik, ami az ingatlan tulajdonságai alapján megbecsli az adott tulajdon értékét, amivel a humán munkát lehet csökkenteni, illetve optimalizálni. Ha lenne szerelem projektünk, akkor arra az jellemző lenne, hogy jól visszamérhető hatása volt az adott cég életére.

A MOL projektnél volt közös nyelv? Tudtatok az adatok nyelvén beszélni?

Nem volt könnyű a kommunikáció. Van is rá egy fura mondásunk, ami 2018 óta már nem csak a mi mondásunk. Nagyon sokáig azt vallottuk, hogy a cégek azért nem használják ki az adataikat, mert hiányzik náluk egy szereplő. Ezt a szereplőt mi „hídember”-nek neveztük el a saját szakzsargonunkban. Ez egy olyan típusú ember, aki nagyon érti azt a domaint, amiben a cége működik, legyen az olajipar, média, logisztika, stb., de emellett ahhoz is ért, hogy az adatokat hogyan lehet felhasználni. Ha azt mondom neki, hogy egy prediktív megoldást fogok építeni, akkor el tudja helyezni a fejében azt, hogy ez mit is jelent, nem keveri össze a kristálygömbbel, nem gondolja azt, hogy ez egy doboz, amit bedug a konnektorba és pénzt nyomtat a végén, hanem tudunk vele az adatok nyelvén beszélni. Illetve ami még nagyon fontos, hogy ha odaviszek neki egy adatelemzési eredményt mint data scientist, akkor azt üzleti szempontból is tudja értékelni.

2018-ban a McKinsey csinált egy óriási felmérést, ahol azt nézték meg, hogy a cégek hogyan állnak az adatvezéreltségben. A felmérés vége az lett, hogy azt mondták, hogy az a cég, aki nem áll jól, az azért nem áll jól, mert hiányzik egy olyan szereplő, akit ők translater-nek hívnak, az az egy olyan fordító aki összetudja kötni az üzleti oldalt az adatos oldallal. Mi is azért hajtogatjuk nagyon régóta ezt, mert az a tapasztalatunk, hogy amikor oda megyünk egy céghez, akkor ott olyan emberek dolgoznak, akik az üzletet nagyon jól értik  –  nyilván ezért is vannak ott – de nagy valószínűséggel nem értenek az adatokhoz. Van egy-két ember, aki megfertőzödött innen-onnan, de még ők sem feltétlenül értenek az adatokhoz Ezért a velünk való munka egy olyan koprodukció, ahol ha megkapjuk az adataikat és hozunk 100 összefüggést, amiből 50-re azt fogják mondani, hogy ez trivialitás, eddig is tudtuk. Én azért nem tudom, mert nem értek az üzletükhöz, de hozzá szoktam tenni mindig az ügyfeleknek, hogy értem, hogy ezt evidenciaként kezelitek, de nézzetek rá úgy, hogy most alátámasztottam adatokkal, mert ez idáig csak egy vélemény volt, amiben erősen hittetek, de most megerősítettem. A maradék 20-30 olyan szokott lenni, amit kétségbe vonnak. Lehet, hogy az adatokban ez van, de a valóság nem így működik. A maradék 10-20 % az olyan dolog, amire felvonják a szemöldöküket, amin elkezdünk közösen gondolkodni, hogy az miért van az adataikban, és az mit jelenthet az ő nyelvükön. Szeretem elmondani ezt mindig előre, mert elébe szaladok annak, hogy ez pazarlásnak tűnjön, mert erre nem így kell tekinteni. Nagyon sokszor azt kapjuk vissza az ügyfeleinktől, hogy out of the box tudunk rátekinteni a problémára és az a 10 dolog azért lesz a végén nagyon érdekes, mert nekik az biztos, hogy soha az életben eszükbe se jutott volna. Mivel nekünk nincs kapcsolatunk a területtel nem vezetnek meg minket intuíciók, azok a dolgok, amiket az iparágban több éve-évtizede dolgozók már tudnak.

Nagy-Rácz István

Hogyan lehet valaki hídember”?

Ha nagyon didaktikus vagyok, akkor egy data scientist-et, adathoz értő embert látunk el a domain tudással, vagy fordítva. Az a tapasztalatom, hogy az utóbbi sokkal egyszerűbb. A data scientist-ek nagy része az pontosan olyan, amilyen én is vagyok a csapatban, az az a tudását nem domain specifikusan szerezte. Nincs olyan, hogy mondjuk vannak domain szakértő data scientist-ek, akik mondjuk a logisztikában nagyon jók lennének, mert erre esélyük sincs az embereknek. Ez annyira fiatal tudományterület és szakma, hogy nem tudtak még vertikumok kialakulni benne.

A másik irány ha egy domain tudással rendelkező embert vértezünk fel jól  adatos szemlélettel. A Kürt Akadémia data scientist képzésén az első alkalommal elmondom a résztvevőknek és a jelentkezők nagy részének, akikkel kapcsolatba kerülök még a felvételi előtt, hogy ennek a képzésnek nem az a célja, hogy ő valamiből data scientist-té váljon, hanem, hogy ő a valamiből adatos valamivé váljon, igazából ezeket a „hídembereket” is képezzük. Azt gondolom, hogy ma sokkal több fordítóra lenne szükség nagyságrendileg, mint data scientist-re. Egy üzleti probléma megoldása adatosan nagyon nagyon pici részben data scientist feladat, ez informatikai, szervezési, folyamat optimalizálási és nagyrészt üzleti feladat. Ennek csak a magjában van egy olyan feladat, amire a data scientist képes, a többi csapatmunka, ezért lenne szükség sokkal több olyan emberre, aki letudja fordítani az üzleti problémákat adatos nyelvre, majd az adatos eredményeket tudja üzletileg értékelni, mint olyan emberre aki ezt megtudja valósítani, abból kevesebb is elég. Bár jelenleg az utóbbiból is kevesebb van.

Mit prognosztizálsz mesterséges intelligencia vonalon a jövőre?

Mesterséges intelligencia hype nem először van. Ha visszatekintünk a történetére akkor hype-ok sorozatából áll, amelyeknek mindig vége szakadt. A II. világháború vége felé datálható, hogy ezen egyáltalán elkezdtek gondolkodni. Mindig voltak nagy hullámok, amikor óriási várakozásokat támasztottak, amiket nem sikerült teljesíteni.  Mesterséges intelligencia teleknek hívják, amikor a lelkesedés alábbhagy, ami úgy nyilvánul meg – a kezdetekben abszolút állami forrásokból volt dotálva főleg katonai és biztonsági vonalon – hogy elapadnak a források és visszaszűkül a terület az akadémia világba. Két aspektusa van annak, hogy megint egy hype-ban vagyunk, ami most más, szerintem nem jön a tél.  Egy olyan pontra érkeztünk meg a világban, amikor nagyon fura együtt állások alakultak ki. Az, hogy a mesterséges intelligencia működőképesnek tűnik az annak köszönhető, hogy nagyon sok adatunk van a világban rengeteg mindenről, és van számítási kapacitásunk, hogy azokat az óriási mennyiségű adatokat fel tudjuk dolgozni azokkal a technológiákkal, amik bár papíron léteznek 40 éve, de 5 éve tudjuk őket nagy adatmennyiségre lefuttatni. Továbbá vannak olyan üzleti problémák, ahol ezeket az adatokat és megoldásokat fel lehet használni. Ez a hármas most egyidőben találkozott. Az önvezető autótól kezdve, az arc- és hang felismerésig nagyon sok aspektusa van a mesterséges intelligenciának.

2009-2010 környékétől 2015-ig Big Data hype volt, amikor azt gondoltuk, hogy az adatokkal jobbá tesszük a világot. Minden azzal volt tele, hogy a Big Data lesz a jövő, ennek a meghosszabbítása szerintem ma a mesterséges intelligencia hype. Ahogyan adatbányászatnak hívták korábban azt a területet, ahol dolgozom, majd  átkeresztelték Big Data-ra, jelenleg nagyon sokan mesterséges intelligenciának gondolják. Azonban igazából mindegyik mást jelentett klasszikusan.

A Big Data nem azt jelentette klasszikusan, hogy az adatokból üzleti értéket állítunk elő, azt jelentette, hogy a Facebook, a Yahoo, a Google olyan technológiákat hoztak létre  –  egy technológiai kifejezés volt – amivel nagy adatmennyiséget tudtak kezelni. Az hogy ebből egy üzleti buzzword lett az sok mindennek köszönhető, de végeredményként kiszabadult ebből a technológiai terminus technicus-ból. Ugyanezt érzem a mesterséges intelligenciánál. Klasszikusan nem azt kellene, hogy  jelentse, hogy adatokból valamit csinálunk. Szerintem  – sokan ezt mondják a szakmából is – a mesterséges intelligencia klasszikusan ott kellene, hogy kezdődjön, amikor a gépnek van hatása,  be tud avatkozni.

Az önvezető autó az, nem csak feldolgozza az adatokat és azt mondja, hogy „Kedves sofőr!  A kormányt most jobbra irányítsd!”, hanem beavatkozik és irányítja a kormányt. Az, hogy megmondjuk egy adott ügyfélről, hogy kell-e neki hitelt adni, az egyáltalán nem mesterséges intelligencia. Lehet, hogy eszközeiben hasonlóan jutunk a következtetésre, de nem egy gép adja a hitelt. Az emberek adják a hitelt, amiben megtámogatjuk őket ezzel a dologgal.

Önvezető autót lehetne csinálni, azért nincsenek még, mert nem tudjuk eldönteni, hogy hogyan működjön. Ha egy baleseti szituáció van, akkor kinek az életét mentse meg és kiét ne? Kinek a felelőssége lesz, hogy az az ember halt meg, aki meghalt? Amíg ezek a kérdések nincsenek leütve, addig nem fog tudni igazán nagy teret hódítani. Szubjektív szakértői véleményem, hogy technológiailag rész területeken sokkal közelebb vagyunk hozzá, mint azt gondolnánk. Nagyon nem szeretem amikor „a gépek elveszik a munkát” frázissal jönnek az újságírók. Ugyanis az általános mesterséges intelligenciától – ami arra képes, hogy úgy működjön mint egy ember – iszonyatosan távol vagyunk. Lehet hogy lesz önvezető autó és a mesterséges intelligencia megveri a sakknagymestert a játékban, de ettől még mi, emberek nagyon nem vagyunk kiválthatóak, helyettesíthetőek. Az a világ még nagyon messze van.

A globális méretű pandémia hozott változást szerinted az adatok világában?

A Covid időszak alatt nagyon sok ember mindennapjainak a részévé vált, hogy adatokat néz, statisztikákat olvas, sőt még az exponenciális görbe is megjelent a Híradóban. Azt gondolom, hogy ez alatt az időszak alatt adatosabbakká váltak az emberek, hiszen mindenki adat alapon kommunikált a világon, amitől én azt várom – nyilván ebben benne van a szakmai optimizmusom is – hogy a tájékozottságnak létrejöhet egy olyan szintje is, amikor az emberek adatok alapján vannak tájékoztatva és nem vélemények mentén. Ha ennek az időszaknak így vagy úgy vége lesz, én abban bízok, hogy valamelyest az adatos szint velünk marad, mert jobban hozzá leszünk szokva. Amikor végig gondoltam a közelmúltban, hogy volt-e olyan esemény, amelyet ilyen szinten adatokkal támasztottak alá az életemben, akkor nem találtam. A 2008-2009-es gazdasági válság alatt senki sem nézte a GDP alakulást, ahogy nem néztünk grafikonokat sem arról, hogy hogyan mennek csődbe a dolgok. Fogyasztottuk a híreket, ami nem adat alapon volt tálalva. Nekem ez az első olyan világesemény, amely adatos szempontból próbálta meg megértetni velünk, hogy mi történik.

 

A kutatás az NKA támogatásával valósult meg.

Megosztom

Comments are closed.