Az elmúlt pár év óriási fejlődést és izgalmas, új dimenziókat nyitott a gépi tanulás területén. Az adatok feldolgozása és előrejelzésekké alakítása a Google vagy Amazon termékeinek robbanásszerű fejlődéséhez vezetett, de nem korlátozódott le kizárólag a tech óriásokra. A startup világ cégei új platformokkal és termékekkel hódítják meg a piacot ennek a forradalmi technológiának a segítségével.
A gépi tanulás kiemelkedő üzleti előnyhöz juttathatja alkalmazóit, de csak akkor ha azt megfelelően ki is tudják használni. A jelentős mennyiségű rendelkezésre álló szakmai és kutatási anyag dacára sok cég küzd az üzleti problémákra adott megfelelő technológiai megvalósítás kihívásaival.
Milyen szempontokat kell figyelembe venni egy gépi tanulásra alkalmas algoritmus bevezetésénél? Hogyan lehet fenntartható és versenyképes előnyre szert tenni a gépi tanulás segítségével?
A mostani blogcikk ezekre a kérdésekre próbál választ találni.
Betanuláshoz szükséges adatok elérhetősége
A gépi tanulás algoritmusa minták elemzése alapján készít előrejelzéseket. Az ehhez tartozó stratégia megfogalmazása előtt azonban nem árt tisztában lenni a szükséges bemeneti adatok és feldolgozásuk jellemzőivel.
Az algoritmus betanításához szükséges adatok megszerzése önmagában is kihívást jelenthet ha azokat nem szívesen bocsájtják rendelkezésre. Például, ha egy navigációs app esetében a felhasználók rendszeresen kikapcsolják a helyzetüket jelző geolokációs opciót, akkor a közlekedési dugók előrejelzésére tervezett algoritmus pontossága megkérdőjelezhetővé válik.
Visszajelzések gyakorisága
2009-ben, amikor a Microsoft kiadta a Bing-et, nagy reményekkel indították útjára dollármilliárdokba kerülő saját keresőrendszerüket. Ma, több mint egy évtizeddel később a Bing még mindig nem képes számottevő piaci részesedés elérésére, aminek egyik oka a visszajelzések gyorsasága.
A keresőmotorok esetében a visszacsatolási hurok rendkívül gyors. A predikció (a keresésnek megfelelő oldal linkjének megjelenítése) és a visszajelzés (a felhasználó rákattint a linkre) között eltelt idő, pár másodperc.
Amikor a Bing megjelent a piacon, a Google AI alapú keresője már sok éves tanulási tapasztalattal rendelkezett. Hiába fejlődött a Bing motorja gyorsan, a Google végig előtte járt és a folyamatos fejlesztések illetve a gyors visszacsatolási hurok miatt a mai napig meg is tudta tartani ezt az előnyét.
Ugyanakkor egy daganatos betegségek korai felismerésére fejlesztett gépi tanuló algoritmusnál teljesen más ugyanez a frekvencia; sokszor csak boncolás után lehet visszajelzést kapni az előrejelzés pontosságáról. Az algoritmust elsőként kifejlesztő cég jelentős előnyre tehet szert de ennek az előnynek a megtartása nehezebb, a korlátozott tanulási képességek miatt.
Előrejelzések minősége
Egy termék sikerét végső soron az határozza meg, hogy mekkora értéket kapunk azért amiért fizetünk. Ha egy fogyasztónak két azonos árú termék közül kell választania akkor minőségi szempontok alapján fog dönteni. Az előrejelzéseknél a minőséget legtöbbször a pontosság határozza meg, de hogy ez adott esetben mit is jelent, azt sokszor nem lehet egyértelműen meghatározni.
Ha beírjuk az „időjárás” szót a Google vagy a Bing keresőjébe az eredmény nagyjából hasonló lesz, egy kevésbé gyakori kifejezésnél viszont már láthatóak eltérések. Az „agilis” szó beírásánál a Bing első oldalán már megjelenik pár kevésbé releváns találat is (például egy Agilis nevű cég oldalának linkje), a Google ezzel szemben kizárólag az agilis módszertannal és szoftverfejlesztéssel foglalkozó oldalakra fókuszál. Szöveges keresésben a Bing és Google motor hasonló szinten teljesít, de a Google pontosabban meg tudja határozni, hogy mire van szüksége a felhasználóknak.
Adatok elemzése
A platformok korát éljük, ahol egy jó és rossz platform közötti különbséget sokszor kizárólag a gépi tanulás algoritmusainak kifinomultsága jelenti.
A Monster.com az elsők között volt az online álláskereső portálok között, 2000-ben 8,5 milliárd dollárra becsült értékkel. A 2016-os akvizíciónál azonban ennek már csak töredékéért, 429 millió dollárért (5%) sikerült értékesíteni a platformot. Az értékvesztés oka az ajánlási algoritmus kiforratlansága volt. A Monster.com gyakorlatilag egy digitális hirdetőoszlop volt és felhasználói belefáradtak abba hogy több száz, szűrés nélküli állásajánlatot böngészve próbálják megkeresni a tűt a szénakazalban. A LinkedIn vagy Glassdoor sikerének titka nem csupán az hogy felismerték az adataikban rejlő előnyt, hanem abban ahogy ezt megfelelően ki is tudták használni és a gépi tanulás segítségével képesek a felhasználói élmény folyamatos növelésére.
Az adatok kiválasztásánál és elemzésénél érdemes figyelembe venni párat az alábbi szempontok közül:
Óvatos kategorizálás
A strukturálatlan adatok címkézése sokszor manuális feladat, és mint ilyen, potenciális hibalehetőségek forrása. Egy adott vélemény vagy visszajelzés pozitívnak vagy negatívnak értékelése bizonyos esetekben az értékelő személy érzelmi állapotának is a függvénye. Természetesen a legjobb megoldás, ha ezeket teljes mértékben el lehet kerülni egy adatelemzés kapcsán, de ha ez nem lehetséges, érdemes a lehetséges torzulásokat is belekalkulálni a végső modellbe.
Reprezentáció és kritikus tömeg egyensúlya
Adatelemzésnél a legfontosabb kritériumok egyike a statisztikailag reprezentatív minták szerepeltetése. Legtöbb esetben ez igaz is, de bizonyos esetekben egy alul reprezentált minta, például egy kisebb demográfiai csoport kihagyása elfogulttá teheti az algoritmust. Ilyen esetben csak túlmintavételezés (oversampling) segítségével tudjuk biztosítani a megfelelő súlyozást.
Folyamatos revízió
A pontos és tudatos modell építés része kell hogy legyen a folyamatos felülvizsgálat is. Ennek egyik módszere lehet hogy több opció alapján építjük fel a tanulás alapjául szolgáló adathalmazt (szegmentáció, geográfiai jellemzők, stb) így a betanulási fázis alatt össze tudjuk hasonlítani a kapott eredményeket.
A cégeknek a technológiai megvalósítás mellett a folyamataikra is figyelniük kell ha valódi értéket szeretnének realizálni a gépi tanulásból. Egy implementáció sikere a technikai kihívások mellett attól is függ, hogy egy szervezet milyen mértékben képes működő modelleket építeni egy valós probléma köré.
Néhány példa a gépi tanulás jelenlegi felhasználásáról: Az Alibaba AI segítségével tökéletesíti B2B és kiskereskedelmi szolgáltatásait. Az Amazon mély tanuló algoritmusokat használ üzleti teljesítménye növelésére. A Facebook a gépi tanulást használ a közösségi média szolgáltatások fejlesztéséhez. A McDonald’s robotok és a mesterséges intelligencia használatával automatizálja folyamatait. Az Unilever a toborzás és betanítás optimalizálásához használja a gépi tanulást. A Spotify kedvenc zenéink megtaláláshoz segít hozzá minket az öntanuló algoritmus segítségével. A NASA a mesterséges intelligencia segítségével térképezi fel a világűr mélységeit. És a lista még hosszan folytatódik…
Sugár Csaba
Business Analyst
Qualysoft Informatikai Zrt.
csaba.sugar@qualysoft.com |My LinkedIn Profile
Felhasznált forrásanyagok:
Ajay Agrawal , Joshua Gans and Avi Goldfarb „How to Win with Machine Learning” (2020)
https://hbr.org/2020/09/how-to-win-with-machine-learning
Ahmed Abbasi , Jingjing Li , Gari Clifford, Herman Taylor „Make “Fairness by Design” Part of Machine Learning” - (2018)
https://hbr.org/2018/08/make-fairness-by-design-part-of-machine-learning
Megan Beck, Barry Libert „A Platform Strategy Won’t Work Unless You’re Good at Machine Learning” - (2018)
https://hbr.org/2018/05/a-platform-strategy-wont-work-unless-youre-good-at-machine-learning
Ben Schreck , Max Kanter , Kalyan Veeramachaneni , Sanjeev Vohra, Rajendra Prasad „Getting Value from Machine Learning Isn’t About Fancier Algorithms - It’s About Making It Easier to Use” – (2018)
Bernard Marr, Matt Ward Artificial Intelligence in Practice