Next

Nyelvi modellek: Miért tud velünk beszélgetni a számítógép?

nyelvi modellek

Néhány évvel ezelőtt még elképzelhetetlennek tűnt, hogy egy számítógépes programmal úgy csevegjünk az élet nagy dolgairól, mintha egy művelt barátunkkal beszélnénk. Ma viszont már természetes, hogy a mesterséges intelligencia verset ír, programkódot javít, vagy éppen segít megfogalmazni egy nehéz e-mailt. De vajon mi történik a háttérben? Valóban „érti” a gép, amit mondunk neki, vagy csak egy elképesztően kifinomult trükk áldozatai vagyunk? Ahhoz, hogy megértsd a nyelvi modellek varázslatát, le kell törnünk azt a mítoszt, hogy a gép úgy gondolkodik, mint az ember.

Szavak helyett számok és valószínűségek

A legfontosabb dolog, amit tudnod kell a nagy nyelvi modellekről (LLM), hogy a számítógép számára nem léteznek szavak, csak számok. Amikor beírsz egy mondatot, a rendszer először apró egységekre, úgynevezett tokenekre bontja azt. Ezeket a tokeneket aztán bonyolult matematikai vektorokká alakítja, amelyek egy többszáz dimenziós térben határozzák meg a jelentésüket. Ebben a digitális térben például a „király” és a „királynő” szavak közel lesznek egymáshoz, de a „király” és az „alma” már távolabb helyezkednek el.

A beszélgetés valójában egy gigantikus valószínűségszámítási játék. Amikor felteszel egy kérdést, az MI nem a tudását böngészi egy lexikonban, hanem azt próbálja megjósolni, hogy a te szöveged után statisztikailag melyik a legvalószínűbb következő szó. Ha azt írod: „A nap reggel fel…”, a modell szinte százszázalékos biztonsággal tudja, hogy a következő szó a „kél” lesz. A modern modellek zsenialitása abban rejlik, hogy ezt a jóslást nemcsak három-négy szóra, hanem egész bekezdésekre és komplex összefüggésekre is képesek kiterjeszteni.

A nagy áttörés, a Transformer architektúra

A nagy áttörést a 2017-ben bemutatott, úgynevezett Transformer architektúra hozta meg. Korábban a gépek lineárisan, szóról szóra olvastak, és mire a mondat végére értek, gyakran elfelejtették az elejét. A Transformerek viszont bevezették az „Attention” (figyelem) mechanizmust. Ez lehetővé teszi a gép számára, hogy egy mondat feldolgozásakor egyszerre lássa az összes szót, és súlyozza, melyek a legfontosabbak a kontextus szempontjából.

Vegyük például a következő mondatot: „A daru a parton állt, mert a szárnya megsérült.” Itt a gép a „szárnya” szó alapján azonnal tudja, hogy a „daru” jelen esetben egy madárra utal, nem pedig egy építkezési gépre. Ez a képesség teszi lehetővé, hogy az MI követni tudja a beszélgetés fonalát, emlékezzen a korábban mondottakra, és ne vesszen el a többértelmű kifejezések rengetegében. Ez az, amitől olyan kísértetiesen emberinek érezzük a válaszait: a modell képes megragadni az emberi nyelv finom árnyalatait és összefüggéseit.

Tanulás az emberiség összes tudásából

Ahhoz, hogy egy nyelvi modell ilyen szinten kommunikáljon, elképesztő mennyiségű adatra van szüksége. A tanítás során a modellek gyakorlatilag „kiolvassák” az internet jelentős részét: könyveket, Wikipédia-szócikkeket, tudományos értekezéseket, fórumbejegyzéseket és híreket dolgoznak fel. Ebben a fázisban a gép még csak a nyelv statisztikai szerkezetét tanulja meg. Olyan ez, mint amikor egy kisgyerek rengeteg felnőtt beszélgetést hallgat meg, és elkezdi utánozni a szófordulatokat, még ha nem is érti teljesen a jelentésüket.

A folyamat második, talán még fontosabb lépése a finomhangolás. Itt hús-vér emberek értékelik a gép válaszait, segítve neki abban, hogy megtanulja, mi a hasznos, mi az udvarias, és mi az, ami tényszerűen igaz. Ez a tanítási módszer (RLHF – megerősítéses tanulás emberi visszajelzéssel) faragja le a gép nyers, néha zavaros válaszait, és teszi belőle azt a segítőkész asszisztenst, akit ma ismerünk. A gép tehát nem „tud”, hanem „emlékszik” a mintázatokra, amiket a tanítás során látott.

Milyen korlátai vannak az MI-nek?

Bármennyire is lenyűgöző az eredmény, fontos emlékezned arra, hogy az MI-nek nincsenek érzései, nincs éntudata, és nem rendelkezik józan paraszti ésszel sem. A nyelvi modellek néha „hallucinálnak”: mivel az a feladatuk, hogy megjósolják a következő szót, néha olyan magabiztossággal állítanak teljes képtelenségeket, mintha csak a fizika törvényeit sorolnák. Ők nem a valóságot tükrözik, hanem azt a szöveges valóságot, amin nevelkedtek.

A számítógép tehát azért tud velünk beszélgetni, mert sikerült a nyelvet matematikává szelídítenünk. Nem egy gondolkodó lény ül a képernyő túloldalán, hanem egy elképesztően bonyolult tükör, amely az emberiség eddigi összes leírt gondolatát használja fel arra, hogy válaszoljon neked. Ez a technológia nem helyettesíti az emberi értelmet, de egy olyan eszközt ad a kezünkbe, amellyel minden eddiginél gyorsabban férhetünk hozzá a tudáshoz és az alkotáshoz.

Kép forrása: Pexels.com

Comments are closed.