Prof. Dr. Horváth Gábor

MI a felhasználó oldaláról – tanulók, oktatók

Horváth Gábor vagyok, a BME Villamosmérnöki és Informatikai Karáról jöttem, és mérnökként, egy kicsit más megvilágításban próbálom az oktatás és a mesterséges intelligencia kapcsolatát feldolgozni. Ugyanarról lesz szó, mint amiről a konferencia sok korábbi előadásán, azaz hogyan lehet a mesterséges intelligenciát a hallgatók és az oktatók oldaláról a lehető leghatékonyabban felhasználni.

Alapvetően két részből áll ez az előadás. Mindenképpen szeretnék egy pár percet arra fordítani, hogy megértsük legalább az alapjait a mesterséges intelligencia módszereknek, hiszen ezekből lehet levezetni azt, hogy melyek azok a problémák, amelyeknek a megoldására kifejezetten alkalmasak, és milyen korlátok vannak, melyekkel mindenképpen foglalkoznunk kell. A végén egy keveset beszélek a BME-s tapasztalatokról is. A BME Villamosmérnöki és Informatikai Kar – ahonnan én jöttem – az ország legnagyobb kara, 5200 hallgató van per pillanat alapképzésen, mesterképzésen és doktori képzésen együtt, úgyhogy azt gondolom, hogy hasznos lehet, ha megosztjuk a tapasztalatainkat ezen a téren.

Elsőként a mesterséges intelligencia eszköztáráról szeretnék beszélni. Rögtön azzal kezdeném, hogy az a szó, az a fogalom, hogy mesterséges intelligencia, egészen mást jelent azok számára, akik ebben a szakmában mozognak, és egészen mást jelent azok számára, akik a szakmán kívüliek.

Akik informatikával, számítógépekkel, mérnöki munkával foglalkoznak, azok számára a mesterséges intelligencia magában foglalja ma már a klasszikus adattudományi módszereket is, a statisztikai módszereket, és a gépi tanulásnak az összes létező eszközét, míg azok körében, akik ebben a szakmában nem mozognak otthonosan, a mesterséges intelligenciát a nagy nyelvi modellekkel szokták azonosítani. Két évvel ezelőtt megjelent a ChatGPT, azóta mindenki mesterséges intelligencia szakértő lett, mindenki tudja, hogy mi az a mesterséges intelligencia, ez a ChatGPT, a nagy nyelvi modellek, melyek megválaszolnak minden lehetséges kérdést.

Leginkább erről az eszközről szeretnék többet beszélni, a nagy nyelvi modellről, mert nagyon sok olyan téves értelmezés és félreértés tapasztalható ezen a területen, ami a sajtó és a közbeszéd útján terjedő információnak is betudható. Tényleg csak nagyon-nagyon röviden arról, hogy hogyan működnek ezek a modellek. Ezek mesterséges neurális hálózatok, melyek alapja a mesterséges neuron, a biológiai idegsejtnek egy matematikai leegyszerűsítése. Ez nem egy új eszköz, 1940 óta ismert, gyakorlatilag a matematikusok játéka volt hosszú évtizedeken keresztül, tanulórendszerek létrehozására fejlesztették ki, de kiderült, hogy erre a célra vannak ennél sokkal hatékonyabb módszerek is, tehát hosszú időn át nem volt igazán a reflektorfényben a mesterséges neuron. Egészen 2010-ig, amikor egy alapvető felfedezés történt, egy tényleg áttörő erejű felismerés, ami arról szólt, hogy kössünk össze sokkal több neuront, mint valaha korábban, nem tízesével kell ezeket összekötni, hanem milliárdot, tízmilliárdot, százmilliárdot, és ezeket megfelelő módon kell összekötni, ügyesen, nem csak úgy össze-vissza, mindet mindegyikkel, hanem egy jó struktúrában, és akkor egy olyan tanulórendszert kapunk, ami minden mást felülmúl, amit korábban erre a célra használtak. Az összekötöttség különösen fontos a neurális hálózatoknál. Azt, hogy ezek az elemi neuronok milyen struktúrában vannak összekötve, architektúrának hívják. A Google 2017-ben bevezetett egy különleges architektúrát, a transzformer architektúrát, ami azóta sikert sikerre halmoz: képfeldolgozási, hangfeldolgozási, szövegfeldolgozási műveleteket tudnak vele megoldani, és a generatív modelleknek, mint a ChatGPT például, szintén egy transzformer van a belsejében, tehát ez az, ami az egésznek a motorja. Ugyanazok az egyszerű, primitív, neurális hálózatok dolgoznak benne, melyek már 1940 óta ismertek, csak megfelelően vannak összekötve, és ügyesen vannak tanítva.

Egyébként a modell működése borzasztó egyszerű. Ezek szekvenciamodellek, tehát szekvenciális információt képesek feldolgozni, például a szöveg egy szekvenciális információ, ezeket tokenként kell beadagolni a modellnek. Egy token lehet egy szó, egy szótöredék, egy szótag. Tokenről tokenre, szóról szóra adogatjuk a bemenetére a szöveget, és ennek a transzformernek az a dolga, hogy az eddig látott bemenet alapján kitalálja a következő szót. Tehát ezek szövegfolytató gépek. Hogyha adok neki egy szöveget a bemenetére, akkor a következő szót, a legvalószínűbbnek tűnőt megpróbálja előre jelezni, és utána ezzel kiegészítve a bemenetet ismét meg tudjuk hajtani a modellt, ami ezek alapján ismét megpróbál egy következő szót becsülni. Lépésről lépésre, szóról szóra alakul ki a kimenete. Ezeket a rendszereket kulcsfontosságú, hogy nagyon-nagyon nagy mennyiségű adaton tanítsunk. Tehát összegereblyézik az internetről az összes lehetséges, az összes elérhető írásos anyagot, bármit, amit találnak. Nem véletlen, hogy olyan nagy cégek állnak ezek mögött a modellek mögött, amelyek ezt meg tudják tenni.

Kulcsfontosságú, hogy olyan mennyiségű adattal lássuk el a tanítás során a modellt, amennyit már nem képes bemagolni. Tehát szótöredék, folytatáspárokat mutogatnak a modelleknek, egy paragrafust és a következő szót. Ezek alapján a modellnek meg kell tanulnia a lehető legkisebb hibával folytatni a szövegeket, és ha megfelelően nagy mennyiségű adatot adunk neki, akkor nem tudja bemagolni, nem tudja elraktározni ezt az információt. Kénytelen megérteni, hogy szemantikailag mi a tartalma. Vajon mi lehetett a kérdés, miről szól itt éppen, mi a kontextus, mi a nyelv. A nyelvtant meg tudja tanulni, miközben az értelmet keresi a tanulóhalmazban, a kulturális szokásokat mind-mind leveszi és fölhasználja annak érdekében, hogy minél pontosabb szövegfolytatásokat tudjon generálni. Ebből az is következik, hogy ez a típusú mesterséges intelligencia, a nagy nyelvi modell, amit manapság el tudunk érni és használni, és akár az oktatási feladatokban is segítség lehet, képes új szövegek létrehozására, nem csak arra, amit már látott a tanítóhalmazban, tud új szöveget generálni, de olyat nem, ami nem következik a tanulóhalmazból. Tehát kreativitás nincs benne. A struktúra maga nem teszi lehetővé, tehát úgymond nem versenytársai egy humán intelligenciának, teljesen másképp működnek. Hiába tudnak kommunikálni a megszólalásig emberhez hasonló módon, vagy akár még jobban is, mint én, de gondolatai, eredeti gondolatai, újító gondolatai sosem lesznek ennek az architektúrának.

Fontos hozzátenni, hogy ez egy feed-forward alapú megoldás, ami azt jelenti, hogy nincs benne semmilyen visszacsatolás, beleöntöm a szöveget, és a végén kipotyog a következő szó. Tehát nincsen benne olyan képesség, mint bennem, amikor leülök az asztalhoz egy papírral és ceruzával, töröm a fejemet, és kitalálok valami érdekességet, ezt ezek a nagy nyelvi modellek ma még nem képesek megtenni.

Mi az, amire alkalmasak, és mi az, amivel vigyázni kell, ha ilyen modelleket használunk?

Szövegből szöveggenerálás nagyszerűen működik. Mindannyian tudjuk, szerintem mindenkinek volt már személyes tapasztalata ezekkel a nagy nyelvi modellekkel. Én magam is használom időnként, nem túl sokszor, még nem alakult ki a gyakorlatom a mindennapi oktatási feladatokban a felhasználására. Létrehozok egy feladatsort, A-csoport, megmutatom a nagy nyelvi modellnek, szeretnék ebből egy B, egy C és egy D csoportot is generálni, hasonló nehézségű, picit más jellegű feladatokkal és nagyszerűen megoldja, nekem rengeteg időt spórol, miközben nem megy a szakmai minőség rovására az, hogy nem egy humán, hanem egy gép generálta, mert az alap, amivel dolgozott, az mégiscsak tőlem származik.

Szöveg-összefoglalás. Ez az egyik legnagyobb erőssége a nagy nyelvi modelleknek. Ezt a képességet egyébként onnan örökölték, hogy a tanulóhalmazba beletartozik a Wikipédia is. A Wikipédia szócikkek mindig egy összefoglaló paragrafussal kezdődnek, és innen megtanulta minden nagy nyelvi modell, hogy hogyan kell szöveget jól összefoglalni. Ennek nagyon nagy jelentősége van az oktatási területen is. A tanulók például összefoglaltathatnak egy tananyagot a nagy nyelvi modellekkel, ami egy-két paragrafusban szépen, frappánsan, a lényeget kiemelve összerakja számukra, hogy könnyebb legyen akár tanulni, vagy visszaemlékezni egy régebbi anyagrészre.

Kérdést megválaszoló rendszerek. Manapság ezek nagyon-nagyon terjednek. Fölteszek egy kérdést, és a háttér-információ alapján megválaszolja. Ezek mind-mind az erősségek. A nagy nyelvi modellekre ezekben tudunk építkezni, ezekre tudunk szolgáltatásokat, például oktatási szolgáltatásokat fejleszteni vagy tanulókat segítő szolgáltatásokat, de vannak olyan korlátok is, melyeket nem szabad figyelmen kívül hagyni.

Az egyik a nyelvi probléma, és ennek mi sajnos elszenvedői vagyunk. Nem tudom, próbált-e már valaki angol nyelven és magyar nyelven is kommunikálni ezekkel a nagy nyelvi modellekkel. Nagyon látványos a különbség. A tanulóhalmaz, amivel tanították ezeket a modelleket, túlnyomórészt angol. Ezzel nem tudunk mit kezdeni, ez a mi adottságunk, ez nem egy igazságtalanság, hanem ez egy adottság, egy peremfeltétel, és az egész neurális hálózatnak az architektúrája is arra van felkészítve, hogy angol szótöredékeket keres a bemeneten. Ha én magyarul írok neki, akkor betűnként, szótagonként fogja megkapni ugyanazt a szöveget, tud magyarul, egész jó válaszokat ad, de angolul minőségileg lényegesen jobb válaszokat képes generálni. Szerencsére a HUN-REN Nyelvtudományi Kutatóintézet nagyon sok időt, erőfeszítést fordít arra, hogy előállítson natív magyar nyelvű modelleket. Ezek a Puli nevű modellek, nem tudom, mennyire ismertek. Nagyon fontos, hogy vannak, és tényleg egyre jobbak, folyamatosan fejlődnek, de a magyar írásos anyag, amivel lehet tanítani ilyen modelleket, mindig sokkal kisebb, szűkebb halmaz lesz, mint az angol, úgyhogy az angol modell mindig jobb minőségű válaszokat fog adni sajnos.

Hallucináció – ezek a modellek sosem fognak olyat mondani, hogy ezt nem tudom, mert arra vannak trenírozva, hogy a lehető legvalószínűbb szövegfolytatást generálják nekünk. Ha nem tudják a választ, akkor is olyan kimenetet fognak adni, ami a megszólalásig hasonlít egy jó válaszhoz, akár még jó is lehetne, és emiatt borzasztó nehéz felismerni azt, amikor egy nagy nyelvi modell hamis információt önt magából. Ez komoly gond, és erre nagyon nagy figyelmet kell fordítani szerintem az oktatási felhasználásoknál is, mert ennek vannak szomorú következményei, amit én magam is tapasztalok egyébként az egyetemen, akkor a hallgatók alapigazságnak tekintik azt, amit a ChatGPT mond nekik, és amikor számonkérésekre jönnek reklamálni, akkor azt mutogatják, hogy de hát ezt mondta. Igen, de az nem jó, csak nagyon úgy hangzik, mintha jó lenne. Sajnos ennek a generációnak ezt egyre nehezebb elmagyarázni. Szerintem mindenkit ért már ilyen élmény.

Erőforrásigény. Ezek a modellek rettenetesen erőforrásigényesek, ami azért jelent problémát, mert a világon talán öt cég van, amely ilyen modelleket képes létrehozni és üzemeltetni. Per pillanat ingyen teszik, nem tudom, hogy örökké ingyen fogják-e adni, nem biztos. Nincs felettük semmilyen kontrollunk. Ez ugyancsak gondot jelent, nem építhetünk rá kritikus szolgáltatásokat. Mind amerikai cégek, olyan amerikai óriáscégek, melyeknek nem tudjuk az üzletpolitikáját, nem tudjuk a jövőbeli vízióját.

Rátérnék az alkalmazásokra, hiszen ez volt az előadásnak valójában a célja. Szerencsére a korábbi plenáris előadások ezekről az alkalmazásokról nagyon-nagyon sokat beszéltek, és igazából, amit én összeszedtem a fóliákon, azok nagyon egybecsengenek azokkal, amiket már hallottunk. Én is az egyénre szabott tanulásban látom a legfontosabb előnyt a tanulók számára, nem lehet minden tanuló, minden hallgató mellé egy tanárt állítani. Ez az egyetemen nálunk még hangsúlyosabban napirenden van, hiszen azt a tárgyat, amit én most tanítok, 600 fős évfolyam hallgatja. Ez egy óriási nagy létszám. El lehet képzelni, hogy mennyire diverz ez a hallgatói populáció, mennyire eltérnek egymástól a különböző gondolkodású hallgatók, tehát nagyon-nagyon fontos lenne nekünk is, ha egy kicsikét sikerülne nem az átlagra célozni, hanem minél szélesebb kört lefedni, hogy mindenki könnyebben tudja elsajátítani az anyagot. Kérdés megválaszoló rendszereket szeretnénk mi is bevezetni, még nincs ilyen rendszerünk, de tervezünk ilyet. Az elképzelések szerint föltöltjük a jegyzeteket, az elérhető segédanyagokat, és azzal kapcsolatban a hallgatók kérdéseket tudnak feltenni, amikre a mesterséges intelligencia segítségével hiteles válaszokat kaptak, hiszen a mi jegyzeteinkből, a mi anyagainkból szűri le a rendszer a válaszokat. Éppen emiatt személy szerint én az önálló tanulás képességét féltem leginkább. Ez az, ami sajnos szerintem el fog veszni. Ugyanúgy, ahogy Obádovics professzor úr mutatta, hogy logarléc nélkül elképzelhetetlen volt a mérnöki munka. Ma elképzelhetőnek tartjuk a mérnöki munkát enélkül is. Természetesen megy tovább a világ logarléc nélkül, sőt sokkal komplexebb rendszereket tudunk tervezni azóta, hogy nem kell a logarléccel bíbelődni. Egész biztosan meg fogja találni ez a technológia is a maga helyét a gyakorlatban, az oktatási gyakorlatban is, a mérnöki gyakorlatban is, mindennapjainkban, de ebben a pillanatban ez egy fiatal technológia még hype szakaszban van, nem egészen világos senki számára, hogy hogyan lehet beilleszteni a mindennapi gyakorlatba.

Oktatók számára szintén vannak előnyök, én magam is használom. Pár pontban az ember összeszedi a gondolatait, és a modell kerekít belőle egy szép, könnyen érthető szöveget. Ez valóban segítséget jelent, sok feladatot, sok időt tudnak spórolni az oktatók számára. Igény szerinti feladatösszeállításról szintén beszéltem már, és a számonkérések automatizálása számunkra kulcsfontosságú. 600–700 fős évfolyamokat kezelünk. 48 órán belül ki kell javítanunk a vizsgát. Ha megjelenik több száz ember vizsgán, akár 4–500 ember, és 48 órán belül bent kell lennie a jegynek a Neptun rendszerben, ehhez automatizálni kell. Egész biztos, hogy máshogy nem megy. Azt nem lehet megtenni, hogy több tucat kollégát befogunk, és napokig javítják annak az egy évfolyamnak az egyetlenegy vizsgáját.

A kihívásokról még beszélnék. Igazából ez a kerekasztal-beszélgetésnek a témája lesz. Talán a fő üzenetem az, hogy meg vagyok győződve róla, a humán felügyelet teljesen elengedhetetlen. Amíg ez a modell úgy működik, ahogy működik, nem mindig megbízhatóan, nem megmagyarázható működéssel. Tehát ha kiértékeltetem a vizsgát egy géppel, az fog egy jegyet adni erre, de ha nem tudom megmagyarázni a diáknak, hogy miért kapta azt a jegyet, hol követte el a hibát, akkor nem vagyok előbbre. Per pillanat nagy nyelvi modellekkel ilyet még nem lehet csinálni. Nem tudják megmagyarázni, hogy miért azt a választ adták, amit adtak.

Felmerül a kérdés, a BME-n mit használunk, mennyire vagyunk éllovasai a mesterséges intelligencia felhasználásának. Szerencse, hogy rektor úr nincs jelen, mert így be merem vallani, hogy rosszul állunk. Nem azért állunk rosszul, mert nincs műszaki tudás a birtokunkban, a karunkon több száz Phd-s mérnök birtokolja a mesterséges intelligencia használatának képességét a mindennapi gyakorlat szintjén. Ha pontosan tudnánk, hogy mit akarunk, akkor nagyon gyorsan ki tudnánk fejleszteni hozzá a szükséges technikai hátteret, de még nem világos, hogy hol lehet ezt a technológiát a leghatékonyabban az oktatás szolgálatába állítani.

Amit mindenképp csinálunk már hosszú évek óta: a Moodle nevű oktatástámogató rendszer elég széles körben elterjedt a karon. A saját tárgyamban is számítógépek előtt, tesztek és kis kérdéses feladatok segítségével ellenőrizzük a hallgatók tudását, és ezt automatizáltan lehet kijavítani. Utána tudjuk analizálni az adatokat, lehet számolni a Moodle segítségével diszkriminatív hatékonyságot, feladatnehézséget, egy csomó olyan hasznos statisztikát, aminek a segítségével egyenszilárdságú vizsgasorokat vagyunk képesek előállítani.

Használjuk a TurnItIn-t, amelyik egy plágiumellenőrző rendszer, sajnos egyre többen ollóznak össze internetről, vagy generálnak akár ChatGPT segítségével beadandó feladatokat. Ez egy rabló-pandúr játék. A TurnItIn ki tudja szúrni a legnyilvánvalóbbakat, de nem mindet, és van, amikor bakot lő, nincs jó eszköz még erre. Hiába reklámozza sok cég, hogy az ő megoldásuk megállapítja, hogy mi az, ami mesterséges intelligencia által generált szöveg, mi az, ami nem, nincs ilyen megbízható eszköz ebben a pillanatban. És amit mi tapasztalunk, az növekvő számú csalás. Elnézést a nyers megfogalmazásért. Az MI használatnak a kultúrája még ki kell, hogy alakuljon. Erre nyilván kell tanítani a gyerekeket is, a hallgatókat, a szülőket, hogy mikor ildomos használni ilyen eszközt, hogyan kell hivatkozni egy olyan információt, amit egy ilyen modell generált számunkra, de ez még megint csak idő kérdése.

Nagyon örülök, hogy ez a konferencia napirendre tűzte a mesterséges intelligencia használatát az oktatásban, mert el kell kezdenünk beszélni róla. Amikor a mobiltelefon megjelent, nagyon későn reagálta le ez a szektor a hatását. Most szerencsére időben elkezdődött a beszélgetés, úgyhogy én abban bízom, hogy minél többet beszélünk róla, annál okosabbak leszünk, és a végén megtalálja a helyét ez a technológia mind az oktatók, mind a tanulók hétköznapi életében.

Köszönöm szépen a figyelmet!