A Techuniverzum egy lenyűgöző világ, ahol a technológia határtalansága és a kreativitás találkozik. Itt minden egyes innováció új lehetőségeket teremt, és a digitális fejlődés folyamatosan formálja mindennapi életünket. A mesterséges intelligenciától kezd

Technológia

Nem tudja leolvasni az analóg órát a mesterséges intelligencia

Sokan félnek a mesterséges intelligenciától (MI/AI), attól az eshetőségtől, hogy a technológia a fejlődése révén elveszi a munkájukat, vagy éppen leigázza az emberiséget. Előbbi sokak számára aggasztó tényező lehet, mivel azt tapasztaljuk, hogy az AI napról napra fejlődik, egyre több dologra képes, a tudása pedig messze meghaladja egy egyén képességeit. Azonban még sokat kell fejlődnie, ugyanis vannak olyan dolgok, amelyek az emberek számára banálisak, mégis kifognak a mesterséges intelligencián, az egyik ilyen az analóg órának a leolvasása.

Bár első pillantásra talán mulatságosnak tűnik, de a valóság egészen másképp fest. A legfejlettebb mesterséges intelligencia algoritmusok is rendre kudarcot vallanak, amikor az analóg órák mutatóinak helyzetét próbálják értelmezni. Sőt, gyakran hibás válaszokat adnak a naptárak dátumaira vonatkozó kérdésekre is. Képesek esszék írására, informatikai kódok generálására, képek, videók és hangok létrehozására, mégis ez az egyszerű feladat rendre megnehezíti a dolgukat. Ezt a megdöbbentő eredményt az Edinburghi Egyetem kutatócsoportja tette közzé, miután a legnépszerűbb nyelvi modellek teljesítményét tesztelték. Olyan algoritmusokat vizsgáltak, amelyeket valószínűleg sokan használtunk már, például a Google DeepMind Gemini 2.0, az Anthropic Claude 3.5 Sonnet, a Meta Llama 3.2-11B-Vision-Instruct, az Alibaba Qwen2-VL7B-Instruct, valamint a GPT-4o és a GPT-o1.

Az egyetem tudósai által kidolgozott feladat viszonylag egyszerűnek tűnt: különböző típusú órákról készítettek fényképeket az algoritmusok számára. A bemutatott órák között voltak arab és római számokkal jelölt darabok is, sőt, olyanok is, amelyek rendelkeztek másodpercmutatóval, valamint olyanok, amelyek nem. Az eredmény azonban meglehetősen csalódást keltő volt: a fejlett modellek csupán a leolvasások 25%-ában tudták helyesen meghatározni az időt. A teszt során a római számmal ellátott órák és a másodpercmutatóval rendelkező modellek okozták a legnagyobb nehézséget. Érdekes módon, amikor a kutatók eltávolították a másodpercmutatós órákat, a helyzet nem javult. A kutatócsoport szerint a probléma gyökere abban rejlik, hogy az algoritmusok nem képesek megfelelően értelmezni az órák mutatóinak helyzetét és az óralapok szögeit.

Miután az órákkal kapcsolatos kísérletek véget értek, következett a naptárteszt. A kutatók 10 évnyi naptári adatot használtak fel, hogy kérdéseket tegyenek fel, például azt, hogy melyik napra esik újév, vagy hogy melyik nap a 153. az évben. Az eredmények azt mutatták, hogy még a legjobban teljesítő modellek is több mint 20%-os hibaarányt produkáltak. Érdemes megjegyezni, hogy a sikeresség mértéke szoros összefüggésben állt azzal, hogy mely mesterségesintelligencia-algoritmust tesztelték. Az órateszt során a Gemini teljesített a legjobban, míg a naptártesztben a GPT-o1 bizonyult a legjobbnak, megnyerve ezzel az "aranyérmet".

A kutatók megállapításai szerint az analóg órák és naptárak megértéséhez szükséges a térbeli tudatosság, a kontextus figyelembevétele, valamint az alapvető matematikai ismeretek ötvözése. Ez a kombináció továbbra is komoly kihívást jelent a mesterséges intelligencia számára. Rohit Saxena, az Edinburghi Egyetem Informatikai Karának szakértője és a tanulmány vezető szerzője hangsúlyozta, hogy ha a mesterséges intelligenciát sikeresen szeretnék integrálni az időérzékeny alkalmazásokba, mint például az ütemezés, automatizálás és a segítő technológiák, akkor elengedhetetlen e hiányosságok kiküszöbölése. Aryo Gema, az Edinburghi Informatikai Iskola másik kutatója hozzátette, hogy a jelenlegi mesterségesintelligencia-kutatások gyakran a bonyolult érvelési feladatokra fókuszálnak, ám ironikusan a rendszerek még mindig küzdenek a legegyszerűbb, mindennapi feladatok megoldásával.

A teszt eredményei alapján jelenleg nincs okunk aggodalomra amiatt, hogy a mesterséges intelligencia hamarosan uralma alá vonja az emberiséget, és az sem valószínű, hogy széles körben elbocsátásokat idézne elő különböző szakmákban.

Az OpenAI ígérete szerint egyszerűbbé válik a valódi és a mesterségesen létrehozott tartalmak megkülönböztetése.

Fontos újításon dolgozik az OpenAI vállalat, amely többek között a ChatGPT létrehozója is. Azonban kérdés, hogy az új ötletükkel valóban sikerül-e elérni azt, hogy az átlagos felhasználó felismerje, hogy mi az, ami valódi és mi az, amit a mesterséges intelligencia generált.

Az OpenAI jövőbeli tervei között szerepel, hogy vízjelekkel lássák el a mesterséges intelligenciával készült képeket, ami segíthet azok azonosításában, különösen az ingyenes verziók esetében. Ezzel szemben, ha valaki az előfizetés mellett dönt, valószínű, hogy nem fogja megkapni a vízjelet a generált tartalmakon.

A Bleeping Computer bukkant rá az X-en egy mesterségesintelligencia-kutató bejegyzésére, amelyben az áll, hogy az OpenAI teszteli a generált képek vízjelezését, azaz megjelölését. Ezt a portál saját forrásai is megerősítették, és bár a részletek egyelőre nem ismertek, valószínűleg arról van szó, hogy valamilyen felirat jelenhet meg a képeken, ami azt fogja jelölni, hogy azt az OpenAI mesterséges intelligenciája generálta.

Nem mellesleg, márciusban debütált az OpenAI saját képgeneráló algoritmusa, amely lehetővé teszi, hogy különböző stílusú képek születhessenek. Sokan például a híres Studio Ghibli japán filmstúdió jellegzetes esztétikájában alkottak önarcképeket, de Marosvásárhely ikonikus épületeiről is készültek hasonló tematikájú alkotások. Az viszont egy másik kérdés, hogy milyen etikai dilemmákat vet fel ez a technológia: vajon miért válasszuk a szoftverek által generált műveket a valódi művészek által készített egyedi alkotások helyett? De ezt a témát majd egy másik alkalommal boncolgassuk.

Az OpenAI algoritmusával készített képek vízjelezésének kérdése különös figyelmet érdemel. Jelenlegi információink szerint ez a változás csupán az ingyenes felhasználókra vonatkozik, míg az előfizetők a jövőben vízjel nélküli fotókat készíthetnek. Jelenleg úgy tűnik, hogy ez egy zártkörű tesztelési fázisban van, ami miatt nem egyértelmű, hogy az OpenAI milyen irányba kívánja fejleszteni ezt az új funkciót.

Tagadhatatlan, hogy a vízjel a már említett Studio Ghibli-képek esetén zavaró lenne, de ez a legkisebb probléma! Ugyanis nem a stílusváltoztatáson átesett képekkel van a baj, hanem azokkal, amelyek nagyon is valósághűek, viszont nem igazak. Legyen szó akár egy háborús képről, egy menekülteket vagy egy elrabolt személyt ábrázoló képről, merthogy ilyeneket is tud készíteni pillanatok alatt a mesterséges intelligencia, és ezek jelentik a valódi veszélyt, ezzel lehet embereket átverni, vagy manipulálni a közvéleményt. Másrészt a vízjel egy egyszerű előfizetéssel máris eltűnik, tehát csak egy kis pénzt kell a gépezetbe dobni, és máris gyárthatjuk az átverést célzó képeket, vagy ha rendelkezünk egy minimális informatikai ismerettel, és rászánuk egy kis időt, el is tudjuk távolítani a vízjelet. Arra pedig egyelőre nem mutatkozik valós esély, hogy a mesterségesintelligencia-algoritmusokat fejlesztő vállalatok közösen lépjenek fel, és az egyes tartalmak metaadataiba szerkesszék bele, hogy AI-tartalomról van szó. Merthogy ezzel előfizetőket veszítenének el. Egy viszonylag ártatlan példa, hogy az iskolások vagy egyetemisták nem fizetnének elő egy algoritmusra, ha az azzal készített beadandó feladatok valódiságát a tanár ellenőrizni tudná, de vannak ennél súlyosabb kihágások, jogsértések és bűncselekmények is, amelyek esetében használják a mesterséges intelligenciát is.