Elérkezett-e az AI apokalipszis ideje? A mesterséges intelligencia új dimenzióba lépett.
Az OpenAI az év végén egy izgalmas bejelentéssel rukkolt elő: bemutatták az emberi szintű problémamegoldásra képes o3 modellt. Az o1, amely szeptember óta széles körben elérhető előfizetéses formában, alig több mint két hete áll a felhasználók rendelkezésére. Ez a modell a vállalat régóta titkolt projektjének, a Strawberrynek az eredménye. Az o1 debütálásakor a cég világossá tette, hogy ez csupán az első lépés egy modellsorozatban, és nem egyetlen, önálló megoldásról van szó.
Az OpenAI célja, hogy a legújabb modellek valóban felkészültek legyenek arra, hogy komplex tudományos, matematikai és programozási kihívásokat oldjanak meg, szemben a korábbi verziókkal, amelyek korlátozottabb képességekkel rendelkeztek.
Az o1-et azonnal az o3 követi, és ezt Sam Altman, a cég vezérigazgatója azzal indokolta, hogy egyrészt nem kívántak zűrzavart okozni a Telefónica számára, amely az O2 telekommunikációs márka birtokosa. Másrészt pedig az OpenAI termékei elnevezésének gyenge színvonala is köztudott - számol be róla a Bitport.
Az új generáció a szokásos banchmarkok tekintetében magabiztosan veri a korábbi modelleket. A cég saját mérései szerint a nagy hagyományokkal rendelkező amerikai meghívásos matematika verseny (AIME) feladatsorát az o3 96,7 százalékos eredménnyel tudta le, miközben az o1 ugyanebben csak 83,3 százalékra volt képes.
Az O3 teljesítménye kiemelkedően alakult, ezért az OpenAI úgy döntött, hogy benevezi a nonprofit ARC Prize által szervezett, ARC-AGI nevű tesztre. Ez a teszt kifejezetten az algoritmusok intuíciós és tanulási képességeit hivatott felmérni. Bár az emberi gondolkodás számára a feladatok viszonylag egyszerűnek tűnnek, a mesterséges intelligencia, amely nem rendelkezik valódi intuícióval, számára ezek a kihívások igencsak összetettnek bizonyulnak. Az ARC-AGI teszt 2019-es indulása óta egyetlen algoritmus sem tudta elérni a célt, amelyet a teszt készítői az emberi teljesítmény minimumának, 85 százaléknak határoztak meg.
A nagy teljesítményre optimalizált O3 könnyedén túlszárnyalta a kitűzött határértéket, hiszen 87,5 százalékos eredményt produkált. Ezzel szemben a takaréklángra állított változat 75,7 százalékos teljesítményt nyújtott a teszt során.
Az OpenAI elsődlegesen a kutatók számára biztosítja az o3-at, hogy lehetőség nyíljon a modell alkalmazásából származó potenciális biztonsági kockázatok értékelésére. Ezen információk birtokában a szükséges módosítások elvégezhetők a rendszer optimalizálása érdekében.
A tervek szerint a teljes értékű o3 megjelenése előtt nem túl sokkal, már január végén szélesebb körben használható lesz az o3-mini. Ez egy fékezett habzású, több fokozatban használható változat, ami ugyan nem tud feltétlenül nagyon összetett kérdésekre válaszolni, de az egyszerűbb feladatokat ugyanúgy képes megoldani, mint a nagyobb testvére - csak éppen kevesebb számítással (azaz költséggel).