Kütyü magazin - Egy forradalmi lépés az AI világában nyomtatása

Sundar Pichai, a Google és az Alphabet vezérigazgatója elmondta, hogy a Google már több mint 26 éve azon dolgozik, hogy a világ információit rendezze és elérhetővé tegye. A Gemini 2.0 ezen törekvés következő lépése, ami lehetővé teszi, hogy a korábban csak szövegként kezelt adatok mellett a képek, videók és hangok is értelmezhetővé váljanak.

„Ha a Gemini 1.0 az információk rendszerezéséről és megértéséről szólt, akkor a Gemini 2.0 arról, hogy ezeket az információkat sokkal hasznosabbá tegyük.” – jelentette ki Pichai.

A Gemini 2.0 kódolási képességei megelőzik az Anthropic és OpenAI modelljeit

Miért különleges a Gemini 2.0?

A Google DeepMind vezérigazgatója, Demis Hassabis és CTO-ja, Koray Kavukcuoglu részletesebben is bemutatták az új modell képességeit. A legfontosabb újítások a következők:

• Még fejlettebb multimodalitás: A Gemini 2.0 képes nem csak szöveges, hanem képi, videós és hangalapú bemeneteket is fogadni és feldolgozni. Sőt, most már tud képeket és szöveges hangüzeneteket is generálni, ami korábban nem volt lehetséges.

• Ügynöki képességek: A modell képes megérteni a felhasználói igényeket, előre gondolkodni, és lépéseket tenni a felhasználó nevében. Ez azt jelenti, hogy az AI nem csak válaszol a kérdésekre, hanem képes feladatokat is elvégezni.

• Gyorsabb és hatékonyabb: A Gemini 2.0 Flash modell a korábbi 1.5 Pro modellhez képest kétszer gyorsabb, miközben a teljesítménye is javult. Ez azt jelenti, hogy az AI gyorsabban tud válaszolni a kérdésekre és feladatokat elvégezni.

• Eszközhasználat: A Gemini 2.0 képes natívan használni a Google keresőt, kódot futtatni, és harmadik féltől származó alkalmazásokat is kezelni. Ez azt jelenti, hogy az AI sokkal sokoldalúbb és hatékonyabb lehet.

Mikor és hol érhető el a Gemini 2.0?

A Google már megkezdte a Gemini 2.0 bevezetését a fejlesztők és a megbízható tesztelők körében. A Gemini 2.0 Flash kísérleti modell már elérhető a Gemini API-n keresztül a Google AI Studio és a Vertex AI platformokon. A Gemini alkalmazásban is elérhető egy csevegésre optimalizált változata, így a felhasználók már most megtapasztalhatják az új AI modell képességeit. Te is ki tudod próbálni, itt: https://aistudio.google.com/

A tervek szerint a Gemini 2.0 a jövő év elején további Google termékekben is elérhető lesz, így a keresőben is. A Google Keresőben megjelenő AI áttekintések már most 1 milliárd emberhez jutnak el, és az új modell tovább fogja fejleszteni ezeket a funkciókat.

A napokban Sunda Pichai beszélt arról, hogy 2025 elején alapvetően megváltozik a keresés, vélhetően a Gemini 2.0 bevezetése hozza meg ezt a radikális változást.

Új projektek a Gemini 2.0 erejével

A Google nem csak a Gemini 2.0-t mutatta be, hanem három új kutatási projektet is, melyek az új modell képességeit használják ki:

• Project Astra: Egy univerzális AI asszisztens, ami képes valós időben reagálni a felhasználói bemenetekre, emlékezni a korábbi beszélgetésekre, és használni a Google Keresőt, Lens és Térképet. A projekt már a tesztelés fázisában van, és hamarosan okosszemüvegeken is elérhető lesz.

• Project Mariner: Egy böngészőbe épített AI ügynök, ami képes megérteni a weboldalakat, és feladatokat elvégezni a felhasználó helyett. A tesztek szerint a Mariner a valós webes feladatok 83.5%-át sikeresen elvégezte.

• Jules: Egy fejlesztőknek szánt AI kód ügynök, ami segít a kódolási feladatokban, tervezésben és végrehajtásban. A cél, hogy a fejlesztők hatékonyabban tudjanak dolgozni a segítségével.

Lássuk ezeket részletesebben!

Rendben, lássuk kicsit részletesebben a Google által bemutatott kutatási projekteket, amelyek a Gemini 2.0 képességeit használják ki:

Deep Research: A mélyebb kutatás kapuja

A Deep Research, amely már elérhető a Gemini Advanced-ban, egy új funkció, amely a Gemini 2.0 fejlett következtetési és hosszú kontextusú képességeit használja fel arra, hogy a felhasználók kutatóasszisztensként tudják használni. Ez azt jelenti, hogy a Deep Research képes:

• Komplex témák feltárására: Ahelyett, hogy csak egy-egy kérdésre válaszolna, a Deep Research képes mélyebbre ásni a témákban, összefüggéseket keresni, és átfogó képet nyújtani.

• Részletes jelentések készítésére: A funkció képes a feltárt információkat rendezni és összefoglalni, így a felhasználók könnyen áttekinthető jelentéseket kaphatnak a kutatásaikról.

• Hosszú kontextus kezelésére: A Deep Research képes a felhasználó által korábban megadott információkat is figyelembe venni, így a kutatás során egyre pontosabb és relevánsabb válaszokat ad.

A Deep Research tehát egy hatékony eszköz lehet a tanulók, kutatók, és bárki számára, aki egy témában mélyebbre szeretne ásni. Képzeljük el, hogy egy bonyolult tudományos cikket kell feldolgoznunk, a Deep Research ebben is segíthet.

Project Mariner: Az intelligens böngésző jövője

A Project Mariner egy kísérleti projekt, amely a Gemini 2.0-t használja fel arra, hogy intelligenssé tegye a böngészőket. A projekt lényege, hogy az AI képes legyen megérteni a böngészőben megjelenő tartalmat, beleértve a szövegeket, képeket, kódokat, és akár a weboldalak elrendezését is. A Mariner ezután képes:

• Információkat értelmezni: Ahelyett, hogy csak a szövegre koncentrálna, a Mariner a teljes weboldalt képes értelmezni, beleértve a képeket, gombokat és egyéb elemeket.

• Feladatokat elvégezni: A Mariner képes a felhasználó által megadott feladatokat a böngészőben elvégezni, például űrlapokat kitölteni, termékeket keresni, vagy akár vásárolni.

• Összetett műveleteket kezelni: A projekt célja, hogy a Mariner képes legyen komplex műveleteket is elvégezni a felhasználó helyett, például több weboldalt egyszerre megnyitni, vagy egy sor lépést végigvinni egy webes alkalmazásban.

A Mariner egy Chrome bővítményként érhető el a megbízható tesztelők számára, és egyelőre csak kísérleti fázisban van. A cél, hogy a jövőben a Mariner segítségével a böngészés sokkal hatékonyabb és egyszerűbb legyen.

Jules: Az AI-alapú kódolótárs

A Jules egy olyan AI-alapú kód ügynök, amely a fejlesztők munkáját hivatott segíteni. A Jules a Gemini 2.0 képességeit használja fel a kódok megértéséhez, generálásához és javításához. A Jules képes:

• Kódolási feladatokat végrehajtani: Ahelyett, hogy a fejlesztőnek egyenként kellene leírnia a kódsorokat, a Jules képes kódot generálni egy adott probléma megoldásához.

• Kódokat javítani: A Jules képes a hibás kódokat megtalálni és javítani, ezzel időt és energiát megtakarítva a fejlesztők számára.

• Kódolási terveket készíteni: A Jules képes megérteni a fejlesztő által megadott célokat, és egy tervet készíteni a megvalósításhoz, aminek a fejlesztés is része lehet.

• Közvetlenül integrálódni a GitHub-ba: Ez azt jelenti, hogy a Jules a fejlesztők által használt munkafolyamat részeként is elérhető.

A Jules egy kísérleti projekt, amely még fejlesztés alatt áll. A cél, hogy a jövőben a Jules segítségével a kódolás sokkal gyorsabb és egyszerűbb legyen.

Project Astra: Az univerzális AI asszisztens

A Project Astra egy univerzális AI asszisztens koncepció, amely a Gemini 2.0 multimodalitását és ügynöki képességeit használja fel. A projekt célja egy olyan AI asszisztens létrehozása, amely:

• Valós időben kommunikál: Az Astra képes a beszélgetéseket szinte emberi sebességgel feldolgozni és válaszolni, így a kommunikáció természetesebb és gördülékenyebb.

• Multimodális bemeneteket kezel: Az Astra képes nem csak szöveges, hanem képi, videós és hangalapú bemeneteket is fogadni, így a felhasználók sokféle módon tudnak vele kommunikálni.

• Kontextust tart fenn: Az Astra képes emlékezni a korábbi beszélgetésekre, így a kommunikáció személyesebbé válik.

• Eszközöket használ: Az Astra képes használni a Google Keresőt, a Lencsét, a Térképet, és egyéb alkalmazásokat a felhasználók segítségére.

A Project Astra jelenleg tesztelés alatt áll, és a megbízható tesztelők már használhatják Android telefonokon. A projekt célja, hogy a jövőben az Astra egy univerzális AI asszisztensként legyen elérhető, nem csak telefonokon, hanem akár okosszemüvegeken is.

A jövő a felelős AI fejlesztésben rejlik

A Google hangsúlyozta, hogy a felelős AI fejlesztés elengedhetetlen. A Gemini 2.0 fejlesztése során kiemelt figyelmet fordítottak a biztonságra, és a lehetséges kockázatok kezelésére. A modell képességeit folyamatosan tesztelik, és biztonsági szakértőkkel együttműködve dolgoznak azon, hogy a Gemini 2.0 biztonságos és megbízható legyen.

Személyes vélemény

A Gemini 2.0-val a Google abszolút visszajött az AI versenybe, és nem csak a modell képességei, hanem az új alkalmazási lehetőségei terén is tudott újat mutatni. Ha ebben a pillanatban leállna minden AI fejlesztés, akkor is 5-10 év kellene, mire ki tudnánk aknázni a modellekben rejlő potenciált, de egyelőre semmi nem mutat affelé, hogy lassulna a fejlődés.

A másik meglátásom, hogy jelenleg a Google és a többi cég is kutatólaborként üzemel, dobják ki az újdonságokat, de még maguk sem tudják hogyan lehet ezeket a gyakorlati valós életben hasznosítani. Azt pláne nem tudják, hogy a te életedben, és szakmádban mi ezeknek a modelleknek az ideális hasznosítási módja. Ezt neked kell kitalálni, és ez exponenciális versenyelőnyt jelenthet, egy rövid ideig.

Szerző: Szuhi Attila

Forrás: ite.hu/a-google-bemutatta-a-gemini-2-0-t-az-uj-ai-modell-ami-megvaltoztathatja-a-jovot/