Gemini (jazykový model)

Gemini je rodina multimodálních velkých jazykových modelů (LLM) vyvinutých společností Google DeepMind jako nástupce LaMDA a PaLM 2. Zahrnuje modely Gemini Ultra, Gemini Pro, Gemini Flash a Gemini Nano. Modely této rodiny také pohánějí chatbota Googlu rovněž pojmenovaného Gemini. Na veřejnost byl model Gemini poprvé uveden 6. prosince 2023 jako konkurent modelu OpenAI GPT-4. V březnu 2025 byl model Gemini 2.5 Pro Experimental ohodnocen jako vysoce konkurenceschopný.
Historie
Vývoj
Firma Google 10. května 2023 během úvodní prezentace na konferenci Google I/O oznámila, že její dceřiná společnost Google DeepMind pracuje na vývoji modelu Gemini. Ten byl prezentován jako výkonnější nástupce modelu PaLM 2, který byl na konferenci také představen. Generální ředitel Googlu Sundar Pichai uvedl, že Gemini je stále v raných fázích vývoje.[1][2] Gemini měl podle něho být unikátní v tom, že na rozdíl od jiných velkých jazykových modelů (LLM) byl nebyl trénován pouze na textovém korpusu, ale byl navržen jako multimodální, což znamená, že mohl zpracovávat více typů dat současně, včetně textu, obrázků, zvuku, videa a počítačového kódu.[3] Byl vyvíjen ve spolupráci DeepMind a Google Brain, dvěma dceřinými společnostmi Googlu, které byly v předchozím měsíci sloučeny do Google DeepMind. V rozhovoru pro Wired generální ředitel společnosti DeepMind Demis Hassabis vychvaloval pokročilé schopnosti algoritmu Gemini a uvedl, že to algoritmu umožní překonat ChatGPT od OpenAI, který běží na modelu GPT-4 a jehož rostoucí popularitě se Google tehdy snažil konkurovat modely LaMDA a Bard. Hassabis zdůraznil silné stránky programu AlphaGo společnosti DeepMind, který si získal celosvětovou pozornost v roce 2016, když porazil I Se-tola, šampiona hry go, a uvedl, že Gemini spojí sílu AlphaGo a dalších modelů od firem Google a DeepMind.
V srpnu 2023 zveřejnil web The Information zprávu, která nastiňovala plány společnosti Google s modelem Gemini a odhalila, že společnost plánuje jeho spuštění koncem roku 2023. Podle zprávy Google doufal, že překoná OpenAI a další konkurenty kombinací možností konverzačního textu, které jsou přítomny ve většině LLM, s generováním obrázků poháněným umělou inteligencí, což by umožnilo vytvářet kontextové obrázky a přizpůsobit se širší škále aplikací.[4] Stejně jako u modelu Bard[5] byl povolán spoluzakladatel Googlu Sergey Brin, který se jinak již každodenní práce firmy neúčastní, aby pomohl s vývojem Gemini; později byl spolu se stovkami dalších inženýrů Googlu[4][6] označen za „klíčového přispěvatele“ Gemini.[7] Protože Gemini byl školen na přepisech videí z webu YouTube, bylo úkolem právníků, aby odfiltrovali jakékoli potenciálně autorsky chráněné materiály.[4]
S zprávami o blížícím se spuštění Gemini urychlila společnost OpenAI práci na integraci GPT-4 s multimodálními funkcemi podobnými těm, které má Gemini.[8] The Information v září informoval, že několika společnostem byl udělen předběžný přístup k „rané verzi“ modelu, kterou Google zamýšlel zpřístupnit klientům prostřednictvím služby Vertex AI na Google Cloud. Zpráva rovněž uvedla, že Google vylepšuje Gemini tak, aby mohl konkurovat GPT-4 i službě GitHub Copilot od Microsoftu.[9][10]
Spuštění
6. prosince 2023 Pichai a Hassabis na virtuální tiskové konferenci uvedli systém Gemini 1.0.[11][12] Ten se skládal ze tří modelů: Gemini Ultra pro „vysoce složité úkoly“, Gemini Pro pro „širokou škálu úkolů“ a Gemini Nano pro běh přímo „na zařízení“. Při uvedení na trh byly Gemini Pro a Nano integrovány do Barda a do chytrých telefonů Pixel 8 Pro, zatímco Gemini Ultra měl pohánět systém Bard Advanced a softwarovým vývojářům měl být zpřístupněn začátkem roku 2024. Mezi další produkty, do kterých Google zamýšlel Gemini začlenit, patřilo Vyhledávání, Ads, Chrome, Duet AI v Google Workspace a AlphaCode 2.[13][12] Systém byl k dispozici pouze v angličtině.[12][14] Společnost Gemini propagovala jako „největší a nejschopnější model umělé inteligence“ od Googlu navržený k napodobování lidského chování[15] [12] [16] a uvedla, že Gemini bude široce dostupný až v následujícím roce kvůli potřebě „rozsáhlého bezpečnostního testování“.[11] Gemini byl trénován a je provozován na procesorech Tensor Processing Unit (TPU) od Googlu.[11][14] Jeho název (česky znamenající Blíženci) odkazuje na fúzi firem DeepMind a Google Brain a také na kosmický program Gemini agentury NASA.
Gemini Ultra údajně v řadě oborových benchmarků překonal GPT-4, Claude 2 firmyAnthropic, Inflection-2 firmy Inflection AI, LLaMA 2 firmy Meta i Grok 1 od xAI, [17][11] a Gemini Pro údajně překonal GPT-3.5.[3] Gemini Ultra byl také prvním jazykovým modelem, který překonal lidské experty v testu Massive Multitask Language Understanding (MMLU) a dosáhl skóre 90 %.[3] Gemini Pro byl 13. prosince zpřístupněn zákazníkům Google Cloud v AI Studio a Vertex AI, zatímco Gemini Nano byl později zpřístupněn i vývojářům pro Android.[18][19][20] Hassabis dále prozradil, že DeepMind zkoumá, jak by Gemini mohl být „kombinován s robotikou pro fyzickou interakci se světem“. V souladu s nařízením, které v říjnu podepsal americký prezident Joe Biden, společnost Google uvedla, že sdělí výsledky testování Gemini Ultra federální vládě Spojených států. Společnost se rovněž zapojila do jednání s vládou Spojeného království o dodržování zásad stanovených na summitu o bezpečnosti umělé inteligence v Bletchley Parku v listopadu.[3]
Aktualizace
Společnost Google v lednu 2024 uzavřela partnerství se společností Samsung s cílem integrovat Gemini Nano a Gemini Pro do chytrých telefonů řady Galaxy S24.[21] V následujícím měsíci byly modely Bard a Duet AI sjednoceny pod značkou Gemini,[22][23] přičemž verze Gemini Advanced with Ultra 1.0 debutovala na nové úrovni AI Premium v rámci předplatného služby Google One.[24] Gemini Pro byl uveden na trh také globálně.[25]
V únoru 2024 společnost Google spustila omezenou verzi Gemini 1.5, která byla prezentována jako výkonnější a schopnější model než 1.0 Ultra. Této „zásadní změny“ bylo dosaženo prostřednictvím různých technických vylepšení, včetně nové architektury, přístupu „komise expertů“ (mixture-of-experts) a většího kontextového okna s jedním milionem tokenů, což odpovídá zhruba hodině tichého videa, 11 hodinám zvuku, 30 000 řádkům kódu nebo 700 000 slov.[26] Ve stejném měsíci Google představil Gemmu, rodinu bezplatných a open-source LLM, které slouží jako odlehčená verze Gemini. Dodávaly se ve dvou velikostech, s neuronovou sítí se dvěma a sedmi miliardami parametrů. Několik komentátorů to vnímalo jako reakci na to, že firma Meta a další zpřístupnili své modely umělé inteligence jako open-source, i jako výrazný odvrat od dlouhodobé praxe Googlu, který svou umělou inteligenci ponechával proprietární.[27][28] Další model, Gemini 1.5 Flash, Google oznámil 14. května na úvod konference 2024 I/O.[29]
Další dva vylepšené modely Gemini, Gemini-1.5-Pro-002 a Gemini-1.5-Flash-002, byly spuštěny 24. září 2024.[30]
Dne 11. prosince 2024 společnost Google oznámila experimentální verzi Gemini 2.0 Flash,[31] což je významná aktualizace modelu Gemini, jež má vyšší rychlost a výkon oproti svému předchůdci, Gemini 1.5 Flash. Mezi klíčové funkce patří Multimodal Live API pro interakce se zvukem a videem v reálném čase, vylepšené prostorové porozumění, nativní generování obrázků a ovladatelné převody textu na řeč (s vodoznaky) a integrované používání nástrojů včetně Vyhledávání Google.[32] Zavádí také vylepšené agentní funkce, novou sadu Google Gen AI SDK[33] a „Julese“, experimentálního programovacího agenta umělé inteligence pro GitHub. Google Colab navíc integruje Gemini 2.0 pro generování data science notebooků na základě přirozeného jazyka. Gemini 2.0 byl dán k dispozici všem uživatelům prostřednictvím chatovacího rozhraní Gemini jako „Gemini 2.0 Flash experimental“.
Dne 30. ledna 2025 společnost Google vydala Gemini 2.0 Flash jako nový výchozí model, přičemž Gemini 1.5 Flash je stále k dispozici. Následovalo vydání Gemini 2.0 Pro, které proběhlo 5. února 2025. Společnost Google dále vydala Gemini 2.0 Flash Thinking Experimental, který podrobně popisuje myšlenkový proces jazykového modelu při práci.[34]
Dne 12. března 2025 společnost Google také oznámila Gemini Robotics, model vidění, jazyka a akce založený na rodině modelů Gemini 2.0.[35]
Nazítří pak Google oznámil, že Gemini v Android Studiu bude schopen porozumět jednoduchým maketám uživatelského rozhraní a transformovat je do funkčního kódu Jetpack Compose.[36]
Experimentální verze Gemini 2.5 Pro byla vydána 25. března 2025 a společností Google ji popsala jako dosud nejinteligentnější model umělé inteligence. Nabízí vylepšené možnosti uvažování a kódování[37][38][39] a „model myšlení“ schopný před odpovědí uvažovat po krocích pomocí technik, jako je chain-of-thought,[37][39][40] přičemž si zachovává nativní multimodalitu a spouští se s kontextovým oknem velikosti 1 milionu tokenů.[37][39]
Na konferenci Google I/O 2025 společnost Google oznámila významné aktualizace svých základních modelů Gemini.[41][42] Výchozím modelem se stal Gemini 2.5 Flash, který poskytuje rychlejší odezvu.[41][42] Gemini 2.5 Pro byl představen jako nejpokročilejší model Gemini s funkcemi pro uvažování, programování a novým režimem Deep Think pro složité úkoly.[43] Jak 2.5 Pro, tak Flash podporují nativní zvukový výstup a vylepšené zabezpečení.
17. června 2025 společnost Google oznámila všeobecnou dostupnost verzí 2.5 Pro a Flash. Ve stejný den také představila Gemini 2.5 Flash-Lite, model optimalizovaný pro rychlost a cenovou efektivitu.[44]
Technické specifikace
Protože Gemini je multimodální, každé kontextové okno může obsahovat více forem vstupu. Různé režimy lze prokládat a nemusí být prezentovány v pevném pořadí, což umožňuje multimodální konverzaci. Uživatel může například zahájit konverzaci kombinací textu, obrázku, videa a zvuku, prezentovaných v libovolném pořadí, a Gemini může odpovědět stejným volným pořadím výstupů. Vstupní obrázky mohou mít různá rozlišení a video je modelem chápáno jako sekvence obrázků. Zvuk je vzorkován na 16 kHz, a poté převeden na sekvenci tokenů pomocí univerzálního modelu řeči. Datová sada Gemini je multimodální a vícejazyčná, skládá se z „webových dokumentů, knih a počítačových programů a zahrnuje obrazová, zvuková a video data“.
Modely Gemini a Gemma jsou transformátory pouze s dekodérem, s úpravami umožňujícími efektivní trénování a inferenci na TPU. Generace 1.0 používá matodu multiquery attention.
Přijetí
Spuštění Gemini předcházely měsíce intenzivních spekulací a očekávání, které MIT Technology Review popsal jako „vrchol humbuku kolem umělé inteligence“.[17] V srpnu 2023 Dylan Patel a Daniel Nishball z výzkumné firmy SemiAnalysis napsali blogový příspěvek, v němž prohlásili, že vydání Gemini „pohltí svět“ a předčí GPT-4, za což se jim generální ředitel OpenAI Sam Altman na sociální síti X (dříve Twitter) vysmál.[45] Podnikatel Elon Musk, spoluzakladatel OpenAI, se také vyjádřil a zeptal se: „Nejsou ta čísla špatná?“ Hugh Langley z Business Insideru poznamenal, že Gemini bude pro Google rozhodujícím okamžikem, a napsal: „Pokud Gemini oslní, pomůže Googlu změnit narativ, že ho Microsoft a OpenAI předhonily. Pokud zklame, povzbudí kritiky, kteří tvrdí, že Google zaostává.“[46]
V reakci na uvedení Gemini v prosinci 2023 emeritní profesor Washingtonské univerzity Oren Etzioni předpověděl „drsné závody ve zbrojení“ mezi Googlem a OpenAI. Profesor Alexei Efros z Kalifornské univerzity v Berkeley ocenil potenciál multimodálního přístupu Gemini a vědkyně Melanie Mitchellová ze Santa Fe Institute označila Gemini za „velmi sofistikovaný“ model. Profesor Chirag Shah z Washingtonské univerzity tolik ohromen nebyl a přirovnal uvedení Gemini k rutině každoročního představení nového iPhonu společností Apple. Podobně Percy Liang ze Stanfordské univerzity, Emily Benderová z Washingtonské univerzity a Michael Madden z Galwayské univerzity varovali, že je obtížné interpretovat výsledky benchmarků bez nahlédnutí do použitých trénovacích dat.[47] Mark Sullivan v článku pro Fast Company vyjádřil názor, že Google má příležitost zpochybnit dominantní podíl iPhonu na trhu a že Apple pravděpodobně nedokáže pro svou virtuální asistentku Siri vyvinout funkcionalitu podobnou Gemini. Akcie Googlu prudce vzrostly o 5,3 procent.[48][49]
Gemini 2.5 Pro Experimental debutoval na nejvyšších pozicích v žebříčku LMArena, benchmarku měřícího lidské preference, což naznačuje silný výkon a kvalitu výstupu.[37][39] Model dosáhl špičkových nebo vysoce konkurenceschopných výsledků v různých benchmarcích hodnotících uvažování, znalosti, vědu, matematiku, kódování a výkon v dlouhodobém kontextu, jako například Humanity's Last Exam, GPQA, AIME 2025, SWE-bench a MRCR.[37][50][39][38] Počáteční recenze zdůraznily jeho vylepšené schopnosti uvažování a zvýšení výkonu ve srovnání s předchozími verzemi.[38][40] Publikované benchmarky však ukázaly i oblasti, kde vedou modely konkurence, jako jsou Anthropic, xAI nebo OpenAI.[50][39]
Reference
V tomto článku byl použit překlad textu z článku Gemini (language model) na anglické Wikipedii.
- ↑ GRANT, Nico. Google Builds on Tech's Latest Craze With Its Own A.I. Products. The New York Times. May 10, 2023. Dostupné online. ISSN 0362-4331.
- ↑ ORTIZ, Sabrina. Every major AI feature announced at Google I/O 2023 [online]. May 10, 2023. Dostupné online.
- ↑ a b c d MILMO, Dan. Google says new AI model Gemini outperforms ChatGPT in most tests. The Guardian. December 6, 2023. Dostupné online. ISSN 0261-3077.
- ↑ a b c VICTOR, Jon. How Google is Planning to Beat OpenAI [online]. August 15, 2023. Dostupné online.
- ↑ GRANT, Nico. Google Calls In Help From Larry Page and Sergey Brin for A.I. Fight. The New York Times. January 20, 2023. Dostupné online. ISSN 0362-4331.
- ↑ KRUPPA, Miles; SEETHARAMAN, Deepa. Sergey Brin Is Back in the Trenches at Google. The Wall Street Journal. July 21, 2023. Dostupné online. ISSN 0099-9660.
- ↑ CARTER, Tom. Google confirms that its cofounder Sergey Brin played a key role in creating its ChatGPT rival [online]. December 7, 2023. Dostupné online.
- ↑ VICTOR, Jon. OpenAI Hustles to Beat Google to Launch 'Multimodal' LLM [online]. September 18, 2023. Dostupné online.
- ↑ Google nears release of AI software Gemini, The Information reports. www.reuters.com. September 14, 2023. Dostupné online.
- ↑ NOLAN, Beatrice. Google is quietly handing out early demos of its GPT-4 rival called Gemini. Here's what we know so far about the upcoming AI model. [online]. September 23, 2023. Dostupné online.
- ↑ a b c d KRUPPA, Miles. Google Announces AI System Gemini After Turmoil at Rival OpenAI. The Wall Street Journal. December 6, 2023. Dostupné online. ISSN 0099-9660.
- ↑ a b c d LIEDTIKE, Michael; O'BRIEN, Matt. Google launches Gemini, upping the stakes in the global AI race. apnews.com. December 6, 2023. Dostupné online.
- ↑ EDWARDS, Benj. Google launches Gemini—a powerful AI model it says can surpass GPT-4 [online]. December 6, 2023. Dostupné online.
- ↑ a b PIERCE, David. Google launches Gemini, the AI model it hopes will take down GPT-4 [online]. December 6, 2023. Dostupné online.
- ↑ FUNG, Brian. Google launches Gemini, its most-advanced AI model yet, as it races to compete with ChatGPT [online]. CNN Business, December 6, 2023. Dostupné online.
- ↑ Google launches Gemini, upping the stakes in the global AI race [online]. CBS News, December 6, 2023. Dostupné online.
- ↑ a b HENSHALL, Will. Google DeepMind Unveils Its Most Powerful AI Offering Yet [online]. December 6, 2023. Dostupné online.
- ↑ METZ, Cade; GRANT, Nico. Google Updates Bard Chatbot With 'Gemini' A.I. as It Chases ChatGPT. The New York Times. December 6, 2023. Dostupné online. ISSN 0362-4331.
- ↑ ELIAS, Jennifer. Google launches its largest and 'most capable' AI model, Gemini [online]. CNBC, December 6, 2023. Dostupné online.
- ↑ ALBA, Davey; GHAFFARY, Shirin. Google Opens Access to Gemini, Racing to Catch Up to OpenAI. www.bloomberg.com. December 6, 2023. Dostupné online.
- ↑ GURMAN, Mark; LOVE, Julia. Samsung Bets on Google-Powered AI Features in Smartphone Revamp. www.bloomberg.com. January 17, 2024. Dostupné online.
- ↑ METZ, Cade. Google Releases Gemini, an A.I.-Driven Chatbot and Voice Assistant. The New York Times. February 8, 2024. Dostupné online. ISSN 0362-4331.
- ↑ DASTIN, Jeffrey. Google rebrands Bard chatbot as Gemini, rolls out paid subscription. www.reuters.com. February 8, 2024. Dostupné online.
- ↑ LI, Abner. Google One AI Premium is $19.99/mo with Gemini Advanced & Gemini for Workspace [online]. February 8, 2024. Dostupné online.
- ↑ MEHTA, Ivan. Google's Bard chatbot gets the Gemini Pro update globally [online]. February 1, 2024. Dostupné online.
- ↑ STOKES, Samantha. Here's everything you need to know about Gemini 1.5, Google's newly updated AI model that hopes to challenge OpenAI [online]. February 15, 2024. Dostupné online.
- ↑ ALBA, Davey. Google Delves Deeper Into Open Source with Launch of Gemma AI Model. www.bloomberg.com. February 21, 2024. Dostupné online.
- ↑ METZ, Cade; GRANT, Nico. Google Is Giving Away Some of the A.I. That Powers Chatbots. The New York Times. February 21, 2024. Dostupné online. ISSN 0362-4331.
- ↑ ELIAS, Jennifer. Google rolls out its most powerful AI models as competition from OpenAI heats up [online]. CNBC, August 12, 2024. Dostupné online.
- ↑ Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more- Google Developers Blog [online]. Dostupné online. (anglicky)
- ↑ Introducing Gemini 2.0: our new AI model for the agentic era [online]. 2024-12-11. Dostupné online. (anglicky)
- ↑ The next chapter of the Gemini era for developers- Google Developers Blog [online]. Dostupné online. (anglicky)
- ↑ Gemini 2.0 Flash (experimental) | Gemini API [online]. Dostupné online. (anglicky)
- ↑ Gemini 2.0 is now available to everyone [online]. 5 February 2025. Dostupné online. (anglicky)
- ↑ PARADA, Carolina. Gemini Robotics brings AI into the physical world [online]. March 12, 2025. Dostupné online.
- ↑ ABNER, Li. Gemini in Android Studio can now turn UI mockups into code [online]. Mar 13, 2025. Dostupné online.
- ↑ a b c d e KAVUKCUOGLU, Koray. Gemini 2.5: Our most intelligent AI model [online]. March 25, 2025. Dostupné online.
- ↑ a b c Gemini 2.5 is now available for Advanced users and it seriously improves Google's AI reasoning [online]. March 26, 2025. Dostupné online.
- ↑ a b c d e f Google's Gemini 2.5 Pro model tops LMArena by close to 40 points [online]. March 25, 2025. Dostupné online.
- ↑ a b Gemini 2.5 Pro Exp: How to Access, Features, Applications & More [online]. March 26, 2025. Dostupné online.
- ↑ a b Gemini 2.5: Our most intelligent models are getting even better [online]. 2025-05-20. Dostupné online.
- ↑ a b Google I/O 2025 announcements: Gemini 2.5 models, Imagen 4, Veo 3 and Flow [online]. 2025-05-21. Dostupné online.
- ↑ Deep Think boosts the performance of Google's flagship Gemini AI model [online]. 2025-05-20. Dostupné online.
- ↑ DOSHI, Tulsee. We're expanding our Gemini 2.5 family of models [online]. Google, June 17, 2025. Dostupné online.
- ↑ HOWDHURY, Hasan. AI bros are at war over declarations that Google's upcoming Gemini AI model smashes OpenAI's GPT-4 [online]. August 29, 2023. Dostupné online.
- ↑ LANGLEY, Hugh. Google VP teases Gemini's multimodal future: 'I've seen some pretty amazing things.' [online]. October 12, 2023. Dostupné online.
- ↑ MADDEN, Michael G. Google's Gemini: is the new AI model really better than ChatGPT? [online]. December 15, 2023. Dostupné online.
- ↑ SONI, Aditya. Alphabet soars as Wall Street cheers arrival of AI model Gemini. www.reuters.com. December 7, 2023. Dostupné online.
- ↑ SWARTZ, Jon. Gemini, Google's long-awaited answer to ChatGPT, is an overnight hit [online]. December 7, 2023. Dostupné online.
- ↑ a b Gemini Pro - Technical Details and Benchmarks [online]. March 25, 2025. Dostupné online.