Das Rennen um das beste Large Language Model (LLM) für die Nutzung in KI-Anwendungen wird durch den harten Wettbewerb wahrscheinlich nie entschieden werden – und jetzt steigt Google mit dem hauseigenen Modell Gemini ebenfalls ins Geschäft ein. Man möchte gerne, so die ehrgeizigen Ziele, zunächst besser werden als GPT-4. Ausserdem wird es Gemini in drei verschiedenen Varianten geben, die teilweise direkt auf Nutzergeräten laufen soll – ein Unterschied zu GPT-4, das nur als Cloudanwendung zur Verfügung steht.
Was Gemini genau auszeichnet, klären wir in diesem Artikel.
Inhalt
Google Gemini: mehr als nur Text
Ebenso wie GPT-4 (aber nicht GPT 3.5) ist Gemini multifunktional. Das heisst, das nicht nur Text aus- und eingegeben werden kann, sondern auch Bilder, Videos oder Audioinhalte. Die Rundum-Lösung könnte also Bilder generieren wie DALL-E, aber dabei auch einfache Texte erstellen, sofern vom Nutzer gewünscht.
Google selbst sieht grosses Potenzial in verschiedenen logischen Bereichen. Eine Stärke von Gemini soll demnach darin liegen, Informationen weniger allgemeingültig und stattdessen differenzierter zu erfassen und zu verarbeiten. Das Resultat soll ein Sprachmodell sein, das vor allem in mathematischen Bereichen oder in diversen Unterdisziplinen der Physik besonders treffsicher antwortet – was für LLMs häufig ein Problem ist. Im Vergleich zu den Vorgängern aus eigenem Hause (wie PaLM 2) will Google – trotz gestiegenem Funktionsumfang und besserer Geschwindigkeit – auch die Effizienz erhöht haben, sodass durch das LLM erstellter Content insgesamt weniger Strom verbraucht als vorher (was auch auf neue Chips zurückzuführen ist).
Drei Modelle in verschiedenen Grössen
Gemini als LLM wird in drei unterschiedlichen Varianten auf den Markt kommen. Zudem spezifiziert Google auch direkt Aufgabenfelder, für die diese drei Optionen in Frage kommen:
1. Gemini Ultra ist das leistungsstärkste Modell, das vor allem für komplexe Aufgaben geeignet sein soll. Dabei dürfte es sich beispielsweise um die generative Erstellung von Video- und Bildinhalten handeln. Ultra wird nur auf den Servern von Google laufen.
2. Gemini Pro setzt eine Stufe tiefer an und kann ebenfalls die allermeisten Aufgaben erledigen – aber nicht mehr die sehr komplexen Anfragen. Auch diese mittlere der drei Varianten wird ausschliesslich über Server im Internet erreichbar sein.
3. Gemini Nano ist ein Alleinstellungsmerkmal unter den LLMs, denn dieses kleine, aber hocheffiziente Modell funktioniert direkt auf den Geräten der Nutzer. Es ist davon auszugehen, dass Nano vor allem kleinere Alltagsaufgaben übernehmen können wird.
Gemini Nano wird zusätzlich in zwei Versionen unterteilt, wovon eine 1,8 Milliarden Parameter verarbeitet und eine weitere Variante 3,25 Milliarden Parameter verwaltet. Zum Vergleich: GPT-4 soll mit ungefähr 1,76 Billionen Parametern arbeiten – also grob 1’000-mal so viele Parameter. Diese Angabe ist aufgrund der Grössenordnungen allein schwer verständlich, aber sie kann dabei helfen, die zu erwartende Leistung von Gemini Nano einzuordnen.
Wann kann ich Gemini nutzen?
Wer möchte, kann das Gemini-LLM sofort testen – und zwar als Teil von Google Bard, der KI-Anwendung von Google. Laut Google wird Gemini Pro dort bereits verwendet, um die Antworten zu generieren. Google selbst spricht davon, dass der Qualitätssprung durch den Umstieg auf Gemini der bisher grösste seiner Art seit dem Start von Bard ist.
Von Gemini Ultra fehlt dagegen noch jede Spur: Nach eigenen Aussagen will das Unternehmen das Modell erst optimieren, bevor es für die (teilweise zahlende) Kundschaft verfügbar sein wird. Nutzbar sein wird Ultra daher erst im Verlauf des neuen Jahres, Google spricht noch von Anfang 2024. Sobald es so weit ist, will das Unternehmen mit Bard Advanced eine entsprechende Anwendung bereitstellen, die sofort von Gemini Ultra Gebrauch macht.
Gemini auf Pixel-Smartphones
Die für durchschnittliche Nutzer eventuell interessanteste Ausgabe von Gemini wird wahrscheinlich zuerst auf dem Google Pixel 8 Pro sein Debut feiern. Google selbst formuliert auch einige Anwendungsbereiche, für die Gemini Nano in Frage kommt:
1. Audioaufnahmen, die in der Rekorder-App von Android gespeichert sind, wird Gemini Nano zusammenfassen können. So könnten aus vielen kleinen Schnipseln zusammenhängende einfache Dateien generiert werden, die trotzdem alle Informationen beinhalten – praktisch für Personen, die die App gerne nutzen, um kurzfristig Ideen festzuhalten.
2. Die Tastatur kann so genutzt werden, dass sie automatisch Antworten generiert – auf Basis dessen, was der Nutzer in der Regel schreibt und antwortet. Diese Funktion soll in WhatsApp eingebaut werden, sodass Nutzer auf Anfragen nicht persönlich reagieren müssen, sondern die KI alles schreiben lassen.
Schluss sein soll dort aber nicht: Gemini soll beispielsweise in die Kernfunktion des Unternehmens, die Suche, integriert werden. Ausserdem wird Gemini ein Teil von Google Ads und wird in den Chrome-Browser eingebaut – ähnlich wie der Copilot von Microsoft, der im Edge-Browser verfügbar ist und auf GPT basiert.
Allzu schnell sollten potenzielle Nutzer jedoch nicht auf das neue KI-Zeitalter hoffen. Gemini wird zwar in viele Dienste von Google eingebaut, aber häufig handelt es sich dabei noch um eine Art Spielwiese. Zahlreiche Funktionen sind eher mit Experimenten gleichzusetzen, die «in freier Wildbahn» durchgeführt werden, um zu sehen, ob die Anwendungen ihre Versprechen halten. Was davon am Ende übrigbleibt und einen realen Nutzen hat, wird die Zeit zeigen müssen.
GPT-4 in zahlreichen Disziplinen voraus – angeblich
Gemini soll die bislang höchste Punktzahl in insgesamt 30 unterschiedlichen Benchmarks erreichen, die Bereiche wie Mathematik, das Programmieren oder auch die Fähigkeit, sinnvolle Schlüsse zu ziehen, prüfen. Damit übertrumpft Gemini die Werte von GPT-4 in den meisten Disziplinen leicht um einige Prozentpunkte. Wer immer leistungsfähigere KI-Anwendungen sucht, darf sich über diese Entwicklung freuen.
Gleichzeitig gilt jedoch, dass praktisch alle bislang erhältlichen Informationen von Google selbst stammen – und Unternehmen sind selbstverständlich immer darum bemüht, die eigenen Produkte ins bestmögliche Licht zu rücken. Bis zur Veröffentlichung von Gemini Ultra sollte daher abgewartet werden, bis unabhängige Tests die Qualität des LLMs auf den Prüfstand stellen.
Eigene Chips für höchste Effizienz
Vor allem diverse GPUs werden gerne für LLMs und KI-Anwendungen genutzt, da deren hohe Leistung ideal für Applikationen dieser Art geeignet ist – ein Umstand, der NVIDIA beispielsweise Rekordgewinne beschert hat. Für Gemini setzt Google hingegen auf selbstentwickelte TPUs, die in ihrer Architektur auf die Bedürfnisse von Gemini (und wahrscheinlich zukünftige LLMs) spezialisiert sind. Höhere Leistung wird mit höherer Effizienz kombiniert, was für Google am Ende günstiger und leichter zu kontrollieren ist.
Die Entwicklung eigener Chips – ein kostspieliges Unterfangen – kann als Indikator dafür dienen, wie wichtig die KI-Zukunft für Google jetzt bereits geworden ist. Gemini ist daher nur als ein erster Schritt zu verstehen – der uns in nur wenigen Jahren wahrscheinlich schon wieder veraltet vorkommen wird.
Dieses KI-Sprachmodell ist ein eindrucksvolles Beispiel dafür, wie weit die Technologie gekommen ist und wie schnell sie sich weiterentwickelt. Mit der Fähigkeit, über die reine Textverarbeitung hinaus zu gehen und sich in eine Vielzahl von Google-Diensten zu integrieren, steht Gemini nicht nur für den Fortschritt in der KI-Forschung, sondern auch für das Versprechen einer integrativen, effizienten und zukunftsorientierten Nutzung künstlicher Intelligenz. Es ist ein klares Signal, dass wir am Anfang einer neuen Ära stehen, in der KI nicht nur ein Werkzeug ist, sondern ein integraler Bestandteil unseres digitalen Lebens.
Wir von der WebAdvice sind gespannt, wie sich alles weiter entwickeln wird.