GEMINI API: GOOGLE FUEHRT ZWEI NEUE PREISSTUFEN EIN
Das Wichtigste
Google führt mit Flex und Priority zwei neue Inference-Stufen in der Gemini API ein, die Entwicklern erlauben, Kosten gegen Latenz und Verfügbarkeit abzuwägen.
Was ist passiert?
Google erweitert die Gemini API um zwei klar getrennte Betriebsmodi. Flex Inference ist die günstigere Option: niedrigere Kosten, aber keine Garantien auf Latenz oder sofortige Kapazität. Priority Inference sichert schnelle Antwortzeiten und höhere Verfügbarkeit, kostet entsprechend mehr.
Das Modell folgt einem Muster, das sich gerade branchenweit durchsetzt. OpenAI hat mit Codex ebenfalls flexible Preismodelle für Teams eingeführt. Der Markt bewegt sich weg von Einheitspreisen hin zu differenzierten Tiers, die unterschiedliche Workloads abbilden.
Warum ist das relevant?
Für Entwickler und Produktteams ist das eine direkte Kostenhebel. Batch-Verarbeitung, Hintergrundanalysen oder asynchrone Aufgaben laufen problemlos über Flex. Echtzeit-Anwendungen mit Nutzerkontakt brauchen Priority.
Wer bisher einen einzigen API-Key für alle Anwendungsfälle genutzt hat, zahlt entweder zu viel für unkritische Jobs oder riskiert Engpässe bei zeitkritischen Anfragen. Zwei Stufen lösen dieses Problem strukturell.
Für DACH-Unternehmen mit größeren Gemini-Deployments bedeutet das: Architekturentscheidungen müssen jetzt bewusst getroffen werden. Welche Pipelines brauchen wirklich Priority? Die Antwort darauf hat direkten Einfluss auf die monatliche Rechnung.
Take-Away
Gemini-Nutzer sollten ihre bestehenden Workloads nach Latenzanforderungen segmentieren und Flex für alle nicht-zeitkritischen Prozesse evaluieren. Die Einsparungen können erheblich sein, besonders bei hohem Volumen.
