LLM ARCHITECTURE GALLERY: DAS NACHSCHLAGEWERK FÜR MODELLARCHITEKTUREN

Das Wichtigste

Sebastian Raschka hat eine kuratierte visuelle Galerie aller relevanten LLM-Architekturen veröffentlicht — ein Referenzwerk, das in keiner Entwickler-Lesezeichenliste fehlen sollte.

Was ist passiert?

Sebastian Raschka, bekannt für seine präzisen Machine-Learning-Erklärungen, hat unter sebastianraschka.com/llm-architecture-gallery eine strukturierte Übersicht der wichtigsten LLM-Architekturen zusammengestellt. Die Galerie zeigt architektonische Unterschiede zwischen Modellklassen visuell auf — von Decoder-only-Transformern über Mixture-of-Experts-Ansätze bis hin zu neueren Varianten mit modifizierten Attention-Mechanismen.

Die Hacker-News-Community hat das Projekt mit 345 Punkten bewertet. Das ist kein viraler Hype — das ist Anerkennung aus einer Community, die Substanz von Oberfläche trennt.

Technische Details

Die Galerie kategorisiert Architekturen nach strukturellen Merkmalen: Attention-Varianten (Multi-Head, Grouped-Query, Multi-Query), Positional Encodings (RoPE, ALiBi, absolute), Normalisierungsstrategien (Pre-Norm vs. Post-Norm) und Feed-Forward-Variationen. Wer verstehen will, warum aktuelle Modelle so gebaut sind wie sie sind, bekommt hier die Antworten ohne Umweg über Primärquellen.

Besonders nützlich: Die Darstellung macht deutlich, dass die meisten modernen Architekturen keine Grundlagenerfindungen sind, sondern gezielte Kombinationen bekannter Bausteine. Das erklärt, warum Architectural Search heute so produktiv ist.

Warum ist das relevant?

Für Entwickler, die Fine-Tuning oder Inference-Optimierung betreiben, ist das Verständnis der zugrundeliegenden Architektur kein Nice-to-have. Grouped-Query Attention verhält sich bei Quantisierung anders als Multi-Head Attention. Pre-Norm-Modelle reagieren anders auf Learning-Rate-Schedules. Diese Details entscheiden über Produktionsstabilität.

Für Entscheider und Architekten, die zwischen Modellen evaluieren, liefert die Galerie einen neutralen Rahmen jenseits von Marketing-Versprechen. Wer weiß, dass zwei Modelle strukturell nahezu identisch sind, bewertet Benchmark-Unterschiede anders.

Für alle, die mit Anbietern wie OpenAI, Anthropic oder Open-Source-Projekten arbeiten: Die Architekturen hinter den aktuellen Frontier-Modellen sind keine Black Boxes mehr. Raschkas Galerie schließt die Lücke zwischen Paper-Lektüre und praktischem Verständnis.

Take-Away

Die Galerie jetzt bookmarken und beim nächsten Modellvergleich als Referenz nutzen — nicht als Ersatz für eigene Benchmarks, aber als strukturierten Ausgangspunkt für die richtigen Fragen.