Agentische Entdeckung neuronaler Architekturen: AIRA-Compose und AIRA-Design

Zusammenfassung

Auf dem Weg zur rekursiven Selbstverbesserung untersuchen wir, wie LLM-Agenten autonom Foundation-Modelle jenseits standardmäßiger Transformer entwerfen. Wir führen einen Zwei-Framework-Ansatz ein: AIRA-Compose für die Architektursuche auf hoher Ebene und AIRA-Design für die mechanistische Implementierung auf niedriger Ebene. AIRA-Compose nutzt 11 Agenten, um grundlegende rechnerische Grundbausteine innerhalb eines 24-Stunden-Budgets zu erkunden. Die Agenten bewerten Kandidaten mit Millionen von Parametern und extrapolieren die besten Designs auf Skalen von 350M, 1B und 3B. Dies ergibt 14 Architekturen in zwei Familien: AIRAformer (Transformer-basiert) und AIRAhybrids (Transformer-Mamba). Mit 1B-Skala vortrainiert, übertreffen sie durchweg Llama 3.2 und vom Composer gefundene Basislinien. Bei Downstream-Aufgaben verbessern AIRAformer-D und AIRAhybrid-D die Genauigkeit um 2,4 % bzw. 3,8 % im Vergleich zu Llama 3.2. Darüber hinaus findet AIRA-Compose Modelle mit hoch effizienten Skalierungsgrenzen: AIRAformer-C skaliert 54 % und 71 % schneller als Llama 3.2 bzw. der beste Transformer von Composer, während AIRAhybrid-C Nemotron-2 um 23 % und den besten Hybriden von Composer um 37 % übertrifft. AIRA-Design beauftragt 20 Agenten mit dem Schreiben neuartiger Aufmerksamkeitsmechanismen für langreichweitige Abhängigkeiten und leistungsstarker Trainingsskripte. Im Long Range Arena-Benchmark erreichen die von Agenten entworfenen Architekturen bei Dokumentabgleich und Textklassifikation Werte, die nur 2,3 % bzw. 2,6 % unter den menschlichen Spitzenleistungen liegen. Im Autoresearch-Benchmark erzielt Greedy Opus 4.5 unter einem festgelegten Zeitbudget 0,968 Validierungs-Bits-pro-Byte und übertrifft damit den veröffentlichten Minimalwert. Zusammen zeigen diese Frameworks, dass KI-Agenten autonom Architekturen und algorithmische Optimierungen entdecken können, die manuell entwickelten Basislinien entsprechen oder diese übertreffen. Dies etabliert ein leistungsfähiges Paradigma zur Entdeckung von Foundation-Modellen der nächsten Generation und stellt einen klaren Schritt in Richtung rekursiver Selbstverbesserung dar.

English

Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.