Agentische Ontdekking van Neurale Architecturen: AIRA-Compose en AIRA-Design

Samenvatting

Op weg naar recursieve zelfverbetering onderzoeken we hoe LLM-agenten autonoom basismodellen kunnen ontwerpen die verder gaan dan standaard Transformers. We introduceren een tweeledig raamwerk: AIRA-Compose voor architectuurverkenning op hoog niveau en AIRA-Design voor implementatie van laag-niveau mechanismen. AIRA-Compose gebruikt 11 agenten om fundamentele computationele primitieven te verkennen binnen een budget van 24 uur. Agenten evalueren kandidaten met miljoenen parameters en extrapoleren de beste ontwerpen naar schalen van 350M, 1B en 3B. Dit levert 14 architecturen op in twee families: AIRAformers (Transformer-gebaseerd) en AIRAhybrids (Transformer-Mamba). Voortraining op 1B-schaal laat zien dat deze consistent beter presteren dan Llama 3.2 en door Composer gevonden basislijnen. Op downstream-taken verbeteren AIRAformer-D en AIRAhybrid-D de nauwkeurigheid met respectievelijk 2,4% en 3,8% ten opzichte van Llama 3.2. Bovendien vindt AIRA-Compose modellen met zeer efficiënte schalingsgrenzen: AIRAformer-C schaalt 54% en 71% sneller dan Llama 3.2 en Composer's beste Transformer, terwijl AIRAhybrid-C Nemotron-2 met 23% en Composer's beste hybride met 37% overtreft. AIRA-Design geeft 20 agenten de taak om nieuwe aandachtsmechanismen te schrijven voor langeafstandsafhankelijkheden en hoogwaardige trainingsscripts. Op de Long Range Arena-benchmark komen door agenten ontworpen architecturen binnen 2,3% en 2,6% van de menselijke state-of-the-art op documentmatching en tekstclassificatie. Op de Autoresearch-benchmark behaalt Greedy Opus 4.5 een validatie bits-per-byte van 0,968 onder een vast tijdsbudget, waarmee de gepubliceerde minimumwaarde wordt overtroffen. Samen tonen deze raamwerken aan dat AI-agenten autonoom architecturen en algoritmische optimalisaties kunnen ontdekken die handmatig ontworpen basislijnen evenaren of overtreffen. Dit vestigt een krachtig paradigma voor het ontdekken van de volgende generatie basismodellen en markeert een duidelijke stap in de richting van recursieve zelfverbetering.

English

Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.