Découverte agentique d'architectures neuronales : AIRA-Compose et AIRA-Design
Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design
May 15, 2026
Auteurs: Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach
cs.AI
Résumé
Vers l'amélioration récursive autonome, nous étudions des agents basés sur des LLM qui conçoivent de manière autonome des modèles fondateurs au-delà des Transformers standard. Nous introduisons une approche duale : AIRA-Compose pour la recherche d'architectures de haut niveau, et AIRA-Design pour l'implémentation mécaniste de bas niveau. AIRA-Compose utilise 11 agents pour explorer des primitives computationnelles fondamentales dans un budget de 24 heures. Les agents évaluent des candidats de l'ordre du million de paramètres, en extrapolant les meilleures conceptions aux échelles de 350M, 1B et 3B paramètres. Cela donne naissance à 14 architectures réparties en deux familles : les AIRAformers (basées sur Transformers) et les AIRAhybrids (Transformer-Mamba). Pré-entraînées à l'échelle 1B, ces architectures surpassent systématiquement les références Llama 3.2 et les lignes de base issues de Composer. Sur des tâches en aval, AIRAformer-D et AIRAhybrid-D améliorent la précision de 2,4 % et 3,8 % par rapport à Llama 3.2. De plus, AIRA-Compose découvre des modèles aux frontières de passage à l'échelle très efficaces : AIRAformer-C s'adapte 54 % et 71 % plus rapidement que Llama 3.2 et le meilleur Transformer de Composer, tandis qu'AIRAhybrid-C dépasse Nemotron-2 de 23 % et le meilleur hybride de Composer de 37 %. AIRA-Design confie à 20 agents la tâche d'écrire de nouveaux mécanismes d'attention pour les dépendances à longue portée et des scripts d'entraînement performants. Sur le benchmark Long Range Arena, les architectures conçues par les agents atteignent respectivement 2,3 % et 2,6 % de l'état de l'art humain en correspondance de documents et en classification de textes. Sur le benchmark Autoresearch, Greedy Opus 4.5 atteint 0,968 bits par octet en validation sous un budget temporel fixe, dépassant le minimum publié. Ensemble, ces cadres montrent que des agents d'IA peuvent découvrir de manière autonome des architectures et des optimisations algorithmiques égalant ou surpassant les conceptions manuelles de référence. Cela établit un paradigme puissant pour découvrir la prochaine génération de modèles fondateurs, marquant une avancée claire vers l'amélioration récursive autonome.
English
Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.