Descubrimiento de arquitecturas neuronales mediante agentes: AIRA-Compose y AIRA-Design

Resumen

Hacia la auto-mejora recursiva, investigamos agentes de LLM que diseñan de forma autónoma modelos fundacionales más allá de los Transformers estándar. Introducimos un enfoque de doble marco: AIRA-Compose para la búsqueda de arquitecturas de alto nivel, y AIRA-Design para la implementación mecanicista de bajo nivel. AIRA-Compose utiliza 11 agentes para explorar primitivas computacionales fundamentales bajo un presupuesto de 24 horas. Los agentes evalúan candidatos de millones de parámetros, extrapolando los mejores diseños a escalas de 350M, 1B y 3B. Esto produce 14 arquitecturas en dos familias: AIRAformers (basadas en Transformer) y AIRAhybrids (Transformer-Mamba). Preentrenadas a escala de 1B, estas superan consistentemente a Llama 3.2 y a las líneas base encontradas por Composer. En tareas posteriores, AIRAformer-D y AIRAhybrid-D mejoran la precisión en un 2.4% y un 3.8% respecto a Llama 3.2. Además, AIRA-Compose encuentra modelos con fronteras de escalado altamente eficientes: AIRAformer-C escala un 54% y un 71% más rápido que Llama 3.2 y el mejor Transformer de Composer, mientras que AIRAhybrid-C supera a Nemotron-2 en un 23% y al mejor híbrido de Composer en un 37%. AIRA-Design encomienda a 20 agentes la tarea de escribir mecanismos de atención novedosos para dependencias de largo alcance y scripts de entrenamiento de alto rendimiento. En el benchmark Long Range Arena, las arquitecturas diseñadas por agentes alcanzan una diferencia de hasta el 2.3% y el 2.6% respecto al estado del arte humano en coincidencia de documentos y clasificación de texto. En el benchmark Autoresearch, Greedy Opus 4.5 logra 0.968 bits por byte de validación bajo un presupuesto de tiempo fijo, superando el mínimo publicado. En conjunto, estos marcos muestran que los agentes de IA pueden descubrir de forma autónoma arquitecturas y optimizaciones algorítmicas que igualan o superan las líneas base diseñadas por humanos. Esto establece un paradigma poderoso para descubrir modelos fundacionales de próxima generación, marcando un paso claro hacia la auto-mejora recursiva.

English

Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.