Descoberta Agentiva de Arquiteturas Neurais: AIRA-Compose e AIRA-Design

Resumo

Em direção ao autoaperfeiçoamento recursivo, investigamos agentes LLM projetando autonomamente modelos fundacionais além dos Transformers padrão. Introduzimos uma abordagem de dupla estrutura: AIRA-Compose para busca de arquitetura de alto nível e AIRA-Design para implementação mecanicista de baixo nível. O AIRA-Compose utiliza 11 agentes para explorar primitivas computacionais fundamentais dentro de um orçamento de 24 horas. Os agentes avaliam candidatos com milhões de parâmetros, extrapolando os designs principais para escalas de 350M, 1B e 3B. Isso resulta em 14 arquiteturas em duas famílias: AIRAformers (baseadas em Transformer) e AIRAhybrids (Transformer-Mamba). Pré-treinados na escala de 1B, esses modelos superam consistentemente o Llama 3.2 e as baselines do Composer-found. Em tarefas downstream, o AIRAformer-D e o AIRAhybrid-D melhoram a precisão em 2,4% e 3,8% em relação ao Llama 3.2. Além disso, o AIRA-Compose encontra modelos com fronteiras de escalabilidade altamente eficientes: o AIRAformer-C escala 54% e 71% mais rápido que o Llama 3.2 e o melhor Transformer do Composer, enquanto o AIRAhybrid-C supera o Nemotron-2 em 23% e o melhor híbrido do Composer em 37%. O AIRA-Design encarrega 20 agentes de escrever mecanismos de atenção inovadores para dependências de longo alcance e scripts de treinamento de alto desempenho. No benchmark Long Range Arena, as arquiteturas projetadas por agentes alcançam até 2,3% e 2,6% do estado da arte humano em correspondência de documentos e classificação de texto. No benchmark Autoresearch, o Greedy Opus 4.5 atinge 0,968 bits por byte de validação sob um orçamento de tempo fixo, superando o mínimo publicado. Juntas, essas estruturas mostram que agentes de IA podem descobrir autonomamente arquiteturas e otimizações algorítmicas que igualam ou superam baselines projetados manualmente. Isso estabelece um paradigma poderoso para descobrir modelos fundacionais de próxima geração, marcando um passo claro em direção ao autoaperfeiçoamento recursivo.

English

Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.