Агентное открытие нейронных архитектур: AIRA-Compose и AIRA-Design

Аннотация

В направлении рекурсивного самосовершенствования мы исследуем LLM-агентов, автономно проектирующих фундаментальные модели, выходящие за рамки стандартных трансформеров. Мы представляем двухуровневый подход: AIRA-Compose для поиска архитектур высокого уровня и AIRA-Design для реализации низкоуровневых механизмов. AIRA-Compose использует 11 агентов для исследования фундаментальных вычислительных примитивов в течение 24-часового бюджета. Агенты оценивают кандидатов с миллионами параметров, экстраполируя лучшие архитектуры до масштабов 350M, 1B и 3B. В результате получено 14 архитектур двух семейств: AIRAformer (на основе трансформеров) и AIRAhybrid (гибрид Transformer-Mamba). Предобученные при масштабе 1B, эти модели стабильно превосходят Llama 3.2 и базовые решения, найденные Composer. На задачах нижнего уровня AIRAformer-D и AIRAhybrid-D повышают точность на 2,4% и 3,8% по сравнению с Llama 3.2. Кроме того, AIRA-Compose находит модели с высокоэффективными границами масштабирования: AIRAformer-C масштабируется на 54% и 71% быстрее, чем Llama 3.2 и лучший трансформер Composer, в то время как AIRAhybrid-C превосходит Nemotron-2 на 23% и лучший гибрид Composer на 37%. AIRA-Design поручает 20 агентам написание новых механизмов внимания для долгосрочных зависимостей и высокопроизводительных скриптов обучения. На эталонном наборе Long Range Arena спроектированные агентами архитектуры достигают 2,3% и 2,6% от человеческого уровня современного искусства по сопоставлению документов и классификации текстов. На эталонном тесте Autoresearch Greedy Opus 4.5 достигает 0,968 валидационных бит-на-байт в заданном временном бюджете, превосходя опубликованный минимум. В совокупности эти фреймворки показывают, что ИИ-агенты могут автономно открывать архитектуры и алгоритмические оптимизации, соответствующие или превосходящие ручные базовые решения. Это устанавливает мощную парадигму для поиска фундаментальных моделей следующего поколения, что является явным шагом к рекурсивному самосовершенствованию.

English

Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.