Vers une ingénierie autonome à long terme pour la recherche en apprentissage automatique

Résumé

La recherche en IA autonome a progressé rapidement, mais l'ingénierie de recherche en apprentissage automatique à long horizon reste difficile : les agents doivent maintenir une progression cohérente à travers la compréhension des tâches, la configuration de l'environnement, l'implémentation, l'expérimentation et le débogage sur plusieurs heures ou jours. Nous présentons AiScientist, un système d'ingénierie autonome à long horizon pour la recherche en ML fondé sur un principe simple : une forte performance à long horizon nécessite à la fois une orchestration structurée et une continuité durable de l'état. Pour cela, AiScientist combine une orchestration hiérarchique avec un espace de travail Fichier-comme-Bus à permissions délimitées : un Orchestrateur de haut niveau maintient un contrôle au niveau des étapes via des résumés concis et une cartographie de l'espace de travail, tandis que des agents spécialisés se ré-ancrent répétitivement sur des artefacts durables tels que des analyses, des plans, du code et des preuves expérimentales plutôt que de reposer principalement sur des transferts conversationnels, produisant ainsi un contrôle fin sur un état épais. Sur deux benchmarks complémentaires, AiScientist améliore le score PaperBench de 10.54 points en moyenne par rapport à la meilleure baseline correspondante et atteint 81.82% Any Medal sur MLE-Bench Lite. Les études d'ablation montrent en outre que le protocole Fichier-comme-Bus est un facteur clé de performance, réduisant PaperBench de 6.41 points et MLE-Bench Lite de 31.82 points lorsqu'il est supprimé. Ces résultats suggèrent que l'ingénierie de recherche en ML à long horizon est un problème systémique de coordination de travaux spécialisés sur un état de projet durable, plutôt qu'un problème de raisonnement purement local.

English

Autonomous AI research has advanced rapidly, but long-horizon ML research engineering remains difficult: agents must sustain coherent progress across task comprehension, environment setup, implementation, experimentation, and debugging over hours or days. We introduce AiScientist, a system for autonomous long-horizon engineering for ML research built on a simple principle: strong long-horizon performance requires both structured orchestration and durable state continuity. To this end, AiScientist combines hierarchical orchestration with a permission-scoped File-as-Bus workspace: a top-level Orchestrator maintains stage-level control through concise summaries and a workspace map, while specialized agents repeatedly re-ground on durable artifacts such as analyses, plans, code, and experimental evidence rather than relying primarily on conversational handoffs, yielding thin control over thick state. Across two complementary benchmarks, AiScientist improves PaperBench score by 10.54 points on average over the best matched baseline and achieves 81.82 Any Medal% on MLE-Bench Lite. Ablation studies further show that File-as-Bus protocol is a key driver of performance, reducing PaperBench by 6.41 points and MLE-Bench Lite by 31.82 points when removed. These results suggest that long-horizon ML research engineering is a systems problem of coordinating specialized work over durable project state, rather than a purely local reasoning problem.

Vers une ingénierie autonome à long terme pour la recherche en apprentissage automatique

Toward Autonomous Long-Horizon Engineering for ML Research

Résumé

Support