ARIS : Recherche Autonome par Collaboration Multi-Agents Adversaire
ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
May 4, 2026
Auteurs: Ruofeng Yang, Yongcan Li, Shuai Li
cs.AI
Résumé
Ce rapport décrit ARIS (Auto-Research-in-sleep), un environnement de recherche open-source pour la recherche autonome, incluant son architecture, ses mécanismes d'assurance et ses premières expériences de déploiement. Les performances des systèmes d'agents construits sur des LLM dépendent à la fois des pondérations du modèle et de l'environnement qui les entoure, lequel régit les informations à stocker, récupérer et présenter au modèle. Pour les flux de travail de recherche à long terme, le principal mode d'échec n'est pas une rupture visible, mais un succès plausible non étayé : un agent de longue durée peut produire des affirmations dont le support probant est incomplet, incorrectement rapporté ou hérité silencieusement du cadrage de l'exécuteur. Par conséquent, nous présentons ARIS comme un environnement de recherche qui coordonne les flux de travail de recherche en apprentissage automatique via une collaboration antagoniste inter-modèles comme configuration par défaut : un modèle exécuteur pilote la progression, tandis qu'un relecteur issu d'une famille de modèles différente est recommandé pour critiquer les artefacts intermédiaires et demander des révisions. ARIS comporte trois couches architecturales. La couche d'exécution fournit plus de 65 compétences réutilisables définies en Markdown, des intégrations de modèles via MCP, un wiki de recherche persistant pour la réutilisation itérative des résultats antérieurs et une génération de figures déterministe. La couche d'orchestration coordonne cinq flux de travail de bout en bout avec des paramètres d'effort ajustables et un routage configurable vers les modèles relecteurs. La couche d'assurance inclut un processus en trois étapes pour vérifier si les affirmations expérimentales sont étayées par des preuves : la vérification d'intégrité, la cartographie des résultats aux affirmations, et l'audit des affirmations qui recoupe les déclarations du manuscrit avec le registre des affirmations et les preuves brutes, ainsi qu'un pipeline de relecture scientifique en cinq passes, des vérifications de preuves mathématiques et une inspection visuelle du PDF généré. Une boucle d'auto-amélioration prototype enregistre les traces de recherche et propose des améliorations de l'environnement qui ne sont adoptées qu'après approbation par le relecteur.
English
This report describes ARIS (Auto-Research-in-sleep), an open-source research harness for autonomous research, including its architecture, assurance mechanisms, and early deployment experience. The performance of agent systems built on LLMs depends on both the model weights and the harness around them, which governs what information to store, retrieve, and present to the model. For long-horizon research workflows, the central failure mode is not a visible breakdown but a plausible unsupported success: a long-running agent can produce claims whose evidential support is incomplete, misreported, or silently inherited from the executor's framing. Therefore, we present ARIS as a research harness that coordinates machine-learning research workflows through cross-model adversarial collaboration as a default configuration: an executor model drives forward progress while a reviewer from a different model family is recommended to critique intermediate artifacts and request revisions. ARIS has three architectural layers. The execution layer provides more than 65 reusable Markdown-defined skills, model integrations via MCP, a persistent research wiki for iterative reuse of prior findings, and deterministic figure generation. The orchestration layer coordinates five end-to-end workflows with adjustable effort settings and configurable routing to reviewer models. The assurance layer includes a three-stage process for checking whether experimental claims are supported by evidence: integrity verification, result-to-claim mapping, and claim auditing that cross-checks manuscript statements against the claim ledger and raw evidence, as well as a five-pass scientific-editing pipeline, mathematical-proof checks, and visual inspection of the rendered PDF. A prototype self-improvement loop records research traces and proposes harness improvements that are adopted only after reviewer approval.