ChatPaper.aiChatPaper

ARIS: Autonome Forschung durch adversarielle Multi-Agenten-Kollaboration

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

May 4, 2026
Autoren: Ruofeng Yang, Yongcan Li, Shuai Li
cs.AI

Zusammenfassung

Dieser Bericht beschreibt ARIS (Auto-Research-in-sleep), ein Open-Source-Forschungsframework für autonomes Forschen, einschließlich seiner Architektur, Sicherstellungsmechanismen und frühen Einsatz-erfahrungen. Die Leistung von Agentensystemen, die auf LLMs basieren, hängt sowohl von den Modellgewichten als auch von dem sie umgebenden Framework ab, das steuert, welche Informationen gespeichert, abgerufen und dem Modell präsentiert werden. Für langfristige Forschungs-workflows ist der zentrale Fehlermodus kein sichtbarer Zusammenbruch, sondern ein plausibler, nicht belegter Erfolg: Ein langlaufender Agent kann Behauptungen produzieren, deren Beleglage unvollständig, falsch dargestellt oder stillschweigend aus der Formulierung des Ausführenden übernommen ist. Daher stellen wir ARIS als ein Forschungsframework vor, das Machine-Learning-Forschungs-workflows standardmäßig durch modellübergreifende adversarielle Kollaboration koordiniert: Ein Ausführungsmodell treibt den Fortschritt voran, während ein Gutachter aus einer anderen Modellfamilie empfohlen wird, um Zwischenergebnisse zu kritisieren und Überarbeitungen anzufordern. ARIS verfügt über drei Architekturebenen. Die Ausführungsebene bietet mehr als 65 wiederverwendbare, in Markdown definierte Fähigkeiten, Modellintegrationen via MCP, ein persistentes Forschungs-Wiki zur iterativen Wiederverwendung früherer Ergebnisse und deterministische Abbildungsgenerierung. Die Orchestrierungsebene koordiniert fünf End-to-End-Workflows mit einstellbaren Aufwandsparametern und konfigurierbarem Routing zu Gutachtermodellen. Die Sicherstellungsebene umfasst einen dreistufigen Prozess zur Überprüfung, ob experimentelle Behauptungen durch Evidenz gestützt werden: Integritätsverifikation, Ergebnis-zu-Behauptungs-Abbildung und Behauptungsaudits, die Manuskriptaussagen mit dem Behauptungsregister und der Rohevidenz abgleichen, sowie eine fünfstufige wissenschaftliche Bearbeitungspipeline, mathematische Beweisprüfungen und visuelle Inspektion des gerenderten PDFs. Eine Prototyp-Schleife zur Selbstverbesserung zeichnet Forschungsspuren auf und schlägt Framework-Verbesserungen vor, die erst nach Gutachtergenehmigung übernommen werden.
English
This report describes ARIS (Auto-Research-in-sleep), an open-source research harness for autonomous research, including its architecture, assurance mechanisms, and early deployment experience. The performance of agent systems built on LLMs depends on both the model weights and the harness around them, which governs what information to store, retrieve, and present to the model. For long-horizon research workflows, the central failure mode is not a visible breakdown but a plausible unsupported success: a long-running agent can produce claims whose evidential support is incomplete, misreported, or silently inherited from the executor's framing. Therefore, we present ARIS as a research harness that coordinates machine-learning research workflows through cross-model adversarial collaboration as a default configuration: an executor model drives forward progress while a reviewer from a different model family is recommended to critique intermediate artifacts and request revisions. ARIS has three architectural layers. The execution layer provides more than 65 reusable Markdown-defined skills, model integrations via MCP, a persistent research wiki for iterative reuse of prior findings, and deterministic figure generation. The orchestration layer coordinates five end-to-end workflows with adjustable effort settings and configurable routing to reviewer models. The assurance layer includes a three-stage process for checking whether experimental claims are supported by evidence: integrity verification, result-to-claim mapping, and claim auditing that cross-checks manuscript statements against the claim ledger and raw evidence, as well as a five-pass scientific-editing pipeline, mathematical-proof checks, and visual inspection of the rendered PDF. A prototype self-improvement loop records research traces and proposes harness improvements that are adopted only after reviewer approval.
PDF7010May 7, 2026