ARIS: Autonoom Onderzoek via Adversariële Multi-Agent Samenwerking
ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
May 4, 2026
Auteurs: Ruofeng Yang, Yongcan Li, Shuai Li
cs.AI
Samenvatting
Dit rapport beschrijft ARIS (Auto-Research-in-sleep), een open-source onderzoeksraamwerk voor autonoom onderzoek, inclusief de architectuur, assurance-mechanismen en eerste ervaringen met implementatie. De prestaties van agentsystemen gebouwd op grote taalmmodellen (LLM's) zijn afhankelijk van zowel de modelgewichten als het raamwerk eromheen, dat bepaalt welke informatie wordt opgeslagen, opgehaald en aan het model wordt gepresenteerd. Voor onderzoeksworkflows met een lange tijdshorizon is de belangrijkste faalmodus niet een zichtbare storing, maar een plausibele, niet-onderbouwde succesvolle uitkomst: een langlopende agent kan claims produceren waarvan de ondersteunende bewijzen onvolledig zijn, verkeerd gerapporteerd, of stilletjes overgenomen zijn uit de formulering van de uitvoerder. Daarom presenteren wij ARIS als een onderzoeksraamwerk dat machine learning-onderzoeksworkflows coördineert via cross-model 'adversarial collaboration' als standaardconfiguratie: een uitvoerend model drijft de vooruitgang aan, terwijl een revisor van een ander modelfamilie wordt aanbevolen om tussentijdse resultaten te beoordelen en revisies te verzoeken.
ARIS kent drie architectuurlagen. De uitvoeringslaag biedt meer dan 65 herbruikbare, in Markdown gedefinieerde vaardigheden, modelintegraties via MCP, een persistente onderzoekswiki voor iteratief hergebruik van eerdere bevindingen, en deterministische generatie van figuren. De orchestratielaag coördineert vijf end-to-end workflows met instelbare inspanningsniveaus en configureerbare routering naar revisormodellen. De assurance-laag omvat een drietrapsproces voor het controleren of experimentele claims worden ondersteund door bewijs: integriteitsverificatie, koppeling van resultaten aan claims, en claimauditing die uitspraken in het manuscript cross-checkt met het claimregister en ruwe bewijsstukken, alsmede een vijfstappen pijplijn voor wetenschappelijke redactie, controles van wiskundige bewijzen en visuele inspectie van de gerenderde PDF. Een prototype van een zelfverbeteringslus registreert onderzoekssporen en stelt verbeteringen aan het raamwerk voor die pas worden overgenomen na goedkeuring door de revisor.
English
This report describes ARIS (Auto-Research-in-sleep), an open-source research harness for autonomous research, including its architecture, assurance mechanisms, and early deployment experience. The performance of agent systems built on LLMs depends on both the model weights and the harness around them, which governs what information to store, retrieve, and present to the model. For long-horizon research workflows, the central failure mode is not a visible breakdown but a plausible unsupported success: a long-running agent can produce claims whose evidential support is incomplete, misreported, or silently inherited from the executor's framing. Therefore, we present ARIS as a research harness that coordinates machine-learning research workflows through cross-model adversarial collaboration as a default configuration: an executor model drives forward progress while a reviewer from a different model family is recommended to critique intermediate artifacts and request revisions. ARIS has three architectural layers. The execution layer provides more than 65 reusable Markdown-defined skills, model integrations via MCP, a persistent research wiki for iterative reuse of prior findings, and deterministic figure generation. The orchestration layer coordinates five end-to-end workflows with adjustable effort settings and configurable routing to reviewer models. The assurance layer includes a three-stage process for checking whether experimental claims are supported by evidence: integrity verification, result-to-claim mapping, and claim auditing that cross-checks manuscript statements against the claim ledger and raw evidence, as well as a five-pass scientific-editing pipeline, mathematical-proof checks, and visual inspection of the rendered PDF. A prototype self-improvement loop records research traces and proposes harness improvements that are adopted only after reviewer approval.