ChatPaper.aiChatPaper

ARIS: Investigación Autónoma mediante Colaboración Adversaria Multiagente

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

May 4, 2026
Autores: Ruofeng Yang, Yongcan Li, Shuai Li
cs.AI

Resumen

Este informe describe ARIS (Auto-Research-in-sleep), un entorno de investigación de código abierto para la investigación autónoma, incluyendo su arquitectura, mecanismos de garantía y experiencia inicial de despliegue. El rendimiento de los sistemas de agentes construidos sobre LLMs depende tanto de los pesos del modelo como del entorno que los rodea, el cual gobierna qué información almacenar, recuperar y presentar al modelo. Para flujos de trabajo de investigación de largo alcance, el modo de fallo central no es una ruptura visible, sino un éxito aparente pero no respaldado: un agente de larga duración puede producir afirmaciones cuyo soporte probatorio es incompleto, mal reportado o heredado silenciosamente del marco del ejecutor. Por lo tanto, presentamos ARIS como un entorno de investigación que coordina los flujos de trabajo de investigación de aprendizaje automático mediante la colaboración adversarial entre modelos como configuración predeterminada: un modelo ejecutor impulsa el progreso mientras se recomienda que un revisor de una familia de modelos diferente critique los artefactos intermedios y solicite revisiones. ARIS tiene tres capas arquitectónicas. La capa de ejecución proporciona más de 65 habilidades reutilizables definidas en Markdown, integraciones de modelos mediante MCP, un wiki de investigación persistente para la reutilización iterativa de hallazgos previos y generación determinista de figuras. La capa de orquestación coordina cinco flujos de trabajo integrales con ajustes de esfuerzo configurables y enrutamiento ajustable a modelos revisores. La capa de garantía incluye un proceso de tres etapas para verificar si las afirmaciones experimentales están respaldadas por evidencia: verificación de integridad, mapeo de resultados a afirmaciones, y auditoría de afirmaciones que coteja las declaraciones del manuscrito con el registro de afirmaciones y la evidencia cruda, así como un pipeline de edición científica de cinco pasos, comprobaciones de demostraciones matemáticas e inspección visual del PDF renderizado. Un prototipo de bucle de auto-mejora registra los trazos de investigación y propone mejoras al entorno que solo se adoptan tras la aprobación de un revisor.
English
This report describes ARIS (Auto-Research-in-sleep), an open-source research harness for autonomous research, including its architecture, assurance mechanisms, and early deployment experience. The performance of agent systems built on LLMs depends on both the model weights and the harness around them, which governs what information to store, retrieve, and present to the model. For long-horizon research workflows, the central failure mode is not a visible breakdown but a plausible unsupported success: a long-running agent can produce claims whose evidential support is incomplete, misreported, or silently inherited from the executor's framing. Therefore, we present ARIS as a research harness that coordinates machine-learning research workflows through cross-model adversarial collaboration as a default configuration: an executor model drives forward progress while a reviewer from a different model family is recommended to critique intermediate artifacts and request revisions. ARIS has three architectural layers. The execution layer provides more than 65 reusable Markdown-defined skills, model integrations via MCP, a persistent research wiki for iterative reuse of prior findings, and deterministic figure generation. The orchestration layer coordinates five end-to-end workflows with adjustable effort settings and configurable routing to reviewer models. The assurance layer includes a three-stage process for checking whether experimental claims are supported by evidence: integrity verification, result-to-claim mapping, and claim auditing that cross-checks manuscript statements against the claim ledger and raw evidence, as well as a five-pass scientific-editing pipeline, mathematical-proof checks, and visual inspection of the rendered PDF. A prototype self-improvement loop records research traces and proposes harness improvements that are adopted only after reviewer approval.
PDF7010May 7, 2026