ARIS: Автономные исследования посредством состязательного взаимодействия множества агентов
ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
May 4, 2026
Авторы: Ruofeng Yang, Yongcan Li, Shuai Li
cs.AI
Аннотация
В данном отчете описывается ARIS (Auto-Research-in-sleep) — открытая программная оболочка для автономных исследований, включая ее архитектуру, механизмы обеспечения достоверности и первоначальный опыт внедрения. Производительность агентных систем, построенных на основе больших языковых моделей (LLM), зависит как от весов модели, так и от окружающей их оболочки, которая управляет тем, какую информацию сохранять, извлекать и представлять модели. Для долгосрочных исследовательских процессов основным режимом сбоя является не явный провал, а правдоподобный, но неподтвержденный успех: долго работающий агент может генерировать утверждения, доказательная база для которых является неполной, искаженной или незаметно унаследованной от формулировок исполнителя. Поэтому мы представляем ARIS как исследовательскую оболочку, которая координирует рабочие процессы машинного обучения через кросс-модельное адверсариальное сотрудничество по умолчанию: модель-исполнитель обеспечивает поступательный прогресс, а рецензенту из другого семейства моделей рекомендуется критиковать промежуточные артефакты и запрашивать исправления. ARIS имеет три архитектурных уровня. Уровень исполнения предоставляет более 65 переиспользуемых навыков, определяемых в Markdown, интеграции с моделями через MCP, постоянную исследовательскую вики для итеративного повторного использования предыдущих результатов и детерминированную генерацию графиков. Уровень оркестрации координирует пять сквозных рабочих процессов с настраиваемыми уровнями усилий и конфигурируемой маршрутизацией к моделям-рецензентам. Уровень обеспечения достоверности включает трехэтапный процесс проверки поддержки экспериментальных утверждений доказательствами: верификация целостности, сопоставление результатов с утверждениями и аудит утверждений, который перепроверяет положения рукописи по журналу утверждений и исходным доказательствам, а также пятиэтапный конвейер научного редактирования, проверки математических доказательств и визуальный анализ сгенерированного PDF. Прототип цикла самоулучшения записывает следы исследований и предлагает улучшения оболочки, которые принимаются только после одобрения рецензентом.
English
This report describes ARIS (Auto-Research-in-sleep), an open-source research harness for autonomous research, including its architecture, assurance mechanisms, and early deployment experience. The performance of agent systems built on LLMs depends on both the model weights and the harness around them, which governs what information to store, retrieve, and present to the model. For long-horizon research workflows, the central failure mode is not a visible breakdown but a plausible unsupported success: a long-running agent can produce claims whose evidential support is incomplete, misreported, or silently inherited from the executor's framing. Therefore, we present ARIS as a research harness that coordinates machine-learning research workflows through cross-model adversarial collaboration as a default configuration: an executor model drives forward progress while a reviewer from a different model family is recommended to critique intermediate artifacts and request revisions. ARIS has three architectural layers. The execution layer provides more than 65 reusable Markdown-defined skills, model integrations via MCP, a persistent research wiki for iterative reuse of prior findings, and deterministic figure generation. The orchestration layer coordinates five end-to-end workflows with adjustable effort settings and configurable routing to reviewer models. The assurance layer includes a three-stage process for checking whether experimental claims are supported by evidence: integrity verification, result-to-claim mapping, and claim auditing that cross-checks manuscript statements against the claim ledger and raw evidence, as well as a five-pass scientific-editing pipeline, mathematical-proof checks, and visual inspection of the rendered PDF. A prototype self-improvement loop records research traces and proposes harness improvements that are adopted only after reviewer approval.