ScientistOne: На пути к автономным исследованиям на уровне человека через цепочку доказательств

Аннотация

Автономные исследовательские агенты создают конкурентоспособные решения и профессионально оформленные рукописи, однако их результаты содержат ошибки верификации, не обнаруживаемые при поверхностной оценке: сфабрикованные ссылки, невоспроизводимые показатели и описания методов, расходящиеся с реализацией. Мы решаем эту проблему с помощью трех вкладов. Во-первых, «Цепочка доказательств» (Chain-of-Evidence, CoE) — это фреймворк верификации, требующий, чтобы каждое утверждение было прослеживаемо до своего источника доказательств. Во-вторых, ScientistOne — это сквозная автономная исследовательская система, которая по построению поддерживает цепочки доказательств на всех этапах: обзор литературы, поиск решений и написание статьи. В-третьих, CoE Audit — это ретроспективный аудит, чьи четыре проверки целостности — верификация показателей, нарушение спецификации, верификация ссылок и согласованность метода и кода — единообразно применимы ко всем системам. В 75 статьях, охватывающих пять систем и пять передовых исследовательских задач, каждый базовый метод демонстрирует как минимум одну систематическую ошибку: уровень галлюцинированных ссылок достигает 21%, верификация показателей проходит лишь в 42% статей, а согласованность метода и кода варьируется от 20% до 80%. ScientistOne достигает нулевых галлюцинированных ссылок (0/337), безупречной верификации показателей (12/12) и наивысшей согласованности метода и кода (14/15), при этом соответствуя или превосходя результаты экспертов-людей по всем пяти задачам. Кроме того, ScientistOne обобщается на шесть дополнительных задач, охватывающих медицинскую визуализацию, мелкозернистое распознавание, трехмерное восприятие и языковое моделирование, достигая передовых результатов на Parameter Golf и золотых медалей на задачах MLE-Bench, где базовые методы терпят полную неудачу.

English

Autonomous research agents produce competitive solutions and professional-looking manuscripts, yet their outputs contain verifiability failures undetectable by surface-level evaluation: fabricated citations, unreproducible scores, and method descriptions that diverge from the implementation. We address this through three contributions. First, Chain-of-Evidence (CoE), a verifiability framework requiring every claim to be traceable to its evidence source. Second, ScientistOne, an end-to-end autonomous research system that maintains evidence chains by construction throughout literature review, solution discovery, and paper writing. Third, CoE Audit, a post-hoc audit whose four integrity checks -- score verification, specification violation, reference verification, and method-code alignment -- apply uniformly to all systems. Across 75 papers spanning five systems and five frontier research tasks, every baseline exhibits at least one systematic failure mode: hallucinated reference rates reach 21%, score verification passes in as few as 42% of papers, and method-code alignment ranges from 20% to 80%. ScientistOne achieves zero hallucinated references (0/337), perfect score verification (12/12), and the highest method-code alignment (14/15), while matching or exceeding human expert performance on all five tasks. ScientistOne further generalizes to six additional tasks spanning medical imaging, fine-grained recognition, 3D perception, and language modeling, achieving state-of-the-art on Parameter Golf and gold medals on MLE-Bench tasks where baselines fail entirely.