AutoResearch AI: К автоматизации исследований с помощью ИИ для научных открытий

Аннотация

Научные исследования преобразуются под влиянием систем ИИ, которые выходят за рамки изолированной помощи, переходя к долгосрочным рабочим процессам, охватывающим литературное обоснование, генерацию гипотез, экспериментирование, валидацию, отчетность и доработку. Этот сдвиг знаменует переход от ИИ уровня отдельных задач для науки к автоматизации исследований на уровне рабочих процессов. Однако современные системы остаются фрагментированными: они различаются по степени автономности, предметной области, среде выполнения, механизму валидации и уровню человеческого контроля, при этом все еще сталкиваются с проблемами сохранения доказательной базы, воспроизводимости, отклонения слабых направлений, отслеживания происхождения данных, междисциплинарной устойчивости и ответственного научного завершения. В данном обзоре рассматриваются эти изменения через концепцию AutoResearch, определяемую как спектр развития автоматизации научных рабочих процессов с использованием ИИ. В ее рамках Vibe Research обозначает область, управляемую человеком, где подсказки на естественном языке сопровождаются верификацией исполнения человеком, тогда как развивающиеся системы под руководством ИИ координируют более значительные части цикла открытий, не достигая при этом устойчивой автономии. Мы анализируем, как исследовательские системы перераспределяют контроль, доказательства, исполнение, валидацию и ответственность в рамках рабочих процессов, и систематизируем область вокруг пяти условий рабочего процесса: обоснование на основе литературы и исследования; формирование гипотез и планирование; экспериментирование и использование инструментов; обратная связь, валидация и рецензирование; отчетность и передача знаний. Далее мы обобщаем данные о системах ИИ-ученых, фреймворках совместных исследований со смешанной инициативой, бенчмарках, развертываниях в предметных областях и инфраструктурах с открытым исходным кодом. Наконец, мы предлагаем пять оценочных измерений — новизну, обоснованность, значимость, надежность и происхождение — и показываем, что автономия AutoResearch обусловлена предметной областью: она более достоверна в структурированных, выполнимых и быстро проверяемых условиях, но ограничена в контекстах, требующих воплощения, допускающих задержки, неоднородных, этических или институционально ответственных.

English

Scientific research is being reshaped by AI systems that move beyond isolated assistance toward longer-horizon workflows spanning literature grounding, hypothesis generation, experimentation, validation, reporting, and revision. This shift marks a transition from task-level AI for science to workflow-level research automation. Yet current systems remain fragmented, differing in autonomy, domain scope, execution environment, validation mechanism, and human oversight, while still struggling with evidence preservation, reproducibility, weak-direction rejection, provenance tracking, cross-domain robustness, and accountable scientific closure. This survey examines these developments through AutoResearch, defined as the developmental spectrum of AI-powered scientific workflow automation. Within it, Vibe Research denotes the human-steered region of prompt-based assistance and human-verified execution, whereas emerging AI-led systems coordinate larger portions of the discovery loop without achieving robust autonomy. We analyze how research systems redistribute control, evidence, execution, validation, and accountability across workflows and organize the field around five workflow conditions: literature and research grounding; hypothesis formation and planning; experimentation and tool use; feedback, validation, and review; and reporting and knowledge communication. We further synthesize AI scientist systems, mixed-initiative co-research frameworks, benchmarks, domain deployments, and open-source infrastructures. Finally, we propose five evaluation dimensions--novelty, validity, impact, reliability, and provenance--and show that AutoResearch autonomy is domain-conditioned, being more credible in structured, executable, and rapidly verifiable settings but limited in embodied, delayed, heterogeneous, ethical, or institutionally accountable contexts.