Idea2Story: Автоматизированный конвейер для преобразования исследовательских концепций в законченные научные нарративы
Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives
January 28, 2026
Авторы: Tengyue Xu, Zhuoyang Qian, Gaoge Liu, Li Ling, Zhentao Zhang, Biao Wu, Shuo Zhang, Ke Lu, Wei Shi, Ziqi Wang, Zheng Feng, Yan Luo, Shu Xu, Yongjin Chen, Zhibo Feng, Zhuo Chen, Bruce Yuan, Harry Wang, Kris Chen
cs.AI
Аннотация
Автономное научное открытие с использованием агентов на основе больших языковых моделей (LLM) в последнее время достигло значительного прогресса, продемонстрировав возможность автоматизации сквозных исследовательских процессов. Однако существующие системы в значительной степени опираются на парадигмы выполнения, ориентированные на исполнение в реальном времени, многократно считывая, суммируя и проводя рассуждения над большими объемами научной литературы в онлайн-режиме. Эта стратегия вычислений «на месте» влечет за собой высокие вычислительные затраты, страдает от ограничений контекстного окна и часто приводит к хрупким рассуждениям и галлюцинациям. Мы предлагаем Idea2Story, фреймворк для автономного научного открытия, управляемый предварительными вычислениями, который переносит понимание литературы из онлайн-рассуждений в офлайн-построение знаний. Idea2Story непрерывно собирает рецензируемые статьи вместе с отзывами рецензентов, извлекает основные методологические единицы, компилирует переиспользуемые исследовательские паттерны и организует их в структурированный методологический граф знаний. Во время выполнения неспецифицированные исследовательские интенции пользователя сопоставляются с установленными исследовательскими парадигмами, что обеспечивает эффективный поиск и повторное использование высококачественных исследовательских паттернов вместо открытой генерации и проб и ошибок. Основывая планирование и выполнение исследований на предварительно построенном графе знаний, Idea2Story смягчает проблему ограничения контекстного окна для LLM и существенно сокращает повторные рассуждения над литературой в режиме реального времени. Мы проводим качественный анализ и предварительные эмпирические исследования, демонстрирующие, что Idea2Story способен генерировать согласованные, методологически обоснованные и новые исследовательские паттерны, а также может создавать несколько высококачественных исследовательских демонстраций в сквозной среде. Эти результаты позволяют предположить, что офлайн-построение знаний обеспечивает практичную и масштабируемую основу для надежного автономного научного открытия.
English
Autonomous scientific discovery with large language model (LLM)-based agents has recently made substantial progress, demonstrating the ability to automate end-to-end research workflows. However, existing systems largely rely on runtime-centric execution paradigms, repeatedly reading, summarizing, and reasoning over large volumes of scientific literature online. This on-the-spot computation strategy incurs high computational cost, suffers from context window limitations, and often leads to brittle reasoning and hallucination. We propose Idea2Story, a pre-computation-driven framework for autonomous scientific discovery that shifts literature understanding from online reasoning to offline knowledge construction. Idea2Story continuously collects peer-reviewed papers together with their review feedback, extracts core methodological units, composes reusable research patterns, and organizes them into a structured methodological knowledge graph. At runtime, underspecified user research intents are aligned to established research paradigms, enabling efficient retrieval and reuse of high-quality research patterns instead of open-ended generation and trial-and-error. By grounding research planning and execution in a pre-built knowledge graph, Idea2Story alleviates the context window bottleneck of LLMs and substantially reduces repeated runtime reasoning over literature. We conduct qualitative analyses and preliminary empirical studies demonstrating that Idea2Story can generate coherent, methodologically grounded, and novel research patterns, and can produce several high-quality research demonstrations in an end-to-end setting. These results suggest that offline knowledge construction provides a practical and scalable foundation for reliable autonomous scientific discovery.