Idea2Story: Una Pipeline Automatica per Trasformare Concetti di Ricerca in Narrative Scientifiche Complete
Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives
January 28, 2026
Autori: Tengyue Xu, Zhuoyang Qian, Gaoge Liu, Li Ling, Zhentao Zhang, Biao Wu, Shuo Zhang, Ke Lu, Wei Shi, Ziqi Wang, Zheng Feng, Yan Luo, Shu Xu, Yongjin Chen, Zhibo Feng, Zhuo Chen, Bruce Yuan, Harry Wang, Kris Chen
cs.AI
Abstract
La scoperta scientifica autonoma basata su agenti con modelli linguistici di grandi dimensioni (LLM) ha recentemente compiuto progressi sostanziali, dimostrando la capacità di automatizzare flussi di lavoro di ricerca end-to-end. Tuttavia, i sistemi esistenti si basano in gran parte su paradigmi di esecuzione centrati sul runtime, leggendo, riassumendo e ragionando ripetutamente su grandi volumi di letteratura scientifica online. Questa strategia di calcolo on-the-spot comporta elevati costi computazionali, soffre delle limitazioni della finestra contestuale e spesso porta a ragionamenti fragili e allucinazioni. Proponiamo Idea2Story, un framework guidato dalla pre-computazione per la scoperta scientifica autonoma che sposta la comprensione della letteratura dal ragionamento online alla costruzione di conoscenza offline. Idea2Story raccoglie continuamente articoli sottoposti a revisione paritaria insieme ai relativi feedback di revisione, estrae unità metodologiche fondamentali, compone modelli di ricerca riutilizzabili e li organizza in un grafo della conoscenza metodologico strutturato. In fase di esecuzione, le intenzioni di ricerca utente sotto-specificate vengono allineate a paradigmi di ricerca consolidati, consentendo un recupero efficiente e il riutilizzo di modelli di ricerca di alta qualità invece di generazione aperta e approcci per tentativi ed errori. Basando la pianificazione e l'esecuzione della ricerca su un grafo della conoscenza pre-costruito, Idea2Story allevia il collo di bottiglia della finestra contestuale degli LLM e riduce sostanzialmente il ragionamento ripetuto in runtime sulla letteratura. Condurremo analisi qualitative e studi empirici preliminari che dimostrano come Idea2Story possa generare modelli di ricerca coerenti, metodologicamente fondati e innovativi, e possa produrre diverse dimostrazioni di ricerca di alta qualità in un contesto end-to-end. Questi risultati suggeriscono che la costruzione di conoscenza offline fornisce una base pratica e scalabile per una scoperta scientifica autonoma affidabile.
English
Autonomous scientific discovery with large language model (LLM)-based agents has recently made substantial progress, demonstrating the ability to automate end-to-end research workflows. However, existing systems largely rely on runtime-centric execution paradigms, repeatedly reading, summarizing, and reasoning over large volumes of scientific literature online. This on-the-spot computation strategy incurs high computational cost, suffers from context window limitations, and often leads to brittle reasoning and hallucination. We propose Idea2Story, a pre-computation-driven framework for autonomous scientific discovery that shifts literature understanding from online reasoning to offline knowledge construction. Idea2Story continuously collects peer-reviewed papers together with their review feedback, extracts core methodological units, composes reusable research patterns, and organizes them into a structured methodological knowledge graph. At runtime, underspecified user research intents are aligned to established research paradigms, enabling efficient retrieval and reuse of high-quality research patterns instead of open-ended generation and trial-and-error. By grounding research planning and execution in a pre-built knowledge graph, Idea2Story alleviates the context window bottleneck of LLMs and substantially reduces repeated runtime reasoning over literature. We conduct qualitative analyses and preliminary empirical studies demonstrating that Idea2Story can generate coherent, methodologically grounded, and novel research patterns, and can produce several high-quality research demonstrations in an end-to-end setting. These results suggest that offline knowledge construction provides a practical and scalable foundation for reliable autonomous scientific discovery.