Idea2Story : Un pipeline automatisé pour transformer les concepts de recherche en récits scientifiques complets
Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives
January 28, 2026
papers.authors: Tengyue Xu, Zhuoyang Qian, Gaoge Liu, Li Ling, Zhentao Zhang, Biao Wu, Shuo Zhang, Ke Lu, Wei Shi, Ziqi Wang, Zheng Feng, Yan Luo, Shu Xu, Yongjin Chen, Zhibo Feng, Zhuo Chen, Bruce Yuan, Harry Wang, Kris Chen
cs.AI
papers.abstract
La découverte scientifique autonome par des agents basés sur de grands modèles de langage (LLM) a récemment accompli des progrès substantiels, démontrant une capacité à automatiser des workflows de recherche de bout en bout. Cependant, les systèmes existants reposent largement sur des paradigmes d'exécution centrés sur le temps d'exécution, procédant à des relectures, synthèses et raisonnements répétés sur de vastes volumes de littérature scientifique en ligne. Cette stratégie de calcul immédiat entraîne un coût computationnel élevé, souffre des limitations de la fenêtre contextuelle et conduit souvent à un raisonnement fragile et à des hallucinations. Nous proposons Idea2Story, un cadre de découverte scientifique autonome piloté par le pré-calcul qui déplace la compréhension de la littérature d'un raisonnement en ligne vers une construction de connaissances hors ligne. Idea2Story collecte continuellement des articles évalués par les pairs ainsi que leurs retours d'évaluation, extrait les unités méthodologiques fondamentales, compose des modèles de recherche réutilisables et les organise en un graphe de connaissances méthodologiques structuré. Au moment de l'exécution, les intentions de recherche sous-spécifiées de l'utilisateur sont alignées sur des paradigmes de recherche établis, permettant une récupération et une réutilisation efficaces de modèles de recherche de haute qualité, plutôt qu'une génération ouverte et une approche par essais-erreurs. En ancrant la planification et l'exécution de la recherche dans un graphe de connaissances pré-construit, Idea2Story atténue le goulot d'étranglement de la fenêtre contextuelle des LLM et réduit substantiellement les raisonnements répétitifs en temps d'exécution sur la littérature. Nous menons des analyses qualitatives et des études empiriques préliminaires démontrant qu'Idea2Story peut générer des modèles de recherche cohérents, méthodologiquement fondés et novateurs, et produire plusieurs démonstrations de recherche de haute qualité dans un cadre de bout en bout. Ces résultats suggèrent que la construction de connaissances hors ligne fournit une base pratique et évolutive pour une découverte scientifique autonome fiable.
English
Autonomous scientific discovery with large language model (LLM)-based agents has recently made substantial progress, demonstrating the ability to automate end-to-end research workflows. However, existing systems largely rely on runtime-centric execution paradigms, repeatedly reading, summarizing, and reasoning over large volumes of scientific literature online. This on-the-spot computation strategy incurs high computational cost, suffers from context window limitations, and often leads to brittle reasoning and hallucination. We propose Idea2Story, a pre-computation-driven framework for autonomous scientific discovery that shifts literature understanding from online reasoning to offline knowledge construction. Idea2Story continuously collects peer-reviewed papers together with their review feedback, extracts core methodological units, composes reusable research patterns, and organizes them into a structured methodological knowledge graph. At runtime, underspecified user research intents are aligned to established research paradigms, enabling efficient retrieval and reuse of high-quality research patterns instead of open-ended generation and trial-and-error. By grounding research planning and execution in a pre-built knowledge graph, Idea2Story alleviates the context window bottleneck of LLMs and substantially reduces repeated runtime reasoning over literature. We conduct qualitative analyses and preliminary empirical studies demonstrating that Idea2Story can generate coherent, methodologically grounded, and novel research patterns, and can produce several high-quality research demonstrations in an end-to-end setting. These results suggest that offline knowledge construction provides a practical and scalable foundation for reliable autonomous scientific discovery.