Idea2Story: Een geautomatiseerde pijplijn voor het transformeren van onderzoeksconcepten in complete wetenschappelijke verhalen

Samenvatting

Autonome wetenschappelijke ontdekking met op grote taalmodellen (LLM) gebaseerde agents heeft recentelijk aanzienlijke vooruitgang geboekt, waarbij het vermogen wordt aangetoond om end-to-end onderzoekswerkstromen te automatiseren. Bestaande systemen vertrouwen echter grotendeels op runtime-gerichte uitvoeringsparadigma's, waarbij herhaaldelijk grote hoeveelheden wetenschappelijke literatuur online worden gelezen, samengevat en beredeneerd. Deze strategie van directe berekening brengt hoge computationele kosten met zich mee, lijdt onder beperkingen van het contextvenster en leidt vaak tot broos redeneren en hallucinaties. Wij stellen Idea2Story voor, een pre-computatie-gedreven raamwerk voor autonome wetenschappelijke ontdekking dat literatuurinterpretatie verschuift van online redeneren naar offline kennisconstructie. Idea2Story verzamelt continu peer-reviewed artikelen samen met hun reviewfeedback, extraheert kernmethodologische eenheden, componeert herbruikbare onderzoekspatronen en organiseert deze in een gestructureerde methodologische kennisgraaf. Tijdens runtime worden ongespecificeerde gebruikersonderzoeksintenties afgestemd op gevestigde onderzoeksparadigma's, waardoor efficiënte retrievable en hergebruik van hoogwaardige onderzoekspatronen mogelijk wordt in plaats van open-ended generatie en trial-and-error. Door onderzoeksplanning en -uitvoering te verankeren in een vooraf opgebouwde kennisgraaf, verlicht Idea2Story het contextvensterknelpunt van LLM's en vermindert het substantieel herhaalde runtime-redenering over literatuur. Wij voeren kwalitatieve analyses en preliminaire empirische studies uit die aantonen dat Idea2Story samenhangende, methodologisch onderbouwde en nieuwe onderzoekspatronen kan genereren, en in staat is tot verschillende hoogwaardige onderzoeksdemonstraties in een end-to-end setting. Deze resultaten suggereren dat offline kennisconstructie een praktische en schaalbare basis biedt voor betrouwbare autonome wetenschappelijke ontdekking.

English

Autonomous scientific discovery with large language model (LLM)-based agents has recently made substantial progress, demonstrating the ability to automate end-to-end research workflows. However, existing systems largely rely on runtime-centric execution paradigms, repeatedly reading, summarizing, and reasoning over large volumes of scientific literature online. This on-the-spot computation strategy incurs high computational cost, suffers from context window limitations, and often leads to brittle reasoning and hallucination. We propose Idea2Story, a pre-computation-driven framework for autonomous scientific discovery that shifts literature understanding from online reasoning to offline knowledge construction. Idea2Story continuously collects peer-reviewed papers together with their review feedback, extracts core methodological units, composes reusable research patterns, and organizes them into a structured methodological knowledge graph. At runtime, underspecified user research intents are aligned to established research paradigms, enabling efficient retrieval and reuse of high-quality research patterns instead of open-ended generation and trial-and-error. By grounding research planning and execution in a pre-built knowledge graph, Idea2Story alleviates the context window bottleneck of LLMs and substantially reduces repeated runtime reasoning over literature. We conduct qualitative analyses and preliminary empirical studies demonstrating that Idea2Story can generate coherent, methodologically grounded, and novel research patterns, and can produce several high-quality research demonstrations in an end-to-end setting. These results suggest that offline knowledge construction provides a practical and scalable foundation for reliable autonomous scientific discovery.

Idea2Story: Een geautomatiseerde pijplijn voor het transformeren van onderzoeksconcepten in complete wetenschappelijke verhalen

Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Samenvatting

Support