Sci-Reasoning: Een dataset voor het ontcijferen van AI-innovatiepatronen
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns
January 8, 2026
Auteurs: Jiachen Liu, Maestro Harmon, Zechen Zhang
cs.AI
Samenvatting
Hoewel AI-innovatie in rap tempo versnelt, blijft het intellectuele proces achter doorbraken – hoe onderzoekers hiaten identificeren, eerder werk synthetiseren en inzichten genereren – nog steeds slecht begrepen. Het gebrek aan gestructureerde gegevens over wetenschappelijke redenering belemmert een systematische analyse en ontwikkeling van AI-onderzoeksagenten. Wij introduceren Sci-Reasoning, de eerste dataset die de intellectuele synthese achter hoogwaardig AI-onderzoek vastlegt. Met behulp van gemeenschapsgevalideerde kwaliteitssignalen en een door LLM-versneld, menselijk geverifieerd proces, traceren we Oral- en Spotlight-papers van NeurIPS, ICML en ICLR (2023-2025) naar hun belangrijkste voorgangers, waarbij we specifieke redeneringsverbanden articuleren in een gestructureerd formaat. Onze analyse identificeert 15 verschillende denkpatronen, waarbij drie dominante strategieën 52,7% voor hun rekening nemen: Hiaatgedreven Herkadering (24,2%), Cross-domein Synthese (18,0%) en Representatieverschuiving (10,5%). De krachtigste innovatierecepten combineren meerdere patronen: Hiaatgedreven Herkadering + Representatieverschuiving, Cross-domein Synthese + Representatieverschuiving, en Hiaatgedreven Herkadering + Cross-domein Synthese. Deze dataset maakt kwantitatieve studies van wetenschappelijke vooruitgang mogelijk en biedt gestructureerde redeneertrajecten voor het trainen van de volgende generatie AI-onderzoeksagenten.
English
While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.