Sci-Reasoning : Un ensemble de données pour décrypter les modèles d'innovation en IA
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns
January 8, 2026
papers.authors: Jiachen Liu, Maestro Harmon, Zechen Zhang
cs.AI
papers.abstract
Alors que l'innovation en IA accélère rapidement, le processus intellectuel derrière les percées – comment les chercheurs identifient les lacunes, synthétisent les travaux antérieurs et génèrent des idées – reste mal compris. Le manque de données structurées sur le raisonnement scientifique entrave l'analyse systématique et le développement d'agents de recherche en IA. Nous présentons Sci-Reasoning, le premier jeu de données capturant la synthèse intellectuelle à l'origine de recherches en IA de haute qualité. En utilisant des signaux de qualité validés par la communauté et un pipeline accéléré par LLM et vérifié par des humains, nous retraçons les articles Oral et Spotlight des conférences NeurIPS, ICML et ICLR (2023-2025) jusqu'à leurs prédécesseurs clés, en articulant des liens de raisonnement spécifiques dans un format structuré. Notre analyse identifie 15 schémas de pensée distincts, trois stratégies dominantes représentant 52,7 % : le Recadrage par les Lacunes (24,2 %), la Synthèse Transdisciplinaire (18,0 %) et le Changement de Représentation (10,5 %). Les recettes d'innovation les plus puissantes combinent plusieurs schémas : Recadrage par les Lacunes + Changement de Représentation, Synthèse Transdisciplinaire + Changement de Représentation, et Recadrage par les Lacunes + Synthèse Transdisciplinaire. Ce jeu de données permet des études quantitatives du progrès scientifique et fournit des trajectoires de raisonnement structurées pour former la prochaine génération d'agents de recherche en IA.
English
While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.