Sci-Reasoning: Ein Datensatz zur Entschlüsselung von KI-Innovationsmustern
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns
January 8, 2026
papers.authors: Jiachen Liu, Maestro Harmon, Zechen Zhang
cs.AI
papers.abstract
Während die KI-Innovation rasant voranschreitet, bleibt der intellektuelle Prozess hinter Durchbrüchen – wie Forscher Lücken identifizieren, vorherige Arbeiten synthetisieren und Erkenntnisse gewinnen – kaum verstanden. Der Mangel an strukturierten Daten zum wissenschaftlichen Denken behindert eine systematische Analyse und die Entwicklung von KI-Forschungssystemen. Wir stellen Sci-Reasoning vor, den ersten Datensatz, der die intellektuelle Synthese hochwertiger KI-Forschung erfasst. Mithilfe von community-validierten Qualitätssignalen und einer LLM-beschleunigten, menschlich verifizierten Pipeline verfolgen wir Oral- und Spotlight-Papers von NeurIPS, ICML und ICLR (2023-2025) bis zu ihren wichtigsten Vorläufern und artikulieren spezifische Denkverbindungen in einem strukturierten Format. Unsere Analyse identifiziert 15 verschiedene Denkmuster, wobei drei dominante Strategien 52,7 % ausmachen: Lückengetriebene Neurahmung (24,2 %), domänenübergreifende Synthese (18,0 %) und Repräsentationsverschiebung (10,5 %). Die wirkungsvollsten Innovationsrezepte kombinieren mehrere Muster: Lückengetriebene Neurahmung + Repräsentationsverschiebung, domänenübergreifende Synthese + Repräsentationsverschiebung sowie Lückengetriebene Neurahmung + domänenübergreifende Synthese. Dieser Datensatz ermöglicht quantitative Studien des wissenschaftlichen Fortschritts und liefert strukturierte Denkpfade für das Training der näch Generation von KI-Forschungssystemen.
English
While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.