Sci-Reasoning: AIイノベーションのパターンを解読するデータセット
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns
January 8, 2026
著者: Jiachen Liu, Maestro Harmon, Zechen Zhang
cs.AI
要旨
AIの革新が急速に進展する中で、ブレークスルーを支える知的プロセス――研究者がどのように研究のギャップを特定し、先行研究を統合し、洞察を生成するか――は十分に解明されていない。科学的推論に関する構造化データの不足が、AI研究エージェントの体系的分析と開発を妨げている。本論文では、高品質なAI研究の背後にある知的統合プロセスを捉えた初のデータセット「Sci-Reasoning」を紹介する。コミュニティによって検証された品質指標と、LLMを加速器として用い、人の検証を経たパイプラインを用いて、NeurIPS、ICML、ICLR(2023-2025)におけるOralおよびSpotlight論文を、その鍵となる先行研究まで遡り、具体的な推論リンクを構造化形式で明示する。我々の分析により、15種類の異なる思考パターンが特定され、そのうち3つの主要戦略が52.7%を占めることが明らかになった:ギャップ駆動再構成 (24.2%)、領域横断的統合 (18.0%)、表現シフト (10.5%)。最も強力なイノベーションのレシピは複数のパターンを組み合わせたものであり、具体的には「ギャップ駆動再構成+表現シフト」、「領域横断的統合+表現シフト」、「ギャップ駆動再構成+領域横断的統合」である。このデータセットは、科学の進歩に関する定量的研究を可能にし、次世代AI研究エージェントを訓練するための構造化された推論軌跡を提供する。
English
While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.