Sci-Reasoning: un dataset per decodificare i modelli di innovazione nell'IA
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns
January 8, 2026
Autori: Jiachen Liu, Maestro Harmon, Zechen Zhang
cs.AI
Abstract
Mentre l'innovazione dell'IA accelera rapidamente, il processo intellettuale alla base delle scoperte – come i ricercatori identificano le lacune, sintetizzano il lavoro precedente e generano intuizioni – rimane poco compreso. La mancanza di dati strutturati sul ragionamento scientifico ostacola l'analisi sistematica e lo sviluppo di agenti di ricerca IA. Presentiamo Sci-Reasoning, il primo dataset che cattura la sintesi intellettuale alla base della ricerca IA di alta qualità. Utilizzando segnali di qualità convalidati dalla comunità e una pipeline accelerata da LLM e verificata da esseri umani, rintracciamo i contributi orali e selezionati (Spotlight) presentati a NeurIPS, ICML e ICLR (2023-2025) fino ai loro predecessori chiave, articolando specifici collegamenti logici in un formato strutturato. La nostra analisi identifica 15 distinti modelli di pensiero, con tre strategie dominanti che rappresentano il 52,7%: Riformulazione Guidata dalle Lacune (24,2%), Sintesi Interdominio (18,0%) e Cambiamento di Rappresentazione (10,5%). Le ricette per l'innovazione più potenti combinano più pattern: Riformulazione Guidata dalle Lacune + Cambiamento di Rappresentazione, Sintesi Interdominio + Cambiamento di Rappresentazione, e Riformulazione Guidata dalle Lacune + Sintesi Interdominio. Questo dataset consente studi quantitativi sul progresso scientifico e fornisce traiettorie di ragionamento strutturate per addestrare la prossima generazione di agenti di ricerca IA.
English
While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.