Sci-Reasoning: Um Conjunto de Dados para Decodificar Padrões de Inovação em IA

Resumo

Embora a inovação em IA acelere rapidamente, o processo intelectual por trás dos avanços — como os pesquisadores identificam lacunas, sintetizam trabalhos anteriores e geram insights — permanece pouco compreendido. A falta de dados estruturados sobre o raciocínio científico dificulta a análise sistemática e o desenvolvimento de agentes de pesquisa em IA. Apresentamos o Sci-Reasoning, o primeiro conjunto de dados que captura a síntese intelectual por trás de pesquisas de alta qualidade em IA. Utilizando sinais de qualidade validados pela comunidade e um pipeline acelerado por LLM e verificado por humanos, rastreamos artigos Oral e Spotlight do NeurIPS, ICML e ICLR (2023-2025) até seus principais predecessores, articulando ligações de raciocínio específicas em um formato estruturado. Nossa análise identifica 15 padrões distintos de pensamento, com três estratégias dominantes representando 52,7%: Reformulação Orientada por Lacunas (24,2%), Síntese Transdomínio (18,0%) e Mudança de Representação (10,5%). As receitas de inovação mais poderosas combinam múltiplos padrões: Reformulação Orientada por Lacunas + Mudança de Representação, Síntese Transdomínio + Mudança de Representação e Reformulação Orientada por Lacunas + Síntese Transdomínio. Este conjunto de dados permite estudos quantitativos do progresso científico e fornece trajetórias de raciocínio estruturadas para treinar a próxima geração de agentes de pesquisa em IA.

English

While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.