Sci-Reasoning: Un Conjunto de Datos para Descifrar los Patrones de Innovación en IA
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns
January 8, 2026
Autores: Jiachen Liu, Maestro Harmon, Zechen Zhang
cs.AI
Resumen
Si bien la innovación en IA se acelera rápidamente, el proceso intelectual detrás de los avances —cómo los investigadores identifican vacíos, sintetizan trabajos previos y generan ideas— sigue estando poco comprendido. La falta de datos estructurados sobre el razonamiento científico dificulta el análisis sistemático y el desarrollo de agentes de investigación de IA. Presentamos Sci-Reasoning, el primer conjunto de datos que captura la síntesis intelectual detrás de la investigación de IA de alta calidad. Utilizando señales de calidad validadas por la comunidad y un proceso acelerado por LLM y verificado por humanos, rastreamos los artículos Oral y Spotlight de NeurIPS, ICML e ICLR (2023-2025) hasta sus predecesores clave, articulando enlaces de razonamiento específicos en un formato estructurado. Nuestro análisis identifica 15 patrones de pensamiento distintos, con tres estrategias dominantes que representan el 52,7%: Replanteamiento Basado en Vacíos (24,2%), Síntesis Transdisciplinaria (18,0%) y Cambio de Representación (10,5%). Las recetas de innovación más potentes combinan múltiples patrones: Replanteamiento Basado en Vacíos + Cambio de Representación, Síntesis Transdisciplinaria + Cambio de Representación, y Replanteamiento Basado en Vacíos + Síntesis Transdisciplinaria. Este conjunto de datos permite estudios cuantitativos del progreso científico y proporciona trayectorias de razonamiento estructuradas para entrenar a la próxima generación de agentes de investigación de IA.
English
While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.