Sci-Reasoning: Набор данных для расшифровки паттернов инноваций в искусственном интеллекте
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns
January 8, 2026
Авторы: Jiachen Liu, Maestro Harmon, Zechen Zhang
cs.AI
Аннотация
Несмотря на стремительное ускорение инноваций в области ИИ, интеллектуальный процесс, лежащий в основе прорывов — то, как исследователи выявляют пробелы, синтезируют предыдущие работы и генерируют инсайты, — остаётся малоизученным. Отсутствие структурированных данных о научном мышлении затрудняет систематический анализ и разработку исследовательских агентов ИИ. Мы представляем Sci-Reasoning — первую базу данных, фиксирующую интеллектуальный синтез, стоящий за высококачественными исследованиями в области ИИ. Используя общественно-валидированные сигналы качества и ускоренный LLM, но проверенный человеком пайплайн, мы отслеживаем для устных и spotlight-докладов на конференциях NeurIPS, ICML и ICLR (2023-2025) их ключевых предшественников, формулируя конкретные причинно-следственные связи в структурированном формате. Наш анализ выявляет 15 различных моделей мышления, причём три доминирующие стратегии составляют 52,7%: Рефрейминг на основе пробелов (24,2%), Кросс-доменный синтез (18,0%) и Сдвиг репрезентации (10,5%). Наиболее эффективные рецепты инноваций комбинируют несколько паттернов: Рефрейминг на основе пробелов + Сдвиг репрезентации, Кросс-доменный синтез + Сдвиг репрезентации, а также Рефрейминг на основе пробелов + Кросс-доменный синтез. Этот набор данных позволяет проводить количественные исследования научного прогресса и предоставляет структурированные траектории рассуждений для обучения исследовательских агентов ИИ следующего поколения.
English
While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.