ChatPaper.aiChatPaper

Sci-Reasoning: AI 혁신 패턴을 해석하는 데이터셋

Sci-Reasoning: A Dataset Decoding AI Innovation Patterns

January 8, 2026
저자: Jiachen Liu, Maestro Harmon, Zechen Zhang
cs.AI

초록

인공지능 혁신이 빠르게 가속화되는 가운데, 돌파구를 여는 지적 과정(연구자들이 어떻게 공백을 발견하고, 기존 연구를 종합하며, 통찰을 생성하는지)은 여전히 제대로 이해되지 않고 있습니다. 과학적 추론에 대한 구조화된 데이터의 부재는 인공지능 연구 에이전트의 체계적인 분석과 개발을 저해하고 있습니다. 본 연구는 고품질 인공지능 연구의 배후에 있는 지적 종합 과정을 포착한 최초의 데이터셋인 Sci-Reasoning을 소개합니다. 커뮤니티에서 검증된 품질 신호와 대규모 언어 모델(LLM)로 가속화되고 인간이 검증한 파이프라인을 활용하여, NeurIPS, ICML, ICLR(2023-2025)의 Oral 및 Spotlight 논문들을 그 핵심 선행 연구들과 연결짓고, 구체적인 추론 연결 관계를 구조화된 형식으로 명시합니다. 우리의 분석은 15가지의 독특한 사고 패턴을 확인했으며, 그중 세 가지 주요 전략이 52.7%를 차지했습니다: 공백 주도 재구성(Gap-Driven Reframing, 24.2%), 분야 간 종합(Cross-Domain Synthesis, 18.0%), 표현 방식 전환(Representation Shift, 10.5%). 가장 강력한 혁신 방법은 여러 패턴을 결합한 것으로, 공백 주도 재구성 + 표현 방식 전환, 분야 간 종합 + 표현 방식 전환, 그리고 공백 주도 재구성 + 분야 간 종합이었습니다. 이 데이터셋은 과학적 진보에 대한 정량적 연구를 가능하게 하고, 차세대 인공지능 연구 에이전트 훈련을 위한 구조화된 추론 궤적을 제공합니다.
English
While AI innovation accelerates rapidly, the intellectual process behind breakthroughs -- how researchers identify gaps, synthesize prior work, and generate insights -- remains poorly understood. The lack of structured data on scientific reasoning hinders systematic analysis and development of AI research agents. We introduce Sci-Reasoning, the first dataset capturing the intellectual synthesis behind high-quality AI research. Using community-validated quality signals and an LLM-accelerated, human-verified pipeline, we trace Oral and Spotlight papers across NeurIPS, ICML, and ICLR (2023-2025) to its key predecessors, articulating specific reasoning links in a structured format. Our analysis identifies 15 distinct thinking patterns, with three dominant strategies accounting for 52.7%: Gap-Driven Reframing (24.2%), Cross-Domain Synthesis (18.0%), and Representation Shift (10.5%). The most powerful innovation recipes combine multiple patterns: Gap-Driven Reframing + Representation Shift, Cross-Domain Synthesis + Representation Shift, and Gap-Driven Reframing + Cross-Domain Synthesis. This dataset enables quantitative studies of scientific progress and provides structured reasoning trajectories for training the next generation AI research agents.
PDF42January 31, 2026