LLM에서 시스템 2 추론을 향하여: 메타 사고 방식 학습하기
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
January 8, 2025
저자: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn
cs.AI
초록
우리는 Meta Chain-of-Thought (Meta-CoT)이라는 혁신적인 프레임워크를 제안합니다. 이 프레임워크는 특정 CoT에 도달하기 위해 필요한 근본적인 추론을 명시적으로 모델링하여 전통적인 Chain-of-Thought (CoT)을 확장합니다. 우리는 최첨단 모델들로부터 얻은 경험적 증거를 제시하며, 문맥 내 검색과 일관된 행동을 나타내는 방법을 탐구하고, 과정 감독, 합성 데이터 생성 및 검색 알고리즘을 통해 Meta-CoT을 생성하는 방법을 살펴봅니다. 마지막으로, 우리는 모델이 Meta-CoT을 생성하도록 훈련하기 위한 구체적인 파이프라인을 개요하며, 선형화된 검색 추적과 강화 학습 후 훈련을 통합한 지시 조정을 포함합니다. 마지막으로, 우리는 스케일링 법칙, 확인자 역할, 그리고 혁신적인 추론 알고리즘 발견 가능성을 포함한 미해결된 연구 문제들에 대해 논의합니다. 이 연구는 LLMs에서 Meta-CoT을 가능케 하는 이론적 및 실용적 로드맵을 제시하여, 인공지능에서 더 강력하고 인간적인 추론을 위한 길을 열어줍니다.
English
We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends
traditional Chain-of-Thought (CoT) by explicitly modeling the underlying
reasoning required to arrive at a particular CoT. We present empirical evidence
from state-of-the-art models exhibiting behaviors consistent with in-context
search, and explore methods for producing Meta-CoT via process supervision,
synthetic data generation, and search algorithms. Finally, we outline a
concrete pipeline for training a model to produce Meta-CoTs, incorporating
instruction tuning with linearized search traces and reinforcement learning
post-training. Finally, we discuss open research questions, including scaling
laws, verifier roles, and the potential for discovering novel reasoning
algorithms. This work provides a theoretical and practical roadmap to enable
Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in
artificial intelligence.Summary
AI-Generated Summary