ChatPaper.aiChatPaper

사고력-창의성 트레이드오프: 창의성 주도 문제 해결을 향하여

The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

January 2, 2026
저자: Max Ruiz Luyten, Mihaela van der Schaar
cs.AI

초록

최신 대규모 언어 모델(LLM) 파이프라인은 부트스트랩 방식의 추론 루프에 의존합니다. 즉, 다양한 사고 사슬을 샘플링하고 가장 높은 점수를 받은 사슬을 강화하는 방식으로 주로 정확성 최적화에 중점을 둡니다. 본 연구는 이러한 설계 선택이 어떻게 추론 경로에 대한 모델의 분포 붕괴에 취약한지, 이로 인해 의미론적 엔트로피가 급감하고 창의적 문제 해결이 약화되는지를 분석합니다. 이러한 실패를 분석하기 위해 우리는 분포적 창의적 추론(DCR)을 제안합니다. DCR은 훈련을 해석 추적에 대한 확률 측정값의 경사 흐름으로 전환하는 통일된 변분 목적 함수로, STaR, GRPO, DPO, 엔트로피 보너스 및 기타 방법들이 모두 동일한 손실 함수의 특수한 경우에 해당합니다. 이 프레임워크는 세 가지 핵심 결과를 제공합니다: (i) STaR, GRPO, DPO에 따라 정확성 기반 목적 함수가 각각 다른 방식으로 다양성 감소를 초래하는 것을 설명하는 다양성 감소 정리, (ii) 붕괴를 효과적으로 방지하며 안정적이고 다양한 정책으로의 수렴을 보장하는 설계, (iii) 이를 실질적으로 달성하기 위한 간단하고 실행 가능한 방법론. 따라서 DCR은 정확성과 창의성을 모두 유지하는 LLM을 위한 최초의 원칙적인 방법론을 제시합니다.
English
State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.
PDF101January 6, 2026