ChatPaper.aiChatPaper

推論と創造性のトレードオフ:創造性主導型問題解決に向けて

The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

January 2, 2026
著者: Max Ruiz Luyten, Mihaela van der Schaar
cs.AI

要旨

最先端の大規模言語モデル(LLM)パイプラインは、ブートストラップされた推論ループに依存している。すなわち、多様な思考の連鎖をサンプリングし、最高スコアのものを強化するというもので、主に正しさを最適化する。我々は、この設計選択が、推論経路に対するモデルの分布の崩壊に対してどのように敏感であるかを分析する。これは意味的エントロピーを急激に減少させ、創造的問題解決を損なうものである。この失敗を分析するため、我々は**分布的創造的推論(Distributional Creative Reasoning, DCR)**を提案する。これは、訓練を解軌跡上の確率測度を通じた勾配流として捉える統一的な変分目的関数である。STaR、GRPO、DPO、さらにエントロピー・ボーナスやその他の手法は、すべて同一の損失関数の特殊なケースとして構成される。この枠組みは三つの核心的な結果をもたらす:(i) **多様性減衰定理**。これは、正しさに基づく目的関数が如何にしてSTaR、GRPO、DPOにおいて異なる様式の多様性減衰を引き起こすかを記述する。(ii) 安定かつ多様な方策への収束を保証し、崩壊を効果的に防止する設計。(iii) これを実践的に達成するためのシンプルで実行可能な手法。このようにDCRは、**正しくかつ創造的であり続けるLLM** のための最初の原理に基づいた手法を提供する。
English
State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.
PDF101January 6, 2026