ChatPaper.aiChatPaper

Компромисс между логикой и креативностью: на пути к решению задач, основанному на творческом подходе

The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

January 2, 2026
Авторы: Max Ruiz Luyten, Mihaela van der Schaar
cs.AI

Аннотация

Современные конвейеры больших языковых моделей (LLM) опираются на бутстраппированные циклы рассуждений: сэмплирование разнообразных цепочек мыслей и усиление наивысше оцененных, преимущественно оптимизируя корректность. Мы анализируем, как этот выбор проектного решения чувствителен к коллапсу распределения модели по путям рассуждений, что резко снижает семантическую энтропию и подрывает креативное решение задач. Для анализа этого сбоя мы вводим Дистрибутивное Креативное Рассуждение (DCR) — унифицированный вариационный объектив, представляющий обучение как градиентный поток через вероятностные меры на трассах решений. STaR, GRPO и DPO, а также бонусы за энтропию и другие методы, являются частными случаями одной и той же функции потерь. Данный фреймворк дает три ключевых результата: (i) теорему о затухании разнообразия, описывающую, как основанные на корректности цели приводят к различным режимам затухания разнообразия для STaR, GRPO и DPO; (ii) проектные решения, обеспечивающие сходимость к стабильной и разнообразной политике, эффективно предотвращая коллапс; и (iii) простые, пригодные для практического применения рецепты достижения этого. Таким образом, DCR предлагает первый принципиальный рецепт для LLM, которые остаются одновременно и корректными, и креативными.
English
State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.
PDF101January 6, 2026