ChatPaper.aiChatPaper

De afweging tussen redeneren en creativiteit: op weg naar creativiteit-gestuurd probleemoplossen

The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

January 2, 2026
Auteurs: Max Ruiz Luyten, Mihaela van der Schaar
cs.AI

Samenvatting

State-of-the-art pijplijnen voor grote taalmmodellen (LLM's) steunen op *bootstrapped* redeneerlussen: het bemonsteren van diverse gedachtegangen en het versterken van de hoogst-scorende, waarbij voornamelijk op correctheid wordt geoptimaliseerd. Wij analyseren hoe deze ontwerpkeuze gevoelig is voor het ineenstorten van de verdeling van het model over redeneerpaden, wat de semantische entropie doet kelderen en creatief probleemoplossen ondermijnt. Om dit falen te analyseren, introduceren wij *Distributional Creative Reasoning* (DCR), een uniforme variationele doelstelling die training modelleert als gradiëntstroom door kansmaten op oplossingstrajecten. STaR, GRPO en DPO, evenals entropiebonussen en andere methoden, zijn allemaal bijzondere gevallen van hetzelfde verlies. Het raamwerk levert drie kernresultaten op: (i) de *diversiteitsvervalstelling*, die beschrijft hoe op correctheid gebaseerde doelstellingen leiden tot verschillende modi van diversiteitsverval voor STaR, GRPO en DPO; (ii) ontwerpen die convergentie naar een stabiel en divers beleid garanderen, wat instorting effectief voorkomt; en (iii) eenvoudige, praktisch toepasbare recepten om dit in de praktijk te bereiken. DCR biedt zo het eerste principiële recept voor LLM's die zowel correct als creatief blijven.
English
State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.
PDF101January 6, 2026