Le compromis raisonnement-créativité : vers une résolution de problèmes axée sur la créativité
The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving
January 2, 2026
papers.authors: Max Ruiz Luyten, Mihaela van der Schaar
cs.AI
papers.abstract
Les pipelines de modèles de langage de pointe (LLM) reposent sur des boucles de raisonnement bootstrap : ils échantillonnent diverses chaînes de pensée et renforcent celles ayant les scores les plus élevés, optimisant principalement l'exactitude. Nous analysons comment ce choix de conception est sensible à l'effondrement de la distribution du modèle sur les chemins de raisonnement, réduisant brutalement l'entropie sémantique et sapant la résolution créative de problèmes. Pour analyser cet échec, nous introduisons le Raisonnement Créatif Distributionnel (DCR), un objectif variationnel unifié qui modélise l'entraînement comme un flux de gradient à travers des mesures de probabilité sur les traces de solutions. STaR, GRPO et DPO, ainsi que les bonus d'entropie et d'autres méthodes, constituent tous des cas particuliers de la même fonction de perte. Le cadre fournit trois résultats fondamentaux : (i) le théorème de dégradation de la diversité, décrivant comment les objectifs basés sur l'exactitude conduisent à des modes distincts de dégradation de la diversité pour STaR, GRPO et DPO ; (ii) des conceptions qui assurent la convergence vers une politique stable et diversifiée, prévenant efficacement l'effondrement ; et (iii) des recettes simples et actionnables pour y parvenir en pratique. DCR offre ainsi la première recette fondée sur des principes pour des LLM qui restent à la fois exacts et créatifs.
English
State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.