Der Kompromiss zwischen logischem Denken und Kreativität: Auf dem Weg zu kreativitätsgetriebenem Problemlösen
The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving
January 2, 2026
papers.authors: Max Ruiz Luyten, Mihaela van der Schaar
cs.AI
papers.abstract
Aktuelle State-of-the-Art-Pipelines für große Sprachmodelle (LLMs) basieren auf Bootstrapping-Verfahren für das Schlussfolgern: Es werden diverse Gedankenketten generiert und diejenigen mit der höchsten Bewertung verstärkt, wobei primär die Korrektheit optimiert wird. Wir analysieren, wie diese Designentscheidung anfällig für den Kollaps der Modellverteilung über Lösungswege ist, was die semantische Entropie stark reduziert und kreatives Problemlösen untergräbt. Um dieses Versagen zu untersuchen, führen wir Distributional Creative Reasoning (DCR) ein, ein vereinheitlichtes variationsbasiertes Ziel, das das Training als Gradientenfluss durch Wahrscheinlichkeitsmaße auf Lösungspfaden darstellt. Methoden wie STaR, GRPO und DPO sowie Entropie-Boni und andere Ansätze stellen allesamt Spezialfälle desselben Loss dar. Das Framework liefert drei zentrale Ergebnisse: (i) das Theorem zum Diversitätsverfall, das beschreibt, wie korrektheitsbasierte Ziele zu charakteristischen Modi des Diversitätsverfalls für STaR, GRPO und DPO führen; (ii) Designs, die die Konvergenz zu einer stabilen und diversen Policy sicherstellen und einen Kollaps wirksam verhindern; und (iii) einfache, unmittelbar umsetzbare Verfahren, um dies in der Praxis zu erreichen. DCR bietet somit die erste prinzipienbasierte Methode für LLMs, die sowohl korrekt als auch kreativ bleiben.
English
State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.