ChatPaper.aiChatPaper

La Disyuntiva Razonamiento-Creatividad: Hacia una Resolución de Problemos Impulsada por la Creatividad

The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

January 2, 2026
Autores: Max Ruiz Luyten, Mihaela van der Schaar
cs.AI

Resumen

Los sistemas de vanguardia basados en modelos de lenguaje grande (LLM) dependen de bucles de razonamiento auto-reforzados: muestrean cadenas de pensamiento diversas y refuerzan aquellas con mayor puntuación, optimizando principalmente la corrección. Analizamos cómo esta elección de diseño es sensible al colapso de la distribución del modelo sobre las trayectorias de razonamiento, reduciendo drásticamente la entropía semántica y socavando la resolución creativa de problemas. Para analizar este fallo, presentamos Razonamiento Creativo Distribucional (DCR), un objetivo variacional unificado que plantea el entrenamiento como un flujo de gradiente a través de medidas de probabilidad sobre trazas de solución. Métodos como STaR, GRPO y DPO, así como bonificaciones de entropía y otras técnicas, constituyen casos particulares de una misma función de pérdida. El marco ofrece tres resultados fundamentales: (i) el teorema de decaimiento de la diversidad, que describe cómo los objetivos basados en corrección conducen a modos distintos de pérdida de diversidad para STaR, GRPO y DPO; (ii) diseños que garantizan la convergencia a una política estable y diversa, previniendo efectivamente el colapso; y (iii) recetas simples y prácticas para lograrlo. DCR ofrece así la primera receta fundamentada para que los LLM mantengan tanto corrección como creatividad.
English
State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.
PDF101January 6, 2026