A Relação de Compromisso entre Raciocínio e Criatividade: Rumo à Resolução de Problemas Orientada pela Criatividade

Resumo

Os pipelines de última geração para modelos de linguagem de grande escala (LLMs) dependem de loops de raciocínio impulsionados por amostragem: geram cadeias de pensamento diversas e reforçam aquelas com maior pontuação, otimizando principalmente a correção. Analisamos como essa escolha de projeto é sensível ao colapso da distribuição do modelo sobre os caminhos de raciocínio, reduzindo drasticamente a entropia semântica e minando a resolução criativa de problemas. Para analisar essa falha, introduzimos o Raciocínio Criativo Distribucional (DCR), um objetivo variacional unificado que formula o treinamento como um fluxo de gradiente através de medidas de probabilidade em traços de solução. STaR, GRPO e DPO, bem como bônus de entropia e outros métodos, constituem casos particulares da mesma função de perda. A estrutura produz três resultados principais: (i) o teorema do decaimento da diversidade, descrevendo como objetivos baseados em correção levam a modos distintos de decaimento da diversidade para STaR, GRPO e DPO; (ii) projetos que garantem convergência para uma política estável e diversa, prevenindo efetivamente o colapso; e (iii) receitas simples e acionáveis para alcançar isso na prática. O DCR oferece, assim, a primeira receita fundamentada para LLMs que permanecem corretos e criativos.

English

State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.