Il compromesso tra ragionamento e creatività: verso una risoluzione dei problemi guidata dalla creatività

Abstract

Le pipeline all'avanguardia per i grandi modelli linguistici (LLM) si basano su cicli di ragionamento bootstrap: campionano catene di pensiero diverse e rinforzano quelle con il punteggio più alto, ottimizzando principalmente la correttezza. Analizziamo come questa scelta progettuale sia sensibile al collasso della distribuzione del modello sui percorsi di ragionamento, riducendo drasticamente l'entropia semantica e minando la risoluzione creativa dei problemi. Per analizzare questo fallimento, introduciamo il Ragionamento Creativo Distribuzionale (DCR), un obiettivo variazionale unificato che inquadra l'addestramento come un flusso di gradiente attraverso misure di probabilità sulle tracce di soluzione. Metodi come STaR, GRPO e DPO, insieme ai bonus di entropia e altre tecniche, costituiscono tutti casi particolari della stessa funzione di perdita. Il framework produce tre risultati fondamentali: (i) il teorema del decadimento della diversità, che descrive come obiettivi basati sulla correttezza portino a modalità distinte di decadimento della diversità per STaR, GRPO e DPO; (ii) progetti che garantiscono la convergenza verso una politica stabile e diversificata, prevenendo efficacemente il collasso; e (iii) ricette semplici e pratiche per raggiungere questo obiettivo nella pratica. Il DCR offre quindi la prima ricetta principiata per LLM che rimangono sia corretti che creativi.

English

State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.

Il compromesso tra ragionamento e creatività: verso una risoluzione dei problemi guidata dalla creatività

The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

Abstract

Support