Generazione Auto-Riflessiva al Momento del Test
Self-Reflective Generation at Test Time
October 3, 2025
Autori: Jian Mu, Qixin Zhang, Zhiyong Wang, Menglin Yang, Shuang Qiu, Chengwei Qin, Zhongxiang Dai, Yao Shu
cs.AI
Abstract
I grandi modelli linguistici (LLM) risolvono sempre più compiti di ragionamento complesso attraverso lunghe catene di pensiero, ma il loro processo di generazione autoregressivo in avanti è fragile; errori nei token iniziali possono propagarsi, creando una chiara necessità di meccanismi di autoriflessione. Tuttavia, le attuali tecniche di autoriflessione eseguono revisioni su bozze complete o apprendono l'autocorrezione attraverso un addestramento costoso, entrambe fondamentalmente reattive e inefficienti. Per affrontare questo problema, proponiamo la Generazione Autoriflessiva al Tempo di Test (SRGen), un framework leggero che riflette prima di generare nei punti incerti. Durante la generazione dei token, SRGen utilizza una soglia dinamica di entropia per identificare i token ad alta incertezza. Per ogni token identificato, addestra un vettore correttivo specifico, che sfrutta appieno il contesto già generato per una generazione autoriflessiva che corregge la distribuzione di probabilità del token. Analizzando retrospettivamente l'output parziale, questa autoriflessione consente decisioni più affidabili, riducendo significativamente la probabilità di errori nei punti altamente incerti. Valutato su benchmark impegnativi di ragionamento matematico e su un insieme diversificato di LLM, SRGen può rafforzare costantemente il ragionamento del modello: i miglioramenti nella qualità a singolo passaggio si traducono anche in un voto di autoconsistenza più forte. In particolare, su AIME2024 con DeepSeek-R1-Distill-Qwen-7B, SRGen produce miglioramenti assoluti di +12,0% su Pass@1 e +13,3% su Cons@5. Inoltre, i nostri risultati posizionano SRGen come un metodo plug-and-play che integra la riflessione nel processo di generazione per un ragionamento affidabile degli LLM, ottenendo guadagni consistenti con un sovraccarico limitato e una vasta componibilità con altre tecniche di addestramento (ad esempio, RLHF) e di test (ad esempio, SLOT).
English
Large language models (LLMs) increasingly solve complex reasoning tasks via
long chain-of-thought, but their forward-only autoregressive generation process
is fragile; early token errors can cascade, which creates a clear need for
self-reflection mechanisms. However, existing self-reflection either performs
revisions over full drafts or learns self-correction via expensive training,
both fundamentally reactive and inefficient. To address this, we propose
Self-Reflective Generation at Test Time (SRGen), a lightweight test-time
framework that reflects before generating at uncertain points. During token
generation, SRGen utilizes dynamic entropy thresholding to identify
high-uncertainty tokens. For each identified token, it trains a specific
corrective vector, which fully exploits the already generated context for a
self-reflective generation to correct the token probability distribution. By
retrospectively analyzing the partial output, this self-reflection enables more
trustworthy decisions, thereby significantly reducing the probability of errors
at highly uncertain points. Evaluated on challenging mathematical reasoning
benchmarks and a diverse set of LLMs, SRGen can consistently strengthen model
reasoning: improvements in single-pass quality also translate into stronger
self-consistency voting. Especially, on AIME2024 with
DeepSeek-R1-Distill-Qwen-7B, SRGen yields absolute improvements of +12.0% on
Pass@1 and +13.3% on Cons@5. Moreover, our findings position SRGen as a
plug-and-play method that integrates reflection into the generation process for
reliable LLM reasoning, achieving consistent gains with bounded overhead and
broad composability with other training-time (e.g., RLHF) and test-time (e.g.,
SLOT) techniques.