Geração Autorreflexiva no Momento do Teste

Resumo

Modelos de linguagem de grande escala (LLMs) estão cada vez mais resolvendo tarefas complexas de raciocínio por meio de longas cadeias de pensamento, mas seu processo de geração autoregressivo, que avança apenas para frente, é frágil; erros nos primeiros tokens podem se propagar, o que cria uma necessidade clara de mecanismos de autorreflexão. No entanto, a autorreflexão existente ou realiza revisões em rascunhos completos ou aprende a autocorreção por meio de treinamento custoso, sendo ambas fundamentalmente reativas e ineficientes. Para resolver isso, propomos a Geração Autorreflexiva em Tempo de Teste (SRGen), uma estrutura leve que reflete antes de gerar em pontos incertos. Durante a geração de tokens, o SRGen utiliza limiares dinâmicos de entropia para identificar tokens de alta incerteza. Para cada token identificado, ele treina um vetor corretivo específico, que explora totalmente o contexto já gerado para uma geração autorreflexiva, corrigindo a distribuição de probabilidade do token. Ao analisar retrospectivamente a saída parcial, essa autorreflexão permite decisões mais confiáveis, reduzindo significativamente a probabilidade de erros em pontos altamente incertos. Avaliado em benchmarks desafiadores de raciocínio matemático e em um conjunto diversificado de LLMs, o SRGen pode consistentemente fortalecer o raciocínio do modelo: melhorias na qualidade de passagem única também se traduzem em uma votação de autoconsistência mais forte. Especialmente, no AIME2024 com o DeepSeek-R1-Distill-Qwen-7B, o SRGen produz melhorias absolutas de +12,0% no Pass@1 e +13,3% no Cons@5. Além disso, nossas descobertas posicionam o SRGen como um método plug-and-play que integra a reflexão ao processo de geração para um raciocínio confiável em LLMs, alcançando ganhos consistentes com sobrecarga limitada e ampla composabilidade com outras técnicas de treinamento (por exemplo, RLHF) e de teste (por exemplo, SLOT).

English

Large language models (LLMs) increasingly solve complex reasoning tasks via long chain-of-thought, but their forward-only autoregressive generation process is fragile; early token errors can cascade, which creates a clear need for self-reflection mechanisms. However, existing self-reflection either performs revisions over full drafts or learns self-correction via expensive training, both fundamentally reactive and inefficient. To address this, we propose Self-Reflective Generation at Test Time (SRGen), a lightweight test-time framework that reflects before generating at uncertain points. During token generation, SRGen utilizes dynamic entropy thresholding to identify high-uncertainty tokens. For each identified token, it trains a specific corrective vector, which fully exploits the already generated context for a self-reflective generation to correct the token probability distribution. By retrospectively analyzing the partial output, this self-reflection enables more trustworthy decisions, thereby significantly reducing the probability of errors at highly uncertain points. Evaluated on challenging mathematical reasoning benchmarks and a diverse set of LLMs, SRGen can consistently strengthen model reasoning: improvements in single-pass quality also translate into stronger self-consistency voting. Especially, on AIME2024 with DeepSeek-R1-Distill-Qwen-7B, SRGen yields absolute improvements of +12.0% on Pass@1 and +13.3% on Cons@5. Moreover, our findings position SRGen as a plug-and-play method that integrates reflection into the generation process for reliable LLM reasoning, achieving consistent gains with bounded overhead and broad composability with other training-time (e.g., RLHF) and test-time (e.g., SLOT) techniques.