Geração Autorreflexiva no Momento do Teste
Self-Reflective Generation at Test Time
October 3, 2025
Autores: Jian Mu, Qixin Zhang, Zhiyong Wang, Menglin Yang, Shuang Qiu, Chengwei Qin, Zhongxiang Dai, Yao Shu
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) estão cada vez mais resolvendo tarefas complexas de raciocínio por meio de longas cadeias de pensamento, mas seu processo de geração autoregressivo, que avança apenas para frente, é frágil; erros nos primeiros tokens podem se propagar, o que cria uma necessidade clara de mecanismos de autorreflexão. No entanto, a autorreflexão existente ou realiza revisões em rascunhos completos ou aprende a autocorreção por meio de treinamento custoso, sendo ambas fundamentalmente reativas e ineficientes. Para resolver isso, propomos a Geração Autorreflexiva em Tempo de Teste (SRGen), uma estrutura leve que reflete antes de gerar em pontos incertos. Durante a geração de tokens, o SRGen utiliza limiares dinâmicos de entropia para identificar tokens de alta incerteza. Para cada token identificado, ele treina um vetor corretivo específico, que explora totalmente o contexto já gerado para uma geração autorreflexiva, corrigindo a distribuição de probabilidade do token. Ao analisar retrospectivamente a saída parcial, essa autorreflexão permite decisões mais confiáveis, reduzindo significativamente a probabilidade de erros em pontos altamente incertos. Avaliado em benchmarks desafiadores de raciocínio matemático e em um conjunto diversificado de LLMs, o SRGen pode consistentemente fortalecer o raciocínio do modelo: melhorias na qualidade de passagem única também se traduzem em uma votação de autoconsistência mais forte. Especialmente, no AIME2024 com o DeepSeek-R1-Distill-Qwen-7B, o SRGen produz melhorias absolutas de +12,0% no Pass@1 e +13,3% no Cons@5. Além disso, nossas descobertas posicionam o SRGen como um método plug-and-play que integra a reflexão ao processo de geração para um raciocínio confiável em LLMs, alcançando ganhos consistentes com sobrecarga limitada e ampla composabilidade com outras técnicas de treinamento (por exemplo, RLHF) e de teste (por exemplo, SLOT).
English
Large language models (LLMs) increasingly solve complex reasoning tasks via
long chain-of-thought, but their forward-only autoregressive generation process
is fragile; early token errors can cascade, which creates a clear need for
self-reflection mechanisms. However, existing self-reflection either performs
revisions over full drafts or learns self-correction via expensive training,
both fundamentally reactive and inefficient. To address this, we propose
Self-Reflective Generation at Test Time (SRGen), a lightweight test-time
framework that reflects before generating at uncertain points. During token
generation, SRGen utilizes dynamic entropy thresholding to identify
high-uncertainty tokens. For each identified token, it trains a specific
corrective vector, which fully exploits the already generated context for a
self-reflective generation to correct the token probability distribution. By
retrospectively analyzing the partial output, this self-reflection enables more
trustworthy decisions, thereby significantly reducing the probability of errors
at highly uncertain points. Evaluated on challenging mathematical reasoning
benchmarks and a diverse set of LLMs, SRGen can consistently strengthen model
reasoning: improvements in single-pass quality also translate into stronger
self-consistency voting. Especially, on AIME2024 with
DeepSeek-R1-Distill-Qwen-7B, SRGen yields absolute improvements of +12.0% on
Pass@1 and +13.3% on Cons@5. Moreover, our findings position SRGen as a
plug-and-play method that integrates reflection into the generation process for
reliable LLM reasoning, achieving consistent gains with bounded overhead and
broad composability with other training-time (e.g., RLHF) and test-time (e.g.,
SLOT) techniques.