Génération auto-réfléchie au moment du test
Self-Reflective Generation at Test Time
October 3, 2025
papers.authors: Jian Mu, Qixin Zhang, Zhiyong Wang, Menglin Yang, Shuang Qiu, Chengwei Qin, Zhongxiang Dai, Yao Shu
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) résolvent de plus en plus des tâches de raisonnement complexes via de longues chaînes de pensée, mais leur processus de génération autoregressif uniquement orienté vers l'avant est fragile ; les erreurs précoces de tokens peuvent s'accumuler, ce qui crée un besoin évident de mécanismes d'auto-réflexion. Cependant, les méthodes existantes d'auto-réflexion effectuent soit des révisions sur des versions complètes, soit apprennent l'auto-correction via un entraînement coûteux, toutes deux fondamentalement réactives et inefficaces. Pour remédier à cela, nous proposons la Génération Auto-Réflexive au Moment du Test (SRGen), un cadre léger qui réfléchit avant de générer aux points incertains. Pendant la génération de tokens, SRGen utilise un seuillage dynamique de l'entropie pour identifier les tokens à forte incertitude. Pour chaque token identifié, il entraîne un vecteur correctif spécifique, qui exploite pleinement le contexte déjà généré pour une génération auto-réflexive afin de corriger la distribution de probabilité des tokens. En analysant rétrospectivement la sortie partielle, cette auto-réflexion permet des décisions plus fiables, réduisant ainsi significativement la probabilité d'erreurs aux points très incertains. Évalué sur des benchmarks de raisonnement mathématique difficiles et un ensemble diversifié de LLMs, SRGen peut renforcer de manière constante le raisonnement des modèles : les améliorations de la qualité en une seule passe se traduisent également par un vote d'auto-cohérence plus robuste. En particulier, sur AIME2024 avec DeepSeek-R1-Distill-Qwen-7B, SRGen apporte des améliorations absolues de +12,0 % sur Pass@1 et +13,3 % sur Cons@5. De plus, nos résultats positionnent SRGen comme une méthode plug-and-play qui intègre la réflexion dans le processus de génération pour un raisonnement fiable des LLMs, obtenant des gains constants avec une surcharge limitée et une large compatibilité avec d'autres techniques d'entraînement (par exemple, RLHF) et de test (par exemple, SLOT).
English
Large language models (LLMs) increasingly solve complex reasoning tasks via
long chain-of-thought, but their forward-only autoregressive generation process
is fragile; early token errors can cascade, which creates a clear need for
self-reflection mechanisms. However, existing self-reflection either performs
revisions over full drafts or learns self-correction via expensive training,
both fundamentally reactive and inefficient. To address this, we propose
Self-Reflective Generation at Test Time (SRGen), a lightweight test-time
framework that reflects before generating at uncertain points. During token
generation, SRGen utilizes dynamic entropy thresholding to identify
high-uncertainty tokens. For each identified token, it trains a specific
corrective vector, which fully exploits the already generated context for a
self-reflective generation to correct the token probability distribution. By
retrospectively analyzing the partial output, this self-reflection enables more
trustworthy decisions, thereby significantly reducing the probability of errors
at highly uncertain points. Evaluated on challenging mathematical reasoning
benchmarks and a diverse set of LLMs, SRGen can consistently strengthen model
reasoning: improvements in single-pass quality also translate into stronger
self-consistency voting. Especially, on AIME2024 with
DeepSeek-R1-Distill-Qwen-7B, SRGen yields absolute improvements of +12.0% on
Pass@1 and +13.3% on Cons@5. Moreover, our findings position SRGen as a
plug-and-play method that integrates reflection into the generation process for
reliable LLM reasoning, achieving consistent gains with bounded overhead and
broad composability with other training-time (e.g., RLHF) and test-time (e.g.,
SLOT) techniques.