Generación Autorreflexiva en el Momento de la Prueba
Self-Reflective Generation at Test Time
October 3, 2025
Autores: Jian Mu, Qixin Zhang, Zhiyong Wang, Menglin Yang, Shuang Qiu, Chengwei Qin, Zhongxiang Dai, Yao Shu
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) resuelven cada vez más tareas de razonamiento complejo mediante cadenas largas de pensamiento, pero su proceso de generación autoregresivo de avance único es frágil; los errores en los tokens iniciales pueden propagarse, lo que crea una clara necesidad de mecanismos de autorreflexión. Sin embargo, las técnicas de autorreflexión existentes realizan revisiones sobre borradores completos o aprenden la autocorrección mediante entrenamientos costosos, siendo ambas opciones fundamentalmente reactivas e ineficientes. Para abordar esto, proponemos la Generación Autorreflexiva en Tiempo de Prueba (SRGen, por sus siglas en inglés), un marco ligero que reflexiona antes de generar en puntos inciertos. Durante la generación de tokens, SRGen utiliza umbrales dinámicos de entropía para identificar tokens de alta incertidumbre. Para cada token identificado, entrena un vector correctivo específico, que aprovecha completamente el contexto ya generado para una generación autorreflexiva que corrige la distribución de probabilidad del token. Al analizar retrospectivamente la salida parcial, esta autorreflexión permite decisiones más confiables, reduciendo significativamente la probabilidad de errores en puntos altamente inciertos. Evaluado en puntos de referencia desafiantes de razonamiento matemático y en un conjunto diverso de LLMs, SRGen puede fortalecer consistentemente el razonamiento del modelo: las mejoras en la calidad de una sola pasada también se traducen en una votación de autoconsistencia más sólida. En particular, en AIME2024 con DeepSeek-R1-Distill-Qwen-7B, SRGen produce mejoras absolutas de +12.0% en Pass@1 y +13.3% en Cons@5. Además, nuestros hallazgos posicionan a SRGen como un método plug-and-play que integra la reflexión en el proceso de generación para un razonamiento confiable de los LLMs, logrando ganancias consistentes con un sobrecosto acotado y una amplia compatibilidad con otras técnicas de entrenamiento (por ejemplo, RLHF) y de prueba (por ejemplo, SLOT).
English
Large language models (LLMs) increasingly solve complex reasoning tasks via
long chain-of-thought, but their forward-only autoregressive generation process
is fragile; early token errors can cascade, which creates a clear need for
self-reflection mechanisms. However, existing self-reflection either performs
revisions over full drafts or learns self-correction via expensive training,
both fundamentally reactive and inefficient. To address this, we propose
Self-Reflective Generation at Test Time (SRGen), a lightweight test-time
framework that reflects before generating at uncertain points. During token
generation, SRGen utilizes dynamic entropy thresholding to identify
high-uncertainty tokens. For each identified token, it trains a specific
corrective vector, which fully exploits the already generated context for a
self-reflective generation to correct the token probability distribution. By
retrospectively analyzing the partial output, this self-reflection enables more
trustworthy decisions, thereby significantly reducing the probability of errors
at highly uncertain points. Evaluated on challenging mathematical reasoning
benchmarks and a diverse set of LLMs, SRGen can consistently strengthen model
reasoning: improvements in single-pass quality also translate into stronger
self-consistency voting. Especially, on AIME2024 with
DeepSeek-R1-Distill-Qwen-7B, SRGen yields absolute improvements of +12.0% on
Pass@1 and +13.3% on Cons@5. Moreover, our findings position SRGen as a
plug-and-play method that integrates reflection into the generation process for
reliable LLM reasoning, achieving consistent gains with bounded overhead and
broad composability with other training-time (e.g., RLHF) and test-time (e.g.,
SLOT) techniques.