Саморефлексивная генерация во время тестирования

Аннотация

Крупные языковые модели (LLM) всё чаще решают сложные задачи, требующие рассуждений, с помощью длинных цепочек мыслей, но их автокорреляционный процесс генерации, работающий только в прямом направлении, является хрупким; ошибки в ранних токенах могут каскадно накапливаться, что создаёт явную необходимость в механизмах саморефлексии. Однако существующие подходы к саморефлексии либо выполняют исправления на основе полных черновиков, либо обучают самокоррекции через дорогостоящее обучение, что в обоих случаях является реактивным и неэффективным. Чтобы решить эту проблему, мы предлагаем Self-Reflective Generation at Test Time (SRGen) — лёгкий фреймворк для тестового времени, который рефлексирует перед генерацией в неопределённых точках. В процессе генерации токенов SRGen использует динамическое пороговое значение энтропии для выявления токенов с высокой неопределённостью. Для каждого такого токена он обучает специфический корректирующий вектор, который полностью использует уже сгенерированный контекст для саморефлексивной генерации, чтобы исправить распределение вероятностей токена. Ретроспективно анализируя частичный вывод, эта саморефлексия позволяет принимать более надёжные решения, тем самым значительно снижая вероятность ошибок в точках с высокой неопределённостью. Оценка на сложных бенчмарках математических рассуждений и на разнообразных LLM показывает, что SRGen последовательно улучшает качество рассуждений моделей: улучшения в качестве однопроходной генерации также приводят к более сильному голосованию за самосогласованность. В частности, на AIME2024 с моделью DeepSeek-R1-Distill-Qwen-7B SRGen демонстрирует абсолютные улучшения на +12,0% по метрике Pass@1 и +13,3% по метрике Cons@5. Более того, наши результаты позиционируют SRGen как метод plug-and-play, который интегрирует рефлексию в процесс генерации для повышения надёжности рассуждений LLM, достигая стабильных улучшений с ограниченными накладными расходами и широкой совместимостью с другими методами, применяемыми на этапе обучения (например, RLHF) и тестового времени (например, SLOT).

English

Large language models (LLMs) increasingly solve complex reasoning tasks via long chain-of-thought, but their forward-only autoregressive generation process is fragile; early token errors can cascade, which creates a clear need for self-reflection mechanisms. However, existing self-reflection either performs revisions over full drafts or learns self-correction via expensive training, both fundamentally reactive and inefficient. To address this, we propose Self-Reflective Generation at Test Time (SRGen), a lightweight test-time framework that reflects before generating at uncertain points. During token generation, SRGen utilizes dynamic entropy thresholding to identify high-uncertainty tokens. For each identified token, it trains a specific corrective vector, which fully exploits the already generated context for a self-reflective generation to correct the token probability distribution. By retrospectively analyzing the partial output, this self-reflection enables more trustworthy decisions, thereby significantly reducing the probability of errors at highly uncertain points. Evaluated on challenging mathematical reasoning benchmarks and a diverse set of LLMs, SRGen can consistently strengthen model reasoning: improvements in single-pass quality also translate into stronger self-consistency voting. Especially, on AIME2024 with DeepSeek-R1-Distill-Qwen-7B, SRGen yields absolute improvements of +12.0% on Pass@1 and +13.3% on Cons@5. Moreover, our findings position SRGen as a plug-and-play method that integrates reflection into the generation process for reliable LLM reasoning, achieving consistent gains with bounded overhead and broad composability with other training-time (e.g., RLHF) and test-time (e.g., SLOT) techniques.