ChatPaper.aiChatPaper

Своевременное вмешательство предотвращает проблемы: проактивное самоусовершенствование языковых моделей

A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

August 18, 2025
Авторы: Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao
cs.AI

Аннотация

Последние достижения в области самоусовершенствования продемонстрировали значительный потенциал для улучшения результатов работы крупных языковых моделей (LLM) за счет итеративного уточнения. Однако большинство существующих методов самоусовершенствования полагаются на реактивный процесс с фиксированным количеством итераций, что затрудняет определение оптимального времени и содержания уточнения на основе изменяющегося контекста генерации. Вдохновленные тем, как люди динамически уточняют свои мысли в процессе выполнения задач, мы предлагаем метод ProActive Self-Refinement (PASR) — новый подход, который позволяет LLM уточнять свои выходные данные в процессе генерации. В отличие от методов, которые перегенерируют ответы целиком, PASR активно решает, нужно ли, когда и как уточнять, основываясь на внутреннем состоянии модели и изменяющемся контексте. Мы провели обширные эксперименты на разнообразном наборе из 10 задач, чтобы оценить эффективность PASR. Результаты экспериментов показывают, что PASR значительно улучшает производительность в решении задач. В частности, на модели Qwen3-8B PASR сокращает среднее потребление токенов на 41,6% по сравнению со стандартной генерацией, одновременно повышая точность на 8,2%. Наш код и все базовые методы, использованные в статье, доступны на GitHub.
English
Recent advances in self-refinement have demonstrated significant potential for improving the outputs of large language models (LLMs) through iterative refinement. However, most existing self-refinement methods rely on a reactive process with a fixed number of iterations, making it difficult to determine the optimal timing and content of refinement based on the evolving generation context. Inspired by the way humans dynamically refine their thoughts during execution, we propose ProActive Self-Refinement (PASR), a novel method that enables LLMs to refine their outputs during the generation process. Unlike methods that regenerate entire responses, PASR proactively decides whether, when, and how to refine based on the model's internal state and evolving context. We conduct extensive experiments on a diverse set of 10 tasks to evaluate the effectiveness of PASR. Experimental results show that PASR significantly enhances problem-solving performance. In particular, on Qwen3-8B, PASR reduces average token consumption by 41.6 percent compared to standard generation, while also achieving an 8.2 percent improvement in accuracy. Our code and all baselines used in the paper are available in the GitHub.
PDF81August 20, 2025