SwS: Синтез проблем на основе самоосознания слабостей в обучении с подкреплением для рассуждений с использованием больших языковых моделей
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning
June 10, 2025
Авторы: Xiao Liang, Zhong-Zhi Li, Yeyun Gong, Yang Wang, Hengyuan Zhang, Yelong Shen, Ying Nian Wu, Weizhu Chen
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) доказало свою эффективность для обучения больших языковых моделей (LLM) на сложных задачах рассуждения, таких как решение математических задач. Необходимым условием масштабируемости RLVR является наличие высококачественного набора задач с точными и проверяемыми ответами. Однако недостаток тщательно разработанных задач, размеченных человеком, и ограниченная проверяемость ответов в существующих синтетических наборах данных, ориентированных на дистилляцию, снижают их эффективность в обучении с подкреплением. Кроме того, большинство стратегий синтеза задач без разбора расширяют набор задач, не учитывая возможности модели, что приводит к низкой эффективности генерации полезных вопросов. Чтобы устранить эту проблему, мы представляем фреймворк Self-aware Weakness-driven problem Synthesis (SwS), который систематически выявляет недостатки модели и использует их для расширения набора задач. В частности, мы определяем слабости как вопросы, которые модель последовательно не может освоить в процессе итеративной выборки во время обучения с подкреплением. Затем мы извлекаем ключевые концепции из этих случаев неудач и синтезируем новые задачи для усиления слабых областей модели в последующем расширенном обучении, позволяя ей сосредоточиться на своих слабостях и постепенно их преодолевать. Без использования внешней дистилляции знаний наш фреймворк обеспечивает устойчивое обобщение, позволяя модели самостоятельно выявлять и устранять свои слабости в обучении с подкреплением, что приводит к среднему увеличению производительности на 10,0% и 7,7% для моделей с 7B и 32B параметров на восьми основных тестах на рассуждение.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective
for training large language models (LLMs) on complex reasoning tasks, such as
mathematical problem solving. A prerequisite for the scalability of RLVR is a
high-quality problem set with precise and verifiable answers. However, the
scarcity of well-crafted human-labeled math problems and limited-verification
answers in existing distillation-oriented synthetic datasets limit their
effectiveness in RL. Additionally, most problem synthesis strategies
indiscriminately expand the problem set without considering the model's
capabilities, leading to low efficiency in generating useful questions. To
mitigate this issue, we introduce a Self-aware Weakness-driven problem
Synthesis framework (SwS) that systematically identifies model deficiencies and
leverages them for problem augmentation. Specifically, we define weaknesses as
questions that the model consistently fails to learn through its iterative
sampling during RL training. We then extract the core concepts from these
failure cases and synthesize new problems to strengthen the model's weak areas
in subsequent augmented training, enabling it to focus on and gradually
overcome its weaknesses. Without relying on external knowledge distillation,
our framework enables robust generalization byempowering the model to
self-identify and address its weaknesses in RL, yielding average performance
gains of 10.0% and 7.7% on 7B and 32B models across eight mainstream reasoning
benchmarks.