Обучение на ошибках в многопопыточном обучении с подкреплением

Аннотация

Недавние достижения в области обучения с подкреплением (RL) для больших языковых моделей (LLM), примером которых является DeepSeek R1, показали, что даже простая задача ответов на вопросы может существенно улучшить способности LLM к рассуждению. В данной работе мы расширяем этот подход, модифицируя задачу в многопопыточный формат. Вместо генерации одного ответа на вопрос модель получает несколько попыток, с предоставлением обратной связи после неправильных ответов. Многопопыточная задача побуждает модель уточнять свои предыдущие попытки и повышать эффективность поиска. Экспериментальные результаты показывают, что даже небольшая LLM, обученная на многопопыточной задаче, достигает значительно более высокой точности при оценке с большим количеством попыток, улучшаясь с 45,6% при одной попытке до 52,5% при двух попытках на математическом бенчмарке. В то же время, та же LLM, обученная на стандартной однопопыточной задаче, демонстрирует лишь незначительное улучшение, увеличиваясь с 42,3% до 43,2% при предоставлении большего количества попыток во время оценки. Результаты указывают на то, что по сравнению со стандартной однопопыточной задачей, LLM, обученная на многопопыточной задаче, достигает немного лучших результатов на математических бенчмарках, одновременно обучаясь более эффективно уточнять свои ответы на основе обратной связи пользователя. Полный код доступен по адресу https://github.com/DualityRL/multi-attempt.

English

Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Обучение на ошибках в многопопыточном обучении с подкреплением

Learning from Failures in Multi-Attempt Reinforcement Learning

Аннотация

Support