ChatPaper.aiChatPaper

Een eenvoudige "Probeer opnieuw" kan meerdere stappen van redenering bij LLM's uitlokken.

A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning

July 18, 2025
Auteurs: Licheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li
cs.AI

Samenvatting

Meerbeurtenprobleemoplossing is cruciaal maar uitdagend voor Grote Redeneermodellen (LRMs) om na te denken over hun redenering en te herzien op basis van feedback. Bestaande Reinforcement Learning (RL)-methoden trainen grote redeneermodellen volgens een eenbeurtenparadigma met verifieerbare beloningen. We observeren echter dat modellen die getraind zijn met bestaande RL-paradigma's vaak hun vermogen verliezen om problemen over meerdere beurten op te lossen en moeite hebben om antwoorden te herzien op basis van contextuele feedback, wat leidt tot repetitieve reacties. We vragen ons af: kunnen LRMs leren om hun antwoorden te reflecteren in een meerbeurtencontext? In dit werk ontdekken we dat het trainen van modellen met meerbeurten RL met alleen unaire feedback (bijvoorbeeld "Laten we het opnieuw proberen") na foute antwoorden zowel de eenbeurtenprestaties als het meerbeurtenredeneren kan verbeteren. We introduceren Unaire Feedback als Observatie (UFO) voor reinforcement learning, waarbij minimale maar veelvoorkomende unaire gebruikersfeedback wordt gebruikt tijdens iteratieve probleemoplossing. Het kan eenvoudig worden toegepast op bestaande eenbeurten RL-trainingsopstellingen. Experimentele resultaten tonen aan dat RL-training met UFO de eenbeurtenprestaties behoudt en de nauwkeurigheid van meerbeurtenredeneren met tot wel 14% verbetert, waardoor taalmodellen beter kunnen reageren op feedback bij meerbeurtenprobleemoplossing. Om het aantal benodigde beurten voor een correct antwoord verder te minimaliseren en tegelijkertijd divers redeneren aan te moedigen wanneer fouten optreden, ontwerpen we beloningsstructuren die modellen aanmoedigen om zorgvuldige en weloverwogen antwoorden te produceren in elke beurt. Code: https://github.com/lichengliu03/unary-feedback
English
Multi-turn problem solving is critical yet challenging for Large Reasoning Models (LRMs) to reflect on their reasoning and revise from feedback. Existing Reinforcement Learning (RL) methods train large reasoning models on a single-turn paradigm with verifiable rewards. However, we observe that models trained with existing RL paradigms often lose their ability to solve problems across multiple turns and struggle to revise answers based on contextual feedback, leading to repetitive responses. We ask: can LRMs learn to reflect their answers in a multi-turn context? In this work, we find that training models with multi-turn RL using only unary feedback (e.g., "Let's try again") after wrong answers can improve both single-turn performance and multi-turn reasoning. We introduce Unary Feedback as Observation (UFO) for reinforcement learning, which uses minimal yet common unary user feedback during iterative problem solving. It can be easily applied to existing single-turn RL training setups. Experimental results show that RL training with UFO keeps single-turn performance and improves multi-turn reasoning accuracy by up to 14%, enabling language models to better react to feedback in multi-turn problem solving. To further minimize the number of turns needed for a correct answer while encouraging diverse reasoning when mistakes occur, we design reward structures that guide models to produce careful and deliberate answers in each turn. Code: https://github.com/lichengliu03/unary-feedback
PDF132July 22, 2025