ChatPaper.aiChatPaper

Van schade naar hulp: In-context redeneerdemo's omzetten in hulpmiddelen voor redenerende taalmodellen

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs

September 27, 2025
Auteurs: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI

Samenvatting

Recente redeneer-LLM's (RLM's), met name die getraind zijn met verifier-gebaseerde reinforcement learning, presteren vaak slechter met few-shot CoT dan met direct beantwoorden. We herzien deze paradox met behulp van hoogwaardige redeneersporen van DeepSeek-R1 als demonstraties en ontdekken dat het toevoegen van meer voorbeelden de nauwkeurigheid consistent vermindert, zelfs wanneer de demonstraties optimaal zijn. Een gedetailleerde analyse onthult twee mechanismen achter deze achteruitgang: (i) semantische misleiding, waarbij hoge tekstuele gelijkenis het model ertoe brengt het doel als hetzelfde te behandelen als het voorbeeld en tussenstappen letterlijk te kopiëren; en (ii) strategieoverdrachtfalen, waarbij het model moeite heeft om nuttige redeneerstrategieën te extraheren en toe te passen op doelvragen. Geleid door deze inzichten introduceren we Insight-to-Solve (I2S), een sequentiële test-time procedure die demonstraties omzet in expliciete, herbruikbare inzichten en een doelspecifiek redeneerspoor afleidt; optioneel wordt het redeneren zelf verfijnd voor samenhang en correctheid (I2S+). Uitgebreide experimenten op diverse benchmarks tonen aan dat I2S en I2S+ consistent beter presteren dan zowel direct beantwoorden als test-time schaalbaarheidsbaselines, zowel voor open- als closed-source modellen. Zelfs voor GPT-modellen helpt onze methode: op AIME'25 stijgt GPT-4.1 met +14,0%, en o1-mini verbetert met +2,7% op AIME en +1,7% op GPQA, wat aangeeft dat in-context demonstraties effectief kunnen worden benut via het insight-refine-solve raamwerk.
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based reinforcement learning, often perform worse with few-shot CoT than with direct answering. We revisit this paradox using high-quality reasoning traces from DeepSeek-R1 as demonstrations and find that adding more exemplars consistently degrades accuracy, even when demonstrations are optimal. A detailed analysis reveals two mechanisms behind this decline: (i) semantic misguidance, where high textual similarity leads the model to treat the target as the same as the exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer failure, where the model struggles to extract useful reasoning strategies and apply them to target questions. Guided by these, we introduce Insight-to-Solve (I2S), a sequential test-time procedure that turns demonstrations into explicit, reusable insights and derives a target-specific reasoning trace; optionally, the reasoning is self-refined for coherence and correctness (I2S+). Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently outperform both direct answering and test-time scaling baselines across open- and closed-source models. Even for GPT models, our method helps: on AIME'25, GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on GPQA, indicating that in-context demonstrations can be harnessed effectively via insight-refine-solve framework.
PDF92September 30, 2025