Von Schaden zu Nutzen: Wie Reasoning-In-Context-Demonstrationen zu Ressourcen für Reasoning-LMs werden
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs
September 27, 2025
papers.authors: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI
papers.abstract
Aktuelle Reasoning-LLMs (RLMs), insbesondere solche, die mit verifikatorbasiertem Reinforcement Learning trainiert wurden, schneiden oft schlechter mit Few-Shot CoT ab als mit direktem Antworten. Wir untersuchen dieses Paradox erneut, indem wir hochwertige Reasoning-Traces von DeepSeek-R1 als Demonstrationen verwenden, und stellen fest, dass das Hinzufügen weiterer Beispiele die Genauigkeit konsequent verschlechtert, selbst wenn die Demonstrationen optimal sind. Eine detaillierte Analyse offenbart zwei Mechanismen hinter diesem Rückgang: (i) semantische Fehlleitung, bei der hohe textuelle Ähnlichkeit das Modell dazu veranlasst, das Ziel als dasselbe wie das Beispiel zu behandeln und Zwischenschritte wortwörtlich zu kopieren; und (ii) Strategietransferversagen, bei dem das Modell Schwierigkeiten hat, nützliche Reasoning-Strategien zu extrahieren und auf Zielfragen anzuwenden. Aufbauend auf diesen Erkenntnissen führen wir Insight-to-Solve (I2S) ein, ein sequenzielles Testzeitverfahren, das Demonstrationen in explizite, wiederverwendbare Einsichten umwandelt und einen zielspezifischen Reasoning-Trace ableitet; optional wird das Reasoning zur Kohärenz und Korrektheit selbst verfeinert (I2S+). Umfangreiche Experimente auf diversen Benchmarks zeigen, dass I2S und I2S+ sowohl direktes Antworten als auch Testzeit-Skalierungs-Baselines bei Open- und Closed-Source-Modellen konsequent übertreffen. Selbst für GPT-Modelle hilft unsere Methode: auf AIME'25 steigt GPT-4.1 um +14,0 %, und o1-mini verbessert sich um +2,7 % auf AIME und +1,7 % auf GPQA, was darauf hindeutet, dass In-Context-Demonstrationen effektiv über das Insight-Refine-Solve-Framework genutzt werden können.
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based
reinforcement learning, often perform worse with few-shot CoT than with direct
answering. We revisit this paradox using high-quality reasoning traces from
DeepSeek-R1 as demonstrations and find that adding more exemplars consistently
degrades accuracy, even when demonstrations are optimal. A detailed analysis
reveals two mechanisms behind this decline: (i) semantic misguidance, where
high textual similarity leads the model to treat the target as the same as the
exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer
failure, where the model struggles to extract useful reasoning strategies and
apply them to target questions. Guided by these, we introduce Insight-to-Solve
(I2S), a sequential test-time procedure that turns demonstrations into
explicit, reusable insights and derives a target-specific reasoning trace;
optionally, the reasoning is self-refined for coherence and correctness (I2S+).
Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently
outperform both direct answering and test-time scaling baselines across open-
and closed-source models. Even for GPT models, our method helps: on AIME'25,
GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on
GPQA, indicating that in-context demonstrations can be harnessed effectively
via insight-refine-solve framework.