ChatPaper.aiChatPaper

Du préjudice à l'aide : Transformer les démonstrations de raisonnement en contexte en atouts pour les modèles de langage raisonneurs

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs

September 27, 2025
papers.authors: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI

papers.abstract

Les modèles de langage récents spécialisés en raisonnement (RLMs), en particulier ceux entraînés avec un apprentissage par renforcement basé sur des vérificateurs, obtiennent souvent de moins bons résultats avec le raisonnement en chaîne (CoT) en few-shot qu'avec des réponses directes. Nous revisitons ce paradoxe en utilisant des traces de raisonnement de haute qualité provenant de DeepSeek-R1 comme démonstrations et constatons que l'ajout de plus d'exemples dégrade systématiquement la précision, même lorsque les démonstrations sont optimales. Une analyse détaillée révèle deux mécanismes derrière ce déclin : (i) l'égarement sémantique, où une forte similarité textuelle amène le modèle à traiter la cible comme identique à l'exemple et à copier les étapes intermédiaires mot pour mot ; et (ii) l'échec du transfert de stratégie, où le modèle peine à extraire des stratégies de raisonnement utiles et à les appliquer aux questions cibles. Guidés par ces observations, nous introduisons Insight-to-Solve (I2S), une procédure séquentielle au moment du test qui transforme les démonstrations en insights explicites et réutilisables et dérive une trace de raisonnement spécifique à la cible ; optionnellement, le raisonnement est auto-affiné pour la cohérence et la correction (I2S+). Des expériences approfondies sur divers benchmarks montrent que I2S et I2S+ surpassent systématiquement à la fois les réponses directes et les bases de référence de mise à l'échelle au moment du test, sur des modèles open-source et propriétaires. Même pour les modèles GPT, notre méthode est bénéfique : sur AIME'25, GPT-4.1 progresse de +14,0 %, et o1-mini s'améliore de +2,7 % sur AIME et +1,7 % sur GPQA, indiquant que les démonstrations en contexte peuvent être exploitées efficacement via le cadre insight-affiner-résoudre.
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based reinforcement learning, often perform worse with few-shot CoT than with direct answering. We revisit this paradox using high-quality reasoning traces from DeepSeek-R1 as demonstrations and find that adding more exemplars consistently degrades accuracy, even when demonstrations are optimal. A detailed analysis reveals two mechanisms behind this decline: (i) semantic misguidance, where high textual similarity leads the model to treat the target as the same as the exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer failure, where the model struggles to extract useful reasoning strategies and apply them to target questions. Guided by these, we introduce Insight-to-Solve (I2S), a sequential test-time procedure that turns demonstrations into explicit, reusable insights and derives a target-specific reasoning trace; optionally, the reasoning is self-refined for coherence and correctness (I2S+). Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently outperform both direct answering and test-time scaling baselines across open- and closed-source models. Even for GPT models, our method helps: on AIME'25, GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on GPQA, indicating that in-context demonstrations can be harnessed effectively via insight-refine-solve framework.
PDF82September 30, 2025