ChatPaper.aiChatPaper

Dal Danno all'Aiuto: Trasformare le Dimostrazioni di Ragionamento in Contesto in Risorse per i Modelli Linguistici di Ragionamento

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs

September 27, 2025
Autori: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI

Abstract

I recenti modelli linguistici di ragionamento (RLM), in particolare quelli addestrati con apprendimento per rinforzo basato su verificatori, spesso performano peggio con il ragionamento a catena (CoT) few-shot rispetto alle risposte dirette. Esploriamo questo paradosso utilizzando tracce di ragionamento di alta qualità da DeepSeek-R1 come dimostrazioni e scopriamo che aggiungere più esempi degrada costantemente l'accuratezza, anche quando le dimostrazioni sono ottimali. Un'analisi dettagliata rivela due meccanismi alla base di questo declino: (i) l'errata guida semantica, dove un'elevata somiglianza testuale porta il modello a trattare il target come identico all'esempio e a copiare i passaggi intermedi alla lettera; e (ii) il fallimento del trasferimento della strategia, dove il modello fatica a estrarre strategie di ragionamento utili e ad applicarle alle domande target. Guidati da questi risultati, introduciamo Insight-to-Solve (I2S), una procedura sequenziale in fase di test che trasforma le dimostrazioni in intuizioni esplicite e riutilizzabili e deriva una traccia di ragionamento specifica per il target; opzionalmente, il ragionamento viene auto-affinato per coerenza e correttezza (I2S+). Esperimenti estesi su benchmark diversificati mostrano che I2S e I2S+ superano costantemente sia le risposte dirette che i baseline di scalabilità in fase di test, sia per modelli open-source che closed-source. Anche per i modelli GPT, il nostro metodo è utile: su AIME'25, GPT-4.1 migliora del +14,0%, e o1-mini migliora del +2,7% su AIME e del +1,7% su GPQA, indicando che le dimostrazioni in-context possono essere sfruttate efficacemente tramite il framework insight-refine-solve.
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based reinforcement learning, often perform worse with few-shot CoT than with direct answering. We revisit this paradox using high-quality reasoning traces from DeepSeek-R1 as demonstrations and find that adding more exemplars consistently degrades accuracy, even when demonstrations are optimal. A detailed analysis reveals two mechanisms behind this decline: (i) semantic misguidance, where high textual similarity leads the model to treat the target as the same as the exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer failure, where the model struggles to extract useful reasoning strategies and apply them to target questions. Guided by these, we introduce Insight-to-Solve (I2S), a sequential test-time procedure that turns demonstrations into explicit, reusable insights and derives a target-specific reasoning trace; optionally, the reasoning is self-refined for coherence and correctness (I2S+). Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently outperform both direct answering and test-time scaling baselines across open- and closed-source models. Even for GPT models, our method helps: on AIME'25, GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on GPQA, indicating that in-context demonstrations can be harnessed effectively via insight-refine-solve framework.
PDF92September 30, 2025