ChatPaper.aiChatPaper

Do Dano ao Apoio: Transformando Demonstrações de Raciocínio em Contexto em Ativos para Modelos de Linguagem de Raciocínio

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs

September 27, 2025
Autores: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI

Resumo

Modelos de linguagem de raciocínio recentes (RLMs), especialmente aqueles treinados com aprendizado por reforço baseado em verificador, frequentemente apresentam desempenho pior com poucos exemplos de Chain-of-Thought (CoT) do que com respostas diretas. Revisitamos esse paradoxo utilizando traços de raciocínio de alta qualidade do DeepSeek-R1 como demonstrações e descobrimos que adicionar mais exemplos consistentemente degrada a precisão, mesmo quando as demonstrações são ótimas. Uma análise detalhada revela dois mecanismos por trás desse declínio: (i) desorientação semântica, onde a alta similaridade textual leva o modelo a tratar o alvo como igual ao exemplo e a copiar passos intermediários literalmente; e (ii) falha na transferência de estratégia, onde o modelo luta para extrair estratégias de raciocínio úteis e aplicá-las a questões-alvo. Guiados por esses insights, introduzimos o Insight-to-Solve (I2S), um procedimento sequencial em tempo de teste que transforma demonstrações em insights explícitos e reutilizáveis e deriva um traço de raciocínio específico para o alvo; opcionalmente, o raciocínio é auto-refinado para coerência e correção (I2S+). Experimentos extensos em diversos benchmarks mostram que I2S e I2S+ consistentemente superam tanto respostas diretas quanto baselines de escalonamento em tempo de teste em modelos de código aberto e fechado. Mesmo para modelos GPT, nosso método ajuda: no AIME'25, o GPT-4.1 aumenta em +14,0%, e o o1-mini melhora em +2,7% no AIME e +1,7% no GPQA, indicando que demonstrações em contexto podem ser aproveitadas efetivamente por meio do framework insight-refine-solve.
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based reinforcement learning, often perform worse with few-shot CoT than with direct answering. We revisit this paradox using high-quality reasoning traces from DeepSeek-R1 as demonstrations and find that adding more exemplars consistently degrades accuracy, even when demonstrations are optimal. A detailed analysis reveals two mechanisms behind this decline: (i) semantic misguidance, where high textual similarity leads the model to treat the target as the same as the exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer failure, where the model struggles to extract useful reasoning strategies and apply them to target questions. Guided by these, we introduce Insight-to-Solve (I2S), a sequential test-time procedure that turns demonstrations into explicit, reusable insights and derives a target-specific reasoning trace; optionally, the reasoning is self-refined for coherence and correctness (I2S+). Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently outperform both direct answering and test-time scaling baselines across open- and closed-source models. Even for GPT models, our method helps: on AIME'25, GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on GPQA, indicating that in-context demonstrations can be harnessed effectively via insight-refine-solve framework.
PDF92September 30, 2025