Do Dano ao Apoio: Transformando Demonstrações de Raciocínio em Contexto em Ativos para Modelos de Linguagem de Raciocínio
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs
September 27, 2025
Autores: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI
Resumo
Modelos de linguagem de raciocínio recentes (RLMs), especialmente aqueles treinados com aprendizado por reforço baseado em verificador, frequentemente apresentam desempenho pior com poucos exemplos de Chain-of-Thought (CoT) do que com respostas diretas. Revisitamos esse paradoxo utilizando traços de raciocínio de alta qualidade do DeepSeek-R1 como demonstrações e descobrimos que adicionar mais exemplos consistentemente degrada a precisão, mesmo quando as demonstrações são ótimas. Uma análise detalhada revela dois mecanismos por trás desse declínio: (i) desorientação semântica, onde a alta similaridade textual leva o modelo a tratar o alvo como igual ao exemplo e a copiar passos intermediários literalmente; e (ii) falha na transferência de estratégia, onde o modelo luta para extrair estratégias de raciocínio úteis e aplicá-las a questões-alvo. Guiados por esses insights, introduzimos o Insight-to-Solve (I2S), um procedimento sequencial em tempo de teste que transforma demonstrações em insights explícitos e reutilizáveis e deriva um traço de raciocínio específico para o alvo; opcionalmente, o raciocínio é auto-refinado para coerência e correção (I2S+). Experimentos extensos em diversos benchmarks mostram que I2S e I2S+ consistentemente superam tanto respostas diretas quanto baselines de escalonamento em tempo de teste em modelos de código aberto e fechado. Mesmo para modelos GPT, nosso método ajuda: no AIME'25, o GPT-4.1 aumenta em +14,0%, e o o1-mini melhora em +2,7% no AIME e +1,7% no GPQA, indicando que demonstrações em contexto podem ser aproveitadas efetivamente por meio do framework insight-refine-solve.
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based
reinforcement learning, often perform worse with few-shot CoT than with direct
answering. We revisit this paradox using high-quality reasoning traces from
DeepSeek-R1 as demonstrations and find that adding more exemplars consistently
degrades accuracy, even when demonstrations are optimal. A detailed analysis
reveals two mechanisms behind this decline: (i) semantic misguidance, where
high textual similarity leads the model to treat the target as the same as the
exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer
failure, where the model struggles to extract useful reasoning strategies and
apply them to target questions. Guided by these, we introduce Insight-to-Solve
(I2S), a sequential test-time procedure that turns demonstrations into
explicit, reusable insights and derives a target-specific reasoning trace;
optionally, the reasoning is self-refined for coherence and correctness (I2S+).
Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently
outperform both direct answering and test-time scaling baselines across open-
and closed-source models. Even for GPT models, our method helps: on AIME'25,
GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on
GPQA, indicating that in-context demonstrations can be harnessed effectively
via insight-refine-solve framework.