Del Daño a la Ayuda: Convertir Demostraciones de Razonamiento en Contexto en Activos para Modelos de Lenguaje de Razonamiento
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs
September 27, 2025
Autores: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI
Resumen
Los modelos de lenguaje de razonamiento recientes (RLMs, por sus siglas en inglés), especialmente aquellos entrenados con aprendizaje por refuerzo basado en verificadores, a menudo tienen un rendimiento inferior con el razonamiento en pocos ejemplos (CoT) que con la respuesta directa. Revisitamos esta paradoja utilizando trazas de razonamiento de alta calidad de DeepSeek-R1 como demostraciones y encontramos que agregar más ejemplos degrada consistentemente la precisión, incluso cuando las demostraciones son óptimas. Un análisis detallado revela dos mecanismos detrás de este declive: (i) la desorientación semántica, donde una alta similitud textual lleva al modelo a tratar el objetivo como idéntico al ejemplo y a copiar los pasos intermedios textualmente; y (ii) el fracaso en la transferencia de estrategias, donde el modelo lucha por extraer estrategias de razonamiento útiles y aplicarlas a las preguntas objetivo. Guiados por estos hallazgos, introducimos Insight-to-Solve (I2S), un procedimiento secuencial en tiempo de prueba que convierte las demostraciones en insights explícitos y reutilizables y deriva una traza de razonamiento específica para el objetivo; opcionalmente, el razonamiento se auto-refina para mejorar su coherencia y corrección (I2S+). Experimentos extensos en diversos benchmarks muestran que I2S e I2S+ superan consistentemente tanto la respuesta directa como las líneas base de escalado en tiempo de prueba en modelos de código abierto y cerrado. Incluso para los modelos GPT, nuestro método es útil: en AIME'25, GPT-4.1 aumenta un +14.0%, y o1-mini mejora un +2.7% en AIME y un +1.7% en GPQA, lo que indica que las demostraciones en contexto pueden aprovecharse efectivamente mediante el marco de insight-refine-solve.
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based
reinforcement learning, often perform worse with few-shot CoT than with direct
answering. We revisit this paradox using high-quality reasoning traces from
DeepSeek-R1 as demonstrations and find that adding more exemplars consistently
degrades accuracy, even when demonstrations are optimal. A detailed analysis
reveals two mechanisms behind this decline: (i) semantic misguidance, where
high textual similarity leads the model to treat the target as the same as the
exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer
failure, where the model struggles to extract useful reasoning strategies and
apply them to target questions. Guided by these, we introduce Insight-to-Solve
(I2S), a sequential test-time procedure that turns demonstrations into
explicit, reusable insights and derives a target-specific reasoning trace;
optionally, the reasoning is self-refined for coherence and correctness (I2S+).
Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently
outperform both direct answering and test-time scaling baselines across open-
and closed-source models. Even for GPT models, our method helps: on AIME'25,
GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on
GPQA, indicating that in-context demonstrations can be harnessed effectively
via insight-refine-solve framework.