ChatPaper.aiChatPaper

Del Daño a la Ayuda: Convertir Demostraciones de Razonamiento en Contexto en Activos para Modelos de Lenguaje de Razonamiento

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs

September 27, 2025
Autores: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI

Resumen

Los modelos de lenguaje de razonamiento recientes (RLMs, por sus siglas en inglés), especialmente aquellos entrenados con aprendizaje por refuerzo basado en verificadores, a menudo tienen un rendimiento inferior con el razonamiento en pocos ejemplos (CoT) que con la respuesta directa. Revisitamos esta paradoja utilizando trazas de razonamiento de alta calidad de DeepSeek-R1 como demostraciones y encontramos que agregar más ejemplos degrada consistentemente la precisión, incluso cuando las demostraciones son óptimas. Un análisis detallado revela dos mecanismos detrás de este declive: (i) la desorientación semántica, donde una alta similitud textual lleva al modelo a tratar el objetivo como idéntico al ejemplo y a copiar los pasos intermedios textualmente; y (ii) el fracaso en la transferencia de estrategias, donde el modelo lucha por extraer estrategias de razonamiento útiles y aplicarlas a las preguntas objetivo. Guiados por estos hallazgos, introducimos Insight-to-Solve (I2S), un procedimiento secuencial en tiempo de prueba que convierte las demostraciones en insights explícitos y reutilizables y deriva una traza de razonamiento específica para el objetivo; opcionalmente, el razonamiento se auto-refina para mejorar su coherencia y corrección (I2S+). Experimentos extensos en diversos benchmarks muestran que I2S e I2S+ superan consistentemente tanto la respuesta directa como las líneas base de escalado en tiempo de prueba en modelos de código abierto y cerrado. Incluso para los modelos GPT, nuestro método es útil: en AIME'25, GPT-4.1 aumenta un +14.0%, y o1-mini mejora un +2.7% en AIME y un +1.7% en GPQA, lo que indica que las demostraciones en contexto pueden aprovecharse efectivamente mediante el marco de insight-refine-solve.
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based reinforcement learning, often perform worse with few-shot CoT than with direct answering. We revisit this paradox using high-quality reasoning traces from DeepSeek-R1 as demonstrations and find that adding more exemplars consistently degrades accuracy, even when demonstrations are optimal. A detailed analysis reveals two mechanisms behind this decline: (i) semantic misguidance, where high textual similarity leads the model to treat the target as the same as the exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer failure, where the model struggles to extract useful reasoning strategies and apply them to target questions. Guided by these, we introduce Insight-to-Solve (I2S), a sequential test-time procedure that turns demonstrations into explicit, reusable insights and derives a target-specific reasoning trace; optionally, the reasoning is self-refined for coherence and correctness (I2S+). Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently outperform both direct answering and test-time scaling baselines across open- and closed-source models. Even for GPT models, our method helps: on AIME'25, GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on GPQA, indicating that in-context demonstrations can be harnessed effectively via insight-refine-solve framework.
PDF82September 30, 2025