ChatPaper.aiChatPaper

От вреда к пользе: превращение демонстраций контекстного рассуждения в ресурсы для языковых моделей с рассуждением

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs

September 27, 2025
Авторы: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI

Аннотация

Недавние языковые модели с возможностью рассуждений (RLMs), особенно те, которые обучались с использованием обучения с подкреплением на основе верификаторов, часто показывают худшие результаты при использовании метода "малоэкземплярного рассуждения" (few-shot CoT) по сравнению с прямым ответом. Мы вновь исследуем этот парадокс, используя высококачественные траектории рассуждений из DeepSeek-R1 в качестве демонстраций, и обнаруживаем, что добавление большего количества примеров последовательно снижает точность, даже когда демонстрации являются оптимальными. Подробный анализ выявляет два механизма, лежащих в основе этого снижения: (i) семантическое введение в заблуждение, когда высокая текстовая схожесть заставляет модель рассматривать целевую задачу как идентичную примеру и дословно копировать промежуточные шаги; и (ii) неудача передачи стратегии, когда модель испытывает трудности с извлечением полезных стратегий рассуждения и их применением к целевым вопросам. Руководствуясь этими выводами, мы представляем Insight-to-Solve (I2S), последовательную процедуру на этапе тестирования, которая превращает демонстрации в явные, повторно используемые инсайты и выводит целевую траекторию рассуждения; дополнительно рассуждение может быть самоусовершенствовано для согласованности и корректности (I2S+). Многочисленные эксперименты на различных бенчмарках показывают, что I2S и I2S+ последовательно превосходят как прямое ответное решение, так и базовые методы масштабирования на этапе тестирования для моделей с открытым и закрытым исходным кодом. Даже для моделей GPT наш метод оказывается полезным: на AIME'25 GPT-4.1 улучшает результат на +14.0%, а o1-mini — на +2.7% на AIME и +1.7% на GPQA, что указывает на эффективность использования демонстраций в контексте через фреймворк "инсайт-уточнение-решение".
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based reinforcement learning, often perform worse with few-shot CoT than with direct answering. We revisit this paradox using high-quality reasoning traces from DeepSeek-R1 as demonstrations and find that adding more exemplars consistently degrades accuracy, even when demonstrations are optimal. A detailed analysis reveals two mechanisms behind this decline: (i) semantic misguidance, where high textual similarity leads the model to treat the target as the same as the exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer failure, where the model struggles to extract useful reasoning strategies and apply them to target questions. Guided by these, we introduce Insight-to-Solve (I2S), a sequential test-time procedure that turns demonstrations into explicit, reusable insights and derives a target-specific reasoning trace; optionally, the reasoning is self-refined for coherence and correctness (I2S+). Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently outperform both direct answering and test-time scaling baselines across open- and closed-source models. Even for GPT models, our method helps: on AIME'25, GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on GPQA, indicating that in-context demonstrations can be harnessed effectively via insight-refine-solve framework.
PDF82September 30, 2025