Сдвиг в рассуждениях: как контекст неявно сокращает логические цепочки больших языковых моделей

Аннотация

Крупные языковые модели (LLM), демонстрирующие поведение масштабирования на этапе тестирования, такое как расширенные цепочки рассуждений и самопроверка, показали выдающиеся результаты в решении сложных задач, требующих долгосрочных рассуждений. Однако устойчивость этих моделей рассуждений остается малоизученной. Для исследования этого вопроса мы проводим систематическую оценку нескольких моделей рассуждений в трех сценариях: (1) задачи, дополненные длинным, нерелевантным контекстом; (2) многотуровые диалоговые setting с независимыми задачами; и (3) задачи, представленные в качестве подзадачи в рамках сложной задачи. Мы наблюдаем интересный феномен: модели рассуждений склонны генерировать значительно более короткие цепочки рассуждений (до 50%) для одной и той же задачи в различных контекстных условиях по сравнению с цепочками, генерируемыми когда задача представлена изолированно. Более детальный анализ показывает, что это сжатие связано со снижением проявлений самопроверки и управления неопределенностью, таких как перепроверка. Хотя это изменение поведения не сказывается на производительности при решении простых задач, оно может повлиять на результаты при работе с более сложными задачами. Мы надеемся, что наши выводы привлекут дополнительное внимание как к вопросу устойчивости моделей рассуждений, так и к проблеме управления контекстом для LLM и агентов на основе LLM.

English

Large language models (LLMs) exhibiting test-time scaling behavior, such as extended reasoning traces and self-verification, have demonstrated remarkable performance on complex, long-term reasoning tasks. However, the robustness of these reasoning behaviors remains underexplored. To investigate this, we conduct a systematic evaluation of multiple reasoning models across three scenarios: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as a subtask within a complex task. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. A finer-grained analysis reveals that this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking. While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We hope our findings draw additional attention to both the robustness of reasoning models and the problem of context management for LLMs and LLM-based agents.

Сдвиг в рассуждениях: как контекст неявно сокращает логические цепочки больших языковых моделей

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Аннотация

Support