Модель говорит «иди»: Как поверхностные эвристики переопределяют имплицитные ограничения в рассуждениях больших языковых моделей
The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning
March 30, 2026
Авторы: Yubo Li, Lu Zhang, Tianchong Jiang, Ramayya Krishnan, Rema Padman
cs.AI
Аннотация
Крупные языковые модели систематически допускают ошибки, когда явный поверхностный признак конфликтует с неявным ограничением осуществимости. Мы исследуем это в рамках диагностико-измерительно-связующе-корректирующего подхода. Причинно-поведенческий анализ "задачи с мойкой автомобилей" на шести моделях выявляет приблизительно контекст-независимые сигмоидные эвристики: признак расстояния оказывает в 8,7–38 раз большее влияние, чем цель, а покомпонентный анализ показывает паттерны, более согласующиеся с ассоциациями по ключевым словам, чем с композиционным выводом. Эталонный тест на преодоление эвристик (HOB) — 500 примеров, охватывающих 4 типа эвристик и 5 семейств ограничений с минимальными парами и градиентами явности — демонстрирует универсальность проблемы для 14 моделей: при строгой оценке (10/10 правильных ответов) ни одна модель не превышает 75%, а ограничения на наличие оказываются самыми сложными (44%). Минимальная подсказка (например, акцент на ключевом объекте) в среднем улучшает результат на +15 п.п., что указывает на то, что ошибка связана с выводом ограничений, а не с отсутствием знаний; 12 из 14 моделей показывают худшие результаты при удалении ограничения (до -39 п.п.), выявляя консервативную предвзятость. Параметрические пробы подтверждают, что сигмоидный паттерн обобщается на эвристики стоимости, эффективности и семантического сходства; промптинг с декомпозицией цели улучшает результат на +6–9 п.п., заставляя модели перечислять предварительные условия перед ответом. В совокупности эти результаты характеризуют доминирование эвристик как систематическую уязвимость логического вывода и предоставляют эталон для измерения прогресса в её устранении.
English
Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.