Соответствие против чувствительности: о контролируемости рассуждений в больших языковых моделях

Аннотация

Крупные языковые модели (LLM), как известно, приобретают способности к логическому выводу через общие паттерны рассуждений в данных предварительного обучения, которые дополнительно активируются с помощью методов «рассуждения по цепочке» (Chain-of-Thought, CoT). Однако вопрос о том, можно ли фундаментальные паттерны рассуждений, такие как индукция, дедукция и абдукция, отделить от конкретных примеров задач, остаётся критически важной проблемой для управляемости моделей и прояснения управляемости самих рассуждений. В данной статье мы представляем первое систематическое исследование этой проблемы через призму конфликтов рассуждений: явного противоречия между параметрической и контекстной информацией, вызванного навязыванием логических схем, которые отклоняются от ожидаемых для целевой задачи. Наша оценка показывает, что LLM последовательно отдают приоритет осмысленности, а не соответствию инструкциям, предпочитая уместные для задачи паттерны рассуждений, несмотря на конфликтующие указания. Примечательно, что точность решения задачи не строго определяется осмысленностью: модели часто сохраняют высокую производительность даже при использовании конфликтующих паттернов, что указывает на опору на усвоенную параметрическую память, которая возрастает с увеличением размера модели. Мы также демонстрируем, что конфликты рассуждений можно детектировать внутренне, поскольку показатели уверенности модели значительно снижаются в конфликтных ситуациях. Эксперименты с зондированием подтверждают, что типы рассуждений линейно кодируются в средних и поздних слоях, что указывает на потенциальную возможность управляемости на уровне активаций. Используя эти insights, мы направляем модели в сторону следования инструкциям, увеличивая процент выполнения указаний до 29%. В целом, наши результаты устанавливают, что, хотя рассуждения LLM привязаны к конкретным примерам, активные механистические вмешательства могут эффективно отделить логические схемы от данных, открывая путь к повышению управляемости, достоверности и обобщаемости.

English

Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are further elicited via Chain-of-Thought (CoT) practices. However, whether fundamental reasoning patterns, such as induction, deduction, and abduction, can be decoupled from specific problem instances remains a critical challenge for model controllability, and for shedding light on reasoning controllability. In this paper, we present the first systematic investigation of this problem through the lens of reasoning conflicts: an explicit tension between parametric and contextual information induced by mandating logical schemata that deviate from those expected for a target task. Our evaluation reveals that LLMs consistently prioritize sensibility over compliance, favoring task-appropriate reasoning patterns despite conflicting instructions. Notably, task accuracy is not strictly determined by sensibility, with models often maintaining high performance even when using conflicting patterns, suggesting a reliance on internalized parametric memory that increases with model size. We further demonstrate that reasoning conflicts are internally detectable, as confidence scores significantly drop during conflicting episodes. Probing experiments confirm that reasoning types are linearly encoded from middle-to-late layers, indicating the potential for activation-level controllability. Leveraging these insights, we steer models towards compliance, increasing instruction following by up to 29%. Overall, our findings establish that while LLM reasoning is anchored to concrete instances, active mechanistic interventions can effectively decouple logical schemata from data, offering a path toward improved controllability, faithfulness, and generalizability.

Соответствие против чувствительности: о контролируемости рассуждений в больших языковых моделях

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Аннотация

Support