SIM-CoT: Контролируемая неявная цепочка рассуждений
SIM-CoT: Supervised Implicit Chain-of-Thought
September 24, 2025
Авторы: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI
Аннотация
Методы неявной цепочки рассуждений (CoT) представляют собой перспективную и эффективную по использованию токенов альтернативу явным методам CoT в больших языковых моделях (LLM), однако сохраняющийся разрыв в производительности ограничивает их применение. Мы выявили ключевую проблему латентной нестабильности при масштабировании вычислительных ресурсов для неявных подходов CoT: с увеличением количества токенов неявного рассуждения для повышения производительности процесс обучения часто становится нестабильным и разрушается. Наш анализ показывает, что эта нестабильность возникает из-за того, что латентные представления становятся однородными и теряют семантическое разнообразие, что вызвано недостаточным пошаговым контролем в существующих подходах неявной CoT. Для решения этой проблемы мы предлагаем SIM-CoT, модуль обучения "подключи и работай", который вводит пошаговый контроль для стабилизации и обогащения латентного пространства рассуждений. В частности, SIM-CoT использует вспомогательный декодер во время обучения для согласования каждого неявного токена с соответствующим шагом явного рассуждения, гарантируя, что латентные состояния захватывают уникальную и значимую информацию. Предложенный вспомогательный декодер удаляется на этапе вывода, сохраняя вычислительную эффективность неявных методов CoT без дополнительных затрат. Кроме того, вспомогательный декодер обеспечивает интерпретируемость неявных рассуждений, проецируя каждый латентный токен на словарь явных рассуждений, что позволяет визуализировать семантические роли и диагностировать их на каждом шаге. SIM-CoT значительно улучшает как точность в рамках домена, так и стабильность вне домена для различных методов неявной CoT, повышая базовые показатели, такие как Coconut, на +8,2% для GPT-2 и CODI на +3,0% для LLaMA-3.1 8B. Демонстрируя высокую масштабируемость, SIM-CoT также превосходит базовый метод явной CoT на GPT-2 на 2,1% при 2,3-кратной эффективности использования токенов, существенно сокращая разрыв в производительности на более крупных моделях, таких как LLaMA-3.1 8B.
English
Implicit Chain-of-Thought (CoT) methods present a promising, token-efficient
alternative to explicit CoT reasoning in Large Language Models (LLMs), but a
persistent performance gap has limited the application of implicit CoT. We
identify a core latent instability issue by scaling the computational budget of
implicit CoT approaches: as we increase the number of implicit reasoning tokens
to enhance performance, the training process often becomes unstable and
collapses. Our analysis reveals that this instability arises from the latent
representations becoming homogeneous and losing their semantic diversity, a
failure caused by insufficient step-level supervision in existing implicit CoT
approaches. To address this issue, we propose SIM-CoT, a plug-and-play training
module that introduces step-level supervision to stabilize and enrich the
latent reasoning space. Specifically, SIM-CoT employs an auxiliary decoder
during training to align each implicit token with its corresponding explicit
reasoning step, ensuring that latent states capture distinct and meaningful
information. The proposed auxiliary decoder is removed during inference,
preserving the computational efficiency of implicit CoT methods with no added
overhead. In addition, the auxiliary decoder affords interpretability of
implicit reasoning by projecting each latent token onto an explicit reasoning
vocabulary, enabling per-step visualization of semantic roles and diagnosis.
SIM-CoT significantly enhances both the in-domain accuracy and out-of-domain
stability of various implicit CoT methods, boosting baselines like Coconut by
+8.2% on GPT-2 and CODI by +3.0% on LLaMA-3.1 8B. Demonstrating strong
scalability, SIM-CoT also surpasses the explicit CoT baseline on GPT-2 by 2.1%
with 2.3\times greater token efficiency, while substantially closing the
performance gap on larger models like LLaMA-3.1 8B.