ChatPaper.aiChatPaper

SIM-CoT: Überwachte implizite Gedankenkette

SIM-CoT: Supervised Implicit Chain-of-Thought

September 24, 2025
papers.authors: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

papers.abstract

Implizite Chain-of-Thought (CoT)-Methoden bieten eine vielversprechende, token-effiziente Alternative zur expliziten CoT-Argumentation in Large Language Models (LLMs), doch eine anhaltende Leistungslücke hat die Anwendung impliziter CoT bisher eingeschränkt. Wir identifizieren ein zentrales Problem latenter Instabilität durch die Skalierung des Rechenbudgets von impliziten CoT-Ansätzen: Wenn wir die Anzahl der impliziten Argumentationstokens erhöhen, um die Leistung zu steigern, wird der Trainingsprozess oft instabil und bricht zusammen. Unsere Analyse zeigt, dass diese Instabilität dadurch entsteht, dass die latenten Repräsentationen homogen werden und ihre semantische Vielfalt verlieren – ein Versagen, das auf unzureichende schrittweise Überwachung in bestehenden impliziten CoT-Ansätzen zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir SIM-CoT vor, ein Plug-and-Play-Trainingsmodul, das schrittweise Überwachung einführt, um den latenten Argumentationsraum zu stabilisieren und zu bereichern. Konkret verwendet SIM-CoT während des Trainings einen zusätzlichen Decoder, um jeden impliziten Token mit seinem entsprechenden expliziten Argumentationsschritt abzugleichen und sicherzustellen, dass latente Zustände unterschiedliche und bedeutungsvolle Informationen erfassen. Der vorgeschlagene zusätzliche Decoder wird während der Inferenz entfernt, wodurch die Recheneffizienz impliziter CoT-Methoden ohne zusätzlichen Overhead erhalten bleibt. Darüber hinaus ermöglicht der zusätzliche Decoder die Interpretierbarkeit der impliziten Argumentation, indem jeder latente Token auf ein explizites Argumentationsvokabular projiziert wird, was eine schrittweise Visualisierung semantischer Rollen und Diagnosen ermöglicht. SIM-CoT verbessert sowohl die domäneninterne Genauigkeit als auch die domänenübergreifende Stabilität verschiedener impliziter CoT-Methoden erheblich und steigert Baselines wie Coconut um +8,2 % bei GPT-2 und CODI um +3,0 % bei LLaMA-3.1 8B. Mit starker Skalierbarkeit übertrifft SIM-CoT auch die explizite CoT-Baseline bei GPT-2 um 2,1 % bei einer 2,3-fach höheren Token-Effizienz und schließt die Leistungslücke bei größeren Modellen wie LLaMA-3.1 8B erheblich.
English
Implicit Chain-of-Thought (CoT) methods present a promising, token-efficient alternative to explicit CoT reasoning in Large Language Models (LLMs), but a persistent performance gap has limited the application of implicit CoT. We identify a core latent instability issue by scaling the computational budget of implicit CoT approaches: as we increase the number of implicit reasoning tokens to enhance performance, the training process often becomes unstable and collapses. Our analysis reveals that this instability arises from the latent representations becoming homogeneous and losing their semantic diversity, a failure caused by insufficient step-level supervision in existing implicit CoT approaches. To address this issue, we propose SIM-CoT, a plug-and-play training module that introduces step-level supervision to stabilize and enrich the latent reasoning space. Specifically, SIM-CoT employs an auxiliary decoder during training to align each implicit token with its corresponding explicit reasoning step, ensuring that latent states capture distinct and meaningful information. The proposed auxiliary decoder is removed during inference, preserving the computational efficiency of implicit CoT methods with no added overhead. In addition, the auxiliary decoder affords interpretability of implicit reasoning by projecting each latent token onto an explicit reasoning vocabulary, enabling per-step visualization of semantic roles and diagnosis. SIM-CoT significantly enhances both the in-domain accuracy and out-of-domain stability of various implicit CoT methods, boosting baselines like Coconut by +8.2% on GPT-2 and CODI by +3.0% on LLaMA-3.1 8B. Demonstrating strong scalability, SIM-CoT also surpasses the explicit CoT baseline on GPT-2 by 2.1% with 2.3\times greater token efficiency, while substantially closing the performance gap on larger models like LLaMA-3.1 8B.
PDF353September 25, 2025