C^2DLM: Kausalitätsgestützte Diffusionsgroßsprachmodelle mit Konzeptführung
C^2DLM: Causal Concept-Guided Diffusion Large Language Models
November 27, 2025
papers.authors: Kairong Han, Nuanqiao Shan, Ziyu Zhao, Zijing Hu, Xinpeng Dong, Junjian Ye, Lujia Pan, Fei Wu, Kun Kuang
cs.AI
papers.abstract
Autoregressive (AR-)Sprachmodelle und Diffusions-Sprachmodelle (DLMs) bilden die beiden wichtigsten Paradigmen für große Sprachmodelle. Beide Paradigmen leiden jedoch unter unzureichenden Fähigkeiten zum logischen Schlussfolgern. Menschliches Denken basiert inhärent auf kausalem Wissen und Gedanken, die sich in der natürlichen Sprache widerspiegeln. Im AR-Paradigma wird Sprache jedoch als Vorhersage des nächsten Tokens modelliert (eine streng links-nach-rechts, Token-für-Token Reihenfolge), während die natürliche Sprache selbst flexiblere kausale Strukturen aufweist. Im DLM-Paradigma ist der Attention-Mechanismus vollständig verbunden, was die kausale Ordnung vollständig ignoriert. Um diese Lücke zu schließen, schlagen wir ein **C**ausal **C**oncept-Guided **D**iffusion **L**anguage **M**odel (C²DLM) vor. Ausgehend von der vollständig verbundenen Attention des DLM, erhält C²DLM zunächst einen begriffsbasierten Kausalgraphen vom Lehrer-Modell und leitet dann die Attention explizit an, kausale Beziehungen zwischen Konzepten zu erlernen. Durch den Fokus auf kausale Zusammenhänge und die Vermeidung von Störungen durch schwierige Teilziele, die kausale Inversion beinhalten, verbessert sich C²DLM im COT-OrderPerturb-Task um 12 % bei etwa 3,2-facher Beschleunigung des Trainings und erzielt einen durchschnittlichen Zuwachs von 1,31 % über sechs nachgelagerte Reasoning-Tasks hinweg. Weitere Details im Repository ~https://github.com/Kairong-Han/C-2-DLM{hier}.
English
Autoregressive (AR) language models and Diffusion Language Models (DLMs) constitute the two principal paradigms of large language models. However, both paradigms suffer from insufficient reasoning capabilities. Human reasoning inherently relies on causal knowledge and thought, which are reflected in natural language. But in the AR paradigm, language is modeled as next token prediction (a strictly left-to-right, token-by-token order), whereas natural language itself exhibits more flexible causal structures. In the DLM paradigm, the attention mechanism is fully connected, which entirely disregards causal order. To fill this gap, we propose a \textbf{C}ausal \textbf{C}oncept-Guided \textbf{D}iffusion \textbf{L}anguage \textbf{M}odel (C^2DLM). Starting from DLM's fully connected attention, C^2DLM first obtains a concept-level causal graph from the teacher model, and then explicitly guides attention to learn causal relationships between concepts. By focusing on causal relationships and avoiding interference from difficult subgoals involving causal inversion, C^2DLM improves 12\% with about 3.2 times training speedup in the COT-OrderPerturb task, and achieves an average gain of 1.31\% across six downstream reasoning tasks. More details in the repository ~https://github.com/Kairong-Han/C-2-DLM{here}.