C^2DLM: Causaal Concept-Gestuurd Diffusie Grote Taalmodellen
C^2DLM: Causal Concept-Guided Diffusion Large Language Models
November 27, 2025
Auteurs: Kairong Han, Nuanqiao Shan, Ziyu Zhao, Zijing Hu, Xinpeng Dong, Junjian Ye, Lujia Pan, Fei Wu, Kun Kuang
cs.AI
Samenvatting
Autoregressieve (AR) taalmodellen en Diffusion Language Models (DLM's) vormen de twee belangrijkste paradigma's van grote taalmodellen. Beide paradigma's hebben echter te kampen met onvoldoende redeneervermogen. Menselijk redeneren berust van nature op causaal weten en denken, wat zich weerspiegelt in natuurlijke taal. Maar in het AR-paradigma wordt taal gemodelleerd als voorspelling van het volgende token (een strikt links-naar-rechts, token-voor-token volgorde), terwijl natuurlijke taal zelf flexibelere causale structuren vertoont. In het DLM-paradigma is het attention-mechanisme volledig verbonden, wat de causale volgorde volledig negeert. Om deze kloof te dichten, stellen wij een **C**ausaal **C**oncept-Gestuurd **D**iffusie **T**aal**m**odel (C²DLM) voor. Uitgaande van de volledig verbonden attention van DLM's, verkrijgt C²DLM eerst een causaal graaf op conceptniveau van het leraarmodel, en leidt vervolgens de attention expliciet om causale relaties tussen concepten aan te leren. Door zich te richten op causale relaties en interferentie van moeilijke subdoelen met causale inversie te vermijden, verbetert C²DLM met 12% bij een ongeveer 3,2 keer snellere trainingssnelheid in de COT-OrderPerturb-taak, en behaalt het een gemiddelde winst van 1,31% over zes downstream redeneertaken. Meer details in de repository ~https://github.com/Kairong-Han/C-2-DLM{hier}.
English
Autoregressive (AR) language models and Diffusion Language Models (DLMs) constitute the two principal paradigms of large language models. However, both paradigms suffer from insufficient reasoning capabilities. Human reasoning inherently relies on causal knowledge and thought, which are reflected in natural language. But in the AR paradigm, language is modeled as next token prediction (a strictly left-to-right, token-by-token order), whereas natural language itself exhibits more flexible causal structures. In the DLM paradigm, the attention mechanism is fully connected, which entirely disregards causal order. To fill this gap, we propose a \textbf{C}ausal \textbf{C}oncept-Guided \textbf{D}iffusion \textbf{L}anguage \textbf{M}odel (C^2DLM). Starting from DLM's fully connected attention, C^2DLM first obtains a concept-level causal graph from the teacher model, and then explicitly guides attention to learn causal relationships between concepts. By focusing on causal relationships and avoiding interference from difficult subgoals involving causal inversion, C^2DLM improves 12\% with about 3.2 times training speedup in the COT-OrderPerturb task, and achieves an average gain of 1.31\% across six downstream reasoning tasks. More details in the repository ~https://github.com/Kairong-Han/C-2-DLM{here}.