ChatPaper.aiChatPaper

C^2DLM: Modelli Linguistici di Grande Dimensione a Diffusione Guidati da Concetti Causali

C^2DLM: Causal Concept-Guided Diffusion Large Language Models

November 27, 2025
Autori: Kairong Han, Nuanqiao Shan, Ziyu Zhao, Zijing Hu, Xinpeng Dong, Junjian Ye, Lujia Pan, Fei Wu, Kun Kuang
cs.AI

Abstract

I modelli linguistici autoregressivi (AR) e i Modelli Linguistici a Diffusione (DLM) costituiscono i due principali paradigmi dei grandi modelli linguistici. Tuttavia, entrambi i paradigmi soffrono di capacità di ragionamento insufficienti. Il ragionamento umano si basa intrinsecamente su conoscenze e pensieri causali, che si riflettono nel linguaggio naturale. Ma nel paradigma AR, il linguaggio è modellato come previsione del token successivo (un ordine strettamente da sinistra a destra, token per token), mentre il linguaggio naturale stesso presenta strutture causali più flessibili. Nel paradigma DLM, il meccanismo di attenzione è completamente connesso, il che ignora completamente l'ordine causale. Per colmare questa lacuna, proponiamo un **M**odello **L**inguistico a **D**iffusione **G**uidato da **C**oncetti **C**ausali (C²DLM). Partendo dall'attenzione completamente connessa del DLM, C²DLM ottiene prima un grafo causale a livello concettuale dal modello insegnante, per poi guidare esplicitamente l'attenzione ad apprendere le relazioni causali tra i concetti. Concentrandosi sulle relazioni causali ed evitando l'interferenza da sottobiettivi difficili che implicano inversioni causali, C²DLM migliora del 12% con un'accelerazione dell'addestramento di circa 3,2 volte nel task COT-OrderPerturb e ottiene un guadagno medio dell'1,31% su sei task di ragionamento downstream. Maggiori dettagli nel repository ~https://github.com/Kairong-Han/C-2-DLM{qui}.
English
Autoregressive (AR) language models and Diffusion Language Models (DLMs) constitute the two principal paradigms of large language models. However, both paradigms suffer from insufficient reasoning capabilities. Human reasoning inherently relies on causal knowledge and thought, which are reflected in natural language. But in the AR paradigm, language is modeled as next token prediction (a strictly left-to-right, token-by-token order), whereas natural language itself exhibits more flexible causal structures. In the DLM paradigm, the attention mechanism is fully connected, which entirely disregards causal order. To fill this gap, we propose a \textbf{C}ausal \textbf{C}oncept-Guided \textbf{D}iffusion \textbf{L}anguage \textbf{M}odel (C^2DLM). Starting from DLM's fully connected attention, C^2DLM first obtains a concept-level causal graph from the teacher model, and then explicitly guides attention to learn causal relationships between concepts. By focusing on causal relationships and avoiding interference from difficult subgoals involving causal inversion, C^2DLM improves 12\% with about 3.2 times training speedup in the COT-OrderPerturb task, and achieves an average gain of 1.31\% across six downstream reasoning tasks. More details in the repository ~https://github.com/Kairong-Han/C-2-DLM{here}.
PDF11December 4, 2025