ChatPaper.aiChatPaper

C^2DLM : Modèles de Langage de Grande Taille à Diffusion Guidée par des Concepts Causaux

C^2DLM: Causal Concept-Guided Diffusion Large Language Models

November 27, 2025
papers.authors: Kairong Han, Nuanqiao Shan, Ziyu Zhao, Zijing Hu, Xinpeng Dong, Junjian Ye, Lujia Pan, Fei Wu, Kun Kuang
cs.AI

papers.abstract

Les modèles de langage autorégressifs (AR) et les modèles de langage par diffusion (DLM) constituent les deux paradigmes principaux des grands modèles de langage. Cependant, ces deux paradigmes souffrent de capacités de raisonnement insuffisantes. Le raisonnement humain repose intrinsèquement sur des connaissances et une pensée causales, qui se reflètent dans le langage naturel. Mais dans le paradigme AR, le langage est modélisé comme une prédiction du token suivant (un ordre strictement séquentiel de gauche à droite, token par token), tandis que le langage naturel présente lui-même des structures causales plus flexibles. Dans le paradigme DLM, le mécanisme d'attention est entièrement connecté, ce qui ignore totalement l'ordre causal. Pour combler cette lacune, nous proposons un **M**odèle de **L**angage par **D**iffusion guidé par des **C**oncepts **C**ausaux (C²DLM). En partant de l'attention entièrement connectée des DLM, C²DLM obtient d'abord un graphe causal au niveau conceptuel à partir du modèle enseignant, puis guide explicitement l'attention pour apprendre les relations causales entre les concepts. En se concentrant sur les relations causales et en évitant les interférences des sous-objectifs difficiles impliquant une inversion causale, C²DLM améliore les performances de 12 % avec une accélération de l'entraînement d'environ 3,2 fois dans la tâche COT-OrderPerturb, et obtient un gain moyen de 1,31 % sur six tâches de raisonnement en aval. Plus de détails dans le dépôt ~https://github.com/Kairong-Han/C-2-DLM{ici}.
English
Autoregressive (AR) language models and Diffusion Language Models (DLMs) constitute the two principal paradigms of large language models. However, both paradigms suffer from insufficient reasoning capabilities. Human reasoning inherently relies on causal knowledge and thought, which are reflected in natural language. But in the AR paradigm, language is modeled as next token prediction (a strictly left-to-right, token-by-token order), whereas natural language itself exhibits more flexible causal structures. In the DLM paradigm, the attention mechanism is fully connected, which entirely disregards causal order. To fill this gap, we propose a \textbf{C}ausal \textbf{C}oncept-Guided \textbf{D}iffusion \textbf{L}anguage \textbf{M}odel (C^2DLM). Starting from DLM's fully connected attention, C^2DLM first obtains a concept-level causal graph from the teacher model, and then explicitly guides attention to learn causal relationships between concepts. By focusing on causal relationships and avoiding interference from difficult subgoals involving causal inversion, C^2DLM improves 12\% with about 3.2 times training speedup in the COT-OrderPerturb task, and achieves an average gain of 1.31\% across six downstream reasoning tasks. More details in the repository ~https://github.com/Kairong-Han/C-2-DLM{here}.
PDF11December 4, 2025