C^2DLM: Modelos de Lenguaje Grande de Difusión Guiados por Causalidad Conceptual
C^2DLM: Causal Concept-Guided Diffusion Large Language Models
November 27, 2025
Autores: Kairong Han, Nuanqiao Shan, Ziyu Zhao, Zijing Hu, Xinpeng Dong, Junjian Ye, Lujia Pan, Fei Wu, Kun Kuang
cs.AI
Resumen
Los modelos de lenguaje autorregresivos (AR) y los modelos de lenguaje de difusión (DLM) constituyen los dos paradigmas principales de los modelos de lenguaje grandes. Sin embargo, ambos paradigmas adolecen de capacidades de razonamiento insuficientes. El razonamiento humano se basa inherentemente en el conocimiento y el pensamiento causal, lo cual se refleja en el lenguaje natural. Pero en el paradigma AR, el lenguaje se modela como predicción del siguiente token (un orden estrictamente de izquierda a derecha, token por token), mientras que el lenguaje natural en sí exhibe estructuras causales más flexibles. En el paradigma DLM, el mecanismo de atención está completamente conectado, lo que ignora por completo el orden causal. Para llenar este vacío, proponemos un **M**odelo de **L**enguaje de **D**ifusión Guiado por **C**onceptos **C**ausales (C²DLM). Partiendo de la atención completamente conectada del DLM, C²DLM obtiene primero un gráfico causal a nivel de conceptos del modelo profesor, y luego guía explícitamente la atención para aprender las relaciones causales entre conceptos. Al centrarse en las relaciones causales y evitar la interferencia de subobjetivos difíciles que implican inversión causal, C²DLM mejora un 12% con una aceleración del entrenamiento de aproximadamente 3.2 veces en la tarea COT-OrderPerturb, y logra una ganancia promedio del 1.31% en seis tareas de razonamiento posteriores. Más detalles en el repositorio ~https://github.com/Kairong-Han/C-2-DLM{aquí}.
English
Autoregressive (AR) language models and Diffusion Language Models (DLMs) constitute the two principal paradigms of large language models. However, both paradigms suffer from insufficient reasoning capabilities. Human reasoning inherently relies on causal knowledge and thought, which are reflected in natural language. But in the AR paradigm, language is modeled as next token prediction (a strictly left-to-right, token-by-token order), whereas natural language itself exhibits more flexible causal structures. In the DLM paradigm, the attention mechanism is fully connected, which entirely disregards causal order. To fill this gap, we propose a \textbf{C}ausal \textbf{C}oncept-Guided \textbf{D}iffusion \textbf{L}anguage \textbf{M}odel (C^2DLM). Starting from DLM's fully connected attention, C^2DLM first obtains a concept-level causal graph from the teacher model, and then explicitly guides attention to learn causal relationships between concepts. By focusing on causal relationships and avoiding interference from difficult subgoals involving causal inversion, C^2DLM improves 12\% with about 3.2 times training speedup in the COT-OrderPerturb task, and achieves an average gain of 1.31\% across six downstream reasoning tasks. More details in the repository ~https://github.com/Kairong-Han/C-2-DLM{here}.