ChatPaper.aiChatPaper

C^2DLM: 인과 개념 기반 확산 대규모 언어 모델

C^2DLM: Causal Concept-Guided Diffusion Large Language Models

November 27, 2025
저자: Kairong Han, Nuanqiao Shan, Ziyu Zhao, Zijing Hu, Xinpeng Dong, Junjian Ye, Lujia Pan, Fei Wu, Kun Kuang
cs.AI

초록

자동회귀(AR) 언어 모델과 확산 언어 모델(DLM)은 대규모 언어 모델의 두 가지 주요 패러다임을 구성합니다. 그러나 두 패러다임 모두 추론 능력이 부족한 한계를 지닙니다. 인간의 추론은 본질적으로 인과적 지식과 사고에 기반하는데, 이는 자연어에 반영되어 있습니다. 하지만 AR 패러다임에서는 언어가 다음 토큰 예측(엄격한 좌측에서 우측으로의 토큰 단위 순서)으로 모델링되는 반면, 자연어 자체는 더 유연한 인과 구조를 보입니다. DLM 패러다임에서는 어텐션 메커니즘이 완전 연결되어 있어 인과적 순서를 전적으로 무시합니다. 이러한 격차를 메우기 위해 우리는 **인과 개념 기반 확산 언어 모델(C^2DLM)**을 제안합니다. DLM의 완전 연결된 어텐션에서 출발하여, C^2DLM은 먼저 교사 모델로부터 개념 수준의 인과 그래프를 획득한 다음, 개념 간 인과 관계를 학습하도록 어텐션을 명시적으로 유도합니다. 인과 관계에 집중하고 인과 역전을 수반하는 어려운 하위 목표의 간섭을 피함으로써, C^2DLM은 COT-OrderPerturb 과제에서 약 3.2배의 학습 속도 향상과 함께 12%의 성능 향상을 보였으며, 6개의 하위 추론 과제에서 평균 1.31%의 성능 향상을 달성했습니다. 자세한 내용은 저장소 ~https://github.com/Kairong-Han/C-2-DLM{여기}를 참조하십시오.
English
Autoregressive (AR) language models and Diffusion Language Models (DLMs) constitute the two principal paradigms of large language models. However, both paradigms suffer from insufficient reasoning capabilities. Human reasoning inherently relies on causal knowledge and thought, which are reflected in natural language. But in the AR paradigm, language is modeled as next token prediction (a strictly left-to-right, token-by-token order), whereas natural language itself exhibits more flexible causal structures. In the DLM paradigm, the attention mechanism is fully connected, which entirely disregards causal order. To fill this gap, we propose a \textbf{C}ausal \textbf{C}oncept-Guided \textbf{D}iffusion \textbf{L}anguage \textbf{M}odel (C^2DLM). Starting from DLM's fully connected attention, C^2DLM first obtains a concept-level causal graph from the teacher model, and then explicitly guides attention to learn causal relationships between concepts. By focusing on causal relationships and avoiding interference from difficult subgoals involving causal inversion, C^2DLM improves 12\% with about 3.2 times training speedup in the COT-OrderPerturb task, and achieves an average gain of 1.31\% across six downstream reasoning tasks. More details in the repository ~https://github.com/Kairong-Han/C-2-DLM{here}.
PDF11December 4, 2025