ChatPaper.aiChatPaper

언어 모델에서의 도메인 외 일반화를 유도하는 기본 추론 패러다임

Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

February 9, 2026
저자: Mingzi Cao, Xingwei Tan, Mahmud Akhter, Marco Valentino, Maria Liakata, Xi Wang, Nikolaos Aletras
cs.AI

초록

연역, 귀납, 그리고 귀추는 인간 논리 사고의 핵심인 기본 추론 패러다임입니다. 대규모 언어 모델(LLM)의 추론 능력 향상은 상당한 연구 노력을 끌어왔으나, 이러한 기본 패러다임이 일반화를 유도하는 정도는 체계적으로 탐구되지 않았습니다. 본 연구에서는 이러한 핵심 패러다임 간의 상호작용이 LLM의 추론 행동에 미치는 영향을 규명합니다. 이를 위해 먼저 구체적 세계 지식에서 벗어나기 위해 세 가지 기본 패러다임 각각을 대상으로 하는 기호 작업(symbolic task)에서 새로운 추론 경로 데이터 세트를 수집합니다. 그런 다음 이러한 기술을 LLM에 효과적으로 주입하는 방법을 탐구합니다. 단순 미세 조정(fine-tuning)부터 모델 깊이 증가, 조밀 모델(dense model)을 전문가 혼합 모델(mixture-of-experts)로 변환하는 등 더 복잡한 접근법에 이르기까지 다양한 방법을 실험합니다. 우리는 자연어로 완전히 구성되고 실제 세계 지식을 포함하는 현실적인 도메인 외 작업(out-of-domain task)에서 주입된 모델을 포괄적으로 평가합니다. 우리의 결과는 제안된 접근법이 현실적 작업 전반에 걸쳐 상당한 성능 향상(최대 14.60점)과 함께 강력한 일반화 능력을 보여준다는 것을 입증합니다.
English
Deduction, induction, and abduction are fundamental reasoning paradigms, core for human logical thinking. Although improving Large Language Model (LLM) reasoning has attracted significant research efforts, the extent to which the fundamental paradigms induce generalization has yet to be systematically explored. In this study, we shed light on how the interplay between these core paradigms influences LLMs' reasoning behavior. To this end, we first collect a new dataset of reasoning trajectories from symbolic tasks, each targeting one of the three fundamental paradigms, to abstract from concrete world knowledge. Then, we investigate effective ways for inducing these skills into LLMs. We experiment with a battery of methods including simple fine-tuning, and more complex approaches to increase model depth, or transform a dense model to a mixture-of-experts. We comprehensively evaluate induced models on realistic out-of-domain tasks, that are entirely formulated in natural language and contain real-world knowledge. Our results reveal that our approach yields strong generalizability with substantial performance gains (up to 14.60) across realistic tasks.
PDF122February 11, 2026