Qwen3 기술 보고서
Qwen3 Technical Report
May 14, 2025
저자: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu
cs.AI
초록
본 연구에서는 Qwen 모델 패밀리의 최신 버전인 Qwen3를 소개합니다. Qwen3는 성능, 효율성, 다국어 처리 능력을 향상시키기 위해 설계된 대규모 언어 모델(LLM) 시리즈로, 밀집형(Dense)과 전문가 혼합(Mixture-of-Expert, MoE) 아키텍처를 모두 포함하며, 모델 파라미터 규모는 0.6B에서 235B까지 다양합니다. Qwen3의 주요 혁신은 복잡한 다단계 추론을 위한 '사고 모드(Thinking Mode)'와 빠른 컨텍스트 기반 응답을 위한 '비사고 모드(Non-Thinking Mode)'를 통합한 프레임워크입니다. 이를 통해 채팅 최적화 모델(예: GPT-4o)과 전용 추론 모델(예: QwQ-32B) 간 전환 없이 사용자 쿼리나 채팅 템플릿에 따라 동적으로 모드를 전환할 수 있습니다. 또한 Qwen3는 '사고 예산(Thinking Budget)' 메커니즘을 도입하여 추론 과정에서 사용자가 계산 자원을 적응적으로 할당할 수 있도록 하여, 작업 복잡도에 따라 지연 시간과 성능을 균형 있게 조정할 수 있습니다. 더불어, 플래그십 모델의 지식을 활용하여 소규모 모델 구축에 필요한 계산 자원을 크게 줄이면서도 높은 경쟁력을 유지할 수 있도록 했습니다. 실험 결과, Qwen3는 코드 생성, 수학적 추론, 에이전트 작업 등 다양한 벤치마크에서 최첨단 성능을 달성하며, 더 큰 규모의 MoE 모델 및 독점 모델과도 경쟁력을 보였습니다. 이전 버전인 Qwen2.5와 비교하여 Qwen3는 지원 언어를 29개에서 119개 언어 및 방언으로 확장함으로써 교차 언어 이해 및 생성 능력을 개선하여 글로벌 접근성을 강화했습니다. 재현성과 커뮤니티 주도의 연구 및 개발을 지원하기 위해 모든 Qwen3 모델은 Apache 2.0 라이선스 하에 공개되었습니다.
English
In this work, we present Qwen3, the latest version of the Qwen model family.
Qwen3 comprises a series of large language models (LLMs) designed to advance
performance, efficiency, and multilingual capabilities. The Qwen3 series
includes models of both dense and Mixture-of-Expert (MoE) architectures, with
parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is
the integration of thinking mode (for complex, multi-step reasoning) and
non-thinking mode (for rapid, context-driven responses) into a unified
framework. This eliminates the need to switch between different models--such as
chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g.,
QwQ-32B)--and enables dynamic mode switching based on user queries or chat
templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing
users to allocate computational resources adaptively during inference, thereby
balancing latency and performance based on task complexity. Moreover, by
leveraging the knowledge from the flagship models, we significantly reduce the
computational resources required to build smaller-scale models, while ensuring
their highly competitive performance. Empirical evaluations demonstrate that
Qwen3 achieves state-of-the-art results across diverse benchmarks, including
tasks in code generation, mathematical reasoning, agent tasks, etc.,
competitive against larger MoE models and proprietary models. Compared to its
predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119
languages and dialects, enhancing global accessibility through improved
cross-lingual understanding and generation capabilities. To facilitate
reproducibility and community-driven research and development, all Qwen3 models
are publicly accessible under Apache 2.0.