Qwen3 기술 보고서Qwen3 Technical Report
본 연구에서는 Qwen 모델 패밀리의 최신 버전인 Qwen3를 소개합니다. Qwen3는 성능, 효율성, 다국어 처리 능력을 향상시키기 위해 설계된 대규모 언어 모델(LLM) 시리즈로, 밀집형(Dense)과 전문가 혼합(Mixture-of-Expert, MoE) 아키텍처를 모두 포함하며, 모델 파라미터 규모는 0.6B에서 235B까지 다양합니다. Qwen3의 주요 혁신은 복잡한 다단계 추론을 위한 '사고 모드(Thinking Mode)'와 빠른 컨텍스트 기반 응답을 위한 '비사고 모드(Non-Thinking Mode)'를 통합한 프레임워크입니다. 이를 통해 채팅 최적화 모델(예: GPT-4o)과 전용 추론 모델(예: QwQ-32B) 간 전환 없이 사용자 쿼리나 채팅 템플릿에 따라 동적으로 모드를 전환할 수 있습니다. 또한 Qwen3는 '사고 예산(Thinking Budget)' 메커니즘을 도입하여 추론 과정에서 사용자가 계산 자원을 적응적으로 할당할 수 있도록 하여, 작업 복잡도에 따라 지연 시간과 성능을 균형 있게 조정할 수 있습니다. 더불어, 플래그십 모델의 지식을 활용하여 소규모 모델 구축에 필요한 계산 자원을 크게 줄이면서도 높은 경쟁력을 유지할 수 있도록 했습니다. 실험 결과, Qwen3는 코드 생성, 수학적 추론, 에이전트 작업 등 다양한 벤치마크에서 최첨단 성능을 달성하며, 더 큰 규모의 MoE 모델 및 독점 모델과도 경쟁력을 보였습니다. 이전 버전인 Qwen2.5와 비교하여 Qwen3는 지원 언어를 29개에서 119개 언어 및 방언으로 확장함으로써 교차 언어 이해 및 생성 능력을 개선하여 글로벌 접근성을 강화했습니다. 재현성과 커뮤니티 주도의 연구 및 개발을 지원하기 위해 모든 Qwen3 모델은 Apache 2.0 라이선스 하에 공개되었습니다.