Qwen3 Technisch RapportQwen3 Technical Report
In dit werk presenteren we Qwen3, de nieuwste versie van de Qwen-modelreeks. Qwen3 bestaat uit een reeks grote taalmodelen (LLM's) die zijn ontworpen om prestaties, efficiëntie en meertalige mogelijkheden te verbeteren. De Qwen3-reeks omvat modellen met zowel dense als Mixture-of-Expert (MoE) architecturen, met parameterschalen variërend van 0,6 tot 235 miljard. Een belangrijke innovatie in Qwen3 is de integratie van de denkmodus (voor complexe, meerstaps redenering) en de niet-denkmodus (voor snelle, contextgestuurde reacties) in een uniform raamwerk. Hierdoor is het niet langer nodig om te schakelen tussen verschillende modellen—zoals chat-geoptimaliseerde modellen (bijv. GPT-4o) en gespecialiseerde redeneermodellen (bijv. QwQ-32B)—en maakt het dynamische modusschakeling mogelijk op basis van gebruikersvragen of chatsjablonen. Tegelijkertijd introduceert Qwen3 een denkbudgetmechanisme, waarmee gebruikers rekenbronnen adaptief kunnen toewijzen tijdens inferentie, waardoor latentie en prestaties in balans worden gebracht op basis van de taakcomplexiteit. Bovendien verminderen we, door gebruik te maken van de kennis van de vlaggenschipmodellen, de benodigde rekenbronnen voor het bouwen van kleinschaligere modellen aanzienlijk, terwijl we hun zeer competitieve prestaties waarborgen. Empirische evaluaties tonen aan dat Qwen3 state-of-the-art resultaten behaalt op diverse benchmarks, inclusief taken in codegeneratie, wiskundige redenering, agenttaken, enz., en concurreert met grotere MoE-modellen en propriëtaire modellen. Vergeleken met zijn voorganger Qwen2.5 breidt Qwen3 de meertalige ondersteuning uit van 29 naar 119 talen en dialecten, waardoor de wereldwijde toegankelijkheid wordt vergroot door verbeterde cross-linguale begrips- en generatiecapaciteiten. Om reproduceerbaarheid en gemeenschapsgedreven onderzoek en ontwikkeling te faciliteren, zijn alle Qwen3-modellen publiekelijk toegankelijk onder Apache 2.0.