Informe Técnico de Qwen3Qwen3 Technical Report
En este trabajo, presentamos Qwen3, la última versión de la familia de modelos Qwen. Qwen3 comprende una serie de modelos de lenguaje de gran escala (LLMs) diseñados para mejorar el rendimiento, la eficiencia y las capacidades multilingües. La serie Qwen3 incluye modelos tanto de arquitectura densa como de Mixture-of-Expert (MoE), con escalas de parámetros que van desde 0.6 hasta 235 mil millones. Una innovación clave en Qwen3 es la integración del modo de pensamiento (para razonamiento complejo y de múltiples pasos) y el modo no pensante (para respuestas rápidas y basadas en contexto) en un marco unificado. Esto elimina la necesidad de cambiar entre diferentes modelos—como modelos optimizados para chat (por ejemplo, GPT-4o) y modelos dedicados al razonamiento (por ejemplo, QwQ-32B)—y permite el cambio dinámico de modo según las consultas del usuario o las plantillas de chat. Además, Qwen3 introduce un mecanismo de presupuesto de pensamiento, que permite a los usuarios asignar recursos computacionales de manera adaptativa durante la inferencia, equilibrando así la latencia y el rendimiento según la complejidad de la tarea. Asimismo, al aprovechar el conocimiento de los modelos principales, reducimos significativamente los recursos computacionales necesarios para construir modelos a menor escala, asegurando un rendimiento altamente competitivo. Las evaluaciones empíricas demuestran que Qwen3 logra resultados de vanguardia en diversos benchmarks, incluyendo tareas de generación de código, razonamiento matemático, tareas de agentes, etc., compitiendo con modelos MoE más grandes y modelos propietarios. En comparación con su predecesor Qwen2.5, Qwen3 amplía el soporte multilingüe de 29 a 119 idiomas y dialectos, mejorando la accesibilidad global mediante capacidades mejoradas de comprensión y generación translingüística. Para facilitar la reproducibilidad y la investigación y desarrollo impulsados por la comunidad, todos los modelos Qwen3 están disponibles públicamente bajo la licencia Apache 2.0.