Relatório Técnico do Qwen2.5Qwen2.5 Technical Report
Neste relatório, apresentamos o Qwen2.5, uma série abrangente de grandes modelos de linguagem (LLMs) projetados para atender a diversas necessidades. Em comparação com iterações anteriores, o Qwen 2.5 foi significativamente aprimorado durante as fases de pré-treinamento e pós-treinamento. Em termos de pré-treinamento, escalamos os conjuntos de dados de pré-treinamento de alta qualidade de 7 trilhões de tokens anteriores para 18 trilhões de tokens. Isso fornece uma base sólida para o senso comum, conhecimento especializado e capacidades de raciocínio. Em termos de pós-treinamento, implementamos um refinamento supervisionado intricado com mais de 1 milhão de amostras, bem como aprendizado por reforço em múltiplos estágios. As técnicas de pós-treinamento aprimoram a preferência humana e melhoram significativamente a geração de texto longo, análise de dados estruturais e seguimento de instruções. Para lidar eficazmente com casos de uso diversos e variados, apresentamos a série Qwen2.5 LLM em tamanhos variados. As ofertas de peso aberto incluem modelos base e ajustados para instruções, com versões quantizadas disponíveis. Além disso, para soluções hospedadas, os modelos proprietários atualmente incluem duas variantes de mistura de especialistas (MoE): Qwen2.5-Turbo e Qwen2.5-Plus, ambos disponíveis no Alibaba Cloud Model Studio. O Qwen2.5 demonstrou um desempenho de alto nível em uma ampla gama de benchmarks avaliando compreensão de linguagem, raciocínio, matemática, codificação, alinhamento de preferência humana, etc. Especificamente, o carro-chefe de peso aberto Qwen2.5-72B-Instruct supera vários modelos abertos e proprietários e demonstra desempenho competitivo com o modelo de peso aberto de última geração, Llama-3-405B-Instruct, que é cerca de 5 vezes maior. O Qwen2.5-Turbo e o Qwen2.5-Plus oferecem uma relação custo-eficácia superior, mantendo um desempenho competitivo contra o GPT-4o-mini e o GPT-4o, respectivamente. Além disso, como base, os modelos Qwen2.5 foram fundamentais no treinamento de modelos especializados, como Qwen2.5-Math, Qwen2.5-Coder, QwQ e modelos multimodais.