ChatPaper.aiChatPaper

AM-Thinking-v1: Avançando a Fronteira do Raciocínio em Escala de 32B

AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

May 13, 2025
Autores: Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

Resumo

Apresentamos o AM-Thinking-v1, um modelo de linguagem denso de 32B que avança a fronteira do raciocínio, incorporando o espírito colaborativo da inovação de código aberto. Superando o DeepSeek-R1 e rivalizando com modelos líderes de Mistura de Especialistas (MoE), como o Qwen3-235B-A22B e o Seed1.5-Thinking, o AM-Thinking-v1 alcança pontuações impressionantes de 85,3 no AIME 2024, 74,4 no AIME 2025 e 70,3 no LiveCodeBench, demonstrando capacidades matemáticas e de codificação de ponta entre modelos de código aberto de escala similar. Construído inteiramente a partir do modelo base Qwen2.5-32B de código aberto e consultas publicamente disponíveis, o AM-Thinking-v1 aproveita um pipeline de pós-treinamento meticulosamente elaborado - combinando ajuste fino supervisionado e aprendizado por reforço - para oferecer capacidades excepcionais de raciocínio. Este trabalho demonstra que a comunidade de código aberto pode alcançar alto desempenho na escala de 32B, um ponto ideal prático para implantação e ajuste fino. Ao equilibrar desempenho de alto nível e usabilidade no mundo real, esperamos que o AM-Thinking-v1 inspire esforços colaborativos adicionais para aproveitar modelos de média escala, expandindo os limites do raciocínio enquanto mantém a acessibilidade no cerne da inovação. Disponibilizamos nosso modelo em código aberto no {Hugging Face}: https://huggingface.co/a-m-team/AM-Thinking-v1.
English
We present AM-Thinking-v1, a 32B dense language model that advances the frontier of reasoning, embodying the collaborative spirit of open-source innovation. Outperforming DeepSeek-R1 and rivaling leading Mixture-of-Experts (MoE) models like Qwen3-235B-A22B and Seed1.5-Thinking, AM-Thinking-v1 achieves impressive scores of 85.3 on AIME 2024, 74.4 on AIME 2025, and 70.3 on LiveCodeBench, showcasing state-of-the-art mathematical and coding capabilities among open-source models of similar scale. Built entirely from the open-source Qwen2.5-32B base model and publicly available queries, AM-Thinking-v1 leverages a meticulously crafted post-training pipeline - combining supervised fine-tuning and reinforcement learning - to deliver exceptional reasoning capabilities. This work demonstrates that the open-source community can achieve high performance at the 32B scale, a practical sweet spot for deployment and fine-tuning. By striking a balance between top-tier performance and real-world usability, we hope AM-Thinking-v1 inspires further collaborative efforts to harness mid-scale models, pushing reasoning boundaries while keeping accessibility at the core of innovation. We have open-sourced our model on https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
PDF182May 14, 2025