AM-Thinking-v1: Avanzare la Frontiera del Ragionamento su Scala 32B
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale
May 13, 2025
Autori: Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
Abstract
Presentiamo AM-Thinking-v1, un modello linguistico denso da 32B che avanza le frontiere del ragionamento, incarnando lo spirito collaborativo dell'innovazione open-source. Superando DeepSeek-R1 e rivaleggiando con i principali modelli Mixture-of-Experts (MoE) come Qwen3-235B-A22B e Seed1.5-Thinking, AM-Thinking-v1 raggiunge punteggi impressionanti di 85.3 su AIME 2024, 74.4 su AIME 2025 e 70.3 su LiveCodeBench, dimostrando capacità matematiche e di codifica all'avanguardia tra i modelli open-source di scala simile.
Costruito interamente a partire dal modello base open-source Qwen2.5-32B e da query pubblicamente disponibili, AM-Thinking-v1 sfrutta una pipeline di post-addestramento meticolosamente progettata - combinando fine-tuning supervisionato e apprendimento per rinforzo - per offrire capacità di ragionamento eccezionali. Questo lavoro dimostra che la comunità open-source può raggiungere alte prestazioni alla scala 32B, un punto ottimale pratico per il deployment e il fine-tuning. Bilanciando prestazioni di alto livello e usabilità nel mondo reale, speriamo che AM-Thinking-v1 ispiri ulteriori sforzi collaborativi per sfruttare modelli di media scala, spingendo i confini del ragionamento mantenendo l'accessibilità al centro dell'innovazione. Abbiamo reso open-source il nostro modello su https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
English
We present AM-Thinking-v1, a 32B dense language model that advances the
frontier of reasoning, embodying the collaborative spirit of open-source
innovation. Outperforming DeepSeek-R1 and rivaling leading Mixture-of-Experts
(MoE) models like Qwen3-235B-A22B and Seed1.5-Thinking, AM-Thinking-v1 achieves
impressive scores of 85.3 on AIME 2024, 74.4 on AIME 2025, and 70.3 on
LiveCodeBench, showcasing state-of-the-art mathematical and coding capabilities
among open-source models of similar scale.
Built entirely from the open-source Qwen2.5-32B base model and publicly
available queries, AM-Thinking-v1 leverages a meticulously crafted
post-training pipeline - combining supervised fine-tuning and reinforcement
learning - to deliver exceptional reasoning capabilities. This work
demonstrates that the open-source community can achieve high performance at the
32B scale, a practical sweet spot for deployment and fine-tuning. By striking a
balance between top-tier performance and real-world usability, we hope
AM-Thinking-v1 inspires further collaborative efforts to harness mid-scale
models, pushing reasoning boundaries while keeping accessibility at the core of
innovation. We have open-sourced our model on
https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.