AM-Thinking-v1: Avanzando en la frontera del razonamiento a escala de 32B
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale
May 13, 2025
Autores: Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
Resumen
Presentamos AM-Thinking-v1, un modelo de lenguaje denso de 32B que avanza la frontera del razonamiento, encarnando el espíritu colaborativo de la innovación de código abierto. Superando a DeepSeek-R1 y rivalizando con modelos líderes de Mezcla de Expertos (MoE) como Qwen3-235B-A22B y Seed1.5-Thinking, AM-Thinking-v1 logra puntuaciones impresionantes de 85.3 en AIME 2024, 74.4 en AIME 2025 y 70.3 en LiveCodeBench, mostrando capacidades matemáticas y de programación de vanguardia entre modelos de código abierto de escala similar.
Construido completamente a partir del modelo base Qwen2.5-32B de código abierto y consultas públicamente disponibles, AM-Thinking-v1 aprovecha una canalización de post-entrenamiento meticulosamente diseñada —combinando ajuste fino supervisado y aprendizaje por refuerzo— para ofrecer capacidades de razonamiento excepcionales. Este trabajo demuestra que la comunidad de código abierto puede alcanzar un alto rendimiento en la escala de 32B, un punto óptimo práctico para la implementación y el ajuste fino. Al equilibrar el rendimiento de primer nivel con la usabilidad en el mundo real, esperamos que AM-Thinking-v1 inspire esfuerzos colaborativos adicionales para aprovechar modelos de escala media, impulsando los límites del razonamiento mientras se mantiene la accesibilidad en el núcleo de la innovación. Hemos liberado nuestro modelo en https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
English
We present AM-Thinking-v1, a 32B dense language model that advances the
frontier of reasoning, embodying the collaborative spirit of open-source
innovation. Outperforming DeepSeek-R1 and rivaling leading Mixture-of-Experts
(MoE) models like Qwen3-235B-A22B and Seed1.5-Thinking, AM-Thinking-v1 achieves
impressive scores of 85.3 on AIME 2024, 74.4 on AIME 2025, and 70.3 on
LiveCodeBench, showcasing state-of-the-art mathematical and coding capabilities
among open-source models of similar scale.
Built entirely from the open-source Qwen2.5-32B base model and publicly
available queries, AM-Thinking-v1 leverages a meticulously crafted
post-training pipeline - combining supervised fine-tuning and reinforcement
learning - to deliver exceptional reasoning capabilities. This work
demonstrates that the open-source community can achieve high performance at the
32B scale, a practical sweet spot for deployment and fine-tuning. By striking a
balance between top-tier performance and real-world usability, we hope
AM-Thinking-v1 inspires further collaborative efforts to harness mid-scale
models, pushing reasoning boundaries while keeping accessibility at the core of
innovation. We have open-sourced our model on
https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.