ChatPaper.aiChatPaper

AM-Thinking-v1: Avanzando en la frontera del razonamiento a escala de 32B

AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

May 13, 2025
Autores: Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

Resumen

Presentamos AM-Thinking-v1, un modelo de lenguaje denso de 32B que avanza la frontera del razonamiento, encarnando el espíritu colaborativo de la innovación de código abierto. Superando a DeepSeek-R1 y rivalizando con modelos líderes de Mezcla de Expertos (MoE) como Qwen3-235B-A22B y Seed1.5-Thinking, AM-Thinking-v1 logra puntuaciones impresionantes de 85.3 en AIME 2024, 74.4 en AIME 2025 y 70.3 en LiveCodeBench, mostrando capacidades matemáticas y de programación de vanguardia entre modelos de código abierto de escala similar. Construido completamente a partir del modelo base Qwen2.5-32B de código abierto y consultas públicamente disponibles, AM-Thinking-v1 aprovecha una canalización de post-entrenamiento meticulosamente diseñada —combinando ajuste fino supervisado y aprendizaje por refuerzo— para ofrecer capacidades de razonamiento excepcionales. Este trabajo demuestra que la comunidad de código abierto puede alcanzar un alto rendimiento en la escala de 32B, un punto óptimo práctico para la implementación y el ajuste fino. Al equilibrar el rendimiento de primer nivel con la usabilidad en el mundo real, esperamos que AM-Thinking-v1 inspire esfuerzos colaborativos adicionales para aprovechar modelos de escala media, impulsando los límites del razonamiento mientras se mantiene la accesibilidad en el núcleo de la innovación. Hemos liberado nuestro modelo en https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
English
We present AM-Thinking-v1, a 32B dense language model that advances the frontier of reasoning, embodying the collaborative spirit of open-source innovation. Outperforming DeepSeek-R1 and rivaling leading Mixture-of-Experts (MoE) models like Qwen3-235B-A22B and Seed1.5-Thinking, AM-Thinking-v1 achieves impressive scores of 85.3 on AIME 2024, 74.4 on AIME 2025, and 70.3 on LiveCodeBench, showcasing state-of-the-art mathematical and coding capabilities among open-source models of similar scale. Built entirely from the open-source Qwen2.5-32B base model and publicly available queries, AM-Thinking-v1 leverages a meticulously crafted post-training pipeline - combining supervised fine-tuning and reinforcement learning - to deliver exceptional reasoning capabilities. This work demonstrates that the open-source community can achieve high performance at the 32B scale, a practical sweet spot for deployment and fine-tuning. By striking a balance between top-tier performance and real-world usability, we hope AM-Thinking-v1 inspires further collaborative efforts to harness mid-scale models, pushing reasoning boundaries while keeping accessibility at the core of innovation. We have open-sourced our model on https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
PDF182May 14, 2025