ChatPaper.aiChatPaper

AM-Thinking-v1: Het Verleggen van de Grenzen van Redeneren op 32B-schaal

AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

May 13, 2025
Auteurs: Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

Samenvatting

We presenteren AM-Thinking-v1, een 32B dense taalmodel dat de grenzen van redeneren verlegt en de collaboratieve geest van open-source innovatie belichaamt. Met betere prestaties dan DeepSeek-R1 en een uitdaging voor toonaangevende Mixture-of-Experts (MoE) modellen zoals Qwen3-235B-A22B en Seed1.5-Thinking, behaalt AM-Thinking-v1 indrukwekkende scores van 85.3 op AIME 2024, 74.4 op AIME 2025 en 70.3 op LiveCodeBench, wat state-of-the-art wiskundige en programmeercapaciteiten aantoont onder open-source modellen van vergelijkbare schaal. Volledig gebouwd op basis van het open-source Qwen2.5-32B basismodel en publiekelijk beschikbare queries, maakt AM-Thinking-v1 gebruik van een zorgvuldig ontworpen post-trainingspijplijn – een combinatie van supervised fine-tuning en reinforcement learning – om uitzonderlijke redeneercapaciteiten te leveren. Dit werk toont aan dat de open-source gemeenschap hoge prestaties kan bereiken op de 32B schaal, een praktisch ideaal punt voor implementatie en fine-tuning. Door een balans te vinden tussen top-tier prestaties en bruikbaarheid in de praktijk, hopen we dat AM-Thinking-v1 verdere collaboratieve inspanningen inspireert om mid-schaal modellen te benutten, de grenzen van redeneren te verleggen terwijl toegankelijkheid centraal blijft staan in innovatie. We hebben ons model open-source gemaakt op https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
English
We present AM-Thinking-v1, a 32B dense language model that advances the frontier of reasoning, embodying the collaborative spirit of open-source innovation. Outperforming DeepSeek-R1 and rivaling leading Mixture-of-Experts (MoE) models like Qwen3-235B-A22B and Seed1.5-Thinking, AM-Thinking-v1 achieves impressive scores of 85.3 on AIME 2024, 74.4 on AIME 2025, and 70.3 on LiveCodeBench, showcasing state-of-the-art mathematical and coding capabilities among open-source models of similar scale. Built entirely from the open-source Qwen2.5-32B base model and publicly available queries, AM-Thinking-v1 leverages a meticulously crafted post-training pipeline - combining supervised fine-tuning and reinforcement learning - to deliver exceptional reasoning capabilities. This work demonstrates that the open-source community can achieve high performance at the 32B scale, a practical sweet spot for deployment and fine-tuning. By striking a balance between top-tier performance and real-world usability, we hope AM-Thinking-v1 inspires further collaborative efforts to harness mid-scale models, pushing reasoning boundaries while keeping accessibility at the core of innovation. We have open-sourced our model on https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.

Summary

AI-Generated Summary

PDF142May 14, 2025