AM-Thinking-v1: Vorantreiben der Grenzen des logischen Denkens im 32B-Maßstab
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale
May 13, 2025
papers.authors: Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
papers.abstract
Wir präsentieren AM-Thinking-v1, ein 32B dichtes Sprachmodell, das die Grenzen des logischen Denkens vorantreibt und den kollaborativen Geist der Open-Source-Innovation verkörpert. Mit überragenden Leistungen gegenüber DeepSeek-R1 und auf Augenhöhe mit führenden Mixture-of-Experts (MoE)-Modellen wie Qwen3-235B-A22B und Seed1.5-Thinking erzielt AM-Thinking-v1 beeindruckende Werte von 85,3 auf AIME 2024, 74,4 auf AIME 2025 und 70,3 auf LiveCodeBench, was seine state-of-the-art Fähigkeiten in Mathematik und Programmierung unter Open-Source-Modellen ähnlicher Größe unterstreicht.
Vollständig auf dem Open-Source-Basismodell Qwen2.5-32B und öffentlich verfügbaren Abfragen aufbauend, nutzt AM-Thinking-v1 einen sorgfältig gestalteten Post-Training-Pipeline – eine Kombination aus überwachtem Fein-Tuning und Reinforcement Learning –, um außergewöhnliche Denkfähigkeiten zu liefern. Diese Arbeit zeigt, dass die Open-Source-Community hohe Leistung im 32B-Maßstab erreichen kann, einem praktischen Sweet Spot für die Bereitstellung und Feinabstimmung. Indem wir ein Gleichgewicht zwischen Spitzenleistung und realer Anwendbarkeit schaffen, hoffen wir, dass AM-Thinking-v1 weitere gemeinsame Anstrengungen inspiriert, um mittelgroße Modelle zu nutzen und die Grenzen des logischen Denkens zu erweitern, während die Zugänglichkeit im Kern der Innovation bleibt. Wir haben unser Modell auf https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face} open-source veröffentlicht.
English
We present AM-Thinking-v1, a 32B dense language model that advances the
frontier of reasoning, embodying the collaborative spirit of open-source
innovation. Outperforming DeepSeek-R1 and rivaling leading Mixture-of-Experts
(MoE) models like Qwen3-235B-A22B and Seed1.5-Thinking, AM-Thinking-v1 achieves
impressive scores of 85.3 on AIME 2024, 74.4 on AIME 2025, and 70.3 on
LiveCodeBench, showcasing state-of-the-art mathematical and coding capabilities
among open-source models of similar scale.
Built entirely from the open-source Qwen2.5-32B base model and publicly
available queries, AM-Thinking-v1 leverages a meticulously crafted
post-training pipeline - combining supervised fine-tuning and reinforcement
learning - to deliver exceptional reasoning capabilities. This work
demonstrates that the open-source community can achieve high performance at the
32B scale, a practical sweet spot for deployment and fine-tuning. By striking a
balance between top-tier performance and real-world usability, we hope
AM-Thinking-v1 inspires further collaborative efforts to harness mid-scale
models, pushing reasoning boundaries while keeping accessibility at the core of
innovation. We have open-sourced our model on
https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.