ChatPaper.aiChatPaper

M1: Naar schaalbare rekencapaciteit tijdens testen met Mamba-redeneermodellen

M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

April 14, 2025
Auteurs: Junxiong Wang, Wen-Ding Li, Daniele Paliotta, Daniel Ritter, Alexander M. Rush, Tri Dao
cs.AI

Samenvatting

Effectief redeneren is cruciaal voor het oplossen van complexe wiskundige problemen. Recente grote taalmodellen (LLMs) hebben de prestaties verbeterd door het schalen van testtijdberekeningen via lange ketens van gedachtegangen. Echter, transformer-gebaseerde modellen zijn inherent beperkt in het uitbreiden van de contextlengte vanwege hun kwadratische rekencomplexiteit en lineaire geheugenvereisten. In dit artikel introduceren we een nieuw hybride lineair RNN-redeneermodel, M1, gebouwd op de Mamba-architectuur, dat geheugenefficiënte inferentie mogelijk maakt. Onze aanpak maakt gebruik van een distillatieproces van bestaande redeneermodellen en wordt verder verbeterd door RL-training. Experimentele resultaten op de AIME- en MATH-benchmarks laten zien dat M1 niet alleen beter presteert dan eerdere lineaire RNN-modellen, maar ook de prestaties evenaart van state-of-the-art Deepseek R1 gedistilleerde redeneermodellen op een vergelijkbare schaal. We vergelijken ook onze generatiesnelheid met een zeer performante algemene inferentie-engine, vLLM, en observeren een meer dan 3x versnelling in vergelijking met een transformer van dezelfde grootte. Met deze doorvoersnelheidsverbetering kunnen we een hogere nauwkeurigheid bereiken in vergelijking met DeepSeek R1 gedistilleerde transformer-redeneermodellen onder een vast generatietijdbudget door gebruik te maken van zelfconsistentie-stemming. Over het geheel introduceren we een hybride Mamba-redeneermodel en bieden we een effectievere aanpak voor het schalen van testtijdgeneratie met behulp van zelfconsistentie of lange ketens van gedachtegangen.
English
Effective reasoning is crucial to solving complex mathematical problems. Recent large language models (LLMs) have boosted performance by scaling test-time computation through long chain-of-thought reasoning. However, transformer-based models are inherently limited in extending context length due to their quadratic computational complexity and linear memory requirements. In this paper, we introduce a novel hybrid linear RNN reasoning model, M1, built on the Mamba architecture, which allows memory-efficient inference. Our approach leverages a distillation process from existing reasoning models and is further enhanced through RL training. Experimental results on the AIME and MATH benchmarks show that M1 not only outperforms previous linear RNN models but also matches the performance of state-of-the-art Deepseek R1 distilled reasoning models at a similar scale. We also compare our generation speed with a highly performant general purpose inference engine, vLLM, and observe more than a 3x speedup compared to a same size transformer. With throughput speedup, we are able to achieve higher accuracy compared to DeepSeek R1 distilled transformer reasoning models under a fixed generation time budget using self-consistency voting. Overall, we introduce a hybrid Mamba reasoning model and provide a more effective approach to scaling test-time generation using self-consistency or long chain of thought reasoning.

Summary

AI-Generated Summary

PDF102April 15, 2025