InfiAlign: Een schaalbaar en sample-efficiënt raamwerk voor het uitlijnen van LLM's om redeneervaardigheden te verbeteren

Samenvatting

Grote taalmodellen (LLMs) hebben indrukwekkende redeneervaardigheden getoond op een breed scala aan complexe taken. Het verbeteren van deze capaciteiten door middel van post-training blijft echter resource-intensief, met name wat betreft data en rekenkosten. Hoewel recente inspanningen gericht zijn geweest op het verbeteren van de steekproefefficiëntie door selectieve datacuratie, vertrouwen bestaande methoden vaak op heuristische of taakspecifieke strategieën die de schaalbaarheid belemmeren. In dit werk introduceren we InfiAlign, een schaalbaar en steekproefefficiënt post-trainingsframework dat supervised fine-tuning (SFT) integreert met Direct Preference Optimization (DPO) om LLMs af te stemmen voor verbeterd redeneren. De kern van InfiAlign is een robuust dataselectiepijplijn die automatisch hoogwaardige afstemmingsdata uit open-source redeneerdatasets selecteert met behulp van multidimensionale kwaliteitsmetrieken. Deze pijplijn maakt aanzienlijke prestatieverbeteringen mogelijk terwijl de databehoeften drastisch worden verminderd, en blijft uitbreidbaar naar nieuwe databronnen. Wanneer toegepast op het Qwen2.5-Math-7B-Base model, bereikt ons SFT-model prestaties die vergelijkbaar zijn met DeepSeek-R1-Distill-Qwen-7B, terwijl slechts ongeveer 12% van de trainingsdata wordt gebruikt, en toont het sterke generalisatie over diverse redeneertaken. Extra verbeteringen worden behaald door de toepassing van DPO, met name opmerkelijke vooruitgang in wiskundige redeneertaken. Het model behaalt een gemiddelde verbetering van 3,89% op AIME 24/25 benchmarks. Onze resultaten benadrukken de effectiviteit van het combineren van principiële dataselectie met volledige post-training, en bieden een praktische oplossing voor het afstemmen van grote redeneermodellen op een schaalbare en data-efficiënte manier. De modelcheckpoints zijn beschikbaar op https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.

English

Large language models (LLMs) have exhibited impressive reasoning abilities on a wide range of complex tasks. However, enhancing these capabilities through post-training remains resource intensive, particularly in terms of data and computational cost. Although recent efforts have sought to improve sample efficiency through selective data curation, existing methods often rely on heuristic or task-specific strategies that hinder scalability. In this work, we introduce InfiAlign, a scalable and sample-efficient post-training framework that integrates supervised fine-tuning (SFT) with Direct Preference Optimization (DPO) to align LLMs for enhanced reasoning. At the core of InfiAlign is a robust data selection pipeline that automatically curates high-quality alignment data from open-source reasoning datasets using multidimensional quality metrics. This pipeline enables significant performance gains while drastically reducing data requirements and remains extensible to new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only approximately 12% of the training data, and demonstrates strong generalization across diverse reasoning tasks. Additional improvements are obtained through the application of DPO, with particularly notable gains in mathematical reasoning tasks. The model achieves an average improvement of 3.89% on AIME 24/25 benchmarks. Our results highlight the effectiveness of combining principled data selection with full-stage post-training, offering a practical solution for aligning large reasoning models in a scalable and data-efficient manner. The model checkpoints are available at https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.

InfiAlign: Een schaalbaar en sample-efficiënt raamwerk voor het uitlijnen van LLM's om redeneervaardigheden te verbeteren

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

Samenvatting

Support