InfiAlign: Een schaalbaar en sample-efficiënt raamwerk voor het uitlijnen van LLM's om redeneervaardigheden te verbeteren
InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities
August 7, 2025
Auteurs: Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben indrukwekkende redeneervaardigheden getoond op een breed scala aan complexe taken. Het verbeteren van deze capaciteiten door middel van post-training blijft echter resource-intensief, met name wat betreft data en rekenkosten. Hoewel recente inspanningen gericht zijn geweest op het verbeteren van de steekproefefficiëntie door selectieve datacuratie, vertrouwen bestaande methoden vaak op heuristische of taakspecifieke strategieën die de schaalbaarheid belemmeren. In dit werk introduceren we InfiAlign, een schaalbaar en steekproefefficiënt post-trainingsframework dat supervised fine-tuning (SFT) integreert met Direct Preference Optimization (DPO) om LLMs af te stemmen voor verbeterd redeneren. De kern van InfiAlign is een robuust dataselectiepijplijn die automatisch hoogwaardige afstemmingsdata uit open-source redeneerdatasets selecteert met behulp van multidimensionale kwaliteitsmetrieken. Deze pijplijn maakt aanzienlijke prestatieverbeteringen mogelijk terwijl de databehoeften drastisch worden verminderd, en blijft uitbreidbaar naar nieuwe databronnen. Wanneer toegepast op het Qwen2.5-Math-7B-Base model, bereikt ons SFT-model prestaties die vergelijkbaar zijn met DeepSeek-R1-Distill-Qwen-7B, terwijl slechts ongeveer 12% van de trainingsdata wordt gebruikt, en toont het sterke generalisatie over diverse redeneertaken. Extra verbeteringen worden behaald door de toepassing van DPO, met name opmerkelijke vooruitgang in wiskundige redeneertaken. Het model behaalt een gemiddelde verbetering van 3,89% op AIME 24/25 benchmarks. Onze resultaten benadrukken de effectiviteit van het combineren van principiële dataselectie met volledige post-training, en bieden een praktische oplossing voor het afstemmen van grote redeneermodellen op een schaalbare en data-efficiënte manier. De modelcheckpoints zijn beschikbaar op https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
English
Large language models (LLMs) have exhibited impressive reasoning abilities on
a wide range of complex tasks. However, enhancing these capabilities through
post-training remains resource intensive, particularly in terms of data and
computational cost. Although recent efforts have sought to improve sample
efficiency through selective data curation, existing methods often rely on
heuristic or task-specific strategies that hinder scalability. In this work, we
introduce InfiAlign, a scalable and sample-efficient post-training framework
that integrates supervised fine-tuning (SFT) with Direct Preference
Optimization (DPO) to align LLMs for enhanced reasoning. At the core of
InfiAlign is a robust data selection pipeline that automatically curates
high-quality alignment data from open-source reasoning datasets using
multidimensional quality metrics. This pipeline enables significant performance
gains while drastically reducing data requirements and remains extensible to
new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model
achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only
approximately 12% of the training data, and demonstrates strong generalization
across diverse reasoning tasks. Additional improvements are obtained through
the application of DPO, with particularly notable gains in mathematical
reasoning tasks. The model achieves an average improvement of 3.89% on AIME
24/25 benchmarks. Our results highlight the effectiveness of combining
principled data selection with full-stage post-training, offering a practical
solution for aligning large reasoning models in a scalable and data-efficient
manner. The model checkpoints are available at
https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.