InfiAlign: Un Framework Scalabile ed Efficiente dal Punto di Vista dei Campioni per Allineare i Modelli Linguistici di Grande Dimensione al Fine di Migliorare le Capacità di Ragionamento
InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities
August 7, 2025
Autori: Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato impressionanti capacità di ragionamento su un'ampia gamma di compiti complessi. Tuttavia, migliorare queste capacità attraverso il post-training rimane un processo ad alta intensità di risorse, in particolare in termini di dati e costi computazionali. Sebbene recenti sforzi abbiano cercato di migliorare l'efficienza del campionamento attraverso una selezione mirata dei dati, i metodi esistenti spesso si basano su strategie euristiche o specifiche per il compito, limitando la scalabilità. In questo lavoro, introduciamo InfiAlign, un framework di post-training scalabile ed efficiente dal punto di vista del campionamento, che integra il fine-tuning supervisionato (SFT) con l'ottimizzazione diretta delle preferenze (DPO) per allineare gli LLM e potenziarne il ragionamento. Al centro di InfiAlign si trova una pipeline robusta per la selezione dei dati, che cura automaticamente dati di allineamento di alta qualità da dataset di ragionamento open-source utilizzando metriche di qualità multidimensionali. Questa pipeline consente significativi miglioramenti delle prestazioni riducendo drasticamente i requisiti di dati e rimane estensibile a nuove fonti di dati. Applicato al modello Qwen2.5-Math-7B-Base, il nostro modello SFT raggiunge prestazioni paragonabili a DeepSeek-R1-Distill-Qwen-7B, utilizzando solo circa il 12% dei dati di addestramento, e dimostra una forte generalizzazione su diversi compiti di ragionamento. Ulteriori miglioramenti sono ottenuti attraverso l'applicazione del DPO, con progressi particolarmente significativi nei compiti di ragionamento matematico. Il modello raggiunge un miglioramento medio del 3,89% sui benchmark AIME 24/25. I nostri risultati evidenziano l'efficacia della combinazione di una selezione dei dati basata su principi con un post-training completo, offrendo una soluzione pratica per allineare modelli di ragionamento di grandi dimensioni in modo scalabile ed efficiente dal punto di vista dei dati. I checkpoint del modello sono disponibili all'indirizzo https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
English
Large language models (LLMs) have exhibited impressive reasoning abilities on
a wide range of complex tasks. However, enhancing these capabilities through
post-training remains resource intensive, particularly in terms of data and
computational cost. Although recent efforts have sought to improve sample
efficiency through selective data curation, existing methods often rely on
heuristic or task-specific strategies that hinder scalability. In this work, we
introduce InfiAlign, a scalable and sample-efficient post-training framework
that integrates supervised fine-tuning (SFT) with Direct Preference
Optimization (DPO) to align LLMs for enhanced reasoning. At the core of
InfiAlign is a robust data selection pipeline that automatically curates
high-quality alignment data from open-source reasoning datasets using
multidimensional quality metrics. This pipeline enables significant performance
gains while drastically reducing data requirements and remains extensible to
new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model
achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only
approximately 12% of the training data, and demonstrates strong generalization
across diverse reasoning tasks. Additional improvements are obtained through
the application of DPO, with particularly notable gains in mathematical
reasoning tasks. The model achieves an average improvement of 3.89% on AIME
24/25 benchmarks. Our results highlight the effectiveness of combining
principled data selection with full-stage post-training, offering a practical
solution for aligning large reasoning models in a scalable and data-efficient
manner. The model checkpoints are available at
https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.