InfiAlign: Ein skalierbares und probeneffizientes Framework zur Ausrichtung von LLMs zur Verbesserung von Argumentationsfähigkeiten
InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities
August 7, 2025
papers.authors: Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens bei einer Vielzahl komplexer Aufgaben gezeigt. Die Verbesserung dieser Fähigkeiten durch Nachschulung bleibt jedoch ressourcenintensiv, insbesondere in Bezug auf Daten- und Rechenkosten. Obwohl jüngste Bemühungen darauf abzielen, die Stichprobeneffizienz durch selektive Datenkuratierung zu steigern, basieren bestehende Methoden oft auf heuristischen oder aufgabenspezifischen Strategien, die die Skalierbarkeit behindern. In dieser Arbeit stellen wir InfiAlign vor, ein skalierbares und stichprobeneffizientes Nachschulungsframework, das überwachtes Feintuning (SFT) mit Direct Preference Optimization (DPO) kombiniert, um LLMs für verbessertes logisches Denken auszurichten. Kern von InfiAlign ist eine robuste Datenauswahlpipeline, die automatisch hochwertige Ausrichtungsdaten aus Open-Source-Datensätzen für logisches Denken mithilfe mehrdimensionaler Qualitätsmetriken kuratiert. Diese Pipeline ermöglicht signifikante Leistungssteigerungen bei drastisch reduziertem Datenbedarf und bleibt erweiterbar für neue Datenquellen. Bei Anwendung auf das Qwen2.5-Math-7B-Base-Modell erreicht unser SFT-Modell eine Leistung, die mit DeepSeek-R1-Distill-Qwen-7B vergleichbar ist, während nur etwa 12 % der Trainingsdaten verwendet werden, und zeigt eine starke Generalisierung über diverse logische Aufgaben hinweg. Weitere Verbesserungen werden durch die Anwendung von DPO erzielt, mit besonders bemerkenswerten Fortschritten bei mathematischen Denkaufgaben. Das Modell erreicht eine durchschnittliche Verbesserung von 3,89 % auf den AIME-24/25-Benchmarks. Unsere Ergebnisse unterstreichen die Effektivität der Kombination von prinzipieller Datenauswahl mit vollständiger Nachschulung und bieten eine praktische Lösung für die Ausrichtung großer Denkmodelle in einer skalierbaren und dateneffizienten Weise. Die Modell-Checkpoints sind verfügbar unter https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
English
Large language models (LLMs) have exhibited impressive reasoning abilities on
a wide range of complex tasks. However, enhancing these capabilities through
post-training remains resource intensive, particularly in terms of data and
computational cost. Although recent efforts have sought to improve sample
efficiency through selective data curation, existing methods often rely on
heuristic or task-specific strategies that hinder scalability. In this work, we
introduce InfiAlign, a scalable and sample-efficient post-training framework
that integrates supervised fine-tuning (SFT) with Direct Preference
Optimization (DPO) to align LLMs for enhanced reasoning. At the core of
InfiAlign is a robust data selection pipeline that automatically curates
high-quality alignment data from open-source reasoning datasets using
multidimensional quality metrics. This pipeline enables significant performance
gains while drastically reducing data requirements and remains extensible to
new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model
achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only
approximately 12% of the training data, and demonstrates strong generalization
across diverse reasoning tasks. Additional improvements are obtained through
the application of DPO, with particularly notable gains in mathematical
reasoning tasks. The model achieves an average improvement of 3.89% on AIME
24/25 benchmarks. Our results highlight the effectiveness of combining
principled data selection with full-stage post-training, offering a practical
solution for aligning large reasoning models in a scalable and data-efficient
manner. The model checkpoints are available at
https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.