InfiAlign: Ein skalierbares und probeneffizientes Framework zur Ausrichtung von LLMs zur Verbesserung von Argumentationsfähigkeiten

papers.abstract

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens bei einer Vielzahl komplexer Aufgaben gezeigt. Die Verbesserung dieser Fähigkeiten durch Nachschulung bleibt jedoch ressourcenintensiv, insbesondere in Bezug auf Daten- und Rechenkosten. Obwohl jüngste Bemühungen darauf abzielen, die Stichprobeneffizienz durch selektive Datenkuratierung zu steigern, basieren bestehende Methoden oft auf heuristischen oder aufgabenspezifischen Strategien, die die Skalierbarkeit behindern. In dieser Arbeit stellen wir InfiAlign vor, ein skalierbares und stichprobeneffizientes Nachschulungsframework, das überwachtes Feintuning (SFT) mit Direct Preference Optimization (DPO) kombiniert, um LLMs für verbessertes logisches Denken auszurichten. Kern von InfiAlign ist eine robuste Datenauswahlpipeline, die automatisch hochwertige Ausrichtungsdaten aus Open-Source-Datensätzen für logisches Denken mithilfe mehrdimensionaler Qualitätsmetriken kuratiert. Diese Pipeline ermöglicht signifikante Leistungssteigerungen bei drastisch reduziertem Datenbedarf und bleibt erweiterbar für neue Datenquellen. Bei Anwendung auf das Qwen2.5-Math-7B-Base-Modell erreicht unser SFT-Modell eine Leistung, die mit DeepSeek-R1-Distill-Qwen-7B vergleichbar ist, während nur etwa 12 % der Trainingsdaten verwendet werden, und zeigt eine starke Generalisierung über diverse logische Aufgaben hinweg. Weitere Verbesserungen werden durch die Anwendung von DPO erzielt, mit besonders bemerkenswerten Fortschritten bei mathematischen Denkaufgaben. Das Modell erreicht eine durchschnittliche Verbesserung von 3,89 % auf den AIME-24/25-Benchmarks. Unsere Ergebnisse unterstreichen die Effektivität der Kombination von prinzipieller Datenauswahl mit vollständiger Nachschulung und bieten eine praktische Lösung für die Ausrichtung großer Denkmodelle in einer skalierbaren und dateneffizienten Weise. Die Modell-Checkpoints sind verfügbar unter https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.

English

Large language models (LLMs) have exhibited impressive reasoning abilities on a wide range of complex tasks. However, enhancing these capabilities through post-training remains resource intensive, particularly in terms of data and computational cost. Although recent efforts have sought to improve sample efficiency through selective data curation, existing methods often rely on heuristic or task-specific strategies that hinder scalability. In this work, we introduce InfiAlign, a scalable and sample-efficient post-training framework that integrates supervised fine-tuning (SFT) with Direct Preference Optimization (DPO) to align LLMs for enhanced reasoning. At the core of InfiAlign is a robust data selection pipeline that automatically curates high-quality alignment data from open-source reasoning datasets using multidimensional quality metrics. This pipeline enables significant performance gains while drastically reducing data requirements and remains extensible to new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only approximately 12% of the training data, and demonstrates strong generalization across diverse reasoning tasks. Additional improvements are obtained through the application of DPO, with particularly notable gains in mathematical reasoning tasks. The model achieves an average improvement of 3.89% on AIME 24/25 benchmarks. Our results highlight the effectiveness of combining principled data selection with full-stage post-training, offering a practical solution for aligning large reasoning models in a scalable and data-efficient manner. The model checkpoints are available at https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.

InfiAlign: Ein skalierbares und probeneffizientes Framework zur Ausrichtung von LLMs zur Verbesserung von Argumentationsfähigkeiten

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

papers.abstract

Support