ChatPaper.aiChatPaper

InfiAlign : Un cadre évolutif et efficace en échantillons pour l'alignement des LLM afin d'améliorer les capacités de raisonnement

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

August 7, 2025
papers.authors: Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement impressionnantes sur une large gamme de tâches complexes. Cependant, l'amélioration de ces capacités par le biais d'un post-entraînement reste coûteuse en ressources, notamment en termes de données et de calcul. Bien que des efforts récents aient cherché à améliorer l'efficacité des échantillons grâce à une curation sélective des données, les méthodes existantes reposent souvent sur des stratégies heuristiques ou spécifiques à une tâche, ce qui limite leur évolutivité. Dans ce travail, nous présentons InfiAlign, un cadre de post-entraînement évolutif et efficace en termes d'échantillons, qui intègre un ajustement fin supervisé (SFT) avec l'optimisation directe des préférences (DPO) pour aligner les LLMs afin d'améliorer leur raisonnement. Au cœur d'InfiAlign se trouve un pipeline robuste de sélection de données qui curate automatiquement des données d'alignement de haute qualité à partir de jeux de données de raisonnement open-source, en utilisant des métriques de qualité multidimensionnelles. Ce pipeline permet des gains de performance significatifs tout en réduisant considérablement les besoins en données et reste extensible à de nouvelles sources de données. Appliqué au modèle Qwen2.5-Math-7B-Base, notre modèle SFT atteint des performances comparables à celles de DeepSeek-R1-Distill-Qwen-7B, tout en utilisant seulement environ 12 % des données d'entraînement, et démontre une forte généralisation sur diverses tâches de raisonnement. Des améliorations supplémentaires sont obtenues grâce à l'application de la DPO, avec des gains particulièrement notables dans les tâches de raisonnement mathématique. Le modèle réalise une amélioration moyenne de 3,89 % sur les benchmarks AIME 24/25. Nos résultats mettent en évidence l'efficacité de la combinaison d'une sélection de données rigoureuse avec un post-entraînement complet, offrant une solution pratique pour aligner les grands modèles de raisonnement de manière évolutive et efficace en termes de données. Les points de contrôle du modèle sont disponibles à l'adresse https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
English
Large language models (LLMs) have exhibited impressive reasoning abilities on a wide range of complex tasks. However, enhancing these capabilities through post-training remains resource intensive, particularly in terms of data and computational cost. Although recent efforts have sought to improve sample efficiency through selective data curation, existing methods often rely on heuristic or task-specific strategies that hinder scalability. In this work, we introduce InfiAlign, a scalable and sample-efficient post-training framework that integrates supervised fine-tuning (SFT) with Direct Preference Optimization (DPO) to align LLMs for enhanced reasoning. At the core of InfiAlign is a robust data selection pipeline that automatically curates high-quality alignment data from open-source reasoning datasets using multidimensional quality metrics. This pipeline enables significant performance gains while drastically reducing data requirements and remains extensible to new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only approximately 12% of the training data, and demonstrates strong generalization across diverse reasoning tasks. Additional improvements are obtained through the application of DPO, with particularly notable gains in mathematical reasoning tasks. The model achieves an average improvement of 3.89% on AIME 24/25 benchmarks. Our results highlight the effectiveness of combining principled data selection with full-stage post-training, offering a practical solution for aligning large reasoning models in a scalable and data-efficient manner. The model checkpoints are available at https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
PDF83August 8, 2025