ChatPaper.aiChatPaper

InfiAlign: Масштабируемая и ресурсоэффективная структура для согласования больших языковых моделей с целью улучшения их способностей к рассуждению

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

August 7, 2025
Авторы: Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang
cs.AI

Аннотация

Крупные языковые модели (LLMs) продемонстрировали впечатляющие способности к рассуждению при решении широкого спектра сложных задач. Однако улучшение этих возможностей посредством пост-обучения остается ресурсоемким, особенно в плане данных и вычислительных затрат. Хотя недавние усилия были направлены на повышение эффективности использования данных за счет избирательного их отбора, существующие методы часто опираются на эвристические или специфичные для задачи стратегии, что ограничивает их масштабируемость. В данной работе мы представляем InfiAlign, масштабируемую и эффективную по данным структуру пост-обучения, которая интегрирует контролируемую тонкую настройку (SFT) с оптимизацией прямых предпочтений (DPO) для согласования LLM с целью улучшения их способностей к рассуждению. В основе InfiAlign лежит надежный конвейер отбора данных, который автоматически формирует высококачественные данные для согласования из открытых наборов данных для рассуждений, используя многомерные метрики качества. Этот конвейер обеспечивает значительное повышение производительности при резком сокращении требований к данным и остается расширяемым для новых источников данных. При применении к модели Qwen2.5-Math-7B-Base наша модель SFT демонстрирует производительность, сопоставимую с DeepSeek-R1-Distill-Qwen-7B, используя лишь около 12% обучающих данных, и показывает сильную обобщаемость на разнообразных задачах рассуждения. Дополнительные улучшения достигаются за счет применения DPO, с особенно заметным прогрессом в задачах математического рассуждения. Модель демонстрирует среднее улучшение на 3,89% на тестах AIME 24/25. Наши результаты подчеркивают эффективность сочетания принципиального отбора данных с полномасштабным пост-обучением, предлагая практическое решение для согласования крупных моделей рассуждения в масштабируемой и эффективной по данным манере. Чекпоинты модели доступны по адресу https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
English
Large language models (LLMs) have exhibited impressive reasoning abilities on a wide range of complex tasks. However, enhancing these capabilities through post-training remains resource intensive, particularly in terms of data and computational cost. Although recent efforts have sought to improve sample efficiency through selective data curation, existing methods often rely on heuristic or task-specific strategies that hinder scalability. In this work, we introduce InfiAlign, a scalable and sample-efficient post-training framework that integrates supervised fine-tuning (SFT) with Direct Preference Optimization (DPO) to align LLMs for enhanced reasoning. At the core of InfiAlign is a robust data selection pipeline that automatically curates high-quality alignment data from open-source reasoning datasets using multidimensional quality metrics. This pipeline enables significant performance gains while drastically reducing data requirements and remains extensible to new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only approximately 12% of the training data, and demonstrates strong generalization across diverse reasoning tasks. Additional improvements are obtained through the application of DPO, with particularly notable gains in mathematical reasoning tasks. The model achieves an average improvement of 3.89% on AIME 24/25 benchmarks. Our results highlight the effectiveness of combining principled data selection with full-stage post-training, offering a practical solution for aligning large reasoning models in a scalable and data-efficient manner. The model checkpoints are available at https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
PDF83August 8, 2025