ChatPaper.aiChatPaper

TL;DR : Trop long, réajustez les pondérations pour une compression efficace du raisonnement des LLM.

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

June 3, 2025
Auteurs: Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) ont récemment réalisé des progrès remarquables en exploitant l'apprentissage par renforcement et des techniques étendues de chaîne de pensée (Chain-of-Thought, CoT). Cependant, le défi de réaliser un raisonnement linguistique efficace—en particulier lors de l'inférence avec des sorties extrêmement longues—a attiré une attention croissante de la communauté de recherche. Dans ce travail, nous proposons un pipeline d'entraînement dynamique basé sur des ratios qui ne repose pas sur des annotations de données sophistiquées ou sur une interpolation entre plusieurs modèles. Nous équilibrons continuellement les poids entre les données de Système-1 et de Système-2 du modèle pour éliminer les processus de raisonnement redondants tout en préservant la capacité de raisonnement du modèle. Nous validons notre approche sur les modèles DeepSeek-R1-Distill-7B et DeepSeek-R1-Distill-14B ainsi que sur un ensemble diversifié de benchmarks avec des niveaux de difficulté variés. Notre méthode réduit significativement le nombre de tokens de sortie de près de 40 % tout en maintenant la précision du raisonnement. Notre code et nos données seront bientôt disponibles.
English
Large Language Models (LLMs) have recently achieved remarkable progress by leveraging Reinforcement Learning and extended Chain-of-Thought (CoT) techniques. However, the challenge of performing efficient language reasoning--especially during inference with extremely long outputs--has drawn increasing attention from the research community. In this work, we propose a dynamic ratio-based training pipeline that does not rely on sophisticated data annotations or interpolation between multiple models. We continuously balance the weights between the model's System-1 and System-2 data to eliminate redundant reasoning processes while preserving the model's reasoning capability. We validate our approach across models on DeepSeek-R1-Distill-7B and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying difficulty levels. Our method significantly reduces the number of output tokens by nearly 40% while maintaining the accuracy of the reasoning. Our code and data will be available soon.
PDF22June 4, 2025