ChatPaper.aiChatPaper

TL;DR: Muito longo, faça re-ponderação para compressão eficiente de raciocínio em LLM

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

June 3, 2025
Autores: Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) recentemente alcançaram progressos notáveis ao aproveitar o Aprendizado por Reforço e técnicas estendidas de Cadeia de Pensamento (CoT). No entanto, o desafio de realizar raciocínio linguístico eficiente—especialmente durante a inferência com saídas extremamente longas—tem atraído crescente atenção da comunidade de pesquisa. Neste trabalho, propomos um pipeline de treinamento baseado em razão dinâmica que não depende de anotações de dados sofisticadas ou interpolação entre múltiplos modelos. Nós equilibramos continuamente os pesos entre os dados do Sistema-1 e do Sistema-2 do modelo para eliminar processos de raciocínio redundantes, preservando a capacidade de raciocínio do modelo. Validamos nossa abordagem em modelos como o DeepSeek-R1-Distill-7B e DeepSeek-R1-Distill-14B e em um conjunto diversificado de benchmarks com níveis variados de dificuldade. Nosso método reduz significativamente o número de tokens de saída em quase 40%, mantendo a precisão do raciocínio. Nosso código e dados estarão disponíveis em breve.
English
Large Language Models (LLMs) have recently achieved remarkable progress by leveraging Reinforcement Learning and extended Chain-of-Thought (CoT) techniques. However, the challenge of performing efficient language reasoning--especially during inference with extremely long outputs--has drawn increasing attention from the research community. In this work, we propose a dynamic ratio-based training pipeline that does not rely on sophisticated data annotations or interpolation between multiple models. We continuously balance the weights between the model's System-1 and System-2 data to eliminate redundant reasoning processes while preserving the model's reasoning capability. We validate our approach across models on DeepSeek-R1-Distill-7B and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying difficulty levels. Our method significantly reduces the number of output tokens by nearly 40% while maintaining the accuracy of the reasoning. Our code and data will be available soon.
PDF42June 4, 2025