LongPO: Auto-Evolução de Modelos de Linguagem de Grande Escala para Contextos Longos por meio de Otimização de Preferências de Curto para Longo Prazo
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization
February 19, 2025
Autores: Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis por meio de pré-treinamento e alinhamento. No entanto, LLMs superiores em contextos curtos podem ter desempenho inferior em cenários de contexto longo devido a um alinhamento insuficiente para contextos extensos. Esse processo de alinhamento permanece desafiador devido à impraticabilidade de anotação humana para contextos prolongados e à dificuldade em equilibrar o desempenho em contextos curtos e longos. Para abordar esses desafios, introduzimos o LongPO, que permite que LLMs de contexto curto evoluam autonomamente para se destacarem em tarefas de contexto longo, transferindo internamente as capacidades de contexto curto. O LongPO utiliza LLMs para aprender a partir de dados de preferência gerados internamente, que consistem em respostas pareadas geradas para as mesmas instruções com entradas de contexto longo e suas versões comprimidas de contexto curto, respectivamente. Essa preferência revela capacidades e potenciais dos LLMs cultivados durante o alinhamento de contexto curto que podem ser reduzidos em cenários de contexto longo subalinhados. Além disso, o LongPO incorpora uma restrição KL de curto para longo para mitigar o declínio no desempenho de contexto curto durante o alinhamento de contexto longo. Quando aplicado ao Mistral-7B-Instruct-v0.2, de comprimentos de contexto de 128K para 512K, o LongPO mantém totalmente o desempenho de contexto curto e supera amplamente o SFT ingênuo e o DPO tanto em tarefas de contexto longo quanto curto. Especificamente, modelos treinados com \ourMethod podem alcançar resultados em benchmarks de contexto longo comparáveis, ou até superiores, aos de LLMs superiores (por exemplo, GPT-4-128K) que envolvem extensa anotação de contexto longo e escalas de parâmetros maiores.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities
through pretraining and alignment. However, superior short-context LLMs may
underperform in long-context scenarios due to insufficient long-context
alignment. This alignment process remains challenging due to the impracticality
of human annotation for extended contexts and the difficulty in balancing
short- and long-context performance. To address these challenges, we introduce
LongPO, that enables short-context LLMs to self-evolve to excel on long-context
tasks by internally transferring short-context capabilities. LongPO harnesses
LLMs to learn from self-generated short-to-long preference data, comprising
paired responses generated for identical instructions with long-context inputs
and their compressed short-context counterparts, respectively. This preference
reveals capabilities and potentials of LLMs cultivated during short-context
alignment that may be diminished in under-aligned long-context scenarios.
Additionally, LongPO incorporates a short-to-long KL constraint to mitigate
short-context performance decline during long-context alignment. When applied
to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully
retains short-context performance and largely outperforms naive SFT and DPO in
both long- and short-context tasks. Specifically, \ourMethod-trained models can
achieve results on long-context benchmarks comparable to, or even surpassing,
those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context
annotation and larger parameter scales.Summary
AI-Generated Summary