LongPO: Autoevolución de Contextos Largos en Modelos de Lenguaje de Gran Escala mediante Optimización de Preferencias de Corto a Largo Plazo
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization
February 19, 2025
Autores: Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables a través del preentrenamiento y la alineación. Sin embargo, los LLMs superiores en contextos cortos pueden tener un rendimiento inferior en escenarios de contexto largo debido a una alineación insuficiente en contextos extensos. Este proceso de alineación sigue siendo un desafío debido a la impracticidad de la anotación humana para contextos extendidos y la dificultad de equilibrar el rendimiento en contextos cortos y largos. Para abordar estos desafíos, presentamos LongPO, que permite a los LLMs de contexto corto evolucionar internamente para destacarse en tareas de contexto largo mediante la transferencia interna de capacidades de contexto corto. LongPO aprovecha los LLMs para aprender a partir de datos de preferencia autogenerados de corto a largo, que consisten en respuestas emparejadas generadas para instrucciones idénticas con entradas de contexto largo y sus contrapartes comprimidas de contexto corto, respectivamente. Esta preferencia revela capacidades y potenciales de los LLMs cultivados durante la alineación de contexto corto que pueden verse disminuidos en escenarios de contexto largo con alineación insuficiente. Además, LongPO incorpora una restricción KL de corto a largo para mitigar la disminución del rendimiento en contexto corto durante la alineación de contexto largo. Cuando se aplica a Mistral-7B-Instruct-v0.2 desde longitudes de contexto de 128K a 512K, LongPO conserva completamente el rendimiento en contexto corto y supera ampliamente a SFT y DPO ingenuos tanto en tareas de contexto largo como corto. Específicamente, los modelos entrenados con \ourMethod pueden lograr resultados en benchmarks de contexto largo comparables, o incluso superiores, a los de LLMs superiores (por ejemplo, GPT-4-128K) que involucran una extensa anotación de contexto largo y escalas de parámetros más grandes.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities
through pretraining and alignment. However, superior short-context LLMs may
underperform in long-context scenarios due to insufficient long-context
alignment. This alignment process remains challenging due to the impracticality
of human annotation for extended contexts and the difficulty in balancing
short- and long-context performance. To address these challenges, we introduce
LongPO, that enables short-context LLMs to self-evolve to excel on long-context
tasks by internally transferring short-context capabilities. LongPO harnesses
LLMs to learn from self-generated short-to-long preference data, comprising
paired responses generated for identical instructions with long-context inputs
and their compressed short-context counterparts, respectively. This preference
reveals capabilities and potentials of LLMs cultivated during short-context
alignment that may be diminished in under-aligned long-context scenarios.
Additionally, LongPO incorporates a short-to-long KL constraint to mitigate
short-context performance decline during long-context alignment. When applied
to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully
retains short-context performance and largely outperforms naive SFT and DPO in
both long- and short-context tasks. Specifically, \ourMethod-trained models can
achieve results on long-context benchmarks comparable to, or even surpassing,
those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context
annotation and larger parameter scales.Summary
AI-Generated Summary