LongPO: Zelfevolutie van Large Language Models met Lange Contexten via Kort-naar-Lang Voorkeursoptimalisatie
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization
February 19, 2025
Auteurs: Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond door middel van voorafgaande training en afstemming. Superieure LLMs met korte context kunnen echter onderpresteren in scenario's met lange context vanwege onvoldoende afstemming op lange context. Dit afstemmingsproces blijft uitdagend vanwege de onpraktische aard van menselijke annotatie voor uitgebreide contexten en de moeilijkheid om prestaties op korte en lange context in balans te brengen. Om deze uitdagingen aan te pakken, introduceren we LongPO, dat LLMs met korte context in staat stelt om zichzelf te ontwikkelen en uit te blinken in taken met lange context door intern capaciteiten van korte context over te dragen. LongPO benut LLMs om te leren van zelf gegenereerde voorkeursgegevens van kort naar lang, bestaande uit gepaarde reacties gegenereerd voor identieke instructies met lange context inputs en hun gecomprimeerde tegenhangers met korte context. Deze voorkeur onthult capaciteiten en potenties van LLMs die zijn ontwikkeld tijdens afstemming op korte context, maar die mogelijk verminderd zijn in onder-afgestemde scenario's met lange context. Daarnaast integreert LongPO een KL-beperking van kort naar lang om prestatieverlies op korte context te beperken tijdens afstemming op lange context. Wanneer toegepast op Mistral-7B-Instruct-v0.2 van 128K tot 512K contextlengtes, behoudt LongPO volledig de prestaties op korte context en overtreft het aanzienlijk naïeve SFT en DPO in zowel lange als korte context taken. Specifiek kunnen met \ourMethod getrainde modellen resultaten behalen op benchmarks voor lange context die vergelijkbaar zijn met, of zelfs beter dan, die van superieure LLMs (bijv. GPT-4-128K) die uitgebreide annotatie van lange context en grotere parameterschalen omvatten.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities
through pretraining and alignment. However, superior short-context LLMs may
underperform in long-context scenarios due to insufficient long-context
alignment. This alignment process remains challenging due to the impracticality
of human annotation for extended contexts and the difficulty in balancing
short- and long-context performance. To address these challenges, we introduce
LongPO, that enables short-context LLMs to self-evolve to excel on long-context
tasks by internally transferring short-context capabilities. LongPO harnesses
LLMs to learn from self-generated short-to-long preference data, comprising
paired responses generated for identical instructions with long-context inputs
and their compressed short-context counterparts, respectively. This preference
reveals capabilities and potentials of LLMs cultivated during short-context
alignment that may be diminished in under-aligned long-context scenarios.
Additionally, LongPO incorporates a short-to-long KL constraint to mitigate
short-context performance decline during long-context alignment. When applied
to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully
retains short-context performance and largely outperforms naive SFT and DPO in
both long- and short-context tasks. Specifically, \ourMethod-trained models can
achieve results on long-context benchmarks comparable to, or even surpassing,
those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context
annotation and larger parameter scales.Summary
AI-Generated Summary