LongPO: Zelfevolutie van Large Language Models met Lange Contexten via Kort-naar-Lang Voorkeursoptimalisatie

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond door middel van voorafgaande training en afstemming. Superieure LLMs met korte context kunnen echter onderpresteren in scenario's met lange context vanwege onvoldoende afstemming op lange context. Dit afstemmingsproces blijft uitdagend vanwege de onpraktische aard van menselijke annotatie voor uitgebreide contexten en de moeilijkheid om prestaties op korte en lange context in balans te brengen. Om deze uitdagingen aan te pakken, introduceren we LongPO, dat LLMs met korte context in staat stelt om zichzelf te ontwikkelen en uit te blinken in taken met lange context door intern capaciteiten van korte context over te dragen. LongPO benut LLMs om te leren van zelf gegenereerde voorkeursgegevens van kort naar lang, bestaande uit gepaarde reacties gegenereerd voor identieke instructies met lange context inputs en hun gecomprimeerde tegenhangers met korte context. Deze voorkeur onthult capaciteiten en potenties van LLMs die zijn ontwikkeld tijdens afstemming op korte context, maar die mogelijk verminderd zijn in onder-afgestemde scenario's met lange context. Daarnaast integreert LongPO een KL-beperking van kort naar lang om prestatieverlies op korte context te beperken tijdens afstemming op lange context. Wanneer toegepast op Mistral-7B-Instruct-v0.2 van 128K tot 512K contextlengtes, behoudt LongPO volledig de prestaties op korte context en overtreft het aanzienlijk naïeve SFT en DPO in zowel lange als korte context taken. Specifiek kunnen met \ourMethod getrainde modellen resultaten behalen op benchmarks voor lange context die vergelijkbaar zijn met, of zelfs beter dan, die van superieure LLMs (bijv. GPT-4-128K) die uitgebreide annotatie van lange context en grotere parameterschalen omvatten.

English

Large Language Models (LLMs) have demonstrated remarkable capabilities through pretraining and alignment. However, superior short-context LLMs may underperform in long-context scenarios due to insufficient long-context alignment. This alignment process remains challenging due to the impracticality of human annotation for extended contexts and the difficulty in balancing short- and long-context performance. To address these challenges, we introduce LongPO, that enables short-context LLMs to self-evolve to excel on long-context tasks by internally transferring short-context capabilities. LongPO harnesses LLMs to learn from self-generated short-to-long preference data, comprising paired responses generated for identical instructions with long-context inputs and their compressed short-context counterparts, respectively. This preference reveals capabilities and potentials of LLMs cultivated during short-context alignment that may be diminished in under-aligned long-context scenarios. Additionally, LongPO incorporates a short-to-long KL constraint to mitigate short-context performance decline during long-context alignment. When applied to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully retains short-context performance and largely outperforms naive SFT and DPO in both long- and short-context tasks. Specifically, \ourMethod-trained models can achieve results on long-context benchmarks comparable to, or even surpassing, those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context annotation and larger parameter scales.

LongPO: Zelfevolutie van Large Language Models met Lange Contexten via Kort-naar-Lang Voorkeursoptimalisatie

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Samenvatting

Support