LongPO: Auto-evoluzione a Lungo Contesto dei Modelli Linguistici di Grande Scala attraverso l'Ottimizzazione delle Preferenze da Breve a Lungo
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization
February 19, 2025
Autori: Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie attraverso il pre-addestramento e l'allineamento. Tuttavia, LLM superiori in contesti brevi possono ottenere prestazioni inferiori in scenari con contesti lunghi a causa di un allineamento insufficiente per contesti estesi. Questo processo di allineamento rimane impegnativo a causa dell'impraticabilità dell'annotazione umana per contesti prolungati e della difficoltà nel bilanciare le prestazioni in contesti brevi e lunghi. Per affrontare queste sfide, introduciamo LongPO, che consente agli LLM con contesti brevi di auto-evolversi per eccellere in compiti con contesti lunghi trasferendo internamente le capacità acquisite in contesti brevi. LongPO sfrutta gli LLM per apprendere da dati di preferenza auto-generati da contesti brevi a lunghi, comprendenti risposte accoppiate generate per istruzioni identiche con input di contesti lunghi e le loro controparti compresse in contesti brevi. Questa preferenza rivela capacità e potenziali degli LLM coltivati durante l'allineamento in contesti brevi che potrebbero essere ridotti in scenari con contesti lunghi non adeguatamente allineati. Inoltre, LongPO incorpora un vincolo KL da breve a lungo per mitigare il declino delle prestazioni in contesti brevi durante l'allineamento in contesti lunghi. Quando applicato a Mistral-7B-Instruct-v0.2 da lunghezze di contesto di 128K a 512K, LongPO mantiene completamente le prestazioni in contesti brevi e supera ampiamente SFT e DPO ingenui sia in compiti con contesti lunghi che brevi. In particolare, i modelli addestrati con \ourMethod possono ottenere risultati su benchmark con contesti lunghi comparabili, o addirittura superiori, a quelli di LLM superiori (ad esempio, GPT-4-128K) che coinvolgono annotazioni estese per contesti lunghi e scale di parametri più ampie.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities
through pretraining and alignment. However, superior short-context LLMs may
underperform in long-context scenarios due to insufficient long-context
alignment. This alignment process remains challenging due to the impracticality
of human annotation for extended contexts and the difficulty in balancing
short- and long-context performance. To address these challenges, we introduce
LongPO, that enables short-context LLMs to self-evolve to excel on long-context
tasks by internally transferring short-context capabilities. LongPO harnesses
LLMs to learn from self-generated short-to-long preference data, comprising
paired responses generated for identical instructions with long-context inputs
and their compressed short-context counterparts, respectively. This preference
reveals capabilities and potentials of LLMs cultivated during short-context
alignment that may be diminished in under-aligned long-context scenarios.
Additionally, LongPO incorporates a short-to-long KL constraint to mitigate
short-context performance decline during long-context alignment. When applied
to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully
retains short-context performance and largely outperforms naive SFT and DPO in
both long- and short-context tasks. Specifically, \ourMethod-trained models can
achieve results on long-context benchmarks comparable to, or even surpassing,
those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context
annotation and larger parameter scales.Summary
AI-Generated Summary