LongPO: Auto-evoluzione a Lungo Contesto dei Modelli Linguistici di Grande Scala attraverso l'Ottimizzazione delle Preferenze da Breve a Lungo

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie attraverso il pre-addestramento e l'allineamento. Tuttavia, LLM superiori in contesti brevi possono ottenere prestazioni inferiori in scenari con contesti lunghi a causa di un allineamento insufficiente per contesti estesi. Questo processo di allineamento rimane impegnativo a causa dell'impraticabilità dell'annotazione umana per contesti prolungati e della difficoltà nel bilanciare le prestazioni in contesti brevi e lunghi. Per affrontare queste sfide, introduciamo LongPO, che consente agli LLM con contesti brevi di auto-evolversi per eccellere in compiti con contesti lunghi trasferendo internamente le capacità acquisite in contesti brevi. LongPO sfrutta gli LLM per apprendere da dati di preferenza auto-generati da contesti brevi a lunghi, comprendenti risposte accoppiate generate per istruzioni identiche con input di contesti lunghi e le loro controparti compresse in contesti brevi. Questa preferenza rivela capacità e potenziali degli LLM coltivati durante l'allineamento in contesti brevi che potrebbero essere ridotti in scenari con contesti lunghi non adeguatamente allineati. Inoltre, LongPO incorpora un vincolo KL da breve a lungo per mitigare il declino delle prestazioni in contesti brevi durante l'allineamento in contesti lunghi. Quando applicato a Mistral-7B-Instruct-v0.2 da lunghezze di contesto di 128K a 512K, LongPO mantiene completamente le prestazioni in contesti brevi e supera ampiamente SFT e DPO ingenui sia in compiti con contesti lunghi che brevi. In particolare, i modelli addestrati con \ourMethod possono ottenere risultati su benchmark con contesti lunghi comparabili, o addirittura superiori, a quelli di LLM superiori (ad esempio, GPT-4-128K) che coinvolgono annotazioni estese per contesti lunghi e scale di parametri più ampie.

English

Large Language Models (LLMs) have demonstrated remarkable capabilities through pretraining and alignment. However, superior short-context LLMs may underperform in long-context scenarios due to insufficient long-context alignment. This alignment process remains challenging due to the impracticality of human annotation for extended contexts and the difficulty in balancing short- and long-context performance. To address these challenges, we introduce LongPO, that enables short-context LLMs to self-evolve to excel on long-context tasks by internally transferring short-context capabilities. LongPO harnesses LLMs to learn from self-generated short-to-long preference data, comprising paired responses generated for identical instructions with long-context inputs and their compressed short-context counterparts, respectively. This preference reveals capabilities and potentials of LLMs cultivated during short-context alignment that may be diminished in under-aligned long-context scenarios. Additionally, LongPO incorporates a short-to-long KL constraint to mitigate short-context performance decline during long-context alignment. When applied to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully retains short-context performance and largely outperforms naive SFT and DPO in both long- and short-context tasks. Specifically, \ourMethod-trained models can achieve results on long-context benchmarks comparable to, or even surpassing, those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context annotation and larger parameter scales.

LongPO: Auto-evoluzione a Lungo Contesto dei Modelli Linguistici di Grande Scala attraverso l'Ottimizzazione delle Preferenze da Breve a Lungo

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Abstract

Support