ChatPaper.aiChatPaper

LongPO: Langzeitkontext-Selbstentwicklung großer Sprachmodelle durch Kurz-zu-Lang-Präferenzoptimierung

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

February 19, 2025
Autoren: Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben durch Vortraining und Alignment bemerkenswerte Fähigkeiten demonstriert. Allerdings können überlegene LLMs mit kurzem Kontext in Szenarien mit langem Kontext aufgrund unzureichenden Alignments für lange Kontexte unterdurchschnittlich abschneiden. Dieser Alignment-Prozess bleibt aufgrund der Unpraktikabilität menschlicher Annotation für erweiterte Kontexte und der Schwierigkeit, die Leistung bei kurzen und langen Kontexten auszubalancieren, eine Herausforderung. Um diese Herausforderungen zu bewältigen, führen wir LongPO ein, das es LLMs mit kurzem Kontext ermöglicht, sich selbst weiterzuentwickeln, um bei Aufgaben mit langem Kontext zu glänzen, indem sie intern Fähigkeiten aus kurzen Kontexten übertragen. LongPO nutzt LLMs, um aus selbstgenerierten Präferenzdaten von kurz zu lang zu lernen, die gepaarte Antworten für identische Anweisungen mit langen Kontexteingaben und ihren komprimierten kurzen Kontext-Gegenstücken enthalten. Diese Präferenz offenbart Fähigkeiten und Potenziale von LLMs, die während des Alignments für kurze Kontexte entwickelt wurden, die jedoch in unteralignierten Szenarien mit langem Kontext geschmälert werden können. Zusätzlich integriert LongPO eine KL-Beschränkung von kurz zu lang, um den Leistungsabfall bei kurzem Kontext während des Alignments für lange Kontexte zu mildern. Bei der Anwendung auf Mistral-7B-Instruct-v0.2 von 128K bis 512K Kontextlängen behält LongPO die Leistung bei kurzem Kontext vollständig bei und übertrifft naives SFT und DPO sowohl bei Aufgaben mit langem als auch mit kurzem Kontext deutlich. Insbesondere können mit \ourMethod trainierte Modelle Ergebnisse auf Benchmarks für lange Kontexte erzielen, die vergleichbar sind mit oder sogar jene von überlegenen LLMs (z.B. GPT-4-128K) übertreffen, die umfangreiche Annotationen für lange Kontexte und größere Parameterskalen beinhalten.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities through pretraining and alignment. However, superior short-context LLMs may underperform in long-context scenarios due to insufficient long-context alignment. This alignment process remains challenging due to the impracticality of human annotation for extended contexts and the difficulty in balancing short- and long-context performance. To address these challenges, we introduce LongPO, that enables short-context LLMs to self-evolve to excel on long-context tasks by internally transferring short-context capabilities. LongPO harnesses LLMs to learn from self-generated short-to-long preference data, comprising paired responses generated for identical instructions with long-context inputs and their compressed short-context counterparts, respectively. This preference reveals capabilities and potentials of LLMs cultivated during short-context alignment that may be diminished in under-aligned long-context scenarios. Additionally, LongPO incorporates a short-to-long KL constraint to mitigate short-context performance decline during long-context alignment. When applied to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully retains short-context performance and largely outperforms naive SFT and DPO in both long- and short-context tasks. Specifically, \ourMethod-trained models can achieve results on long-context benchmarks comparable to, or even surpassing, those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context annotation and larger parameter scales.

Summary

AI-Generated Summary

PDF282February 20, 2025