ChatPaper.aiChatPaper

LongPO : Auto-évolution à long contexte des grands modèles de langage par optimisation des préférences court-vers-long

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

February 19, 2025
Auteurs: Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités remarquables grâce au pré-entraînement et à l'alignement. Cependant, les LLMs performants en contexte court peuvent sous-performer dans des scénarios à contexte long en raison d'un alignement insuffisant sur ces contextes étendus. Ce processus d'alignement reste difficile en raison de l'impracticité de l'annotation humaine pour des contextes prolongés et de la complexité à équilibrer les performances en contexte court et long. Pour relever ces défis, nous introduisons LongPO, qui permet aux LLMs spécialisés en contexte court de s'auto-évoluer pour exceller dans les tâches à contexte long en transférant en interne leurs capacités acquises en contexte court. LongPO exploite les LLMs pour apprendre à partir de données de préférence auto-générées allant du court au long, comprenant des réponses jumelées générées pour des instructions identiques avec des entrées de contexte long et leurs versions compressées en contexte court. Cette préférence révèle les capacités et potentiels des LLMs cultivés lors de l'alignement en contexte court qui pourraient être atténués dans des scénarios à contexte long mal alignés. De plus, LongPO intègre une contrainte KL du court au long pour atténuer la baisse de performance en contexte court pendant l'alignement en contexte long. Appliqué à Mistral-7B-Instruct-v0.2 pour des longueurs de contexte allant de 128K à 512K, LongPO préserve entièrement les performances en contexte court et surpasse largement les approches naïves de SFT et DPO dans les tâches à contexte long et court. Plus précisément, les modèles entraînés avec \ourMethod peuvent atteindre des résultats sur les benchmarks de contexte long comparables, voire supérieurs, à ceux des LLMs de pointe (par exemple, GPT-4-128K) qui impliquent une annotation extensive en contexte long et des échelles de paramètres plus importantes.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities through pretraining and alignment. However, superior short-context LLMs may underperform in long-context scenarios due to insufficient long-context alignment. This alignment process remains challenging due to the impracticality of human annotation for extended contexts and the difficulty in balancing short- and long-context performance. To address these challenges, we introduce LongPO, that enables short-context LLMs to self-evolve to excel on long-context tasks by internally transferring short-context capabilities. LongPO harnesses LLMs to learn from self-generated short-to-long preference data, comprising paired responses generated for identical instructions with long-context inputs and their compressed short-context counterparts, respectively. This preference reveals capabilities and potentials of LLMs cultivated during short-context alignment that may be diminished in under-aligned long-context scenarios. Additionally, LongPO incorporates a short-to-long KL constraint to mitigate short-context performance decline during long-context alignment. When applied to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully retains short-context performance and largely outperforms naive SFT and DPO in both long- and short-context tasks. Specifically, \ourMethod-trained models can achieve results on long-context benchmarks comparable to, or even surpassing, those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context annotation and larger parameter scales.

Summary

AI-Generated Summary

PDF282February 20, 2025