ChatPaper.aiChatPaper

LongPO: Самоэволюция языковых моделей с длинным контекстом через оптимизацию предпочтений от короткого к длинному

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

February 19, 2025
Авторы: Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности благодаря предварительному обучению и согласованию. Однако высокопроизводительные LLM, оптимизированные для коротких контекстов, могут показывать низкие результаты в сценариях с длинными контекстами из-за недостаточного согласования для таких задач. Этот процесс согласования остается сложным из-за непрактичности ручной аннотации для длинных контекстов и трудности балансировки производительности в коротких и длинных контекстах. Для решения этих проблем мы представляем LongPO — метод, который позволяет LLM, оптимизированным для коротких контекстов, самостоятельно развиваться и преуспевать в задачах с длинными контекстами за счет внутреннего переноса возможностей, полученных в коротких контекстах. LongPO использует LLM для обучения на данных о предпочтениях, сгенерированных самими моделями, которые включают парные ответы на одинаковые инструкции с длинными контекстами и их сжатые аналоги с короткими контекстами. Эти предпочтения раскрывают возможности и потенциал LLM, развитые в ходе согласования для коротких контекстов, которые могут быть утрачены в недостаточно согласованных сценариях с длинными контекстами. Кроме того, LongPO включает ограничение KL (Кулбака-Лейблера) для минимизации снижения производительности в коротких контекстах в процессе согласования для длинных контекстов. Примененный к модели Mistral-7B-Instruct-v0.2 для контекстов длиной от 128K до 512K, LongPO полностью сохраняет производительность в коротких контекстах и значительно превосходит наивное SFT (Supervised Fine-Tuning) и DPO (Direct Preference Optimization) как в задачах с длинными, так и с короткими контекстами. В частности, модели, обученные с использованием \ourMethod, достигают результатов на тестах для длинных контекстов, сопоставимых или даже превосходящих результаты более мощных LLM (например, GPT-4-128K), которые требуют обширной аннотации для длинных контекстов и большего масштаба параметров.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities through pretraining and alignment. However, superior short-context LLMs may underperform in long-context scenarios due to insufficient long-context alignment. This alignment process remains challenging due to the impracticality of human annotation for extended contexts and the difficulty in balancing short- and long-context performance. To address these challenges, we introduce LongPO, that enables short-context LLMs to self-evolve to excel on long-context tasks by internally transferring short-context capabilities. LongPO harnesses LLMs to learn from self-generated short-to-long preference data, comprising paired responses generated for identical instructions with long-context inputs and their compressed short-context counterparts, respectively. This preference reveals capabilities and potentials of LLMs cultivated during short-context alignment that may be diminished in under-aligned long-context scenarios. Additionally, LongPO incorporates a short-to-long KL constraint to mitigate short-context performance decline during long-context alignment. When applied to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully retains short-context performance and largely outperforms naive SFT and DPO in both long- and short-context tasks. Specifically, \ourMethod-trained models can achieve results on long-context benchmarks comparable to, or even surpassing, those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context annotation and larger parameter scales.

Summary

AI-Generated Summary

PDF282February 20, 2025