За пределами обучения в контексте: согласование генерации длинных текстов в крупных языковых моделях с использованием встроенных атрибутов задач
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines
June 2, 2025
Авторы: Do Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen
cs.AI
Аннотация
Обучение в контексте (In-context learning, ICL) представляет собой важную, но еще не до конца изученную способность предварительно обученных больших языковых моделей (LLMs). Оно может значительно улучшить выполнение задач с использованием нескольких примеров, называемых демонстрациями, без необходимости тонкой настройки. Хотя ICL эффективно в задачах ответов на вопросы, оно часто демонстрирует низкую производительность в задачах длинной генерации, таких как суммаризация. В рамках реалистичных предположений мы эмпирически и теоретически показываем, что одних только демонстраций ICL недостаточно для обучения LLMs распределениям языка и формата задачи для генерации. Мы утверждаем, что явное ознакомление с распределениями задачи и предполагаем, что их определение через промптинг повышает производительность модели. С этой целью мы представляем LongGuide, который эффективно генерирует два параллельных потока руководств, охватывающих свойства языка и формата задачи: (i) Метрические руководства (Metric Guidelines, MGs), которые инструктируют модели оптимизировать самооцененные метрики; и (ii) Руководства по ограничениям вывода (Output Constraint Guidelines, OCGs), которые ограничивают генерацию на уровне токенов и предложений. LongGuide автоматически выбирает наилучшую комбинацию руководств, улучшая как сильные открытые, так и закрытые LLMs более чем на 5% в условиях нулевого и немногих примеров. Мы показываем, что LongGuide является обобщаемым, может быть изучен слабыми моделями для улучшения сильных и синергетически интегрируется с автоматическими оптимизаторами промптов.
English
In-context learning (ICL) is an important yet not fully understood ability of
pre-trained large language models (LLMs). It can greatly enhance task
performance using a few examples, termed demonstrations, without fine-tuning.
Although effective in question answering, ICL often underperforms in long-form
generation tasks such as summarization. Under appropriately realistic
assumptions, we empirically and theoretically show that ICL demonstrations
alone are insufficient to teach LLMs the task language and format distributions
for generation. We argue for explicit exposure to the task distributions and
hypothesize that defining them by prompting enhances model performance. To this
end, we present LongGuide, which efficiently generates two parallel streams of
guidelines capturing task language and format properties: (i) Metric Guidelines
(MGs) that instruct models to optimize self-evaluated metrics; and (ii) Output
Constraint Guidelines (OCGs) that constrain generation at both token and
sentence levels. LongGuide automatically selects the best combination of
guidelines, improving both strong open- and closed-source LLMs by over 5% in
both zero- and few-shot settings. We show that LongGuide is generalizable,
learnable by weak models to enhance strong ones, and integrates synergistically
with automatic prompt optimizers.