Большие языковые модели могут самостоятельно улучшаться в долгосрочном контекстном рассуждении.
Large Language Models Can Self-Improve in Long-context Reasoning
November 12, 2024
Авторы: Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
cs.AI
Аннотация
Большие языковые модели (LLM) достигли значительного прогресса в обработке длинных контекстов, но по-прежнему испытывают трудности с рассуждениями в длинных контекстах. Существующие подходы обычно включают донастройку LLM с использованием синтетических данных, которые зависят от аннотаций от человеческих экспертов или продвинутых моделей, таких как GPT-4, что ограничивает дальнейшее развитие. Для решения этой проблемы мы исследуем потенциал самоусовершенствования LLM в рассуждениях в длинных контекстах и предлагаем наш подход, специально разработанный для этой цели. Этот подход прост: мы выбираем несколько вариантов ответов на каждый вопрос, оцениваем их с использованием минимального байесовского риска, а затем применяем надзорную донастройку или оптимизацию предпочтений на основе этих вариантов. Обширные эксперименты на нескольких ведущих LLM демонстрируют эффективность нашего подхода, с абсолютным улучшением на 4,2 пункта для Llama-3.1-8B-Instruct. Более того, наш подход достигает более высокой производительности по сравнению с предыдущими подходами, зависящими от данных, созданных человеческими экспертами или продвинутыми моделями. Мы предвидим, что данная работа откроет новые пути для техник самоусовершенствования в сценариях с длинными контекстами, которые являются необходимыми для постоянного развития LLM.
English
Large language models (LLMs) have achieved substantial progress in processing
long contexts but still struggle with long-context reasoning. Existing
approaches typically involve fine-tuning LLMs with synthetic data, which
depends on annotations from human experts or advanced models like GPT-4, thus
restricting further advancements. To address this issue, we investigate the
potential for LLMs to self-improve in long-context reasoning and propose \ours,
an approach specifically designed for this purpose. This approach is
straightforward: we sample multiple outputs for each question, score them with
Minimum Bayes Risk, and then apply supervised fine-tuning or preference
optimization based on these outputs. Extensive experiments on several leading
LLMs demonstrate the effectiveness of \ours, with an absolute improvement of
4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior
performance compared to prior approaches that depend on data produced by human
experts or advanced models. We anticipate that this work will open new avenues
for self-improvement techniques in long-context scenarios, which are essential
for the continual advancement of LLMs.Summary
AI-Generated Summary