ChatPaper.aiChatPaper

Контролируемое исследование языковых моделей с длинным контекстом

A Controllable Examination for Long-Context Language Models

June 3, 2025
Авторы: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI

Аннотация

Существующие подходы к оценке языковых моделей с длинным контекстом (LCLM) можно в целом разделить на задачи реального мира и синтетические задачи. Несмотря на их полезность, оба подхода сопровождаются определёнными внутренними ограничениями. Задачи реального мира слишком сложны для интерпретации или характеристики и подвержены проблеме загрязнения данных. В то же время синтетические задачи часто используют формат "иголка в стоге сена" (NIAH), где отсутствие связности между "иголкой" и "стогом сена" ставит под сомнение их валидность как прокси для реалистичных приложений. В ответ на эти вызовы мы утверждаем, что идеальная система оценки длинного контекста должна характеризоваться тремя ключевыми особенностями: бесшовный контекст, контролируемые условия и надёжная оценка. В данном исследовании представлен LongBioBench — новый бенчмарк, использующий искусственно сгенерированные биографии как контролируемую среду для оценки LCLM по параметрам понимания, рассуждения и доверия. Наше экспериментальное исследование, включающее 18 LCLM, показывает, что большинство моделей всё ещё демонстрируют недостатки в семантическом понимании и базовом рассуждении над извлечёнными результатами, а также становятся менее надёжными с увеличением длины контекста. Дополнительный анализ указывает на то, что некоторые дизайнерские решения, используемые в существующих синтетических бенчмарках, такие как отсутствие связности контекста, числовые "иголки" и отсутствие отвлекающих элементов, делают их уязвимыми для тестирования способностей моделей к работе с длинным контекстом. Более того, мы также выяснили, что непрерывное предобучение для длинного контекста в основном адаптирует RoPE-эмбеддинги для работы с увеличенной длиной контекста. В итоге, по сравнению с предыдущими синтетическими бенчмарками, LongBioBench достигает лучшего баланса между отражением аутентичных языковых задач и сохранением контролируемости, а также обладает высокой интерпретируемостью и настраиваемостью.
English
Existing frameworks for evaluating long-context language models (LCLM) can be broadly categorized into real-world and synthetic tasks. Despite their utility, both approaches are accompanied by certain intrinsic limitations. Real-world tasks are too complex to interpret or characterize and are susceptible to data contamination. In contrast, synthetic tasks often adopt the needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the "needle" and the "haystack" compromises their validity as proxies for realistic applications. In response to these challenges, we posit that an ideal long-context evaluation framework should be characterized by three essential features: seamless context, controllable setting, and sound evaluation. This study introduces LongBioBench, a novel benchmark that utilizes artificially generated biographies as a controlled environment for assessing LCLMs across dimensions of understanding, reasoning, and trustworthiness. Our experimental evaluation, which includes 18 LCLMs in total, demonstrates that most models still exhibit deficiencies in semantic understanding and elementary reasoning over retrieved results and are less trustworthy as context length increases. Our further analysis indicates some design choices employed by existing synthetic benchmarks, such as contextual non-coherence, numerical needles, and the absence of distractors, rendering them vulnerable to test the model long-context capabilities. Moreover, we also reveal that long-context continual pretraining primarily adjusts RoPE embedding to accommodate extended context lengths. To sum up, compared to previous synthetic benchmarks, LongBioBench achieves a better trade-off between mirroring authentic language tasks and maintaining controllability, and is highly interpretable and configurable.
PDF302June 5, 2025