Гипер-многошаговые: Правда о сложных задачах с длинным контекстом
Hyper-multi-step: The Truth Behind Difficult Long-context Tasks
October 6, 2024
Авторы: Yijiong Yu
cs.AI
Аннотация
Модели длинного контекста (LCLM), отличающиеся обширным контекстным окном, становятся все более популярными. Тем временем многие бенчмарки с длинным контекстом представляют сложные задачи, с которыми даже самые передовые LCLM имеют трудности. Однако источники различных сложных задач с длинным контекстом редко изучались. Для заполнения этого пробела мы проводим эксперименты, указывающие, что их сложность в основном обусловлена двумя основными проблемами: "множественный поиск", требующий одновременного поиска нескольких элементов, и "логический поиск", который предполагает логическое суждение в рамках критериев поиска. Эти две проблемы, казалось бы, простые, на самом деле превышают возможности LCLM, поскольку они доказаны быть гипер-многоэтапными (требующими многочисленных шагов для решения) по своей природе. Это открытие может объяснить, почему LLM испытывают затруднения с более сложными задачами длинного контекста, предоставляя более точную перспективу для переосмысления решений для них.
English
Long-context language models (LCLM), characterized by their extensive context
window, is becoming increasingly popular. Meanwhile, many long-context
benchmarks present challenging tasks that even the most advanced LCLMs struggle
to complete. However, the underlying sources of various challenging
long-context tasks have seldom been studied. To bridge this gap, we conduct
experiments to indicate their difficulty stems primarily from two basic issues:
"multi-matching retrieval," which requires the simultaneous retrieval of
multiple items, and "logic-based retrieval," which necessitates logical
judgment within retrieval criteria. These two problems, while seemingly
straightforward, actually exceed the capabilities of LCLMs because they are
proven to be hyper-multi-step (demanding numerous steps to solve) in nature.
This finding could explain why LLMs struggle with more advanced long-context
tasks, providing a more accurate perspective for rethinking solutions for them.Summary
AI-Generated Summary