Записи в полях: Улучшенный шаблон вывода для извлечения длинного контекстаWriting in the Margins: Better Inference Pattern for Long Context
Retrieval
В данной статье мы представляем Writing in the Margins (WiM), новый шаблон вывода для крупных языковых моделей, разработанный для оптимизации обработки длинных входных последовательностей в задачах, ориентированных на извлечение информации. Этот подход использует сегментированное предзаполнение кэша ключ-значение для выполнения вывода по сегментам, что обеспечивает эффективную обработку обширных контекстов вместе с генерацией и классификацией промежуточной информации ("маржей"), направляющей модель на выполнение конкретных задач. Этот метод незначительно увеличивает вычислительную нагрузку, значительно повышая производительность стандартных моделей без необходимости тонкой настройки. В частности, мы наблюдаем, что WiM обеспечивает в среднем улучшение точности на 7.5% для навыков рассуждения (HotpotQA, MultiHop-RAG) и более чем на 30.0% увеличение F1-оценки для задач агрегации (CWE). Кроме того, мы показываем, как предложенный шаблон вписывается в интерактивный дизайн извлечения, предоставляя конечным пользователям текущие обновления о ходе обработки контекста и выделяя интеграцию соответствующей информации в окончательный ответ. Мы предоставляем нашу реализацию WiM с использованием библиотеки Hugging Face Transformers по адресу https://github.com/writer/writing-in-the-margins.