Выбор влиятельных образцов для выравнивания длинного контекста с помощью руководства гомологичных моделей и измерения контекстуального осознания.
Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement
October 21, 2024
Авторы: Shuzheng Si, Haozhe Zhao, Gang Chen, Yunshui Li, Kangyang Luo, Chuancheng Lv, Kaikai An, Fanchao Qi, Baobao Chang, Maosong Sun
cs.AI
Аннотация
Расширение крупных языковых моделей для эффективной обработки инструкций с чрезвычайно длинными контекстами еще полностью не исследовано. Основное препятствие заключается в создании высококачественного набора данных для следования длинным инструкциям, разработанного для выравнивания длинных контекстов. Существующие исследования пытались увеличить объем доступных данных путем синтеза длинных образцов следования инструкциям. Однако без разработки четкой стратегии обеспечения качества данных безраздельное увеличение объема данных может привести к появлению низкокачественных образцов и ограничить конечную производительность. Для преодоления этого разрыва мы стремимся решить уникальное испытание выравнивания длинных контекстов, то есть моделирование дальних зависимостей для обработки инструкций и длинных входных контекстов. Мы предлагаем GATEAU, новую структуру, разработанную для выявления влиятельных и высококачественных образцов, обогащенных дальними зависимостями, путем использования созданного Руководства Гомологичных Моделей (HMG) и Измерения Контекстуального Сознания (CAM). Конкретно, HMG пытается измерить сложность генерации соответствующих ответов из-за дальних зависимостей, используя оценки непонятности ответа от двух гомологичных моделей с различными окнами контекста. Также роль CAM заключается в измерении сложности понимания длинных входных контекстов из-за дальних зависимостей путем оценки того, сосредоточено ли внимание модели на важных сегментах. Основываясь на обоих предложенных методах, мы выбираем наиболее сложные образцы в качестве влиятельных данных для эффективного формирования дальних зависимостей, тем самым достигая лучшей производительности LLMs. Обширные эксперименты показывают, что GATEAU эффективно выявляет образцы, обогащенные дальними зависимостями, и модель, обученная на этих выбранных образцах, обладает лучшими возможностями следования инструкциям и понимания длинных контекстов.
English
The expansion of large language models to effectively handle instructions
with extremely long contexts has yet to be fully investigated. The primary
obstacle lies in constructing a high-quality long instruction-following dataset
devised for long context alignment. Existing studies have attempted to scale up
the available data volume by synthesizing long instruction-following samples.
However, indiscriminately increasing the quantity of data without a
well-defined strategy for ensuring data quality may introduce low-quality
samples and restrict the final performance. To bridge this gap, we aim to
address the unique challenge of long-context alignment, i.e., modeling the
long-range dependencies for handling instructions and lengthy input contexts.
We propose GATEAU, a novel framework designed to identify the influential and
high-quality samples enriched with long-range dependency relations by utilizing
crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement
(CAM). Specifically, HMG attempts to measure the difficulty of generating
corresponding responses due to the long-range dependencies, using the
perplexity scores of the response from two homologous models with different
context windows. Also, the role of CAM is to measure the difficulty of
understanding the long input contexts due to long-range dependencies by
evaluating whether the model's attention is focused on important segments.
Built upon both proposed methods, we select the most challenging samples as the
influential data to effectively frame the long-range dependencies, thereby
achieving better performance of LLMs. Comprehensive experiments indicate that
GATEAU effectively identifies samples enriched with long-range dependency
relations and the model trained on these selected samples exhibits better
instruction-following and long-context understanding capabilities.Summary
AI-Generated Summary