Selezione di campioni influenti per l'allineamento di contesti lunghi tramite guida dei modelli omologhi e misurazione della consapevolezza contestuale.

Abstract

L'espansione dei grandi modelli linguistici per gestire efficacemente istruzioni con contesti estremamente lunghi deve ancora essere completamente esplorata. L'ostacolo principale risiede nella costruzione di un dataset di alta qualità per il follow-up di istruzioni lunghe, progettato per l'allineamento dei contesti lunghi. Studi esistenti hanno cercato di aumentare il volume dei dati disponibili sintetizzando campioni di follow-up di istruzioni lunghi. Tuttavia, aumentare indiscriminatamente la quantità di dati senza una strategia ben definita per garantire la qualità dei dati potrebbe introdurre campioni di bassa qualità e limitare le prestazioni finali. Per colmare questa lacuna, ci proponiamo di affrontare la sfida unica dell'allineamento dei contesti lunghi, cioè modellare le dipendenze a lungo raggio per gestire istruzioni e contesti di input lunghi. Proponiamo GATEAU, un nuovo framework progettato per identificare i campioni influenti e di alta qualità arricchiti di relazioni di dipendenza a lungo raggio utilizzando la Guida dei Modelli Omologhi (HMG) e la Misurazione della Consapevolezza Contestuale (CAM). In particolare, HMG cerca di misurare la difficoltà di generare risposte corrispondenti a causa delle dipendenze a lungo raggio, utilizzando i punteggi di perplessità della risposta da due modelli omologhi con finestre di contesto diverse. Inoltre, il ruolo di CAM è misurare la difficoltà di comprendere i contesti di input lunghi a causa delle dipendenze a lungo raggio valutando se l'attenzione del modello è concentrata su segmenti importanti. Basandoci su entrambi i metodi proposti, selezioniamo i campioni più impegnativi come dati influenti per modellare efficacemente le dipendenze a lungo raggio, ottenendo così migliori prestazioni dei LLM. Esperimenti completi indicano che GATEAU identifica efficacemente campioni arricchiti di relazioni di dipendenza a lungo raggio e il modello addestrato su questi campioni selezionati mostra migliori capacità di follow-up di istruzioni e comprensione dei contesti lunghi.

English

The expansion of large language models to effectively handle instructions with extremely long contexts has yet to be fully investigated. The primary obstacle lies in constructing a high-quality long instruction-following dataset devised for long context alignment. Existing studies have attempted to scale up the available data volume by synthesizing long instruction-following samples. However, indiscriminately increasing the quantity of data without a well-defined strategy for ensuring data quality may introduce low-quality samples and restrict the final performance. To bridge this gap, we aim to address the unique challenge of long-context alignment, i.e., modeling the long-range dependencies for handling instructions and lengthy input contexts. We propose GATEAU, a novel framework designed to identify the influential and high-quality samples enriched with long-range dependency relations by utilizing crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement (CAM). Specifically, HMG attempts to measure the difficulty of generating corresponding responses due to the long-range dependencies, using the perplexity scores of the response from two homologous models with different context windows. Also, the role of CAM is to measure the difficulty of understanding the long input contexts due to long-range dependencies by evaluating whether the model's attention is focused on important segments. Built upon both proposed methods, we select the most challenging samples as the influential data to effectively frame the long-range dependencies, thereby achieving better performance of LLMs. Comprehensive experiments indicate that GATEAU effectively identifies samples enriched with long-range dependency relations and the model trained on these selected samples exhibits better instruction-following and long-context understanding capabilities.

Selezione di campioni influenti per l'allineamento di contesti lunghi tramite guida dei modelli omologhi e misurazione della consapevolezza contestuale.

Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement

Abstract

Summary

Support

Support