Estendere la finestra contestuale dei LLM con 100 campioni

Abstract

I modelli linguistici di grandi dimensioni (LLMs) sono noti per avere una capacità limitata di estrapolazione oltre la loro finestra di contesto pre-addestrata, il che ne limita l'applicazione in compiti downstream con input di lunga durata. Studi recenti hanno cercato di estendere la finestra di contesto degli LLMs modificando il rotary position embedding (RoPE), un popolare metodo di codifica delle posizioni adottato da noti LLMs come LLaMA, PaLM e GPT-NeoX. Tuttavia, lavori precedenti come Position Interpolation (PI) e YaRN sono dispendiosi in termini di risorse e mancano di esperimenti comparativi per valutarne l'applicabilità. In questo lavoro, identifichiamo la necessità intrinseca per l'entropia dell'attenzione degli LLMs (cioè l'entropia informativa dei punteggi di attenzione) di mantenere la stabilità e introduciamo una nuova estensione a RoPE che combina l'aggiustamento della frequenza base di RoPE e il ridimensionamento dei logit di attenzione per aiutare gli LLMs ad adattarsi in modo efficiente a una finestra di contesto più ampia. Validiamo la superiorità del nostro metodo sia nelle prestazioni di fine-tuning che nella robustezza su diverse dimensioni della finestra di contesto in vari compiti che richiedono un contesto esteso. In particolare, il nostro metodo estende la finestra di contesto di LLaMA-2-7B-Chat a 16.384 con soli 100 campioni e 6 passi di addestramento, dimostrando un'efficienza straordinaria. Infine, esploriamo anche come le composizioni dei dati e i curricula di addestramento influenzino l'estensione della finestra di contesto per specifici compiti downstream, suggerendo il fine-tuning degli LLMs con conversazioni lunghe come un buon punto di partenza. Rilasciamo il nostro codice e i dati SFT all'indirizzo https://github.com/GAIR-NLP/Entropy-ABF.

English

Large Language Models (LLMs) are known to have limited extrapolation ability beyond their pre-trained context window, constraining their application in downstream tasks with lengthy inputs. Recent studies have sought to extend LLMs' context window by modifying rotary position embedding (RoPE), a popular position encoding method adopted by well-known LLMs such as LLaMA, PaLM, and GPT-NeoX. However, prior works like Position Interpolation (PI) and YaRN are resource-intensive and lack comparative experiments to assess their applicability. In this work, we identify the inherent need for LLMs' attention entropy (i.e. the information entropy of attention scores) to maintain stability and introduce a novel extension to RoPE which combines adjusting RoPE's base frequency and scaling the attention logits to help LLMs efficiently adapt to a larger context window. We validate the superiority of our method in both fine-tuning performance and robustness across different context window sizes on various context-demanding tasks. Notably, our method extends the context window of LLaMA-2-7B-Chat to 16,384 with only 100 samples and 6 training steps, showcasing extraordinary efficiency. Finally, we also explore how data compositions and training curricula affect context window extension for specific downstream tasks, suggesting fine-tuning LLMs with lengthy conversations as a good starting point. We release our code and SFT data at https://github.com/GAIR-NLP/Entropy-ABF.

Estendere la finestra contestuale dei LLM con 100 campioni

Extending LLMs' Context Window with 100 Samples

Abstract

Support