Estendere la finestra contestuale dei LLM con 100 campioni
Extending LLMs' Context Window with 100 Samples
January 13, 2024
Autori: Yikai Zhang, Junlong Li, Pengfei Liu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLMs) sono noti per avere una capacità limitata di estrapolazione oltre la loro finestra di contesto pre-addestrata, il che ne limita l'applicazione in compiti downstream con input di lunga durata. Studi recenti hanno cercato di estendere la finestra di contesto degli LLMs modificando il rotary position embedding (RoPE), un popolare metodo di codifica delle posizioni adottato da noti LLMs come LLaMA, PaLM e GPT-NeoX. Tuttavia, lavori precedenti come Position Interpolation (PI) e YaRN sono dispendiosi in termini di risorse e mancano di esperimenti comparativi per valutarne l'applicabilità. In questo lavoro, identifichiamo la necessità intrinseca per l'entropia dell'attenzione degli LLMs (cioè l'entropia informativa dei punteggi di attenzione) di mantenere la stabilità e introduciamo una nuova estensione a RoPE che combina l'aggiustamento della frequenza base di RoPE e il ridimensionamento dei logit di attenzione per aiutare gli LLMs ad adattarsi in modo efficiente a una finestra di contesto più ampia. Validiamo la superiorità del nostro metodo sia nelle prestazioni di fine-tuning che nella robustezza su diverse dimensioni della finestra di contesto in vari compiti che richiedono un contesto esteso. In particolare, il nostro metodo estende la finestra di contesto di LLaMA-2-7B-Chat a 16.384 con soli 100 campioni e 6 passi di addestramento, dimostrando un'efficienza straordinaria. Infine, esploriamo anche come le composizioni dei dati e i curricula di addestramento influenzino l'estensione della finestra di contesto per specifici compiti downstream, suggerendo il fine-tuning degli LLMs con conversazioni lunghe come un buon punto di partenza. Rilasciamo il nostro codice e i dati SFT all'indirizzo https://github.com/GAIR-NLP/Entropy-ABF.
English
Large Language Models (LLMs) are known to have limited extrapolation ability
beyond their pre-trained context window, constraining their application in
downstream tasks with lengthy inputs. Recent studies have sought to extend
LLMs' context window by modifying rotary position embedding (RoPE), a popular
position encoding method adopted by well-known LLMs such as LLaMA, PaLM, and
GPT-NeoX. However, prior works like Position Interpolation (PI) and YaRN are
resource-intensive and lack comparative experiments to assess their
applicability. In this work, we identify the inherent need for LLMs' attention
entropy (i.e. the information entropy of attention scores) to maintain
stability and introduce a novel extension to RoPE which combines adjusting
RoPE's base frequency and scaling the attention logits to help LLMs efficiently
adapt to a larger context window. We validate the superiority of our method in
both fine-tuning performance and robustness across different context window
sizes on various context-demanding tasks. Notably, our method extends the
context window of LLaMA-2-7B-Chat to 16,384 with only 100 samples and 6
training steps, showcasing extraordinary efficiency. Finally, we also explore
how data compositions and training curricula affect context window extension
for specific downstream tasks, suggesting fine-tuning LLMs with lengthy
conversations as a good starting point. We release our code and SFT data at
https://github.com/GAIR-NLP/Entropy-ABF.