Predizione Autoregressiva Potenziata da Maschere: Prestare Meno Attenzione per Apprendere di Più
Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More
February 11, 2025
Autori: Xialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu
cs.AI
Abstract
I Large Language Models (LLM) sono stati scoperti soffrire nel recuperare accuratamente informazioni chiave. Per affrontare questo problema, proponiamo Mask-Enhanced Autoregressive Prediction (MEAP), un paradigma di addestramento semplice ma efficace che integra in modo fluido il Masked Language Modeling (MLM) nella Next-Token Prediction (NTP) per potenziare le capacità di recupero contestuale di quest'ultima. In particolare, MEAP maschera in modo casuale una piccola frazione dei token in ingresso e successivamente esegue direttamente la previsione del token successivo standard in modo autoregressivo utilizzando un Transformer con solo decoder. MEAP elimina la necessità di attenzione bidirezionale o architetture encoder-decoder per MLM, senza comportare alcun sovraccarico computazionale aggiuntivo durante il pre-training o l'inferenza. Esperimenti intensivi dimostrano che MEAP migliora notevolmente le prestazioni di NTP nel recupero di informazioni chiave e nelle attività di ragionamento su contesti lunghi, pur esibendo prestazioni paragonabili o migliori nelle attività di ragionamento di senso comune. I vantaggi di MEAP si estendono anche al fine-tuning supervisionato, dove mostra notevoli vantaggi in scenari di smarrimento nel mezzo, superando NTP di 11,77 punti percentuali. La nostra analisi indica che l'efficacia di MEAP deriva dalla sua capacità di favorire punteggi di attenzione più distinguibili concentrandosi su un insieme ridotto di token non mascherati. Questo meccanismo migliora il focus del modello sui segnali rilevanti per il compito, mitigando l'influenza del contesto periferico. Queste scoperte posizionano MEAP come un promettente paradigma di addestramento per grandi modelli linguistici.
English
Large Language Models (LLMs) are discovered to suffer from accurately
retrieving key information. To address this, we propose Mask-Enhanced
Autoregressive Prediction (MEAP), a simple yet effective training paradigm that
seamlessly integrates Masked Language Modeling (MLM) into Next-Token Prediction
(NTP) to enhance the latter's in-context retrieval capabilities. Specifically,
MEAP first randomly masks a small fraction of input tokens and then directly
performs the standard next-token prediction autoregressive using a decoder-only
Transformer. MEAP eliminates the need for bidirectional attention or
encoder-decoder architectures for MLM, incurring no additional computational
overhead during pre-training or inference. Intensive experiments demonstrate
that MEAP substantially outperforms NTP on key information retrieval and
long-context reasoning tasks, while performing on par or better on commonsense
reasoning tasks. The benefits of MEAP also extend to supervised fine-tuning,
where it shows remarkable advantages in lost-in-the-middle scenarios,
outperforming NTP by 11.77 percentage points. Our analysis indicates that
MEAP's effectiveness arises from its ability to promote more distinguishable
attention scores by concentrating on a reduced set of non-masked tokens. This
mechanism improves the model's focus on task-relevant signals while mitigating
the influence of peripheral context. These findings position MEAP as a
promising training paradigm for large language models.Summary
AI-Generated Summary