ChatPaper.aiChatPaper

Maskeringsverbeterde autoregressieve voorspelling: Minder aandacht besteden om meer te leren

Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

February 11, 2025
Auteurs: Xialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) worden ontdekt als zijnde problematisch bij het nauwkeurig ophalen van essentiële informatie. Om dit aan te pakken, stellen wij Masker-Versterkte Autoregressieve Voorspelling (MEAP) voor, een eenvoudig maar effectief trainingsparadigma dat Masked Language Modeling (MLM) naadloos integreert in Next-Token Prediction (NTP) om de in-context ophaalmogelijkheden van de laatste te verbeteren. Specifiek maskeert MEAP eerst willekeurig een klein deel van de invoertokens en voert vervolgens direct de standaard autoregressieve voorspelling van het volgende token uit met behulp van een decoder-only Transformer. MEAP elimineert de noodzaak van bidirectionele aandacht of encoder-decoder architecturen voor MLM, zonder extra rekenkundige overhead tijdens pre-training of inferentie te veroorzaken. Intensieve experimenten tonen aan dat MEAP aanzienlijk beter presteert dan NTP bij het ophalen van essentiële informatie en redeneren over lange contexten, terwijl het vergelijkbaar of beter presteert bij taken voor gezond verstand redeneren. De voordelen van MEAP strekken zich ook uit tot begeleid finetunen, waar het opmerkelijke voordelen laat zien in situaties waarin informatie verloren gaat, waarbij het NTP met 11,77 procentpunten overtreft. Onze analyse geeft aan dat de effectiviteit van MEAP voortkomt uit zijn vermogen om meer onderscheidende aandachtscores te bevorderen door zich te concentreren op een beperkte set niet-gemaskeerde tokens. Dit mechanisme verbetert de focus van het model op taakrelevante signalen en vermindert de invloed van perifere context. Deze bevindingen positioneren MEAP als een veelbelovend trainingsparadigma voor grote taalmodellen.
English
Large Language Models (LLMs) are discovered to suffer from accurately retrieving key information. To address this, we propose Mask-Enhanced Autoregressive Prediction (MEAP), a simple yet effective training paradigm that seamlessly integrates Masked Language Modeling (MLM) into Next-Token Prediction (NTP) to enhance the latter's in-context retrieval capabilities. Specifically, MEAP first randomly masks a small fraction of input tokens and then directly performs the standard next-token prediction autoregressive using a decoder-only Transformer. MEAP eliminates the need for bidirectional attention or encoder-decoder architectures for MLM, incurring no additional computational overhead during pre-training or inference. Intensive experiments demonstrate that MEAP substantially outperforms NTP on key information retrieval and long-context reasoning tasks, while performing on par or better on commonsense reasoning tasks. The benefits of MEAP also extend to supervised fine-tuning, where it shows remarkable advantages in lost-in-the-middle scenarios, outperforming NTP by 11.77 percentage points. Our analysis indicates that MEAP's effectiveness arises from its ability to promote more distinguishable attention scores by concentrating on a reduced set of non-masked tokens. This mechanism improves the model's focus on task-relevant signals while mitigating the influence of peripheral context. These findings position MEAP as a promising training paradigm for large language models.
PDF92February 12, 2025