ChatPaper.aiChatPaper

Maskenverstärkte autoregressive Vorhersage: Weniger Aufmerksamkeit zahlen, um mehr zu lernen.

Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

February 11, 2025
Autoren: Xialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) leiden unter Schwierigkeiten bei der präzisen Wiederherstellung von Schlüsselinformationen. Um dies zu beheben, schlagen wir Mask-Enhanced Autoregressive Prediction (MEAP) vor, ein einfaches und dennoch effektives Schulungsparadigma, das Masked Language Modeling (MLM) nahtlos in die Next-Token Prediction (NTP) integriert, um die In-Context-Wiederherstellungsfähigkeiten letzterer zu verbessern. Konkret maskiert MEAP zunächst zufällig einen kleinen Anteil der Eingabetoken und führt dann direkt die Standardvorhersage des nächsten Tokens autoregressiv mit einem nur Decoder enthaltenden Transformer durch. MEAP beseitigt die Notwendigkeit bidirektionaler Aufmerksamkeit oder Encoder-Decoder-Architekturen für MLM und verursacht keine zusätzliche Rechenlast während des Pre-Trainings oder der Inferenz. Intensive Experimente zeigen, dass MEAP NTP bei der Wiederherstellung von Schlüsselinformationen und langen Kontext-Reasoning-Aufgaben erheblich übertrifft, während es bei Aufgaben zum gesunden Menschenverstand gleich gut oder besser abschneidet. Die Vorteile von MEAP erstrecken sich auch auf das überwachte Feintuning, wo es bemerkenswerte Vorteile in Szenarien mit verlorenen mittleren Teilen aufweist und NTP um 11,77 Prozentpunkte übertrifft. Unsere Analyse deutet darauf hin, dass die Wirksamkeit von MEAP aus seiner Fähigkeit resultiert, durch Konzentration auf eine reduzierte Menge von nicht maskierten Token deutlich unterscheidbare Aufmerksamkeitswerte zu fördern. Dieser Mechanismus verbessert den Fokus des Modells auf aufgabenrelevante Signale und mildert den Einfluss des peripheren Kontexts. Diese Erkenntnisse positionieren MEAP als vielversprechendes Schulungsparadigma für große Sprachmodelle.
English
Large Language Models (LLMs) are discovered to suffer from accurately retrieving key information. To address this, we propose Mask-Enhanced Autoregressive Prediction (MEAP), a simple yet effective training paradigm that seamlessly integrates Masked Language Modeling (MLM) into Next-Token Prediction (NTP) to enhance the latter's in-context retrieval capabilities. Specifically, MEAP first randomly masks a small fraction of input tokens and then directly performs the standard next-token prediction autoregressive using a decoder-only Transformer. MEAP eliminates the need for bidirectional attention or encoder-decoder architectures for MLM, incurring no additional computational overhead during pre-training or inference. Intensive experiments demonstrate that MEAP substantially outperforms NTP on key information retrieval and long-context reasoning tasks, while performing on par or better on commonsense reasoning tasks. The benefits of MEAP also extend to supervised fine-tuning, where it shows remarkable advantages in lost-in-the-middle scenarios, outperforming NTP by 11.77 percentage points. Our analysis indicates that MEAP's effectiveness arises from its ability to promote more distinguishable attention scores by concentrating on a reduced set of non-masked tokens. This mechanism improves the model's focus on task-relevant signals while mitigating the influence of peripheral context. These findings position MEAP as a promising training paradigm for large language models.

Summary

AI-Generated Summary

PDF92February 12, 2025