Улучшенное маскирование для авторегрессивного прогнозирования: меньше внимания для более эффективного обучения
Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More
February 11, 2025
Авторы: Xialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu
cs.AI
Аннотация
Большие языковые модели (LLM) обнаружены страдать от точного извлечения ключевой информации. Для решения этой проблемы мы предлагаем Масочное Улучшение Авторегрессивного Прогнозирования (MEAP), простую, но эффективную парадигму обучения, которая плавно интегрирует Масочное Языковое Моделирование (MLM) в Прогнозирование Следующего Токена (NTP) для улучшения способностей последнего к извлечению информации в контексте. Конкретно, MEAP сначала случайным образом маскирует небольшую долю входных токенов, а затем непосредственно выполняет стандартное авторегрессивное прогнозирование следующего токена с использованием только декодера Transformer. MEAP устраняет необходимость в двунаправленном внимании или архитектурах кодер-декодер для MLM, не принося дополнительной вычислительной нагрузки во время предварительного обучения или вывода. Интенсивные эксперименты демонстрируют, что MEAP значительно превосходит NTP в извлечении ключевой информации и задачах рассуждения на длинных контекстах, при этом показывая сопоставимые или лучшие результаты в задачах здравого смысла. Преимущества MEAP также распространяются на надзорное дообучение, где он демонстрирует замечательные преимущества в сценариях потерянного в середине, превосходя NTP на 11,77 процентных пункта. Наш анализ показывает, что эффективность MEAP проистекает из его способности сосредотачиваться на более различимых оценках внимания, концентрируясь на уменьшенном наборе немаскированных токенов. Этот механизм улучшает фокус модели на сигналах, релевантных для задачи, смягчая влияние периферийного контекста. Эти результаты позиционируют MEAP как многообещающую парадигму обучения для больших языковых моделей.
English
Large Language Models (LLMs) are discovered to suffer from accurately
retrieving key information. To address this, we propose Mask-Enhanced
Autoregressive Prediction (MEAP), a simple yet effective training paradigm that
seamlessly integrates Masked Language Modeling (MLM) into Next-Token Prediction
(NTP) to enhance the latter's in-context retrieval capabilities. Specifically,
MEAP first randomly masks a small fraction of input tokens and then directly
performs the standard next-token prediction autoregressive using a decoder-only
Transformer. MEAP eliminates the need for bidirectional attention or
encoder-decoder architectures for MLM, incurring no additional computational
overhead during pre-training or inference. Intensive experiments demonstrate
that MEAP substantially outperforms NTP on key information retrieval and
long-context reasoning tasks, while performing on par or better on commonsense
reasoning tasks. The benefits of MEAP also extend to supervised fine-tuning,
where it shows remarkable advantages in lost-in-the-middle scenarios,
outperforming NTP by 11.77 percentage points. Our analysis indicates that
MEAP's effectiveness arises from its ability to promote more distinguishable
attention scores by concentrating on a reduced set of non-masked tokens. This
mechanism improves the model's focus on task-relevant signals while mitigating
the influence of peripheral context. These findings position MEAP as a
promising training paradigm for large language models.Summary
AI-Generated Summary