Призрак скрытого пространства для больших моделей языка и зрения
Phantom of Latent for Large Language and Vision Models
September 23, 2024
Авторы: Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro
cs.AI
Аннотация
Успех настройки визуальных инструкций ускорил развитие крупных моделей языка и зрения (LLVM). Следуя законам масштабирования крупных моделей языка, настроенных на инструкции (LLM), LLVM либо увеличили свои размеры, достигая 26 млрд, 34 млрд и даже 80 млрд параметров. Хотя увеличение размера модели привело к значительному повышению производительности, это требует значительно больше аппаратных ресурсов как для обучения, так и для вывода. Следовательно, существует сильная потребность в эффективных LLVM, которые достигают производительности более крупных моделей, при этом имея меньший размер. Для удовлетворения этой потребности мы представляем новое семейство эффективных LLVM с размерами моделей 0,5 млрд, 1,8 млрд, 3,8 млрд и 7 млрд параметров, Phantom, которое значительно улучшает возможности обучения в рамках ограниченных структур. Увеличивая временно скрытое измерение во время многоголового самовнимания (MHSA), мы заставляем LLVM готовиться к более глубокому пониманию знаний о визуально-языковой информации в скрытом режиме, не существенно увеличивая физический размер модели. Для максимизации преимущества мы представляем Оптимизацию Phantom (PO), используя как авторегрессивное обучение с учителем (SFT), так и концепцию оптимизации предпочтений наподобие DPO, которая эффективно следует за правильными ответами, устраняя неверные и двусмысленные. Phantom превосходит множество более крупных открытых и закрытых исходных кодов LLVM, занимая лидирующее положение в области эффективных LLVM.
English
The success of visual instruction tuning has accelerated the development of
large language and vision models (LLVMs). Following the scaling laws of
instruction-tuned large language models (LLMs), LLVMs either have further
increased their sizes, reaching 26B, 34B, and even 80B parameters. While this
increase in model size has yielded significant performance gains, it demands
substantially more hardware resources for both training and inference.
Consequently, there naturally exists a strong need for efficient LLVMs that
achieve the performance of larger models while being smaller in size. To
achieve this need, we present a new efficient LLVM family with model sizes of
0.5B, 1.8B, 3.8B, and 7B parameters, Phantom, which significantly enhances
learning capabilities within limited structures. By temporarily increasing the
latent hidden dimension during multi-head self-attention (MHSA), we make LLVMs
prepare to look and understand much more vision-language knowledge on the
latent, without substantially increasing physical model sizes. To maximize its
advantage, we introduce Phantom Optimization (PO) using both autoregressive
supervised fine-tuning (SFT) and direct preference optimization (DPO)-like
concept, which effectively follows correct answers while eliminating incorrect
and ambiguous ones. Phantom outperforms numerous larger open- and closed-source
LLVMs, positioning itself as a leading solution in the landscape of efficient
LLVMs.Summary
AI-Generated Summary