Fantasma Latente para Modelos de Linguagem e Visão de Grande Escala
Phantom of Latent for Large Language and Vision Models
September 23, 2024
Autores: Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro
cs.AI
Resumo
O sucesso do ajuste de instrução visual acelerou o desenvolvimento de grandes modelos de linguagem e visão (LLVMs). Seguindo as leis de escalonamento dos grandes modelos de linguagem ajustados por instrução (LLMs), os LLVMs aumentaram ainda mais seus tamanhos, atingindo 26B, 34B e até 80B parâmetros. Embora esse aumento no tamanho do modelo tenha proporcionado ganhos significativos de desempenho, exige substancialmente mais recursos de hardware tanto para treinamento quanto para inferência. Consequentemente, naturalmente existe uma forte necessidade de LLVMs eficientes que alcancem o desempenho de modelos maiores sendo menores em tamanho. Para atender a essa necessidade, apresentamos uma nova família eficiente de LLVMs com tamanhos de modelo de 0,5B, 1,8B, 3,8B e 7B parâmetros, Phantom, que melhora significativamente as capacidades de aprendizado dentro de estruturas limitadas. Ao aumentar temporariamente a dimensão oculta latente durante a autoatenção multi-cabeça (MHSA), fazemos com que os LLVMs se preparem para visualizar e compreender muito mais conhecimento de visão e linguagem no latente, sem aumentar substancialmente os tamanhos físicos dos modelos. Para maximizar sua vantagem, introduzimos a Otimização Phantom (PO) usando tanto o ajuste fino supervisionado autoregressivo (SFT) quanto um conceito semelhante à otimização de preferência direta (DPO), que segue efetivamente respostas corretas enquanto elimina as incorretas e ambíguas. Phantom supera inúmeros LLVMs maiores de código aberto e fechado, posicionando-se como uma solução líder no cenário de LLVMs eficientes.
English
The success of visual instruction tuning has accelerated the development of
large language and vision models (LLVMs). Following the scaling laws of
instruction-tuned large language models (LLMs), LLVMs either have further
increased their sizes, reaching 26B, 34B, and even 80B parameters. While this
increase in model size has yielded significant performance gains, it demands
substantially more hardware resources for both training and inference.
Consequently, there naturally exists a strong need for efficient LLVMs that
achieve the performance of larger models while being smaller in size. To
achieve this need, we present a new efficient LLVM family with model sizes of
0.5B, 1.8B, 3.8B, and 7B parameters, Phantom, which significantly enhances
learning capabilities within limited structures. By temporarily increasing the
latent hidden dimension during multi-head self-attention (MHSA), we make LLVMs
prepare to look and understand much more vision-language knowledge on the
latent, without substantially increasing physical model sizes. To maximize its
advantage, we introduce Phantom Optimization (PO) using both autoregressive
supervised fine-tuning (SFT) and direct preference optimization (DPO)-like
concept, which effectively follows correct answers while eliminating incorrect
and ambiguous ones. Phantom outperforms numerous larger open- and closed-source
LLVMs, positioning itself as a leading solution in the landscape of efficient
LLVMs.