TroL: Travessia de Camadas para Modelos de Linguagem e Visão de Grande Escala
TroL: Traversal of Layers for Large Language and Vision Models
June 18, 2024
Autores: Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro
cs.AI
Resumo
Modelos grandes de linguagem e visão (LLVMs, na sigla em inglês) têm sido impulsionados pelo poder de generalização dos modelos grandes de linguagem (LLMs) e pelo surgimento do ajuste fino por instruções visuais. Além de escaloná-los diretamente, esses modelos permitem que os LLVMs demonstrem desempenhos poderosos em tarefas de linguagem visual (VL) ao cobrir diversas tarefas por meio de instruções em linguagem natural. No entanto, os LLVMs de código aberto existentes que têm desempenho comparável aos LLVMs de código fechado, como o GPT-4V, são frequentemente considerados muito grandes (por exemplo, com 26B, 34B e 110B de parâmetros), possuindo um número maior de camadas. Esses modelos grandes demandam recursos de alto custo e alta performance tanto para treinamento quanto para inferência. Para abordar esse problema, apresentamos uma nova família eficiente de LLVMs com tamanhos de modelo LLM de 1,8B, 3,8B e 7B, chamada Traversal of Layers (TroL), que permite a reutilização de camadas de maneira token-wise. Essa técnica de travessia de camadas simula o efeito de revisitar e retraçar o fluxo de respostas, aumentando o número de camadas de propagação direta sem adicionar fisicamente mais camadas. Demonstramos que o TroL emprega uma abordagem simples de travessia de camadas, mas supera eficientemente os LLVMs de código aberto com tamanhos de modelo maiores e rivaliza com os desempenhos dos LLVMs de código fechado de tamanhos substanciais.
English
Large language and vision models (LLVMs) have been driven by the
generalization power of large language models (LLMs) and the advent of visual
instruction tuning. Along with scaling them up directly, these models enable
LLVMs to showcase powerful vision language (VL) performances by covering
diverse tasks via natural language instructions. However, existing open-source
LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often
considered too large (e.g., 26B, 34B, and 110B parameters), having a larger
number of layers. These large models demand costly, high-end resources for both
training and inference. To address this issue, we present a new efficient LLVM
family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL),
which enables the reuse of layers in a token-wise manner. This layer traversing
technique simulates the effect of looking back and retracing the answering
stream while increasing the number of forward propagation layers without
physically adding more layers. We demonstrate that TroL employs a simple layer
traversing approach yet efficiently outperforms the open-source LLVMs with
larger model sizes and rivals the performances of the closed-source LLVMs with
substantial sizes.