TroL: Travessia de Camadas para Modelos de Linguagem e Visão de Grande Escala

Resumo

Modelos grandes de linguagem e visão (LLVMs, na sigla em inglês) têm sido impulsionados pelo poder de generalização dos modelos grandes de linguagem (LLMs) e pelo surgimento do ajuste fino por instruções visuais. Além de escaloná-los diretamente, esses modelos permitem que os LLVMs demonstrem desempenhos poderosos em tarefas de linguagem visual (VL) ao cobrir diversas tarefas por meio de instruções em linguagem natural. No entanto, os LLVMs de código aberto existentes que têm desempenho comparável aos LLVMs de código fechado, como o GPT-4V, são frequentemente considerados muito grandes (por exemplo, com 26B, 34B e 110B de parâmetros), possuindo um número maior de camadas. Esses modelos grandes demandam recursos de alto custo e alta performance tanto para treinamento quanto para inferência. Para abordar esse problema, apresentamos uma nova família eficiente de LLVMs com tamanhos de modelo LLM de 1,8B, 3,8B e 7B, chamada Traversal of Layers (TroL), que permite a reutilização de camadas de maneira token-wise. Essa técnica de travessia de camadas simula o efeito de revisitar e retraçar o fluxo de respostas, aumentando o número de camadas de propagação direta sem adicionar fisicamente mais camadas. Demonstramos que o TroL emprega uma abordagem simples de travessia de camadas, mas supera eficientemente os LLVMs de código aberto com tamanhos de modelo maiores e rivaliza com os desempenhos dos LLVMs de código fechado de tamanhos substanciais.

English

Large language and vision models (LLVMs) have been driven by the generalization power of large language models (LLMs) and the advent of visual instruction tuning. Along with scaling them up directly, these models enable LLVMs to showcase powerful vision language (VL) performances by covering diverse tasks via natural language instructions. However, existing open-source LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often considered too large (e.g., 26B, 34B, and 110B parameters), having a larger number of layers. These large models demand costly, high-end resources for both training and inference. To address this issue, we present a new efficient LLVM family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL), which enables the reuse of layers in a token-wise manner. This layer traversing technique simulates the effect of looking back and retracing the answering stream while increasing the number of forward propagation layers without physically adding more layers. We demonstrate that TroL employs a simple layer traversing approach yet efficiently outperforms the open-source LLVMs with larger model sizes and rivals the performances of the closed-source LLVMs with substantial sizes.

TroL: Travessia de Camadas para Modelos de Linguagem e Visão de Grande Escala

TroL: Traversal of Layers for Large Language and Vision Models

Resumo

Support