TroL: Travesía de Capas para Modelos de Lenguaje y Visión de Gran Escala
TroL: Traversal of Layers for Large Language and Vision Models
June 18, 2024
Autores: Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro
cs.AI
Resumen
Los modelos grandes de lenguaje y visión (LLVMs, por sus siglas en inglés) han sido impulsados por el poder de generalización de los modelos grandes de lenguaje (LLMs) y el surgimiento del ajuste fino mediante instrucciones visuales. Junto con su escalamiento directo, estos modelos permiten que los LLVMs demuestren un potente rendimiento en tareas de lenguaje y visión (VL) al abordar diversas tareas mediante instrucciones en lenguaje natural. Sin embargo, los LLVMs de código abierto existentes que tienen un rendimiento comparable a los LLVMs de código cerrado, como GPT-4V, suelen considerarse demasiado grandes (por ejemplo, con 26B, 34B y 110B parámetros), ya que poseen un mayor número de capas. Estos modelos grandes requieren recursos costosos y de alta gama tanto para el entrenamiento como para la inferencia. Para abordar este problema, presentamos una nueva familia eficiente de LLVMs con tamaños de modelo LLM de 1.8B, 3.8B y 7B, denominada Traversal of Layers (TroL), que permite la reutilización de capas de manera token-wise. Esta técnica de recorrido de capas simula el efecto de mirar hacia atrás y retrazar el flujo de respuestas, aumentando el número de capas de propagación hacia adelante sin agregar físicamente más capas. Demostramos que TroL emplea un enfoque simple de recorrido de capas, pero supera eficientemente a los LLVMs de código abierto con tamaños de modelo más grandes y rivaliza con el rendimiento de los LLVMs de código cerrado de tamaños sustanciales.
English
Large language and vision models (LLVMs) have been driven by the
generalization power of large language models (LLMs) and the advent of visual
instruction tuning. Along with scaling them up directly, these models enable
LLVMs to showcase powerful vision language (VL) performances by covering
diverse tasks via natural language instructions. However, existing open-source
LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often
considered too large (e.g., 26B, 34B, and 110B parameters), having a larger
number of layers. These large models demand costly, high-end resources for both
training and inference. To address this issue, we present a new efficient LLVM
family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL),
which enables the reuse of layers in a token-wise manner. This layer traversing
technique simulates the effect of looking back and retracing the answering
stream while increasing the number of forward propagation layers without
physically adding more layers. We demonstrate that TroL employs a simple layer
traversing approach yet efficiently outperforms the open-source LLVMs with
larger model sizes and rivals the performances of the closed-source LLVMs with
substantial sizes.Summary
AI-Generated Summary