TroL: Travesía de Capas para Modelos de Lenguaje y Visión de Gran Escala

Resumen

Los modelos grandes de lenguaje y visión (LLVMs, por sus siglas en inglés) han sido impulsados por el poder de generalización de los modelos grandes de lenguaje (LLMs) y el surgimiento del ajuste fino mediante instrucciones visuales. Junto con su escalamiento directo, estos modelos permiten que los LLVMs demuestren un potente rendimiento en tareas de lenguaje y visión (VL) al abordar diversas tareas mediante instrucciones en lenguaje natural. Sin embargo, los LLVMs de código abierto existentes que tienen un rendimiento comparable a los LLVMs de código cerrado, como GPT-4V, suelen considerarse demasiado grandes (por ejemplo, con 26B, 34B y 110B parámetros), ya que poseen un mayor número de capas. Estos modelos grandes requieren recursos costosos y de alta gama tanto para el entrenamiento como para la inferencia. Para abordar este problema, presentamos una nueva familia eficiente de LLVMs con tamaños de modelo LLM de 1.8B, 3.8B y 7B, denominada Traversal of Layers (TroL), que permite la reutilización de capas de manera token-wise. Esta técnica de recorrido de capas simula el efecto de mirar hacia atrás y retrazar el flujo de respuestas, aumentando el número de capas de propagación hacia adelante sin agregar físicamente más capas. Demostramos que TroL emplea un enfoque simple de recorrido de capas, pero supera eficientemente a los LLVMs de código abierto con tamaños de modelo más grandes y rivaliza con el rendimiento de los LLVMs de código cerrado de tamaños sustanciales.

English

Large language and vision models (LLVMs) have been driven by the generalization power of large language models (LLMs) and the advent of visual instruction tuning. Along with scaling them up directly, these models enable LLVMs to showcase powerful vision language (VL) performances by covering diverse tasks via natural language instructions. However, existing open-source LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often considered too large (e.g., 26B, 34B, and 110B parameters), having a larger number of layers. These large models demand costly, high-end resources for both training and inference. To address this issue, we present a new efficient LLVM family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL), which enables the reuse of layers in a token-wise manner. This layer traversing technique simulates the effect of looking back and retracing the answering stream while increasing the number of forward propagation layers without physically adding more layers. We demonstrate that TroL employs a simple layer traversing approach yet efficiently outperforms the open-source LLVMs with larger model sizes and rivals the performances of the closed-source LLVMs with substantial sizes.

TroL: Travesía de Capas para Modelos de Lenguaje y Visión de Gran Escala

TroL: Traversal of Layers for Large Language and Vision Models

Resumen

Support