TroL: Doorlopen van Lagen voor Grote Taal- en Visuele Modellen

Samenvatting

Grote taal- en visuele modellen (LLVMs) zijn aangedreven door de generalisatiekracht van grote taalmmodellen (LLMs) en de opkomst van visuele instructieafstemming. Naast het direct opschalen van deze modellen, stellen ze LLVMs in staat om krachtige visuele taalprestaties (VL) te laten zien door middel van diverse taken via natuurlijke taal instructies. Echter, bestaande open-source LLVMs die vergelijkbaar presteren met gesloten-source LLVMs zoals GPT-4V, worden vaak als te groot beschouwd (bijv. 26B, 34B en 110B parameters), met een groter aantal lagen. Deze grote modellen vereisen kostbare, hoogwaardige bronnen voor zowel training als inferentie. Om dit probleem aan te pakken, presenteren we een nieuwe efficiënte LLVM-familie met 1.8B, 3.8B en 7B LLM-modelgroottes, Traversal of Layers (TroL), die het hergebruik van lagen op een token-gewijze manier mogelijk maakt. Deze laagdoorlooptechniek simuleert het effect van terugkijken en het herleiden van het antwoordproces, terwijl het aantal forward propagation lagen wordt vergroot zonder fysiek meer lagen toe te voegen. We tonen aan dat TroL een eenvoudige laagdoorloopbenadering gebruikt, maar toch efficiënt de open-source LLVMs met grotere modelgroottes overtreft en de prestaties van de gesloten-source LLVMs met aanzienlijke groottes evenaart.

English

Large language and vision models (LLVMs) have been driven by the generalization power of large language models (LLMs) and the advent of visual instruction tuning. Along with scaling them up directly, these models enable LLVMs to showcase powerful vision language (VL) performances by covering diverse tasks via natural language instructions. However, existing open-source LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often considered too large (e.g., 26B, 34B, and 110B parameters), having a larger number of layers. These large models demand costly, high-end resources for both training and inference. To address this issue, we present a new efficient LLVM family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL), which enables the reuse of layers in a token-wise manner. This layer traversing technique simulates the effect of looking back and retracing the answering stream while increasing the number of forward propagation layers without physically adding more layers. We demonstrate that TroL employs a simple layer traversing approach yet efficiently outperforms the open-source LLVMs with larger model sizes and rivals the performances of the closed-source LLVMs with substantial sizes.

TroL: Doorlopen van Lagen voor Grote Taal- en Visuele Modellen

TroL: Traversal of Layers for Large Language and Vision Models

Samenvatting

Support