TroL: Traversieren von Schichten für große Sprach- und Bildmodelle

papers.abstract

Große Sprach- und Bildmodelle (LLVMs) wurden durch die Generalisierungskraft großer Sprachmodelle (LLMs) und das Aufkommen der visuellen Anleitungsoptimierung vorangetrieben. Neben der direkten Skalierung ermöglichen diese Modelle LLVMs, leistungsstarke Visionssprach-Performances zu präsentieren, indem sie verschiedene Aufgaben über natürlichsprachliche Anweisungen abdecken. Allerdings gelten bestehende Open-Source-LLVMs, die vergleichbar mit Closed-Source-LLVMs wie GPT-4V abschneiden, oft als zu groß (z. B. 26 Mrd., 34 Mrd. und 110 Mrd. Parameter) und haben eine größere Anzahl von Schichten. Diese großen Modelle erfordern teure, leistungsstarke Ressourcen sowohl für das Training als auch für die Inferenz. Um dieses Problem anzugehen, präsentieren wir eine neue effiziente LLVM-Familie mit den Größen von 1,8 Mrd., 3,8 Mrd. und 7 Mrd. LLM-Modellen, Traversal of Layers (TroL), die es ermöglicht, Schichten auf tokenweiser Ebene wiederzuverwenden. Diese Schichttraversierungstechnik simuliert den Effekt des Zurückblickens und Nachverfolgens des Antwortstroms, während die Anzahl der Vorwärtspropagationsschichten erhöht wird, ohne physisch mehr Schichten hinzuzufügen. Wir zeigen, dass TroL einen einfachen Schichttraversierungsansatz verwendet, der jedoch effizient Open-Source-LLVMs mit größeren Modellgrößen übertrifft und die Leistungen der Closed-Source-LLVMs mit erheblichen Größen erreicht.

English

Large language and vision models (LLVMs) have been driven by the generalization power of large language models (LLMs) and the advent of visual instruction tuning. Along with scaling them up directly, these models enable LLVMs to showcase powerful vision language (VL) performances by covering diverse tasks via natural language instructions. However, existing open-source LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often considered too large (e.g., 26B, 34B, and 110B parameters), having a larger number of layers. These large models demand costly, high-end resources for both training and inference. To address this issue, we present a new efficient LLVM family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL), which enables the reuse of layers in a token-wise manner. This layer traversing technique simulates the effect of looking back and retracing the answering stream while increasing the number of forward propagation layers without physically adding more layers. We demonstrate that TroL employs a simple layer traversing approach yet efficiently outperforms the open-source LLVMs with larger model sizes and rivals the performances of the closed-source LLVMs with substantial sizes.

TroL: Traversieren von Schichten für große Sprach- und Bildmodelle

TroL: Traversal of Layers for Large Language and Vision Models

papers.abstract

Support