Les grands modèles de langage apprennent implicitement à voir et à entendre simplement en lisant.

papers.abstract

Cet article présente une découverte fascinante : en entraînant un modèle LLM auto-régressif sur des tokens de texte, le modèle de texte développe intrinsèquement une capacité interne à comprendre les images et l'audio, acquérant ainsi la faculté de voir et d'entendre simplement en lisant. Les modèles LLM audio et visuels populaires affinent des modèles LLM de texte pour produire des sorties textuelles conditionnées par des embeddings d'images et d'audio. En revanche, notre architecture prend en entrée des patches d'images, des formes d'onde audio ou des tokens. Elle génère des embeddings ou des étiquettes de catégorie typiques d'un pipeline de classification. Nous démontrons la généralité des poids de texte pour faciliter la classification audio sur les ensembles de données FSD-50K et GTZAN. De plus, nous montrons que cela fonctionne pour la classification d'images sur CIFAR-10 et Fashion-MNIST, ainsi que sur des patches d'images. Cela renforce l'idée que les LLM de texte apprennent des circuits internes puissants qui peuvent être exploités en activant les connexions nécessaires pour diverses applications, plutôt que d'entraîner des modèles à partir de zéro à chaque fois.

English

This paper presents a fascinating find: By training an auto-regressive LLM model on text tokens, the text model inherently develops internally an ability to understand images and audio, thereby developing the ability to see and hear just by reading. Popular audio and visual LLM models fine-tune text LLM models to give text output conditioned on images and audio embeddings. On the other hand, our architecture takes in patches of images, audio waveforms or tokens as input. It gives us the embeddings or category labels typical of a classification pipeline. We show the generality of text weights in aiding audio classification for datasets FSD-50K and GTZAN. Further, we show this working for image classification on CIFAR-10 and Fashion-MNIST, as well on image patches. This pushes the notion of text-LLMs learning powerful internal circuits that can be utilized by activating necessary connections for various applications rather than training models from scratch every single time.

Les grands modèles de langage apprennent implicitement à voir et à entendre simplement en lisant.

Large Language Models Implicitly Learn to See and Hear Just By Reading

papers.abstract

Support