Les grands modèles de langage apprennent implicitement à voir et à entendre simplement en lisant.
Large Language Models Implicitly Learn to See and Hear Just By Reading
May 20, 2025
Auteurs: Prateek Verma, Mert Pilanci
cs.AI
Résumé
Cet article présente une découverte fascinante : en entraînant un modèle LLM auto-régressif sur des tokens de texte, le modèle de texte développe intrinsèquement une capacité interne à comprendre les images et l'audio, acquérant ainsi la faculté de voir et d'entendre simplement en lisant. Les modèles LLM audio et visuels populaires affinent des modèles LLM de texte pour produire des sorties textuelles conditionnées par des embeddings d'images et d'audio. En revanche, notre architecture prend en entrée des patches d'images, des formes d'onde audio ou des tokens. Elle génère des embeddings ou des étiquettes de catégorie typiques d'un pipeline de classification. Nous démontrons la généralité des poids de texte pour faciliter la classification audio sur les ensembles de données FSD-50K et GTZAN. De plus, nous montrons que cela fonctionne pour la classification d'images sur CIFAR-10 et Fashion-MNIST, ainsi que sur des patches d'images. Cela renforce l'idée que les LLM de texte apprennent des circuits internes puissants qui peuvent être exploités en activant les connexions nécessaires pour diverses applications, plutôt que d'entraîner des modèles à partir de zéro à chaque fois.
English
This paper presents a fascinating find: By training an auto-regressive LLM
model on text tokens, the text model inherently develops internally an ability
to understand images and audio, thereby developing the ability to see and hear
just by reading. Popular audio and visual LLM models fine-tune text LLM models
to give text output conditioned on images and audio embeddings. On the other
hand, our architecture takes in patches of images, audio waveforms or tokens as
input. It gives us the embeddings or category labels typical of a
classification pipeline. We show the generality of text weights in aiding audio
classification for datasets FSD-50K and GTZAN. Further, we show this working
for image classification on CIFAR-10 and Fashion-MNIST, as well on image
patches. This pushes the notion of text-LLMs learning powerful internal
circuits that can be utilized by activating necessary connections for various
applications rather than training models from scratch every single time.Summary
AI-Generated Summary