ChatPaper.aiChatPaper

Grote Taalmodellen Leren Impliciet Zien en Horen Door Alleen Te Lezen

Large Language Models Implicitly Learn to See and Hear Just By Reading

May 20, 2025
Auteurs: Prateek Verma, Mert Pilanci
cs.AI

Samenvatting

Dit artikel presenteert een fascinerende ontdekking: door een auto-regressief LLM-model te trainen op tekst-tokens, ontwikkelt het tekstmodel van nature intern het vermogen om afbeeldingen en audio te begrijpen, waardoor het het vermogen ontwikkelt om te zien en te horen, simpelweg door te lezen. Populaire audio- en visuele LLM-modellen fine-tunen tekst-LLM-modellen om tekstuitvoer te genereren die is geconditioneerd op afbeeldingen en audio-embeddings. Aan de andere kant neemt onze architectuur patches van afbeeldingen, audiogolven of tokens als invoer. Het geeft ons de embeddings of categorielabels die typisch zijn voor een classificatiepijplijn. We tonen de algemeenheid van tekstgewichten aan bij het ondersteunen van audioclassificatie voor de datasets FSD-50K en GTZAN. Verder laten we zien dat dit werkt voor beeldclassificatie op CIFAR-10 en Fashion-MNIST, evenals op beeldpatches. Dit versterkt het idee dat tekst-LLM's krachtige interne circuits leren die kunnen worden benut door de nodige verbindingen te activeren voor verschillende toepassingen, in plaats van elke keer modellen vanaf nul te trainen.
English
This paper presents a fascinating find: By training an auto-regressive LLM model on text tokens, the text model inherently develops internally an ability to understand images and audio, thereby developing the ability to see and hear just by reading. Popular audio and visual LLM models fine-tune text LLM models to give text output conditioned on images and audio embeddings. On the other hand, our architecture takes in patches of images, audio waveforms or tokens as input. It gives us the embeddings or category labels typical of a classification pipeline. We show the generality of text weights in aiding audio classification for datasets FSD-50K and GTZAN. Further, we show this working for image classification on CIFAR-10 and Fashion-MNIST, as well on image patches. This pushes the notion of text-LLMs learning powerful internal circuits that can be utilized by activating necessary connections for various applications rather than training models from scratch every single time.
PDF53May 26, 2025