Los modelos de lenguaje a gran escala aprenden implícitamente a ver y escuchar simplemente leyendo.
Large Language Models Implicitly Learn to See and Hear Just By Reading
May 20, 2025
Autores: Prateek Verma, Mert Pilanci
cs.AI
Resumen
Este artículo presenta un hallazgo fascinante: al entrenar un modelo de lenguaje auto-regresivo (LLM) con tokens de texto, el modelo de texto desarrolla inherentemente una capacidad interna para comprender imágenes y audio, adquiriendo así la habilidad de ver y escuchar simplemente leyendo. Los modelos populares de LLM para audio y visión ajustan modelos de texto LLM para generar salidas de texto condicionadas por incrustaciones (embeddings) de imágenes y audio. Por otro lado, nuestra arquitectura toma como entrada fragmentos de imágenes, formas de onda de audio o tokens, y produce incrustaciones o etiquetas de categoría típicas de una pipeline de clasificación. Demostramos la generalidad de los pesos de texto para ayudar en la clasificación de audio en los conjuntos de datos FSD-50K y GTZAN. Además, mostramos que esto funciona para la clasificación de imágenes en CIFAR-10 y Fashion-MNIST, así como en fragmentos de imágenes. Esto refuerza la noción de que los LLM de texto aprenden circuitos internos potentes que pueden ser utilizados activando las conexiones necesarias para diversas aplicaciones, en lugar de entrenar modelos desde cero cada vez.
English
This paper presents a fascinating find: By training an auto-regressive LLM
model on text tokens, the text model inherently develops internally an ability
to understand images and audio, thereby developing the ability to see and hear
just by reading. Popular audio and visual LLM models fine-tune text LLM models
to give text output conditioned on images and audio embeddings. On the other
hand, our architecture takes in patches of images, audio waveforms or tokens as
input. It gives us the embeddings or category labels typical of a
classification pipeline. We show the generality of text weights in aiding audio
classification for datasets FSD-50K and GTZAN. Further, we show this working
for image classification on CIFAR-10 and Fashion-MNIST, as well on image
patches. This pushes the notion of text-LLMs learning powerful internal
circuits that can be utilized by activating necessary connections for various
applications rather than training models from scratch every single time.Summary
AI-Generated Summary