ChatPaper.aiChatPaper

Los modelos de lenguaje a gran escala aprenden implícitamente a ver y escuchar simplemente leyendo.

Large Language Models Implicitly Learn to See and Hear Just By Reading

May 20, 2025
Autores: Prateek Verma, Mert Pilanci
cs.AI

Resumen

Este artículo presenta un hallazgo fascinante: al entrenar un modelo de lenguaje auto-regresivo (LLM) con tokens de texto, el modelo de texto desarrolla inherentemente una capacidad interna para comprender imágenes y audio, adquiriendo así la habilidad de ver y escuchar simplemente leyendo. Los modelos populares de LLM para audio y visión ajustan modelos de texto LLM para generar salidas de texto condicionadas por incrustaciones (embeddings) de imágenes y audio. Por otro lado, nuestra arquitectura toma como entrada fragmentos de imágenes, formas de onda de audio o tokens, y produce incrustaciones o etiquetas de categoría típicas de una pipeline de clasificación. Demostramos la generalidad de los pesos de texto para ayudar en la clasificación de audio en los conjuntos de datos FSD-50K y GTZAN. Además, mostramos que esto funciona para la clasificación de imágenes en CIFAR-10 y Fashion-MNIST, así como en fragmentos de imágenes. Esto refuerza la noción de que los LLM de texto aprenden circuitos internos potentes que pueden ser utilizados activando las conexiones necesarias para diversas aplicaciones, en lugar de entrenar modelos desde cero cada vez.
English
This paper presents a fascinating find: By training an auto-regressive LLM model on text tokens, the text model inherently develops internally an ability to understand images and audio, thereby developing the ability to see and hear just by reading. Popular audio and visual LLM models fine-tune text LLM models to give text output conditioned on images and audio embeddings. On the other hand, our architecture takes in patches of images, audio waveforms or tokens as input. It gives us the embeddings or category labels typical of a classification pipeline. We show the generality of text weights in aiding audio classification for datasets FSD-50K and GTZAN. Further, we show this working for image classification on CIFAR-10 and Fashion-MNIST, as well on image patches. This pushes the notion of text-LLMs learning powerful internal circuits that can be utilized by activating necessary connections for various applications rather than training models from scratch every single time.

Summary

AI-Generated Summary

PDF53May 26, 2025