Mundo de Píxeles: Hacia la Percepción de Todo como Píxeles
PixelWorld: Towards Perceiving Everything as Pixels
January 31, 2025
Autores: Zhiheng Lyu, Xueguang Ma, Wenhu Chen
cs.AI
Resumen
Los modelos base existentes suelen procesar la entrada visual como píxeles y la entrada textual como tokens, un paradigma que contrasta con la percepción humana, donde ambas modalidades se procesan de manera unificada. Con el surgimiento de la IA encarnada y agente, donde las entradas provienen principalmente de píxeles de cámara, la necesidad de un marco de percepción unificado se hace cada vez más evidente. En este documento, proponemos unificar todas las modalidades (texto, tablas, código, diagramas, imágenes, etc.) como entradas de píxeles, es decir, "Percepción de Todo como Píxeles" (PEAP). Presentamos PixelWorld, una nueva suite de evaluación que unifica todas las modalidades mencionadas en el espacio de píxeles para medir el rendimiento de los modelos existentes. Nuestros hallazgos muestran que (1) PEAP supera la línea base con entrada basada en tokens en conjuntos de datos multimodales, beneficiándose de una entrada unificada para una mejor desambiguación, (2) declives significativos en las capacidades de razonamiento y codificación en todos los modelos al procesar entradas basadas en píxeles, subrayando la necesidad de mejorar las habilidades perceptivas de los modelos base, (3) los modelos más grandes pueden mantener un rendimiento sólido en tareas no de razonamiento bajo PEAP, mientras que modelos más pequeños como Phi-3.5-V sufren una degradación significativa del rendimiento, (4) el patrón de atención de PEAP está altamente alineado con la entrada de tokens de texto, (5) PEAP puede acelerarse significativamente explotando la dispersión espacial. Concluimos que los modelos fronterizos existentes son competentes en la percepción de píxeles, sin embargo, aún queda margen para mejorar. Nuestro código y conjunto de datos se publicarán una vez aceptados.
English
Existing foundation models typically process visual input as pixels and
textual input as tokens, a paradigm that contrasts with human perception, where
both modalities are processed in a unified manner. With the rise of embodied
and agentic AI, where inputs primarily come from camera pixels, the need for a
unified perception framework becomes increasingly evident. In this paper, we
propose to unify all modalities (text, tables, code, diagrams, images, etc) as
pixel inputs, i.e. "Perceive Everything as Pixels" (PEAP). We introduce
PixelWorld, a novel evaluation suite that unifies all the mentioned modalities
into pixel space to gauge the existing models' performance. Our findings show
that (1) PEAP outperforms baseline with token-based input in multimodal
datasets, benefiting from unified input for better disambiguation, (2)
significant declines in reasoning and coding capabilities across all models
when processing pixel-based input, underscoring the need to enhance foundation
models' perceptual abilities, (3) larger models can maintain strong performance
on non-reasoning tasks under PEAP, while smaller models like Phi-3.5-V suffer
significant performance degradation, (4) the attention pattern of PEAP is
highly aligned with text token input, (5) PEAP can be accelerated significantly
by exploiting the spatial sparsity. We conclude that the existing frontier
models are competent in pixel perception, however, there is still headroom for
improvement. Our code, dataset will be released upon acceptance.Summary
AI-Generated Summary