Oryx MLLM: Comprensión Espacio-Temporal Bajo Demanda a Resolución Arbitraria
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
September 19, 2024
Autores: Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI
Resumen
Los datos visuales se presentan en diversas formas, desde pequeños iconos de solo unos pocos píxeles hasta largos videos que abarcan horas. Los LLMs multimodales existentes generalmente estandarizan estas diversas entradas visuales a una resolución fija para los codificadores visuales y producen números similares de tokens para los LLMs. Este enfoque no es óptimo para la comprensión multimodal y es ineficiente para procesar entradas con contenidos visuales largos y cortos. Para resolver el problema, proponemos Oryx, una arquitectura multimodal unificada para la comprensión espacio-temporal de imágenes, videos y escenas 3D de múltiples vistas. Oryx ofrece una solución a pedido para procesar de manera fluida y eficiente entradas visuales con tamaños espaciales y longitudes temporales arbitrarias a través de dos innovaciones principales: 1) un modelo pre-entrenado OryxViT que puede codificar imágenes a cualquier resolución en representaciones visuales amigables para LLMs; 2) un módulo compresor dinámico que admite compresión de 1x a 16x en tokens visuales a pedido. Estas características de diseño permiten que Oryx acomode contextos visuales extremadamente largos, como videos, con baja resolución y alta compresión, manteniendo una alta precisión de reconocimiento para tareas como la comprensión de documentos con resolución nativa y sin compresión. Más allá de las mejoras arquitectónicas, la mejora en la curación de datos y el entrenamiento especializado en recuperación de contextos largos y datos espaciales conscientes ayudan a Oryx a lograr capacidades sólidas en la comprensión multimodal de imágenes, videos y 3D simultáneamente. Nuestro trabajo está disponible en código abierto en https://github.com/Oryx-mllm/Oryx.
English
Visual data comes in various forms, ranging from small icons of just a few
pixels to long videos spanning hours. Existing multi-modal LLMs usually
standardize these diverse visual inputs to a fixed resolution for visual
encoders and yield similar numbers of tokens for LLMs. This approach is
non-optimal for multimodal understanding and inefficient for processing inputs
with long and short visual contents. To solve the problem, we propose Oryx, a
unified multimodal architecture for the spatial-temporal understanding of
images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to
seamlessly and efficiently process visual inputs with arbitrary spatial sizes
and temporal lengths through two core innovations: 1) a pre-trained OryxViT
model that can encode images at any resolution into LLM-friendly visual
representations; 2) a dynamic compressor module that supports 1x to 16x
compression on visual tokens by request. These design features enable Oryx to
accommodate extremely long visual contexts, such as videos, with lower
resolution and high compression while maintaining high recognition precision
for tasks like document understanding with native resolution and no
compression. Beyond the architectural improvements, enhanced data curation and
specialized training on long-context retrieval and spatial-aware data help Oryx
achieve strong capabilities in image, video, and 3D multimodal understanding
simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.Summary
AI-Generated Summary