ChatPaper.aiChatPaper

Oryx MLLM: 임의 해상도에서의 온디맨드 공간-시간 이해

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

September 19, 2024
저자: Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI

초록

시각 데이터는 몇 픽셀의 작은 아이콘부터 몇 시간에 걸친 긴 비디오까지 다양한 형태로 제공됩니다. 기존의 다중 모달 LLM은 일반적으로 시각 인코더를 위해 다양한 시각적 입력을 고정된 해상도로 표준화하고 LLM에 대해 유사한 토큰 수를 생성합니다. 이 접근 방식은 다중 모달 이해에 비효율적이며 긴 및 짧은 시각적 콘텐츠를 처리하는 데 비효율적입니다. 문제를 해결하기 위해 우리는 이미지, 비디오 및 다중 뷰 3D 장면의 공간-시간 이해를 위한 통합된 다중 모달 아키텍처인 Oryx를 제안합니다. Oryx는 임의의 공간 크기와 시간 길이를 가진 시각적 입력을 신속하고 효율적으로 처리하기 위한 온디맨드 솔루션을 제공합니다. 이를 위해 두 가지 핵심 혁신을 통해 가능합니다: 1) 이미지를 LLM 친화적 시각적 표현으로 인코딩할 수 있는 사전 훈련된 OryxViT 모델; 2) 시각적 토큰에 대한 1배에서 16배 압축을 지원하는 동적 압축 모듈. 이러한 설계 특징은 Oryx가 낮은 해상도 및 높은 압축으로 비디오와 같은 매우 긴 시각적 맥락을 수용하면서 원본 해상도 및 압축 없이 문서 이해와 같은 작업에 대한 높은 인식 정확도를 유지할 수 있도록 합니다. 아키텍처 개선을 넘어, 향상된 데이터 정리 및 긴 맥락 검색 및 공간 인식 데이터에 대한 전문 교육을 통해 Oryx는 이미지, 비디오 및 3D 다중 모달 이해에서 강력한 능력을 동시에 달성합니다. 저희의 작업은 https://github.com/Oryx-mllm/Oryx에서 오픈 소스로 제공됩니다.
English
Visual data comes in various forms, ranging from small icons of just a few pixels to long videos spanning hours. Existing multi-modal LLMs usually standardize these diverse visual inputs to a fixed resolution for visual encoders and yield similar numbers of tokens for LLMs. This approach is non-optimal for multimodal understanding and inefficient for processing inputs with long and short visual contents. To solve the problem, we propose Oryx, a unified multimodal architecture for the spatial-temporal understanding of images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to seamlessly and efficiently process visual inputs with arbitrary spatial sizes and temporal lengths through two core innovations: 1) a pre-trained OryxViT model that can encode images at any resolution into LLM-friendly visual representations; 2) a dynamic compressor module that supports 1x to 16x compression on visual tokens by request. These design features enable Oryx to accommodate extremely long visual contexts, such as videos, with lower resolution and high compression while maintaining high recognition precision for tasks like document understanding with native resolution and no compression. Beyond the architectural improvements, enhanced data curation and specialized training on long-context retrieval and spatial-aware data help Oryx achieve strong capabilities in image, video, and 3D multimodal understanding simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.

Summary

AI-Generated Summary

PDF262November 16, 2024