Oryx MLLM: 임의 해상도에서의 온디맨드 공간-시간 이해
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
September 19, 2024
저자: Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI
초록
시각 데이터는 몇 픽셀의 작은 아이콘부터 몇 시간에 걸친 긴 비디오까지 다양한 형태로 제공됩니다. 기존의 다중 모달 LLM은 일반적으로 시각 인코더를 위해 다양한 시각적 입력을 고정된 해상도로 표준화하고 LLM에 대해 유사한 토큰 수를 생성합니다. 이 접근 방식은 다중 모달 이해에 비효율적이며 긴 및 짧은 시각적 콘텐츠를 처리하는 데 비효율적입니다. 문제를 해결하기 위해 우리는 이미지, 비디오 및 다중 뷰 3D 장면의 공간-시간 이해를 위한 통합된 다중 모달 아키텍처인 Oryx를 제안합니다. Oryx는 임의의 공간 크기와 시간 길이를 가진 시각적 입력을 신속하고 효율적으로 처리하기 위한 온디맨드 솔루션을 제공합니다. 이를 위해 두 가지 핵심 혁신을 통해 가능합니다: 1) 이미지를 LLM 친화적 시각적 표현으로 인코딩할 수 있는 사전 훈련된 OryxViT 모델; 2) 시각적 토큰에 대한 1배에서 16배 압축을 지원하는 동적 압축 모듈. 이러한 설계 특징은 Oryx가 낮은 해상도 및 높은 압축으로 비디오와 같은 매우 긴 시각적 맥락을 수용하면서 원본 해상도 및 압축 없이 문서 이해와 같은 작업에 대한 높은 인식 정확도를 유지할 수 있도록 합니다. 아키텍처 개선을 넘어, 향상된 데이터 정리 및 긴 맥락 검색 및 공간 인식 데이터에 대한 전문 교육을 통해 Oryx는 이미지, 비디오 및 3D 다중 모달 이해에서 강력한 능력을 동시에 달성합니다. 저희의 작업은 https://github.com/Oryx-mllm/Oryx에서 오픈 소스로 제공됩니다.
English
Visual data comes in various forms, ranging from small icons of just a few
pixels to long videos spanning hours. Existing multi-modal LLMs usually
standardize these diverse visual inputs to a fixed resolution for visual
encoders and yield similar numbers of tokens for LLMs. This approach is
non-optimal for multimodal understanding and inefficient for processing inputs
with long and short visual contents. To solve the problem, we propose Oryx, a
unified multimodal architecture for the spatial-temporal understanding of
images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to
seamlessly and efficiently process visual inputs with arbitrary spatial sizes
and temporal lengths through two core innovations: 1) a pre-trained OryxViT
model that can encode images at any resolution into LLM-friendly visual
representations; 2) a dynamic compressor module that supports 1x to 16x
compression on visual tokens by request. These design features enable Oryx to
accommodate extremely long visual contexts, such as videos, with lower
resolution and high compression while maintaining high recognition precision
for tasks like document understanding with native resolution and no
compression. Beyond the architectural improvements, enhanced data curation and
specialized training on long-context retrieval and spatial-aware data help Oryx
achieve strong capabilities in image, video, and 3D multimodal understanding
simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.Summary
AI-Generated Summary