ChatPaper.aiChatPaper

UniPercept: 미학, 품질, 구조 및 텍스처에 걸친 통합 지각 수준 이미지 이해를 향하여

UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture

December 25, 2025
저자: Shuo Cao, Jiayang Li, Xiaohui Li, Yuandong Pu, Kaiwen Zhu, Yuanting Gao, Siqi Luo, Yi Xin, Qi Qin, Yu Zhou, Xiangyu Chen, Wenlong Zhang, Bin Fu, Yu Qiao, Yihao Liu
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)은 시각적 기반, 분할, 캡셔닝과 같은 시각 이해 작업에서 놀라운 진전을 이루었습니다. 그러나 지각 수준의 이미지 특징을 인식하는 능력은 여전히 제한적입니다. 본 연구에서는 미학, 품질, 구조 및 텍스처라는 세 가지 핵심 영역에 걸친 지각 수준 이미지 이해를 위한 통합 프레임워크인 UniPercept-Bench를 제시합니다. 우리는 계층적 정의 시스템을 구축하고 지각 수준 이미지 이해를 평가하기 위한 대규모 데이터셋을 구성했습니다. 이를 기반으로 Domain-Adaptive Pre-Training과 Task-Aligned RL을 통해 훈련된 강력한 베이스라인인 UniPercept를 개발하여 Visual Rating(VR)과 Visual Question Answering(VQA) 작업 모두에서 견고한 일반화 능력을 구현했습니다. UniPercept는 지각 수준 이미지 이해에서 기존 MLLM을 능가하며 텍스트-이미지 생성용 플러그 앤 플레이 보상 모델로 활용될 수 있습니다. 이 작업은 MLLM 시대의 지각 수준 이미지 이해를 정의하고, 포괄적인 벤치마크와 강력한 베이스라인을 도입함으로써 지각 수준 멀티모달 이미지 이해의 발전을 위한 견고한 기반을 마련합니다.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks such as visual grounding, segmentation, and captioning. However, their ability to perceive perceptual-level image features remains limited. In this work, we present UniPercept-Bench, a unified framework for perceptual-level image understanding across three key domains: Aesthetics, Quality, Structure and Texture. We establish a hierarchical definition system and construct large-scale datasets to evaluate perceptual-level image understanding. Based on this foundation, we develop a strong baseline UniPercept trained via Domain-Adaptive Pre-Training and Task-Aligned RL, enabling robust generalization across both Visual Rating (VR) and Visual Question Answering (VQA) tasks. UniPercept outperforms existing MLLMs on perceptual-level image understanding and can serve as a plug-and-play reward model for text-to-image generation. This work defines Perceptual-Level Image Understanding in the era of MLLMs and, through the introduction of a comprehensive benchmark together with a strong baseline, provides a solid foundation for advancing perceptual-level multimodal image understanding.
PDF192December 30, 2025