ChatPaper.aiChatPaper

UniPercept: Hacia una Comprensión Unificada de Imágenes a Nivel Perceptual en Estética, Calidad, Estructura y Textura

UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture

December 25, 2025
Autores: Shuo Cao, Jiayang Li, Xiaohui Li, Yuandong Pu, Kaiwen Zhu, Yuanting Gao, Siqi Luo, Yi Xin, Qi Qin, Yu Zhou, Xiangyu Chen, Wenlong Zhang, Bin Fu, Yu Qiao, Yihao Liu
cs.AI

Resumen

Los modelos de lenguaje multimodal (MLLM) han logrado un progreso notable en tareas de comprensión visual como la localización visual, la segmentación y la generación de descripciones. Sin embargo, su capacidad para percibir características de imagen a nivel perceptual sigue siendo limitada. En este trabajo, presentamos UniPercept-Bench, un marco unificado para la comprensión de imágenes a nivel perceptual en tres dominios clave: Estética, Calidad, Estructura y Textura. Establecemos un sistema de definición jerárquico y construimos conjuntos de datos a gran escala para evaluar la comprensión de imágenes a nivel perceptual. Sobre esta base, desarrollamos una base de referencia sólida, UniPercept, entrenada mediante Pre-entrenamiento Adaptativo al Dominio y RL Alineado con la Tarea, lo que permite una generalización robusta tanto en tareas de Valoración Visual (VR) como de Respuesta a Preguntas Visuales (VQA). UniPercept supera a los MLLM existentes en la comprensión de imágenes a nivel perceptual y puede servir como un modelo de recompensa plug-and-play para la generación de texto a imagen. Este trabajo define la Comprensión de Imágenes a Nivel Perceptual en la era de los MLLM y, mediante la introducción de un punto de referencia integral junto con una base sólida, proporciona una base sólida para avanzar en la comprensión multimodal de imágenes a nivel perceptual.
English
Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks such as visual grounding, segmentation, and captioning. However, their ability to perceive perceptual-level image features remains limited. In this work, we present UniPercept-Bench, a unified framework for perceptual-level image understanding across three key domains: Aesthetics, Quality, Structure and Texture. We establish a hierarchical definition system and construct large-scale datasets to evaluate perceptual-level image understanding. Based on this foundation, we develop a strong baseline UniPercept trained via Domain-Adaptive Pre-Training and Task-Aligned RL, enabling robust generalization across both Visual Rating (VR) and Visual Question Answering (VQA) tasks. UniPercept outperforms existing MLLMs on perceptual-level image understanding and can serve as a plug-and-play reward model for text-to-image generation. This work defines Perceptual-Level Image Understanding in the era of MLLMs and, through the introduction of a comprehensive benchmark together with a strong baseline, provides a solid foundation for advancing perceptual-level multimodal image understanding.
PDF192December 30, 2025