UniPercept: Rumo a uma Compreensão Unificada de Imagem a Nível Perceptual em Estética, Qualidade, Estrutura e Textura

Resumo

Os modelos de linguagem multimodal (MLLMs) alcançaram progressos notáveis em tarefas de compreensão visual, como localização visual, segmentação e legendagem. No entanto, sua capacidade de perceber características de imagem a nível perceptual permanece limitada. Neste trabalho, apresentamos o UniPercept-Bench, um framework unificado para compreensão de imagem a nível perceptual em três domínios-chave: Estética, Qualidade, Estrutura e Textura. Estabelecemos um sistema de definição hierárquica e construímos conjuntos de dados em larga escala para avaliar a compreensão de imagem a nível perceptual. Com base nessa fundação, desenvolvemos uma linha de base robusta, o UniPercept, treinado através de Pré-treinamento Adaptativo ao Domínio e RL Alinhado à Tarefa, permitindo generalização robusta em tarefas de Classificação Visual (VR) e Resposta a Perguntas Visuais (VQA). O UniPercept supera os MLLMs existentes na compreensão de imagem a nível perceptual e pode servir como um modelo de recompensa plug-and-play para geração de texto para imagem. Este trabalho define a Compreensão de Imagem a Nível Perceptual na era dos MLLMs e, através da introdução de um benchmark abrangente juntamente com uma linha de base robusta, fornece uma base sólida para avançar a compreensão multimodal de imagem a nível perceptual.

English

Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks such as visual grounding, segmentation, and captioning. However, their ability to perceive perceptual-level image features remains limited. In this work, we present UniPercept-Bench, a unified framework for perceptual-level image understanding across three key domains: Aesthetics, Quality, Structure and Texture. We establish a hierarchical definition system and construct large-scale datasets to evaluate perceptual-level image understanding. Based on this foundation, we develop a strong baseline UniPercept trained via Domain-Adaptive Pre-Training and Task-Aligned RL, enabling robust generalization across both Visual Rating (VR) and Visual Question Answering (VQA) tasks. UniPercept outperforms existing MLLMs on perceptual-level image understanding and can serve as a plug-and-play reward model for text-to-image generation. This work defines Perceptual-Level Image Understanding in the era of MLLMs and, through the introduction of a comprehensive benchmark together with a strong baseline, provides a solid foundation for advancing perceptual-level multimodal image understanding.