ChatPaper.aiChatPaper

Pixels, Padrões, mas Nenhuma Poesia: Para Ver o Mundo como os Humanos

Pixels, Patterns, but No Poetry: To See The World like Humans

July 21, 2025
Autores: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
cs.AI

Resumo

Alcançar percepção e raciocínio semelhantes aos humanos em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) continua sendo um desafio central na inteligência artificial. Embora pesquisas recentes tenham se concentrado principalmente em aprimorar as capacidades de raciocínio em MLLMs, uma questão fundamental persiste: os Modelos de Linguagem Multimodais de Grande Escala podem realmente perceber o mundo como os humanos? Este artigo desloca o foco do raciocínio para a percepção. Em vez de construir benchmarks especificamente para raciocínio, introduzimos o Teste de Turing Visual (TET), um benchmark desafiador orientado para a percepção, composto por quatro tarefas diagnósticas que avaliam o desempenho de MLLMs em imagens sintéticas que os humanos processam intuitivamente. Nossos resultados revelam que os MLLMs de última geração exibem falhas catastróficas em nossas tarefas perceptivas, que são triviais para humanos. Tanto o aprendizado em contexto quanto o treinamento no backbone de linguagem—eficazes em benchmarks anteriores—não conseguem melhorar o desempenho em nossas tarefas, enquanto o ajuste fino da torre visual permite uma rápida adaptação, sugerindo que nosso benchmark apresenta desafios para a generalização da torre visual, e não para as capacidades de conhecimento e raciocínio do backbone de linguagem—uma lacuna crucial entre os MLLMs atuais e a percepção humana. Lançamos um subconjunto representativo de tarefas do TET nesta versão e introduziremos tarefas e métodos mais diversificados para aprimorar a generalização visual em trabalhos futuros.
English
Achieving human-like perception and reasoning in Multimodal Large Language Models (MLLMs) remains a central challenge in artificial intelligence. While recent research has primarily focused on enhancing reasoning capabilities in MLLMs, a fundamental question persists: Can Multimodal Large Language Models truly perceive the world as humans do? This paper shifts focus from reasoning to perception. Rather than constructing benchmarks specifically for reasoning, we introduce the Turing Eye Test (TET), a challenging perception-oriented benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on synthetic images that humans process intuitively. Our findings reveal that state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks trivial for humans. Both in-context learning and training on language backbone-effective for previous benchmarks-fail to improve performance on our tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting that our benchmark poses challenges for vision tower generalization rather than for the knowledge and reasoning capabilities of the language backbone-a key gap between current MLLMs and human perception. We release a representative subset of TET tasks in this version, and will introduce more diverse tasks and methods to enhance visual generalization in future work.
PDF636July 24, 2025