ChatPaper.aiChatPaper

Пиксели, узоры, но не поэзия: видеть мир как человек

Pixels, Patterns, but No Poetry: To See The World like Humans

July 21, 2025
Авторы: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
cs.AI

Аннотация

Достижение человеческого уровня восприятия и рассуждений в мультимодальных больших языковых моделях (MLLM) остается ключевой задачей в области искусственного интеллекта. Хотя последние исследования в основном сосредоточены на улучшении способностей к рассуждению в MLLM, фундаментальный вопрос остается открытым: могут ли мультимодальные большие языковые модели действительно воспринимать мир так, как это делают люди? В данной работе акцент смещается с рассуждений на восприятие. Вместо создания специализированных тестов для оценки рассуждений мы представляем Тест Тьюринга для зрения (Turing Eye Test, TET) — сложный ориентированный на восприятие бенчмарк, состоящий из четырех диагностических задач, которые оценивают производительность MLLM на синтетических изображениях, которые люди обрабатывают интуитивно. Наши результаты показывают, что современные MLLM демонстрируют катастрофические провалы в наших задачах на восприятие, которые для людей являются тривиальными. Как обучение в контексте, так и тренировка на языковой основе, эффективной для предыдущих бенчмарков, не улучшают производительность в наших задачах, в то время как тонкая настройка визуального модуля позволяет быстро адаптироваться, что указывает на то, что наш бенчмарк ставит задачи для обобщения визуального модуля, а не для знаний и способностей к рассуждению языковой основы — ключевой разрыв между современными MLLM и человеческим восприятием. В этой версии мы публикуем репрезентативное подмножество задач TET и планируем представить более разнообразные задачи и методы для улучшения визуального обобщения в будущих работах.
English
Achieving human-like perception and reasoning in Multimodal Large Language Models (MLLMs) remains a central challenge in artificial intelligence. While recent research has primarily focused on enhancing reasoning capabilities in MLLMs, a fundamental question persists: Can Multimodal Large Language Models truly perceive the world as humans do? This paper shifts focus from reasoning to perception. Rather than constructing benchmarks specifically for reasoning, we introduce the Turing Eye Test (TET), a challenging perception-oriented benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on synthetic images that humans process intuitively. Our findings reveal that state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks trivial for humans. Both in-context learning and training on language backbone-effective for previous benchmarks-fail to improve performance on our tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting that our benchmark poses challenges for vision tower generalization rather than for the knowledge and reasoning capabilities of the language backbone-a key gap between current MLLMs and human perception. We release a representative subset of TET tasks in this version, and will introduce more diverse tasks and methods to enhance visual generalization in future work.
PDF646July 24, 2025