ChatPaper.aiChatPaper

À l'endroit ? Démêler la compréhension de l'orientation dans les MLLM grâce à des tâches de perception multi-axes à granularité fine

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

May 27, 2025
Auteurs: Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer
cs.AI

Résumé

La compréhension de l'orientation des objets constitue un défi fondamental dans la perception visuelle, essentiel pour des applications telles que la manipulation robotique et la réalité augmentée. Les benchmarks actuels en vision et langage ne parviennent pas à isoler cette capacité, la confondant souvent avec les relations positionnelles et la compréhension générale des scènes. Nous présentons DORI (Discriminative Orientation Reasoning Intelligence), un benchmark complet qui établit la perception de l'orientation des objets comme cible principale d'évaluation. DORI évalue quatre dimensions de la compréhension de l'orientation : l'alignement frontal, les transformations rotationnelles, les relations directionnelles relatives et la compréhension de l'orientation canonique. Grâce à des tâches soigneusement sélectionnées à partir de 11 ensembles de données couvrant 67 catégories d'objets dans des scénarios synthétiques et réels, DORI offre des insights sur la manière dont les systèmes multimodaux comprennent les orientations des objets. Notre évaluation de 15 modèles de pointe en vision et langage révèle des limitations critiques : même les meilleurs modèles n'atteignent que 54,2 % de précision sur les tâches grossières et 33,0 % sur les jugements d'orientation granulaires, avec une performance qui se détériore pour les tâches nécessitant des changements de référentiel ou des rotations composées. Ces résultats démontrent la nécessité de mécanismes de représentation dédiés à l'orientation, car les modèles montrent une incapacité systématique à effectuer des estimations angulaires précises, à suivre les changements d'orientation entre les points de vue et à comprendre les rotations composées, suggérant des limitations dans leurs représentations spatiales 3D internes. En tant que premier cadre diagnostique spécifiquement conçu pour la conscience de l'orientation dans les systèmes multimodaux, DORI offre des implications pour l'amélioration du contrôle robotique, la reconstruction de scènes 3D et l'interaction humain-IA dans des environnements physiques. Données DORI : https://huggingface.co/datasets/appledora/DORI-Benchmark
English
Object orientation understanding represents a fundamental challenge in visual perception critical for applications like robotic manipulation and augmented reality. Current vision-language benchmarks fail to isolate this capability, often conflating it with positional relationships and general scene understanding. We introduce DORI (Discriminative Orientation Reasoning Intelligence), a comprehensive benchmark establishing object orientation perception as a primary evaluation target. DORI assesses four dimensions of orientation comprehension: frontal alignment, rotational transformations, relative directional relationships, and canonical orientation understanding. Through carefully curated tasks from 11 datasets spanning 67 object categories across synthetic and real-world scenarios, DORI provides insights on how multi-modal systems understand object orientations. Our evaluation of 15 state-of-the-art vision-language models reveals critical limitations: even the best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular orientation judgments, with performance deteriorating for tasks requiring reference frame shifts or compound rotations. These findings demonstrate the need for dedicated orientation representation mechanisms, as models show systematic inability to perform precise angular estimations, track orientation changes across viewpoints, and understand compound rotations - suggesting limitations in their internal 3D spatial representations. As the first diagnostic framework specifically designed for orientation awareness in multimodal systems, DORI offers implications for improving robotic control, 3D scene reconstruction, and human-AI interaction in physical environments. DORI data: https://huggingface.co/datasets/appledora/DORI-Benchmark

Summary

AI-Generated Summary

PDF22May 29, 2025