ChatPaper.aiChatPaper

Preuves Traçables Améliorées pour le Raisonnement Visuel Fondé : Évaluation et Méthodologie

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

July 10, 2025
papers.authors: Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang
cs.AI

papers.abstract

Les modèles comme OpenAI-o3 innovent dans le raisonnement visuel ancré en référençant dynamiquement des régions visuelles, à l'instar de la "pensée avec des images" humaine. Cependant, aucun benchmark n'existe pour évaluer ces capacités de manière holistique. Pour combler cette lacune, nous proposons TreeBench (Traceable Evidence Evaluation Benchmark), un benchmark diagnostique fondé sur trois principes : (1) une perception visuelle ciblée des cibles subtiles dans des scènes complexes, (2) une preuve traçable via l'évaluation des boîtes englobantes, et (3) un raisonnement de second ordre pour tester les interactions entre objets et les hiérarchies spatiales au-delà de la simple localisation d'objets. En privilégiant les images contenant des objets denses, nous avons initialement échantillonné 1 000 images de haute qualité provenant de SA-1B, et avons intégré huit experts en modèles linguistiques multimodaux (LMM) pour annoter manuellement des questions, des options candidates et des réponses pour chaque image. Après trois étapes de contrôle qualité, TreeBench se compose de 405 paires question-réponse visuelles complexes, avec lesquelles même les modèles les plus avancés peinent, aucun d'entre eux n'atteignant 60 % de précision, par exemple OpenAI-o3 n'obtient que 54,87. Par ailleurs, nous introduisons TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), un paradigme d'entraînement supervisant conjointement la localisation et le raisonnement grâce à l'apprentissage par renforcement, permettant des localisations précises et des chemins de raisonnement explicables. Initialisé à partir de Qwen2.5-VL-7B, il améliore les performances sur V* Bench (+16,8), MME-RealWorld (+12,6) et TreeBench (+13,4), démontrant que la traçabilité est essentielle pour faire progresser le raisonnement ancré dans la vision. Le code est disponible à l'adresse suivante : https://github.com/Haochen-Wang409/TreeVGR.
English
Models like OpenAI-o3 pioneer visual grounded reasoning by dynamically referencing visual regions, just like human "thinking with images". However, no benchmark exists to evaluate these capabilities holistically. To bridge this gap, we propose TreeBench (Traceable Evidence Evaluation Benchmark), a diagnostic benchmark built on three principles: (1) focused visual perception of subtle targets in complex scenes, (2) traceable evidence via bounding box evaluation, and (3) second-order reasoning to test object interactions and spatial hierarchies beyond simple object localization. Prioritizing images with dense objects, we initially sample 1K high-quality images from SA-1B, and incorporate eight LMM experts to manually annotate questions, candidate options, and answers for each image. After three stages of quality control, TreeBench consists of 405 challenging visual question-answering pairs, even the most advanced models struggle with this benchmark, where none of them reach 60% accuracy, e.g., OpenAI-o3 scores only 54.87. Furthermore, we introduce TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), a training paradigm to supervise localization and reasoning jointly with reinforcement learning, enabling accurate localizations and explainable reasoning pathways. Initialized from Qwen2.5-VL-7B, it improves V* Bench (+16.8), MME-RealWorld (+12.6), and TreeBench (+13.4), proving traceability is key to advancing vision-grounded reasoning. The code is available at https://github.com/Haochen-Wang409/TreeVGR.
PDF372July 11, 2025