ChatPaper.aiChatPaper

ReFocus : l'édition visuelle comme une chaîne de pensée pour la compréhension structurée des images

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

January 9, 2025
Auteurs: Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang
cs.AI

Résumé

La compréhension structurée des images, telle que l'interprétation des tableaux et des graphiques, nécessite de se recentrer stratégiquement sur diverses structures et textes au sein d'une image, formant une séquence de raisonnement pour parvenir à la réponse finale. Cependant, les modèles de langage multimodaux actuels (LLM) manquent de cette capacité d'attention sélective multi-sauts. Dans ce travail, nous introduisons ReFocus, un cadre simple mais efficace qui dote les LLM multimodaux de la capacité de générer des "pensées visuelles" en effectuant une édition visuelle sur l'image d'entrée via du code, déplaçant et affinant leurs centres d'intérêt visuels. Plus précisément, ReFocus permet aux LLM multimodaux de générer des codes Python pour appeler des outils et modifier l'image d'entrée, en dessinant séquentiellement des encadrés, en surlignant des sections et en masquant des zones, améliorant ainsi le processus de raisonnement visuel. Nous expérimentons sur une large gamme de tâches de compréhension d'images structurées impliquant des tableaux et des graphiques. ReFocus améliore largement les performances sur toutes les tâches par rapport à GPT-4o sans édition visuelle, offrant un gain moyen de 11,0% sur les tâches de tableau et de 6,8% sur les tâches de graphique. Nous présentons une analyse approfondie des effets des différentes éditions visuelles, et des raisons pour lesquelles ReFocus peut améliorer les performances sans introduire d'informations supplémentaires. De plus, nous collectons un ensemble d'entraînement de 14k en utilisant ReFocus, et prouvons qu'une telle chaîne de pensée visuelle avec des informations intermédiaires offre une meilleure supervision que les données VQA standard, atteignant un gain moyen de 8,0% par rapport au même modèle entraîné avec des paires de questions-réponses et de 2,6% par rapport à CoT.
English
Structured image understanding, such as interpreting tables and charts, requires strategically refocusing across various structures and texts within an image, forming a reasoning sequence to arrive at the final answer. However, current multimodal large language models (LLMs) lack this multihop selective attention capability. In this work, we introduce ReFocus, a simple yet effective framework that equips multimodal LLMs with the ability to generate "visual thoughts" by performing visual editing on the input image through code, shifting and refining their visual focuses. Specifically, ReFocus enables multimodal LLMs to generate Python codes to call tools and modify the input image, sequentially drawing boxes, highlighting sections, and masking out areas, thereby enhancing the visual reasoning process. We experiment upon a wide range of structured image understanding tasks involving tables and charts. ReFocus largely improves performance on all tasks over GPT-4o without visual editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart tasks. We present an in-depth analysis of the effects of different visual edits, and reasons why ReFocus can improve the performance without introducing additional information. Further, we collect a 14k training set using ReFocus, and prove that such visual chain-of-thought with intermediate information offers a better supervision than standard VQA data, reaching a 8.0% average gain over the same model trained with QA pairs and 2.6% over CoT.

Summary

AI-Generated Summary

PDF152January 13, 2025