ChatPaper.aiChatPaper

ReFocus: Visuele bewerking als een keten van gedachten voor gestructureerd beeldbegrip

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

January 9, 2025
Auteurs: Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang
cs.AI

Samenvatting

Gestructureerd beeldbegrip, zoals het interpreteren van tabellen en grafieken, vereist strategische heroriëntatie over verschillende structuren en teksten binnen een afbeelding, waarbij een redeneringssequentie wordt gevormd om tot het uiteindelijke antwoord te komen. Huidige multimodale grote taalmodellen (LLM's) missen echter deze multihop selectieve aandachtsmogelijkheid. In dit werk introduceren we ReFocus, een eenvoudig maar effectief kader dat multimodale LLM's in staat stelt om "visuele gedachten" te genereren door visuele bewerkingen op de invoerafbeelding uit te voeren via code, waarbij ze hun visuele focus verplaatsen en verfijnen. Specifiek stelt ReFocus multimodale LLM's in staat om Python-codes te genereren om tools aan te roepen en de invoerafbeelding te wijzigen, waarbij ze sequentieel vakken tekenen, secties markeren en gebieden maskeren, waardoor het visuele redeneerproces wordt verbeterd. We experimenteren met een breed scala aan taken voor gestructureerd beeldbegrip met tabellen en grafieken. ReFocus verbetert aanzienlijk de prestaties op alle taken ten opzichte van GPT-4o zonder visuele bewerking, resulterend in een gemiddelde winst van 11,0% bij taaktaken en 6,8% bij grafiektaken. We presenteren een diepgaande analyse van de effecten van verschillende visuele bewerkingen en redenen waarom ReFocus de prestaties kan verbeteren zonder extra informatie te introduceren. Verder verzamelen we een trainingsset van 14k met behulp van ReFocus, en bewijzen dat een dergelijke visuele denkreeks met tussenliggende informatie een betere supervisie biedt dan standaard V&A-gegevens, met een gemiddelde winst van 8,0% ten opzichte van hetzelfde model dat is getraind met V&A-paren en 2,6% ten opzichte van CoT.
English
Structured image understanding, such as interpreting tables and charts, requires strategically refocusing across various structures and texts within an image, forming a reasoning sequence to arrive at the final answer. However, current multimodal large language models (LLMs) lack this multihop selective attention capability. In this work, we introduce ReFocus, a simple yet effective framework that equips multimodal LLMs with the ability to generate "visual thoughts" by performing visual editing on the input image through code, shifting and refining their visual focuses. Specifically, ReFocus enables multimodal LLMs to generate Python codes to call tools and modify the input image, sequentially drawing boxes, highlighting sections, and masking out areas, thereby enhancing the visual reasoning process. We experiment upon a wide range of structured image understanding tasks involving tables and charts. ReFocus largely improves performance on all tasks over GPT-4o without visual editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart tasks. We present an in-depth analysis of the effects of different visual edits, and reasons why ReFocus can improve the performance without introducing additional information. Further, we collect a 14k training set using ReFocus, and prove that such visual chain-of-thought with intermediate information offers a better supervision than standard VQA data, reaching a 8.0% average gain over the same model trained with QA pairs and 2.6% over CoT.

Summary

AI-Generated Summary

PDF152January 13, 2025