ChatPaper.aiChatPaper

ReFocus: Edición Visual como una Cadena de Pensamiento para la Comprensión Estructurada de Imágenes

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

January 9, 2025
Autores: Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang
cs.AI

Resumen

La comprensión estructurada de imágenes, como la interpretación de tablas y gráficos, requiere reenfocarse estratégicamente en diversas estructuras y textos dentro de una imagen, formando una secuencia de razonamiento para llegar a la respuesta final. Sin embargo, los actuales modelos de lenguaje multimodales de gran escala (LLMs) carecen de esta capacidad de atención selectiva de múltiples saltos. En este trabajo, presentamos ReFocus, un marco simple pero efectivo que dota a los LLMs multimodales con la capacidad de generar "pensamientos visuales" realizando edición visual en la imagen de entrada a través de código, desplazando y refinando sus enfoques visuales. Específicamente, ReFocus permite a los LLMs multimodales generar códigos Python para llamar herramientas y modificar la imagen de entrada, dibujando secuencialmente recuadros, resaltando secciones y enmascarando áreas, mejorando así el proceso de razonamiento visual. Experimentamos en una amplia gama de tareas de comprensión estructurada de imágenes que involucran tablas y gráficos. ReFocus mejora significativamente el rendimiento en todas las tareas sobre GPT-4o sin edición visual, logrando una ganancia promedio del 11.0% en tareas de tablas y del 6.8% en tareas de gráficos. Presentamos un análisis detallado de los efectos de las diferentes ediciones visuales y las razones por las cuales ReFocus puede mejorar el rendimiento sin introducir información adicional. Además, recopilamos un conjunto de entrenamiento de 14k utilizando ReFocus, y demostramos que esta cadena de pensamiento visual con información intermedia ofrece una mejor supervisión que los datos VQA estándar, alcanzando una ganancia promedio del 8.0% sobre el mismo modelo entrenado con pares de preguntas y respuestas y del 2.6% sobre CoT.
English
Structured image understanding, such as interpreting tables and charts, requires strategically refocusing across various structures and texts within an image, forming a reasoning sequence to arrive at the final answer. However, current multimodal large language models (LLMs) lack this multihop selective attention capability. In this work, we introduce ReFocus, a simple yet effective framework that equips multimodal LLMs with the ability to generate "visual thoughts" by performing visual editing on the input image through code, shifting and refining their visual focuses. Specifically, ReFocus enables multimodal LLMs to generate Python codes to call tools and modify the input image, sequentially drawing boxes, highlighting sections, and masking out areas, thereby enhancing the visual reasoning process. We experiment upon a wide range of structured image understanding tasks involving tables and charts. ReFocus largely improves performance on all tasks over GPT-4o without visual editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart tasks. We present an in-depth analysis of the effects of different visual edits, and reasons why ReFocus can improve the performance without introducing additional information. Further, we collect a 14k training set using ReFocus, and prove that such visual chain-of-thought with intermediate information offers a better supervision than standard VQA data, reaching a 8.0% average gain over the same model trained with QA pairs and 2.6% over CoT.

Summary

AI-Generated Summary

PDF152January 13, 2025