ChatPaper.aiChatPaper

ReFocus: Визуальное редактирование как цепочка мыслей для структурированного понимания изображений

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

January 9, 2025
Авторы: Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang
cs.AI

Аннотация

Структурированное понимание изображений, такое как интерпретация таблиц и диаграмм, требует стратегического переключения внимания между различными структурами и текстами на изображении, формируя последовательность рассуждений для получения окончательного ответа. Однако текущим мультимодальным большим языковым моделям (LLM) не хватает этой возможности многократного выборочного внимания. В данной работе мы представляем ReFocus, простую, но эффективную структуру, которая оснащает мультимодальные LLM способностью генерировать "визуальные мысли", выполняя визуальное редактирование на входном изображении через код, смещая и уточняя их визуальные акценты. Конкретно, ReFocus позволяет мультимодальным LLM генерировать коды Python для вызова инструментов и модификации входного изображения, последовательно рисуя рамки, выделяя секции и маскируя области, тем самым улучшая процесс визуального рассуждения. Мы проводим эксперименты на широком спектре задач структурированного понимания изображений, включающих таблицы и диаграммы. ReFocus значительно улучшает производительность на всех задачах по сравнению с GPT-4o без визуального редактирования, обеспечивая средний прирост в 11,0% для задач с таблицами и 6,8% для задач с диаграммами. Мы представляем подробный анализ эффектов различных визуальных изменений и причины, почему ReFocus может улучшить производительность без введения дополнительной информации. Кроме того, мы собираем набор данных для обучения объемом 14 тыс. с использованием ReFocus и доказываем, что такая визуальная цепочка мыслей с промежуточной информацией предлагает лучшее руководство, чем стандартные данные VQA, достигая среднего прироста в 8,0% по сравнению с тем же моделью, обученной с парами вопрос-ответ, и 2,6% по сравнению с CoT.
English
Structured image understanding, such as interpreting tables and charts, requires strategically refocusing across various structures and texts within an image, forming a reasoning sequence to arrive at the final answer. However, current multimodal large language models (LLMs) lack this multihop selective attention capability. In this work, we introduce ReFocus, a simple yet effective framework that equips multimodal LLMs with the ability to generate "visual thoughts" by performing visual editing on the input image through code, shifting and refining their visual focuses. Specifically, ReFocus enables multimodal LLMs to generate Python codes to call tools and modify the input image, sequentially drawing boxes, highlighting sections, and masking out areas, thereby enhancing the visual reasoning process. We experiment upon a wide range of structured image understanding tasks involving tables and charts. ReFocus largely improves performance on all tasks over GPT-4o without visual editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart tasks. We present an in-depth analysis of the effects of different visual edits, and reasons why ReFocus can improve the performance without introducing additional information. Further, we collect a 14k training set using ReFocus, and prove that such visual chain-of-thought with intermediate information offers a better supervision than standard VQA data, reaching a 8.0% average gain over the same model trained with QA pairs and 2.6% over CoT.

Summary

AI-Generated Summary

PDF152January 13, 2025