ChatPaper.aiChatPaper

PixelCraft: Многоагентная система для высокоточной визуальной обработки структурированных изображений

PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images

September 29, 2025
Авторы: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang
cs.AI

Аннотация

Структурированные изображения (например, графики и геометрические диаграммы) остаются сложной задачей для мультимодальных больших языковых моделей (MLLMs), так как ошибки восприятия могут приводить к ошибочным выводам. Промежуточные визуальные подсказки могут направлять рассуждения; однако существующие методы, основанные на подсказках, ограничены низкокачественной обработкой изображений и линейными, жесткими схемами рассуждений, что снижает их эффективность при работе со сложными структурированными изображениями. В данной статье мы предлагаем PixelCraft — новую мультиагентную систему для высококачественной обработки изображений и гибкого визуального анализа структурированных изображений. Система включает диспетчера, планировщика, аналитика, критиков и набор агентов визуальных инструментов. Для достижения высококачественной обработки мы создаем качественный корпус и дообучаем MLLM в модель локализации, чьи пиксельные локализации интегрируются с традиционными алгоритмами компьютерного зрения (CV) в агентах инструментов. На основе этого фундамента PixelCraft обеспечивает гибкий визуальный анализ через динамический трехэтапный процесс: выбор инструментов, обсуждение агентов и самокритику. В отличие от предыдущих линейных схем рассуждений, которые просто добавляют исторические изображения, PixelCraft поддерживает память изображений, позволяя планировщику адаптивно возвращаться к предыдущим визуальным шагам, исследовать альтернативные ветви рассуждений и динамически корректировать траекторию анализа в ходе обсуждения. Экстенсивные эксперименты на сложных наборах данных для графиков и геометрии демонстрируют, что PixelCraft значительно улучшает производительность визуального анализа для продвинутых MLLMs, устанавливая новый стандарт для анализа структурированных изображений. Наш код будет доступен по адресу https://github.com/microsoft/PixelCraft.
English
Structured images (e.g., charts and geometric diagrams) remain challenging for multimodal large language models (MLLMs), as perceptual slips can cascade into erroneous conclusions. Intermediate visual cues can steer reasoning; however, existing cue-based methods are constrained with low-fidelity image processing and linear, rigid reasoning patterns, limiting their effectiveness on complex structured-image tasks. In this paper, we propose PixelCraft, a novel multi-agent system for high-fidelity image processing and flexible visual reasoning on structured images. The system comprises a dispatcher, a planner, a reasoner, critics, and a set of visual tool agents. To achieve high-fidelity processing, we construct a high-quality corpus and fine-tune an MLLM into a grounding model, whose pixel-level localizations are integrated with traditional computer vision (CV) algorithms in tool agents. Building on this foundation, PixelCraft facilitates flexible visual reasoning through a dynamic three-stage workflow of tool selection, agent discussion, and self-criticism. Moreover, unlike prior linear reasoning patterns that simply append historical images, PixelCraft maintains an image memory to allow the planner to adaptively revisit earlier visual steps, explore alternative reasoning branches, and dynamically adjust the reasoning trajectory during discussion. Extensive experiments on challenging chart and geometry benchmarks demonstrate that PixelCraft significantly improves visual reasoning performance for advanced MLLMs, setting a new standard for structured image reasoning. Our code will be available at https://github.com/microsoft/PixelCraft.
PDF42September 30, 2025