ChatPaper.aiChatPaper

PixelCraft: Um Sistema Multiagente para Raciocínio Visual de Alta Fidelidade em Imagens Estruturadas

PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images

September 29, 2025
Autores: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang
cs.AI

Resumo

Imagens estruturadas (por exemplo, gráficos e diagramas geométricos) continuam sendo um desafio para modelos de linguagem multimodal de grande escala (MLLMs), uma vez que falhas perceptivas podem levar a conclusões errôneas. Pistas visuais intermediárias podem direcionar o raciocínio; no entanto, os métodos baseados em pistas existentes são limitados por processamento de imagem de baixa fidelidade e padrões de raciocínio lineares e rígidos, restringindo sua eficácia em tarefas complexas envolvendo imagens estruturadas. Neste artigo, propomos o PixelCraft, um sistema multiagente inovador para processamento de imagem de alta fidelidade e raciocínio visual flexível em imagens estruturadas. O sistema é composto por um despachante, um planejador, um raciocinador, críticos e um conjunto de agentes de ferramentas visuais. Para alcançar processamento de alta fidelidade, construímos um corpus de alta qualidade e ajustamos um MLLM para se tornar um modelo de ancoragem, cujas localizações em nível de pixel são integradas com algoritmos tradicionais de visão computacional (CV) nos agentes de ferramentas. Com base nessa fundação, o PixelCraft facilita o raciocínio visual flexível por meio de um fluxo de trabalho dinâmico em três etapas: seleção de ferramentas, discussão entre agentes e autocrítica. Além disso, ao contrário dos padrões de raciocínio linear anteriores que simplesmente anexam imagens históricas, o PixelCraft mantém uma memória de imagem, permitindo que o planejador revisite adaptativamente etapas visuais anteriores, explore ramificações alternativas de raciocínio e ajuste dinamicamente a trajetória de raciocínio durante a discussão. Experimentos extensos em benchmarks desafiadores de gráficos e geometria demonstram que o PixelCraft melhora significativamente o desempenho do raciocínio visual para MLLMs avançados, estabelecendo um novo padrão para o raciocínio em imagens estruturadas. Nosso código estará disponível em https://github.com/microsoft/PixelCraft.
English
Structured images (e.g., charts and geometric diagrams) remain challenging for multimodal large language models (MLLMs), as perceptual slips can cascade into erroneous conclusions. Intermediate visual cues can steer reasoning; however, existing cue-based methods are constrained with low-fidelity image processing and linear, rigid reasoning patterns, limiting their effectiveness on complex structured-image tasks. In this paper, we propose PixelCraft, a novel multi-agent system for high-fidelity image processing and flexible visual reasoning on structured images. The system comprises a dispatcher, a planner, a reasoner, critics, and a set of visual tool agents. To achieve high-fidelity processing, we construct a high-quality corpus and fine-tune an MLLM into a grounding model, whose pixel-level localizations are integrated with traditional computer vision (CV) algorithms in tool agents. Building on this foundation, PixelCraft facilitates flexible visual reasoning through a dynamic three-stage workflow of tool selection, agent discussion, and self-criticism. Moreover, unlike prior linear reasoning patterns that simply append historical images, PixelCraft maintains an image memory to allow the planner to adaptively revisit earlier visual steps, explore alternative reasoning branches, and dynamically adjust the reasoning trajectory during discussion. Extensive experiments on challenging chart and geometry benchmarks demonstrate that PixelCraft significantly improves visual reasoning performance for advanced MLLMs, setting a new standard for structured image reasoning. Our code will be available at https://github.com/microsoft/PixelCraft.
PDF42September 30, 2025