PixelCraft: Un Sistema Multi-Agente per il Ragionamento Visivo ad Alta Fedeltà su Immagini Strutturate
PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images
September 29, 2025
Autori: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang
cs.AI
Abstract
Le immagini strutturate (ad esempio grafici e diagrammi geometrici) rimangono una sfida per i modelli linguistici multimodali di grandi dimensioni (MLLM), poiché errori percettivi possono portare a conclusioni errate. Indizi visivi intermedi possono guidare il ragionamento; tuttavia, i metodi esistenti basati su indizi sono limitati da un'elaborazione delle immagini a bassa fedeltà e da schemi di ragionamento lineari e rigidi, riducendo la loro efficacia su compiti complessi che coinvolgono immagini strutturate. In questo articolo, proponiamo PixelCraft, un innovativo sistema multi-agente per l'elaborazione di immagini ad alta fedeltà e il ragionamento visivo flessibile su immagini strutturate. Il sistema comprende un dispatcher, un planner, un reasoner, dei critici e un insieme di agenti strumenti visivi. Per ottenere un'elaborazione ad alta fedeltà, costruiamo un corpus di alta qualità e ottimizziamo un MLLM in un modello di grounding, le cui localizzazioni a livello di pixel sono integrate con algoritmi tradizionali di computer vision (CV) negli agenti strumento. Basandosi su queste fondamenta, PixelCraft facilita il ragionamento visivo flessibile attraverso un flusso di lavoro dinamico in tre fasi: selezione degli strumenti, discussione tra agenti e autocritica. Inoltre, a differenza dei precedenti schemi di ragionamento lineari che si limitano ad aggiungere immagini storiche, PixelCraft mantiene una memoria delle immagini, consentendo al planner di rivisitare in modo adattivo i passaggi visivi precedenti, esplorare rami di ragionamento alternativi e regolare dinamicamente la traiettoria del ragionamento durante la discussione. Esperimenti estesi su benchmark impegnativi di grafici e geometria dimostrano che PixelCraft migliora significativamente le prestazioni di ragionamento visivo per MLLM avanzati, stabilendo un nuovo standard per il ragionamento su immagini strutturate. Il nostro codice sarà disponibile all'indirizzo https://github.com/microsoft/PixelCraft.
English
Structured images (e.g., charts and geometric diagrams) remain challenging
for multimodal large language models (MLLMs), as perceptual slips can cascade
into erroneous conclusions. Intermediate visual cues can steer reasoning;
however, existing cue-based methods are constrained with low-fidelity image
processing and linear, rigid reasoning patterns, limiting their effectiveness
on complex structured-image tasks. In this paper, we propose PixelCraft, a
novel multi-agent system for high-fidelity image processing and flexible visual
reasoning on structured images. The system comprises a dispatcher, a planner, a
reasoner, critics, and a set of visual tool agents. To achieve high-fidelity
processing, we construct a high-quality corpus and fine-tune an MLLM into a
grounding model, whose pixel-level localizations are integrated with
traditional computer vision (CV) algorithms in tool agents. Building on this
foundation, PixelCraft facilitates flexible visual reasoning through a dynamic
three-stage workflow of tool selection, agent discussion, and self-criticism.
Moreover, unlike prior linear reasoning patterns that simply append historical
images, PixelCraft maintains an image memory to allow the planner to adaptively
revisit earlier visual steps, explore alternative reasoning branches, and
dynamically adjust the reasoning trajectory during discussion. Extensive
experiments on challenging chart and geometry benchmarks demonstrate that
PixelCraft significantly improves visual reasoning performance for advanced
MLLMs, setting a new standard for structured image reasoning. Our code will be
available at https://github.com/microsoft/PixelCraft.