PixelCraft: Een Multi-Agent Systeem voor Hoogwaardige Visuele Redenering op Gestructureerde Afbeeldingen
PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images
September 29, 2025
Auteurs: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang
cs.AI
Samenvatting
Gestructureerde afbeeldingen (bijv. grafieken en geometrische diagrammen) blijven een uitdaging vormen voor multimodale grote taalmodellen (MLLMs), aangezien perceptuele fouten kunnen leiden tot onjuiste conclusies. Tussenliggende visuele aanwijzingen kunnen het redeneren sturen; bestaande methoden op basis van aanwijzingen worden echter beperkt door beeldverwerking van lage kwaliteit en lineaire, rigide redeneerpatronen, wat hun effectiviteit bij complexe gestructureerde beeldtaken beperkt. In dit artikel stellen we PixelCraft voor, een nieuw multi-agent systeem voor beeldverwerking van hoge kwaliteit en flexibele visuele redenering op gestructureerde afbeeldingen. Het systeem bestaat uit een dispatcher, een planner, een redeneerder, critici en een set visuele toolagents. Om beeldverwerking van hoge kwaliteit te bereiken, construeren we een hoogwaardig corpus en fine-tunen we een MLLM tot een grondingsmodel, waarvan pixelniveau-localisaties worden geïntegreerd met traditionele computer vision (CV)-algoritmen in toolagents. Op deze basis faciliteert PixelCraft flexibele visuele redenering via een dynamische driedelige workflow van toolselectie, agentdiscussie en zelfkritiek. Bovendien, in tegenstelling tot eerdere lineaire redeneerpatronen die eenvoudigweg historische afbeeldingen toevoegen, onderhoudt PixelCraft een beeldgeheugen, waardoor de planner eerder genomen visuele stappen adaptief kan herzien, alternatieve redeneertakken kan verkennen en de redeneertrajecten dynamisch kan aanpassen tijdens discussies. Uitgebreide experimenten op uitdagende grafiek- en geometriebenchmarks tonen aan dat PixelCraft de visuele redeneerprestaties van geavanceerde MLLMs aanzienlijk verbetert, en zo een nieuwe standaard zet voor gestructureerde beeldredenering. Onze code zal beschikbaar zijn op https://github.com/microsoft/PixelCraft.
English
Structured images (e.g., charts and geometric diagrams) remain challenging
for multimodal large language models (MLLMs), as perceptual slips can cascade
into erroneous conclusions. Intermediate visual cues can steer reasoning;
however, existing cue-based methods are constrained with low-fidelity image
processing and linear, rigid reasoning patterns, limiting their effectiveness
on complex structured-image tasks. In this paper, we propose PixelCraft, a
novel multi-agent system for high-fidelity image processing and flexible visual
reasoning on structured images. The system comprises a dispatcher, a planner, a
reasoner, critics, and a set of visual tool agents. To achieve high-fidelity
processing, we construct a high-quality corpus and fine-tune an MLLM into a
grounding model, whose pixel-level localizations are integrated with
traditional computer vision (CV) algorithms in tool agents. Building on this
foundation, PixelCraft facilitates flexible visual reasoning through a dynamic
three-stage workflow of tool selection, agent discussion, and self-criticism.
Moreover, unlike prior linear reasoning patterns that simply append historical
images, PixelCraft maintains an image memory to allow the planner to adaptively
revisit earlier visual steps, explore alternative reasoning branches, and
dynamically adjust the reasoning trajectory during discussion. Extensive
experiments on challenging chart and geometry benchmarks demonstrate that
PixelCraft significantly improves visual reasoning performance for advanced
MLLMs, setting a new standard for structured image reasoning. Our code will be
available at https://github.com/microsoft/PixelCraft.