PixelCraft: Een Multi-Agent Systeem voor Hoogwaardige Visuele Redenering op Gestructureerde Afbeeldingen

Samenvatting

Gestructureerde afbeeldingen (bijv. grafieken en geometrische diagrammen) blijven een uitdaging vormen voor multimodale grote taalmodellen (MLLMs), aangezien perceptuele fouten kunnen leiden tot onjuiste conclusies. Tussenliggende visuele aanwijzingen kunnen het redeneren sturen; bestaande methoden op basis van aanwijzingen worden echter beperkt door beeldverwerking van lage kwaliteit en lineaire, rigide redeneerpatronen, wat hun effectiviteit bij complexe gestructureerde beeldtaken beperkt. In dit artikel stellen we PixelCraft voor, een nieuw multi-agent systeem voor beeldverwerking van hoge kwaliteit en flexibele visuele redenering op gestructureerde afbeeldingen. Het systeem bestaat uit een dispatcher, een planner, een redeneerder, critici en een set visuele toolagents. Om beeldverwerking van hoge kwaliteit te bereiken, construeren we een hoogwaardig corpus en fine-tunen we een MLLM tot een grondingsmodel, waarvan pixelniveau-localisaties worden geïntegreerd met traditionele computer vision (CV)-algoritmen in toolagents. Op deze basis faciliteert PixelCraft flexibele visuele redenering via een dynamische driedelige workflow van toolselectie, agentdiscussie en zelfkritiek. Bovendien, in tegenstelling tot eerdere lineaire redeneerpatronen die eenvoudigweg historische afbeeldingen toevoegen, onderhoudt PixelCraft een beeldgeheugen, waardoor de planner eerder genomen visuele stappen adaptief kan herzien, alternatieve redeneertakken kan verkennen en de redeneertrajecten dynamisch kan aanpassen tijdens discussies. Uitgebreide experimenten op uitdagende grafiek- en geometriebenchmarks tonen aan dat PixelCraft de visuele redeneerprestaties van geavanceerde MLLMs aanzienlijk verbetert, en zo een nieuwe standaard zet voor gestructureerde beeldredenering. Onze code zal beschikbaar zijn op https://github.com/microsoft/PixelCraft.

English

Structured images (e.g., charts and geometric diagrams) remain challenging for multimodal large language models (MLLMs), as perceptual slips can cascade into erroneous conclusions. Intermediate visual cues can steer reasoning; however, existing cue-based methods are constrained with low-fidelity image processing and linear, rigid reasoning patterns, limiting their effectiveness on complex structured-image tasks. In this paper, we propose PixelCraft, a novel multi-agent system for high-fidelity image processing and flexible visual reasoning on structured images. The system comprises a dispatcher, a planner, a reasoner, critics, and a set of visual tool agents. To achieve high-fidelity processing, we construct a high-quality corpus and fine-tune an MLLM into a grounding model, whose pixel-level localizations are integrated with traditional computer vision (CV) algorithms in tool agents. Building on this foundation, PixelCraft facilitates flexible visual reasoning through a dynamic three-stage workflow of tool selection, agent discussion, and self-criticism. Moreover, unlike prior linear reasoning patterns that simply append historical images, PixelCraft maintains an image memory to allow the planner to adaptively revisit earlier visual steps, explore alternative reasoning branches, and dynamically adjust the reasoning trajectory during discussion. Extensive experiments on challenging chart and geometry benchmarks demonstrate that PixelCraft significantly improves visual reasoning performance for advanced MLLMs, setting a new standard for structured image reasoning. Our code will be available at https://github.com/microsoft/PixelCraft.

PixelCraft: Een Multi-Agent Systeem voor Hoogwaardige Visuele Redenering op Gestructureerde Afbeeldingen

PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images

Samenvatting

Support