PixelCraft: Ein Multi-Agenten-System für hochauflösendes visuelles Schließen auf strukturierten Bildern
PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images
September 29, 2025
papers.authors: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang
cs.AI
papers.abstract
Strukturierte Bilder (z. B. Diagramme und geometrische Zeichnungen) stellen nach wie vor eine Herausforderung für multimodale große Sprachmodelle (MLLMs) dar, da Wahrnehmungsfehler zu fehlerhaften Schlussfolgerungen führen können. Zwischenstufige visuelle Hinweise können die Argumentation lenken; jedoch sind bestehende hinweisbasierte Methoden durch eine niedrige Bildverarbeitungsqualität und lineare, starre Argumentationsmuster eingeschränkt, was ihre Effektivität bei komplexen Aufgaben mit strukturierten Bildern begrenzt. In diesem Artikel stellen wir PixelCraft vor, ein neuartiges Multi-Agenten-System für hochwertige Bildverarbeitung und flexible visuelle Argumentation bei strukturierten Bildern. Das System besteht aus einem Dispatcher, einem Planer, einem Argumentierer, Kritikern und einer Reihe von visuellen Werkzeugagenten. Um eine hochwertige Verarbeitung zu erreichen, erstellen wir ein qualitativ hochwertiges Korpus und feintunen ein MLLM zu einem Grounding-Modell, dessen pixelgenaue Lokalisierungen mit traditionellen Computer-Vision (CV)-Algorithmen in den Werkzeugagenten integriert werden. Auf dieser Grundlage ermöglicht PixelCraft eine flexible visuelle Argumentation durch einen dynamischen dreistufigen Arbeitsablauf aus Werkzeugauswahl, Agentendiskussion und Selbstkritik. Darüber hinaus pflegt PixelCraft, im Gegensatz zu früheren linearen Argumentationsmustern, die lediglich historische Bilder anhängen, ein Bildgedächtnis, das es dem Planer ermöglicht, frühere visuelle Schritte adaptiv zu überprüfen, alternative Argumentationszweige zu erkunden und die Argumentationsbahn während der Diskussion dynamisch anzupassen. Umfangreiche Experimente mit anspruchsvollen Diagramm- und Geometrie-Benchmarks zeigen, dass PixelCraft die visuelle Argumentationsleistung fortgeschrittener MLLMs erheblich verbessert und einen neuen Standard für die Argumentation mit strukturierten Bildern setzt. Unser Code wird unter https://github.com/microsoft/PixelCraft verfügbar sein.
English
Structured images (e.g., charts and geometric diagrams) remain challenging
for multimodal large language models (MLLMs), as perceptual slips can cascade
into erroneous conclusions. Intermediate visual cues can steer reasoning;
however, existing cue-based methods are constrained with low-fidelity image
processing and linear, rigid reasoning patterns, limiting their effectiveness
on complex structured-image tasks. In this paper, we propose PixelCraft, a
novel multi-agent system for high-fidelity image processing and flexible visual
reasoning on structured images. The system comprises a dispatcher, a planner, a
reasoner, critics, and a set of visual tool agents. To achieve high-fidelity
processing, we construct a high-quality corpus and fine-tune an MLLM into a
grounding model, whose pixel-level localizations are integrated with
traditional computer vision (CV) algorithms in tool agents. Building on this
foundation, PixelCraft facilitates flexible visual reasoning through a dynamic
three-stage workflow of tool selection, agent discussion, and self-criticism.
Moreover, unlike prior linear reasoning patterns that simply append historical
images, PixelCraft maintains an image memory to allow the planner to adaptively
revisit earlier visual steps, explore alternative reasoning branches, and
dynamically adjust the reasoning trajectory during discussion. Extensive
experiments on challenging chart and geometry benchmarks demonstrate that
PixelCraft significantly improves visual reasoning performance for advanced
MLLMs, setting a new standard for structured image reasoning. Our code will be
available at https://github.com/microsoft/PixelCraft.