ChatPaper.aiChatPaper

PixelCraft : Un système multi-agent pour le raisonnement visuel haute fidélité sur des images structurées

PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images

September 29, 2025
papers.authors: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang
cs.AI

papers.abstract

Les images structurées (par exemple, les graphiques et les diagrammes géométriques) restent un défi pour les modèles de langage multimodaux de grande envergure (MLLMs), car les erreurs de perception peuvent entraîner des conclusions erronées. Des indices visuels intermédiaires peuvent orienter le raisonnement ; cependant, les méthodes existantes basées sur ces indices sont limitées par un traitement d'image de faible fidélité et des schémas de raisonnement linéaires et rigides, ce qui réduit leur efficacité sur des tâches complexes impliquant des images structurées. Dans cet article, nous proposons PixelCraft, un nouveau système multi-agent pour un traitement d'image haute fidélité et un raisonnement visuel flexible sur des images structurées. Le système comprend un répartiteur, un planificateur, un raisonneur, des critiques et un ensemble d'agents d'outils visuels. Pour atteindre un traitement haute fidélité, nous construisons un corpus de haute qualité et affinons un MLLM en un modèle d'ancrage, dont les localisations au niveau des pixels sont intégrées à des algorithmes traditionnels de vision par ordinateur (CV) dans les agents d'outils. Sur cette base, PixelCraft facilite un raisonnement visuel flexible grâce à un flux de travail dynamique en trois étapes : sélection d'outils, discussion entre agents et auto-critique. De plus, contrairement aux schémas de raisonnement linéaires antérieurs qui se contentent d'ajouter des images historiques, PixelCraft maintient une mémoire d'images permettant au planificateur de revisiter de manière adaptative les étapes visuelles précédentes, d'explorer des branches de raisonnement alternatives et d'ajuster dynamiquement la trajectoire de raisonnement pendant la discussion. Des expériences approfondies sur des benchmarks complexes de graphiques et de géométrie démontrent que PixelCraft améliore significativement les performances de raisonnement visuel pour les MLLMs avancés, établissant une nouvelle norme pour le raisonnement sur les images structurées. Notre code sera disponible à l'adresse https://github.com/microsoft/PixelCraft.
English
Structured images (e.g., charts and geometric diagrams) remain challenging for multimodal large language models (MLLMs), as perceptual slips can cascade into erroneous conclusions. Intermediate visual cues can steer reasoning; however, existing cue-based methods are constrained with low-fidelity image processing and linear, rigid reasoning patterns, limiting their effectiveness on complex structured-image tasks. In this paper, we propose PixelCraft, a novel multi-agent system for high-fidelity image processing and flexible visual reasoning on structured images. The system comprises a dispatcher, a planner, a reasoner, critics, and a set of visual tool agents. To achieve high-fidelity processing, we construct a high-quality corpus and fine-tune an MLLM into a grounding model, whose pixel-level localizations are integrated with traditional computer vision (CV) algorithms in tool agents. Building on this foundation, PixelCraft facilitates flexible visual reasoning through a dynamic three-stage workflow of tool selection, agent discussion, and self-criticism. Moreover, unlike prior linear reasoning patterns that simply append historical images, PixelCraft maintains an image memory to allow the planner to adaptively revisit earlier visual steps, explore alternative reasoning branches, and dynamically adjust the reasoning trajectory during discussion. Extensive experiments on challenging chart and geometry benchmarks demonstrate that PixelCraft significantly improves visual reasoning performance for advanced MLLMs, setting a new standard for structured image reasoning. Our code will be available at https://github.com/microsoft/PixelCraft.
PDF42September 30, 2025