ChatPaper.aiChatPaper

PixelCraft: Un Sistema Multiagente para el Razonamiento Visual de Alta Fidelidad en Imágenes Estructuradas

PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images

September 29, 2025
Autores: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang
cs.AI

Resumen

Las imágenes estructuradas (por ejemplo, gráficos y diagramas geométricos) siguen siendo un desafío para los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), ya que los errores perceptivos pueden desencadenar conclusiones erróneas. Las señales visuales intermedias pueden guiar el razonamiento; sin embargo, los métodos basados en señales existentes están limitados por un procesamiento de imágenes de baja fidelidad y patrones de razonamiento lineales y rígidos, lo que reduce su efectividad en tareas complejas de imágenes estructuradas. En este artículo, proponemos PixelCraft, un sistema multiagente novedoso para el procesamiento de imágenes de alta fidelidad y el razonamiento visual flexible en imágenes estructuradas. El sistema incluye un despachador, un planificador, un razonador, críticos y un conjunto de agentes de herramientas visuales. Para lograr un procesamiento de alta fidelidad, construimos un corpus de alta calidad y ajustamos un MLLM para convertirlo en un modelo de anclaje, cuyas localizaciones a nivel de píxel se integran con algoritmos tradicionales de visión por computadora (CV, por sus siglas en inglés) en los agentes de herramientas. Sobre esta base, PixelCraft facilita el razonamiento visual flexible mediante un flujo de trabajo dinámico de tres etapas: selección de herramientas, discusión entre agentes y autocrítica. Además, a diferencia de los patrones de razonamiento lineales anteriores que simplemente añaden imágenes históricas, PixelCraft mantiene una memoria de imágenes que permite al planificador revisar adaptativamente pasos visuales anteriores, explorar ramas alternativas de razonamiento y ajustar dinámicamente la trayectoria del razonamiento durante la discusión. Experimentos exhaustivos en benchmarks desafiantes de gráficos y geometría demuestran que PixelCraft mejora significativamente el rendimiento del razonamiento visual para MLLMs avanzados, estableciendo un nuevo estándar para el razonamiento en imágenes estructuradas. Nuestro código estará disponible en https://github.com/microsoft/PixelCraft.
English
Structured images (e.g., charts and geometric diagrams) remain challenging for multimodal large language models (MLLMs), as perceptual slips can cascade into erroneous conclusions. Intermediate visual cues can steer reasoning; however, existing cue-based methods are constrained with low-fidelity image processing and linear, rigid reasoning patterns, limiting their effectiveness on complex structured-image tasks. In this paper, we propose PixelCraft, a novel multi-agent system for high-fidelity image processing and flexible visual reasoning on structured images. The system comprises a dispatcher, a planner, a reasoner, critics, and a set of visual tool agents. To achieve high-fidelity processing, we construct a high-quality corpus and fine-tune an MLLM into a grounding model, whose pixel-level localizations are integrated with traditional computer vision (CV) algorithms in tool agents. Building on this foundation, PixelCraft facilitates flexible visual reasoning through a dynamic three-stage workflow of tool selection, agent discussion, and self-criticism. Moreover, unlike prior linear reasoning patterns that simply append historical images, PixelCraft maintains an image memory to allow the planner to adaptively revisit earlier visual steps, explore alternative reasoning branches, and dynamically adjust the reasoning trajectory during discussion. Extensive experiments on challenging chart and geometry benchmarks demonstrate that PixelCraft significantly improves visual reasoning performance for advanced MLLMs, setting a new standard for structured image reasoning. Our code will be available at https://github.com/microsoft/PixelCraft.
PDF42September 30, 2025