Comprensión Visual de Documentos y Respuesta a Preguntas: Un Marco de Colaboración Multiagente con Escalado en Tiempo de Prueba
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling
August 5, 2025
Autores: Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs) existentes, ya sean generalistas o especializados, siguen limitados por su escala de parámetros, carecen de capacidades robustas de autocorrección y tienen un rendimiento inferior en tareas que involucran contextos visuales extensos y razonamiento complejo, lo que resulta en un desempeño subóptimo en tareas basadas en documentos. Para abordar esto, proponemos MACT, un marco de Colaboración Multi-Agente con escalado en tiempo de prueba, diseñado para la comprensión visual de documentos y la respuesta a preguntas visuales (VQA). Este marco consta de cuatro agentes de pequeña escala distintos, es decir, agentes de planificación, ejecución, juicio y respuesta, con roles claramente definidos y una colaboración efectiva. Cabe destacar que el agente de juicio verifica exclusivamente la corrección y redirige a los agentes anteriores para revisiones, superando las estrategias de corrección convencionales. Para expandir aún más los límites de capacidad del marco, proponemos un modelado de recompensas mixtas que equilibra las habilidades específicas de los agentes y la colaboración global, así como un escalado híbrido en tiempo de prueba por agente, que personaliza diferentes estrategias de escalado para cada agente según sus funciones. Evaluado en puntos de referencia que abarcan configuraciones basadas en documentos y no basadas en documentos, nuestro MACT muestra un rendimiento superior con una escala de parámetros más pequeña sin sacrificar la capacidad para tareas generales y matemáticas. Especialmente, destaca en puntos de referencia que involucran contextos visuales extensos y razonamientos complicados. Las tres variantes de MACT ocupan consistentemente las tres primeras posiciones en puntajes promedio, liderando en 13 de los 15 puntos de referencia. El código estará disponible en: https://github.com/YU-deep/MACT.git.
English
Existing vision-language models (VLMs), whether generalists or specialists,
remain constrained by their parameter scale, lack robust self-correction
capabilities, and underperform in tasks involving long visual contexts and
complex reasoning, resulting in suboptimal performance on document-based tasks.
To address this, we propose MACT, a Multi-Agent Collaboration framework with
Test-Time scaling, tailored for visual document understanding and visual
question answering (VQA). It comprises four distinct small-scale agents, i.e.,
planning, execution, judgment, and answer agents, with clearly defined roles
and effective collaboration. Notably, the judgment agent exclusively verifies
correctness and redirects to prior agents for revisions, outperforming
conventional correction strategies. To further expand the capability boundaries
of the framework, we propose mixed reward modeling that balances agent-specific
abilities and global collaboration, as well as agent-wise hybrid test-time
scaling, which customizes different scaling strategies for each agent based on
their functions. Evaluated on benchmarks spanning both document-based and
non-document-based settings, our MACT shows superior performance with a smaller
parameter scale without sacrificing the ability of general and mathematical
tasks. Especially, it stands out in benchmarks involving long visual contexts
and complicated reasoning. The three variants of MACT consistently hold the top
three positions in average scores, leading in 13 of the 15 benchmarks. Code
will be available at: https://github.com/YU-deep/MACT.git.