Comprensión Visual de Documentos y Respuesta a Preguntas: Un Marco de Colaboración Multiagente con Escalado en Tiempo de Prueba

Resumen

Los modelos de visión-lenguaje (VLMs) existentes, ya sean generalistas o especializados, siguen limitados por su escala de parámetros, carecen de capacidades robustas de autocorrección y tienen un rendimiento inferior en tareas que involucran contextos visuales extensos y razonamiento complejo, lo que resulta en un desempeño subóptimo en tareas basadas en documentos. Para abordar esto, proponemos MACT, un marco de Colaboración Multi-Agente con escalado en tiempo de prueba, diseñado para la comprensión visual de documentos y la respuesta a preguntas visuales (VQA). Este marco consta de cuatro agentes de pequeña escala distintos, es decir, agentes de planificación, ejecución, juicio y respuesta, con roles claramente definidos y una colaboración efectiva. Cabe destacar que el agente de juicio verifica exclusivamente la corrección y redirige a los agentes anteriores para revisiones, superando las estrategias de corrección convencionales. Para expandir aún más los límites de capacidad del marco, proponemos un modelado de recompensas mixtas que equilibra las habilidades específicas de los agentes y la colaboración global, así como un escalado híbrido en tiempo de prueba por agente, que personaliza diferentes estrategias de escalado para cada agente según sus funciones. Evaluado en puntos de referencia que abarcan configuraciones basadas en documentos y no basadas en documentos, nuestro MACT muestra un rendimiento superior con una escala de parámetros más pequeña sin sacrificar la capacidad para tareas generales y matemáticas. Especialmente, destaca en puntos de referencia que involucran contextos visuales extensos y razonamientos complicados. Las tres variantes de MACT ocupan consistentemente las tres primeras posiciones en puntajes promedio, liderando en 13 de los 15 puntos de referencia. El código estará disponible en: https://github.com/YU-deep/MACT.git.

English

Existing vision-language models (VLMs), whether generalists or specialists, remain constrained by their parameter scale, lack robust self-correction capabilities, and underperform in tasks involving long visual contexts and complex reasoning, resulting in suboptimal performance on document-based tasks. To address this, we propose MACT, a Multi-Agent Collaboration framework with Test-Time scaling, tailored for visual document understanding and visual question answering (VQA). It comprises four distinct small-scale agents, i.e., planning, execution, judgment, and answer agents, with clearly defined roles and effective collaboration. Notably, the judgment agent exclusively verifies correctness and redirects to prior agents for revisions, outperforming conventional correction strategies. To further expand the capability boundaries of the framework, we propose mixed reward modeling that balances agent-specific abilities and global collaboration, as well as agent-wise hybrid test-time scaling, which customizes different scaling strategies for each agent based on their functions. Evaluated on benchmarks spanning both document-based and non-document-based settings, our MACT shows superior performance with a smaller parameter scale without sacrificing the ability of general and mathematical tasks. Especially, it stands out in benchmarks involving long visual contexts and complicated reasoning. The three variants of MACT consistently hold the top three positions in average scores, leading in 13 of the 15 benchmarks. Code will be available at: https://github.com/YU-deep/MACT.git.

Comprensión Visual de Documentos y Respuesta a Preguntas: Un Marco de Colaboración Multiagente con Escalado en Tiempo de Prueba

Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

Resumen

Support