ChatPaper.aiChatPaper

Compréhension visuelle de documents et réponse aux questions : un cadre de collaboration multi-agent avec mise à l'échelle au moment du test

Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

August 5, 2025
papers.authors: Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan
cs.AI

papers.abstract

Les modèles vision-langage (VLMs) existants, qu'ils soient généralistes ou spécialisés, restent limités par leur échelle de paramètres, manquent de capacités robustes d'auto-correction et sous-performent dans les tâches impliquant des contextes visuels longs et des raisonnements complexes, ce qui entraîne des performances sous-optimales dans les tâches basées sur des documents. Pour remédier à cela, nous proposons MACT, un cadre de collaboration multi-agents avec mise à l'échelle au moment du test, conçu pour la compréhension visuelle de documents et la réponse à des questions visuelles (VQA). Il comprend quatre agents distincts à petite échelle, à savoir les agents de planification, d'exécution, de jugement et de réponse, avec des rôles clairement définis et une collaboration efficace. Notamment, l'agent de jugement vérifie exclusivement la justesse et redirige vers les agents précédents pour des révisions, surpassant les stratégies de correction conventionnelles. Pour étendre davantage les limites de capacité du cadre, nous proposons une modélisation de récompense mixte qui équilibre les capacités spécifiques des agents et la collaboration globale, ainsi qu'une mise à l'échelle hybride au moment du test par agent, qui personnalise différentes stratégies de mise à l'échelle pour chaque agent en fonction de leurs fonctions. Évalué sur des benchmarks couvrant à la fois des contextes basés sur des documents et non basés sur des documents, notre MACT montre une performance supérieure avec une échelle de paramètres plus petite sans sacrifier la capacité des tâches générales et mathématiques. En particulier, il se distingue dans les benchmarks impliquant des contextes visuels longs et des raisonnements complexes. Les trois variantes de MACT occupent systématiquement les trois premières positions en termes de scores moyens, menant dans 13 des 15 benchmarks. Le code sera disponible à l'adresse : https://github.com/YU-deep/MACT.git.
English
Existing vision-language models (VLMs), whether generalists or specialists, remain constrained by their parameter scale, lack robust self-correction capabilities, and underperform in tasks involving long visual contexts and complex reasoning, resulting in suboptimal performance on document-based tasks. To address this, we propose MACT, a Multi-Agent Collaboration framework with Test-Time scaling, tailored for visual document understanding and visual question answering (VQA). It comprises four distinct small-scale agents, i.e., planning, execution, judgment, and answer agents, with clearly defined roles and effective collaboration. Notably, the judgment agent exclusively verifies correctness and redirects to prior agents for revisions, outperforming conventional correction strategies. To further expand the capability boundaries of the framework, we propose mixed reward modeling that balances agent-specific abilities and global collaboration, as well as agent-wise hybrid test-time scaling, which customizes different scaling strategies for each agent based on their functions. Evaluated on benchmarks spanning both document-based and non-document-based settings, our MACT shows superior performance with a smaller parameter scale without sacrificing the ability of general and mathematical tasks. Especially, it stands out in benchmarks involving long visual contexts and complicated reasoning. The three variants of MACT consistently hold the top three positions in average scores, leading in 13 of the 15 benchmarks. Code will be available at: https://github.com/YU-deep/MACT.git.
PDF32August 8, 2025