ChatPaper.aiChatPaper

Visueel Documentbegrip en Vraagbeantwoording: Een Multi-Agent Samenwerkingsframework met Schaling tijdens Testtijd

Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

August 5, 2025
Auteurs: Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan
cs.AI

Samenvatting

Bestaande visie-taalmodellen (VLMs), zowel generalisten als specialisten, blijven beperkt door hun parameterschaal, hebben geen robuuste zelfcorrectie- mogelijkheden en presteren ondermaans bij taken met lange visuele contexten en complexe redeneringen, wat resulteert in suboptimale prestaties bij document- gebaseerde taken. Om dit aan te pakken, stellen we MACT voor, een Multi-Agent Collaboration-framework met Test-Time schaling, speciaal ontworpen voor visueel documentbegrip en visuele vraag-antwoordtaken (VQA). Het bestaat uit vier verschillende kleinschalige agents, namelijk planning, uitvoering, beoordeling en antwoordagents, met duidelijk gedefinieerde rollen en effectieve samenwerking. Opmerkelijk is dat het beoordelingsagent uitsluitend de juistheid verifieert en doorverwijst naar eerdere agents voor revisies, wat conventionele correctiestrategieën overtreft. Om de mogelijkheden van het framework verder te vergroten, stellen we gemengde beloningsmodellering voor die agentspecifieke vaardigheden en globale samenwerking in balans brengt, evenals agent-gewijze hybride test-time schaling, die verschillende schaalstrategieën aanpast voor elke agent op basis van hun functies. Geëvalueerd op benchmarks die zowel document-gebaseerde als niet-document-gebaseerde instellingen omvatten, toont onze MACT superieure prestaties met een kleinere parameterschaal zonder in te leveren op het vermogen voor algemene en wiskundige taken. Met name blinkt het uit in benchmarks met lange visuele contexten en ingewikkelde redeneringen. De drie varianten van MACT houden consequent de top drie posities in gemiddelde scores en leiden in 13 van de 15 benchmarks. Code zal beschikbaar zijn op: https://github.com/YU-deep/MACT.git.
English
Existing vision-language models (VLMs), whether generalists or specialists, remain constrained by their parameter scale, lack robust self-correction capabilities, and underperform in tasks involving long visual contexts and complex reasoning, resulting in suboptimal performance on document-based tasks. To address this, we propose MACT, a Multi-Agent Collaboration framework with Test-Time scaling, tailored for visual document understanding and visual question answering (VQA). It comprises four distinct small-scale agents, i.e., planning, execution, judgment, and answer agents, with clearly defined roles and effective collaboration. Notably, the judgment agent exclusively verifies correctness and redirects to prior agents for revisions, outperforming conventional correction strategies. To further expand the capability boundaries of the framework, we propose mixed reward modeling that balances agent-specific abilities and global collaboration, as well as agent-wise hybrid test-time scaling, which customizes different scaling strategies for each agent based on their functions. Evaluated on benchmarks spanning both document-based and non-document-based settings, our MACT shows superior performance with a smaller parameter scale without sacrificing the ability of general and mathematical tasks. Especially, it stands out in benchmarks involving long visual contexts and complicated reasoning. The three variants of MACT consistently hold the top three positions in average scores, leading in 13 of the 15 benchmarks. Code will be available at: https://github.com/YU-deep/MACT.git.
PDF32August 8, 2025