Visueel Documentbegrip en Vraagbeantwoording: Een Multi-Agent Samenwerkingsframework met Schaling tijdens Testtijd
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling
August 5, 2025
Auteurs: Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan
cs.AI
Samenvatting
Bestaande visie-taalmodellen (VLMs), zowel generalisten als specialisten,
blijven beperkt door hun parameterschaal, hebben geen robuuste zelfcorrectie-
mogelijkheden en presteren ondermaans bij taken met lange visuele contexten en
complexe redeneringen, wat resulteert in suboptimale prestaties bij document-
gebaseerde taken. Om dit aan te pakken, stellen we MACT voor, een Multi-Agent
Collaboration-framework met Test-Time schaling, speciaal ontworpen voor visueel
documentbegrip en visuele vraag-antwoordtaken (VQA). Het bestaat uit vier
verschillende kleinschalige agents, namelijk planning, uitvoering, beoordeling
en antwoordagents, met duidelijk gedefinieerde rollen en effectieve samenwerking.
Opmerkelijk is dat het beoordelingsagent uitsluitend de juistheid verifieert en
doorverwijst naar eerdere agents voor revisies, wat conventionele
correctiestrategieën overtreft. Om de mogelijkheden van het framework verder te
vergroten, stellen we gemengde beloningsmodellering voor die agentspecifieke
vaardigheden en globale samenwerking in balans brengt, evenals agent-gewijze
hybride test-time schaling, die verschillende schaalstrategieën aanpast voor
elke agent op basis van hun functies. Geëvalueerd op benchmarks die zowel
document-gebaseerde als niet-document-gebaseerde instellingen omvatten, toont
onze MACT superieure prestaties met een kleinere parameterschaal zonder in te
leveren op het vermogen voor algemene en wiskundige taken. Met name blinkt het
uit in benchmarks met lange visuele contexten en ingewikkelde redeneringen. De
drie varianten van MACT houden consequent de top drie posities in gemiddelde
scores en leiden in 13 van de 15 benchmarks. Code zal beschikbaar zijn op:
https://github.com/YU-deep/MACT.git.
English
Existing vision-language models (VLMs), whether generalists or specialists,
remain constrained by their parameter scale, lack robust self-correction
capabilities, and underperform in tasks involving long visual contexts and
complex reasoning, resulting in suboptimal performance on document-based tasks.
To address this, we propose MACT, a Multi-Agent Collaboration framework with
Test-Time scaling, tailored for visual document understanding and visual
question answering (VQA). It comprises four distinct small-scale agents, i.e.,
planning, execution, judgment, and answer agents, with clearly defined roles
and effective collaboration. Notably, the judgment agent exclusively verifies
correctness and redirects to prior agents for revisions, outperforming
conventional correction strategies. To further expand the capability boundaries
of the framework, we propose mixed reward modeling that balances agent-specific
abilities and global collaboration, as well as agent-wise hybrid test-time
scaling, which customizes different scaling strategies for each agent based on
their functions. Evaluated on benchmarks spanning both document-based and
non-document-based settings, our MACT shows superior performance with a smaller
parameter scale without sacrificing the ability of general and mathematical
tasks. Especially, it stands out in benchmarks involving long visual contexts
and complicated reasoning. The three variants of MACT consistently hold the top
three positions in average scores, leading in 13 of the 15 benchmarks. Code
will be available at: https://github.com/YU-deep/MACT.git.