Comprensione Visiva dei Documenti e Risposta alle Domande: Un Framework di Collaborazione Multi-Agente con Scalabilità al Momento del Test
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling
August 5, 2025
Autori: Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) esistenti, siano essi generalisti o specializzati, rimangono limitati dalla loro scala parametrica, mancano di robuste capacità di autocorrezione e ottengono prestazioni inferiori in compiti che coinvolgono contesti visivi lunghi e ragionamenti complessi, risultando in prestazioni subottimali nei compiti basati su documenti. Per affrontare questo problema, proponiamo MACT, un framework di Collaborazione Multi-Agente con ridimensionamento al momento del test, progettato specificamente per la comprensione visiva di documenti e la risposta a domande visive (VQA). Esso comprende quattro agenti distinti su piccola scala, ovvero agenti di pianificazione, esecuzione, giudizio e risposta, con ruoli chiaramente definiti e una collaborazione efficace. In particolare, l'agente di giudizio verifica esclusivamente la correttezza e reindirizza agli agenti precedenti per le revisioni, superando le strategie di correzione convenzionali. Per espandere ulteriormente i confini delle capacità del framework, proponiamo un modello di ricompensa mista che bilancia le abilità specifiche degli agenti e la collaborazione globale, nonché un ridimensionamento ibrido al momento del test per ogni agente, che personalizza diverse strategie di ridimensionamento in base alle loro funzioni. Valutato su benchmark che coprono sia contesti basati su documenti che non basati su documenti, il nostro MACT mostra prestazioni superiori con una scala parametrica più piccola senza sacrificare la capacità di compiti generali e matematici. In particolare, si distingue nei benchmark che coinvolgono contesti visivi lunghi e ragionamenti complessi. Le tre varianti di MACT occupano costantemente le prime tre posizioni nelle medie dei punteggi, guidando in 13 dei 15 benchmark. Il codice sarà disponibile all'indirizzo: https://github.com/YU-deep/MACT.git.
English
Existing vision-language models (VLMs), whether generalists or specialists,
remain constrained by their parameter scale, lack robust self-correction
capabilities, and underperform in tasks involving long visual contexts and
complex reasoning, resulting in suboptimal performance on document-based tasks.
To address this, we propose MACT, a Multi-Agent Collaboration framework with
Test-Time scaling, tailored for visual document understanding and visual
question answering (VQA). It comprises four distinct small-scale agents, i.e.,
planning, execution, judgment, and answer agents, with clearly defined roles
and effective collaboration. Notably, the judgment agent exclusively verifies
correctness and redirects to prior agents for revisions, outperforming
conventional correction strategies. To further expand the capability boundaries
of the framework, we propose mixed reward modeling that balances agent-specific
abilities and global collaboration, as well as agent-wise hybrid test-time
scaling, which customizes different scaling strategies for each agent based on
their functions. Evaluated on benchmarks spanning both document-based and
non-document-based settings, our MACT shows superior performance with a smaller
parameter scale without sacrificing the ability of general and mathematical
tasks. Especially, it stands out in benchmarks involving long visual contexts
and complicated reasoning. The three variants of MACT consistently hold the top
three positions in average scores, leading in 13 of the 15 benchmarks. Code
will be available at: https://github.com/YU-deep/MACT.git.