ChatPaper.aiChatPaper

Visuelles Dokumentverständnis und Frage-Antwort-Systeme: Ein Multi-Agenten-Kollaborationsrahmen mit Skalierung zur Testzeit

Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

August 5, 2025
papers.authors: Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan
cs.AI

papers.abstract

Bestehende Vision-Language-Modelle (VLMs), seien es Generalisten oder Spezialisten, bleiben durch ihren Parametermaßstab eingeschränkt, verfügen über keine robusten Selbstkorrekturfähigkeiten und schneiden bei Aufgaben mit langen visuellen Kontexten und komplexem Denken schlecht ab, was zu suboptimalen Leistungen bei dokumentenbasierten Aufgaben führt. Um dies zu beheben, schlagen wir MACT vor, ein Multi-Agenten-Kollaborationsframework mit Test-Time-Skalierung, das speziell für das visuelle Dokumentenverständnis und visuelle Frage-Antworten (VQA) entwickelt wurde. Es besteht aus vier verschiedenen kleinskaligen Agenten, nämlich Planungs-, Ausführungs-, Beurteilungs- und Antwortagenten, mit klar definierten Rollen und effektiver Zusammenarbeit. Insbesondere überprüft der Beurteilungsagent ausschließlich die Richtigkeit und leitet an vorherige Agenten zur Überarbeitung weiter, was herkömmliche Korrekturstrategien übertrifft. Um die Fähigkeitsgrenzen des Frameworks weiter zu erweitern, schlagen wir ein gemischtes Belohnungsmodell vor, das agentspezifische Fähigkeiten und globale Zusammenarbeit ausbalanciert, sowie eine agentenweise hybride Test-Time-Skalierung, die für jeden Agenten basierend auf seinen Funktionen unterschiedliche Skalierungsstrategien anpasst. Bewertet auf Benchmarks, die sowohl dokumentenbasierte als auch nicht-dokumentenbasierte Einstellungen umfassen, zeigt unser MACT eine überlegene Leistung mit einem kleineren Parametermaßstab, ohne die Fähigkeit für allgemeine und mathematische Aufgaben zu opfern. Besonders hervorzuheben ist, dass es in Benchmarks mit langen visuellen Kontexten und kompliziertem Denken heraussticht. Die drei Varianten von MACT belegen durchweg die ersten drei Plätze in den Durchschnittswerten und führen in 13 der 15 Benchmarks. Der Code wird verfügbar sein unter: https://github.com/YU-deep/MACT.git.
English
Existing vision-language models (VLMs), whether generalists or specialists, remain constrained by their parameter scale, lack robust self-correction capabilities, and underperform in tasks involving long visual contexts and complex reasoning, resulting in suboptimal performance on document-based tasks. To address this, we propose MACT, a Multi-Agent Collaboration framework with Test-Time scaling, tailored for visual document understanding and visual question answering (VQA). It comprises four distinct small-scale agents, i.e., planning, execution, judgment, and answer agents, with clearly defined roles and effective collaboration. Notably, the judgment agent exclusively verifies correctness and redirects to prior agents for revisions, outperforming conventional correction strategies. To further expand the capability boundaries of the framework, we propose mixed reward modeling that balances agent-specific abilities and global collaboration, as well as agent-wise hybrid test-time scaling, which customizes different scaling strategies for each agent based on their functions. Evaluated on benchmarks spanning both document-based and non-document-based settings, our MACT shows superior performance with a smaller parameter scale without sacrificing the ability of general and mathematical tasks. Especially, it stands out in benchmarks involving long visual contexts and complicated reasoning. The three variants of MACT consistently hold the top three positions in average scores, leading in 13 of the 15 benchmarks. Code will be available at: https://github.com/YU-deep/MACT.git.
PDF32August 8, 2025