ChatPaper.aiChatPaper

Visueller Para-Thinker++: Ein Ein-Policy-Multiagenten-Framework für visuelles Denken

Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

June 8, 2026
Autoren: Haoran Xu, Hongyu Wang, Yifei Gao, Jiaze Li, Zizhao Tong, Xiaofeng Zhang, Xiaosong Yuan
cs.AI

Zusammenfassung

Visuelles Denken erfordert die Integration von Evidenz, die über Regionen, Attribute und Beziehungen verteilt ist, wodurch Einzelketten-Schlussfolgerungen anfällig für frühzeitige perzeptuelle Festlegungen und Halluzinationen werden. Wir stellen Visual Para-Thinker++ vor, ein Multi-Agenten-Framework mit einer einzigen Policy, bei dem eine gemeinsame MLLM-Policy als rollenbedingte Haupt-, Arbeits- und Zusammenfassungs-Agenten instanziiert wird. Der Haupt-Agent zerlegt die Aufgabe mit festen Zuordnungsmustern; die Arbeits-Agenten schließen parallel unter Kontextisolierung; und der Zusammenfassungs-Agent gleicht die vollständigen Schlussfolgerungsspuren der Arbeits-Agenten ab, anstatt per Mehrheitsentscheidung über endgültige Labels zu befinden. Die gemeinsame Policy wird mittels Multi-Agent-Capability-Injection und Rollen-entkoppelter Multi-Agent-Optimierung trainiert, die rollenspezifische Belohnungen und Vorteile den entsprechenden Token-Segmenten zuweist, um Gradientenkonflikte zwischen kooperierenden Rollen zu reduzieren. Eine native Inferenz-Engine ermöglicht einen effizienten Multi-Agenten-Rollout durch gemeinsam genutztes visuelles Präfix und Wiederverwendung des KV-Cache. Auf V*, CountBench, der RefCOCO-Familie und HallusionBench übertrifft Visual Para-Thinker++ konsequent Einzelpfad- und Inferenzzeit-Parallel-Baselines, mit besonders starken Verbesserungen bei halluzinationsempfindlichem visuellem Denken.
English
Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is instantiated as role-conditioned Main, Worker, and Summary Agents. The Main Agent decomposes the task with fixed allocation patterns; Worker Agents reason in parallel under context isolation; and the Summary Agent reconciles full Worker reasoning traces rather than majority-voting on final labels. The shared policy is trained by Multi-Agent Capability Injection and Role-Decoupled Multi-Agent Optimization, which assign role-specific rewards and advantages to corresponding token segments to reduce gradient conflict among collaborative roles. A native inference engine enables efficient multi-agent rollout through shared visual prefix and KV cache reuse. Across V*, CountBench, the RefCOCO family, and HallusionBench, Visual Para-Thinker++ consistently outperforms single-trajectory and inference-time parallel baselines, with especially strong gains on hallucination-sensitive visual reasoning.