ChatPaper.aiChatPaper

Visual Para-Thinker++: 시각 추론을 위한 단일 정책 다중 에이전트 프레임워크

Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

June 8, 2026
저자: Haoran Xu, Hongyu Wang, Yifei Gao, Jiaze Li, Zizhao Tong, Xiaofeng Zhang, Xiaosong Yuan
cs.AI

초록

시각적 추론은 영역, 속성, 관계에 걸쳐 분포된 증거를 통합해야 하므로, 단일 체인 추론은 조기 지각적 결정과 할루시네이션에 취약해진다. 우리는 단일 정책 다중 에이전트 프레임워크인 Visual Para-Thinker++를 제안하며, 이 프레임워크에서는 하나의 공유 MLLM 정책이 역할 조건화된 메인, 워커, 서머리 에이전트로 인스턴스화된다. 메인 에이전트는 고정된 할당 패턴으로 작업을 분해하고, 워커 에이전트는 컨텍스트 격리 하에 병렬로 추론하며, 서머리 에이전트는 최종 레이블에 대한 다수결 투표 대신 워커의 전체 추론 과정을 조정한다. 공유 정책은 다중 에이전트 능력 주입(Multi-Agent Capability Injection)과 역할 분리 다중 에이전트 최적화(Role-Decoupled Multi-Agent Optimization)를 통해 훈련되며, 이 방법들은 협력 역할 간 그래디언트 충돌을 줄이기 위해 해당 토큰 세그먼트에 역할별 보상과 어드밴티지를 할당한다. 네이티브 추론 엔진은 공유 시각적 접두사와 KV 캐시 재사용을 통해 효율적인 다중 에이전트 롤아웃을 가능하게 한다. V*, CountBench, RefCOCO 계열, HallusionBench 전반에 걸쳐 Visual Para-Thinker++는 단일 궤적 및 추론 시 병렬 기반 모델을 일관되게 능가하며, 특히 할루시네이션에 민감한 시각적 추론에서 두드러진 성능 향상을 보인다.
English
Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is instantiated as role-conditioned Main, Worker, and Summary Agents. The Main Agent decomposes the task with fixed allocation patterns; Worker Agents reason in parallel under context isolation; and the Summary Agent reconciles full Worker reasoning traces rather than majority-voting on final labels. The shared policy is trained by Multi-Agent Capability Injection and Role-Decoupled Multi-Agent Optimization, which assign role-specific rewards and advantages to corresponding token segments to reduce gradient conflict among collaborative roles. A native inference engine enables efficient multi-agent rollout through shared visual prefix and KV cache reuse. Across V*, CountBench, the RefCOCO family, and HallusionBench, Visual Para-Thinker++ consistently outperforms single-trajectory and inference-time parallel baselines, with especially strong gains on hallucination-sensitive visual reasoning.