Visual Para-Thinker++: Un Marco Multi-Agente de Política Única para el Razonamiento Visual

Resumen

El razonamiento visual requiere integrar evidencia distribuida entre regiones, atributos y relaciones, lo que hace que el razonamiento en cadena única sea propenso al compromiso perceptivo temprano y la alucinación. Proponemos Visual Para-Thinker++, un marco multiagente de política única en el que una política MLLM compartida se instancia como Agentes Principal, Trabajador y Resumen condicionados por roles. El Agente Principal descompone la tarea con patrones de asignación fijos; los Agentes Trabajadores razonan en paralelo bajo aislamiento de contexto; y el Agente Resumen concilia las trazas de razonamiento completas de los Trabajadores en lugar de votar por mayoría sobre las etiquetas finales. La política compartida se entrena mediante Inyección de Capacidad Multiagente y Optimización Multiagente con Roles Desacoplados, que asignan recompensas y ventajas específicas de cada rol a sus correspondientes segmentos de tokens para reducir el conflicto de gradientes entre roles colaborativos. Un motor de inferencia nativo permite un despliegue eficiente de múltiples agentes mediante un prefijo visual compartido y la reutilización de la caché KV. En V*, CountBench, la familia RefCOCO y HallusionBench, Visual Para-Thinker++ supera consistentemente a las líneas base de trayectoria única y paralelas en tiempo de inferencia, con ganancias especialmente significativas en el razonamiento visual sensible a las alucinaciones.

English

Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is instantiated as role-conditioned Main, Worker, and Summary Agents. The Main Agent decomposes the task with fixed allocation patterns; Worker Agents reason in parallel under context isolation; and the Summary Agent reconciles full Worker reasoning traces rather than majority-voting on final labels. The shared policy is trained by Multi-Agent Capability Injection and Role-Decoupled Multi-Agent Optimization, which assign role-specific rewards and advantages to corresponding token segments to reduce gradient conflict among collaborative roles. A native inference engine enables efficient multi-agent rollout through shared visual prefix and KV cache reuse. Across V*, CountBench, the RefCOCO family, and HallusionBench, Visual Para-Thinker++ consistently outperforms single-trajectory and inference-time parallel baselines, with especially strong gains on hallucination-sensitive visual reasoning.