Visual Para-Thinker++: однополитический многоагентный фреймворк для визуального рассуждения

Аннотация

Визуальное рассуждение требует интеграции свидетельств, распределённых по областям, атрибутам и отношениям, что делает одноцепочечное рассуждение подверженным ранним перцептивным обязательствам и галлюцинациям. Мы предлагаем Visual Para-Thinker++ — многопользовательский фреймворк с единой политикой, в котором одна общая политика MLLM реализуется в виде обусловленных ролью агентов: Главного, Рабочего и Сводного. Главный агент декомпозирует задачу с использованием фиксированных шаблонов распределения; Рабочие агенты рассуждают параллельно в условиях изоляции контекста; а Сводный агент согласовывает полные трассы рассуждений Рабочих агентов, а не применяет мажоритарное голосование по финальным меткам. Общая политика обучается с помощью инъекции многопользовательских (многоагентных) способностей и оптимизации, развязанной по ролям для нескольких агентов, которые назначают вознаграждения и преимущества, специфичные для ролей, соответствующим сегментам токенов, чтобы уменьшить конфликт градиентов между совместно действующими ролями. Нативный инференс-движок обеспечивает эффективное многоагентное развёртывание за счёт общего визуального префикса и повторного использования кэша KV. На наборах данных V*, CountBench, семейства RefCOCO и HallusionBench Visual Para-Thinker++ стабильно превосходит базовые методы с одной траекторией и параллельные методы времени инференса, особенно сильно выигрывая в визуальном рассуждении, чувствительном к галлюцинациям.

English

Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is instantiated as role-conditioned Main, Worker, and Summary Agents. The Main Agent decomposes the task with fixed allocation patterns; Worker Agents reason in parallel under context isolation; and the Summary Agent reconciles full Worker reasoning traces rather than majority-voting on final labels. The shared policy is trained by Multi-Agent Capability Injection and Role-Decoupled Multi-Agent Optimization, which assign role-specific rewards and advantages to corresponding token segments to reduce gradient conflict among collaborative roles. A native inference engine enables efficient multi-agent rollout through shared visual prefix and KV cache reuse. Across V*, CountBench, the RefCOCO family, and HallusionBench, Visual Para-Thinker++ consistently outperforms single-trajectory and inference-time parallel baselines, with especially strong gains on hallucination-sensitive visual reasoning.