Критик-V: Критики VLM помогают выявлять ошибки VLM в мультимодальном рассужденииCritic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning
Модели видео-языка (VLM) продемонстрировали значительные успехи в задачах мультимодального рассуждения. Однако они по-прежнему часто генерируют неточные или несвязанные ответы из-за проблем, таких как галлюцинации в понимании изображений или недоработанные пути рассуждений. Для решения этих проблем мы представляем Critic-V, новую концепцию, вдохновленную парадигмой Actor-Critic, для улучшения способности рассуждения VLM. Эта концепция разделяет процессы рассуждения и критики путем интеграции двух независимых компонентов: Reasoner, который генерирует пути рассуждений на основе визуальных и текстовых входных данных, и Critic, который предоставляет конструктивную критику для улучшения этих путей. В этом подходе Reasoner генерирует ответы на рассуждения в соответствии с текстовыми подсказками, которые могут эволюционировать итеративно как политика на основе обратной связи от Critic. Этот процесс взаимодействия теоретически обусловлен фреймворком обучения с подкреплением, где Critic предлагает критику на естественном языке вместо скалярных вознаграждений, обеспечивая более тонкую обратную связь для улучшения способностей Reasoner в сложных задачах рассуждения. Модель Critic обучается с использованием оптимизации прямых предпочтений (DPO), используя набор данных предпочтений критики, оцененных по правилам Rule-based Reward (RBR), для улучшения ее критических возможностей. Результаты оценки показывают, что фреймворк Critic-V значительно превосходит существующие методы, включая GPT-4V, на 5 из 8 бенчмарков, особенно в отношении точности и эффективности рассуждений. Комбинирование динамической текстовой политики для Reasoner и конструктивной обратной связи от Critic, оптимизированной по предпочтениям, обеспечивает более надежный и контекстно-чувствительный процесс мультимодального рассуждения. Наш подход предоставляет многообещающее решение для улучшения надежности VLM, повышая их производительность в реальных приложениях с тяжелым уклоном в рассуждениях, таких как автономное вождение и интеллект воплощенного в действиях.