ChatPaper.aiChatPaper

LLaVA-o1: Позволяйте моделям видео-языка рассуждать шаг за шагом

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

November 15, 2024
Авторы: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
cs.AI

Аннотация

Большие языковые модели продемонстрировали значительные прорывы в области способностей к рассуждениям, особенно благодаря масштабированию на этапе вывода, как показано на примере моделей, таких как o1 от OpenAI. Однако текущие модели видео-языкового взаимодействия (VLM) часто испытывают затруднения при выполнении систематических и структурированных рассуждений, особенно при решении сложных задач визуального вопросно-ответного взаимодействия. В данной работе мы представляем LLaVA-o1, новую модель VLM, разработанную для автономного многоэтапного рассуждения. В отличие от цепочки мыслей, LLaVA-o1 самостоятельно вступает в последовательные этапы сжатия информации, визуальной интерпретации, логического рассуждения и генерации выводов. Такой структурированный подход позволяет LLaVA-o1 достичь значительного улучшения точности на задачах, требующих рассуждений. Для достижения этой цели мы создали набор данных LLaVA-o1-100k, интегрируя образцы из различных источников визуального вопросно-ответного взаимодействия и предоставляя структурированные аннотации рассуждений. Кроме того, мы предлагаем метод поиска лучшего варианта на этапе вывода, который обеспечивает эффективное масштабирование на этапе вывода. Замечательно, что даже с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования на этапе вывода, LLaVA-o1 не только превосходит свою базовую модель на 8,9% на широком спектре мультимодальных бенчмарков по рассуждениям, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.
English
Large language models have demonstrated substantial advancements in reasoning capabilities, particularly through inference-time scaling, as illustrated by models such as OpenAI's o1. However, current Vision-Language Models (VLMs) often struggle to perform systematic and structured reasoning, especially when handling complex visual question-answering tasks. In this work, we introduce LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning. Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential stages of summarization, visual interpretation, logical reasoning, and conclusion generation. This structured approach enables LLaVA-o1 to achieve marked improvements in precision on reasoning-intensive tasks. To accomplish this, we compile the LLaVA-o1-100k dataset, integrating samples from various visual question answering sources and providing structured reasoning annotations. Besides, we propose an inference-time stage-level beam search method, which enables effective inference-time scaling. Remarkably, with only 100k training samples and a simple yet effective inference time scaling method, LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of multimodal reasoning benchmarks, but also surpasses the performance of larger and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and Llama-3.2-90B-Vision-Instruct.

Summary

AI-Generated Summary

PDF1057November 18, 2024