LLaVA-o1: Позволяйте моделям видео-языка рассуждать шаг за шагомLLaVA-o1: Let Vision Language Models Reason Step-by-Step
Большие языковые модели продемонстрировали значительные прорывы в области способностей к рассуждениям, особенно благодаря масштабированию на этапе вывода, как показано на примере моделей, таких как o1 от OpenAI. Однако текущие модели видео-языкового взаимодействия (VLM) часто испытывают затруднения при выполнении систематических и структурированных рассуждений, особенно при решении сложных задач визуального вопросно-ответного взаимодействия. В данной работе мы представляем LLaVA-o1, новую модель VLM, разработанную для автономного многоэтапного рассуждения. В отличие от цепочки мыслей, LLaVA-o1 самостоятельно вступает в последовательные этапы сжатия информации, визуальной интерпретации, логического рассуждения и генерации выводов. Такой структурированный подход позволяет LLaVA-o1 достичь значительного улучшения точности на задачах, требующих рассуждений. Для достижения этой цели мы создали набор данных LLaVA-o1-100k, интегрируя образцы из различных источников визуального вопросно-ответного взаимодействия и предоставляя структурированные аннотации рассуждений. Кроме того, мы предлагаем метод поиска лучшего варианта на этапе вывода, который обеспечивает эффективное масштабирование на этапе вывода. Замечательно, что даже с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования на этапе вывода, LLaVA-o1 не только превосходит свою базовую модель на 8,9% на широком спектре мультимодальных бенчмарков по рассуждениям, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.