VisuoThink: Усиление логического мышления LVLM с помощью мультимодального поиска по дереву

Аннотация

Последние достижения в области больших визуально-языковых моделей продемонстрировали впечатляющие возможности. Однако они часто оказываются несостоятельными при решении сложных задач на рассуждение, с которыми люди обычно справляются с помощью визуальных средств и последовательного, пошагового мышления. Хотя существующие методы исследовали текстовое "медленное мышление" или базовую визуальную поддержку, они не способны уловить сложную, переплетённую природу процессов визуально-вербального рассуждения человека. Чтобы преодолеть эти ограничения и вдохновлённые механизмами "медленного мышления" в человеческом познании, мы представляем VisuoThink — новый фреймворк, который органично интегрирует визуально-пространственную и языковую области. VisuoThink способствует мультимодальному "медленному мышлению", обеспечивая прогрессивное визуально-текстовое рассуждение, и включает масштабирование на этапе тестирования с помощью поиска по дереву с опережением. Многочисленные эксперименты показывают, что VisuoThink значительно улучшает способности к рассуждению за счёт масштабирования на этапе вывода, даже без тонкой настройки, достигая передовых результатов в задачах, связанных с геометрией и пространственным мышлением.

English

Recent advancements in Large Vision-Language Models have showcased remarkable capabilities. However, they often falter when confronted with complex reasoning tasks that humans typically address through visual aids and deliberate, step-by-step thinking. While existing methods have explored text-based slow thinking or rudimentary visual assistance, they fall short of capturing the intricate, interleaved nature of human visual-verbal reasoning processes. To overcome these limitations and inspired by the mechanisms of slow thinking in human cognition, we introduce VisuoThink, a novel framework that seamlessly integrates visuospatial and linguistic domains. VisuoThink facilitates multimodal slow thinking by enabling progressive visual-textual reasoning and incorporates test-time scaling through look-ahead tree search. Extensive experiments demonstrate that VisuoThink significantly enhances reasoning capabilities via inference-time scaling, even without fine-tuning, achieving state-of-the-art performance in tasks involving geometry and spatial reasoning.