VisuoThink: Усиление логического мышления LVLM с помощью мультимодального поиска по дереву
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search
April 12, 2025
Авторы: Yikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu
cs.AI
Аннотация
Последние достижения в области больших визуально-языковых моделей продемонстрировали впечатляющие возможности. Однако они часто оказываются несостоятельными при решении сложных задач на рассуждение, с которыми люди обычно справляются с помощью визуальных средств и последовательного, пошагового мышления. Хотя существующие методы исследовали текстовое "медленное мышление" или базовую визуальную поддержку, они не способны уловить сложную, переплетённую природу процессов визуально-вербального рассуждения человека. Чтобы преодолеть эти ограничения и вдохновлённые механизмами "медленного мышления" в человеческом познании, мы представляем VisuoThink — новый фреймворк, который органично интегрирует визуально-пространственную и языковую области. VisuoThink способствует мультимодальному "медленному мышлению", обеспечивая прогрессивное визуально-текстовое рассуждение, и включает масштабирование на этапе тестирования с помощью поиска по дереву с опережением. Многочисленные эксперименты показывают, что VisuoThink значительно улучшает способности к рассуждению за счёт масштабирования на этапе вывода, даже без тонкой настройки, достигая передовых результатов в задачах, связанных с геометрией и пространственным мышлением.
English
Recent advancements in Large Vision-Language Models have showcased remarkable
capabilities. However, they often falter when confronted with complex reasoning
tasks that humans typically address through visual aids and deliberate,
step-by-step thinking. While existing methods have explored text-based slow
thinking or rudimentary visual assistance, they fall short of capturing the
intricate, interleaved nature of human visual-verbal reasoning processes. To
overcome these limitations and inspired by the mechanisms of slow thinking in
human cognition, we introduce VisuoThink, a novel framework that seamlessly
integrates visuospatial and linguistic domains. VisuoThink facilitates
multimodal slow thinking by enabling progressive visual-textual reasoning and
incorporates test-time scaling through look-ahead tree search. Extensive
experiments demonstrate that VisuoThink significantly enhances reasoning
capabilities via inference-time scaling, even without fine-tuning, achieving
state-of-the-art performance in tasks involving geometry and spatial reasoning.Summary
AI-Generated Summary