VisuoThink: Potencializando o Raciocínio LVLM com Busca em Árvore Multimodal
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search
April 12, 2025
Autores: Yikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu
cs.AI
Resumo
Os recentes avanços em Grandes Modelos de Visão e Linguagem têm demonstrado capacidades notáveis. No entanto, eles frequentemente falham ao serem confrontados com tarefas de raciocínio complexo que os humanos normalmente abordam por meio de auxílios visuais e pensamento deliberado e passo a passo. Embora os métodos existentes tenham explorado o pensamento lento baseado em texto ou assistência visual rudimentar, eles não conseguem capturar a natureza intrincada e intercalada dos processos de raciocínio visual-verbal humanos. Para superar essas limitações e inspirados pelos mecanismos de pensamento lento na cognição humana, introduzimos o VisuoThink, uma nova estrutura que integra de forma contínua os domínios visuoespacial e linguístico. O VisuoThink facilita o pensamento lento multimodal, permitindo o raciocínio visual-textual progressivo e incorporando a escalabilidade em tempo de teste por meio de busca em árvore de antecipação. Experimentos extensivos demonstram que o VisuoThink melhora significativamente as capacidades de raciocínio por meio de escalabilidade no tempo de inferência, mesmo sem ajuste fino, alcançando desempenho de ponta em tarefas envolvendo geometria e raciocínio espacial.
English
Recent advancements in Large Vision-Language Models have showcased remarkable
capabilities. However, they often falter when confronted with complex reasoning
tasks that humans typically address through visual aids and deliberate,
step-by-step thinking. While existing methods have explored text-based slow
thinking or rudimentary visual assistance, they fall short of capturing the
intricate, interleaved nature of human visual-verbal reasoning processes. To
overcome these limitations and inspired by the mechanisms of slow thinking in
human cognition, we introduce VisuoThink, a novel framework that seamlessly
integrates visuospatial and linguistic domains. VisuoThink facilitates
multimodal slow thinking by enabling progressive visual-textual reasoning and
incorporates test-time scaling through look-ahead tree search. Extensive
experiments demonstrate that VisuoThink significantly enhances reasoning
capabilities via inference-time scaling, even without fine-tuning, achieving
state-of-the-art performance in tasks involving geometry and spatial reasoning.Summary
AI-Generated Summary