VisuoThink: Potencializando o Raciocínio LVLM com Busca em Árvore Multimodal

Resumo

Os recentes avanços em Grandes Modelos de Visão e Linguagem têm demonstrado capacidades notáveis. No entanto, eles frequentemente falham ao serem confrontados com tarefas de raciocínio complexo que os humanos normalmente abordam por meio de auxílios visuais e pensamento deliberado e passo a passo. Embora os métodos existentes tenham explorado o pensamento lento baseado em texto ou assistência visual rudimentar, eles não conseguem capturar a natureza intrincada e intercalada dos processos de raciocínio visual-verbal humanos. Para superar essas limitações e inspirados pelos mecanismos de pensamento lento na cognição humana, introduzimos o VisuoThink, uma nova estrutura que integra de forma contínua os domínios visuoespacial e linguístico. O VisuoThink facilita o pensamento lento multimodal, permitindo o raciocínio visual-textual progressivo e incorporando a escalabilidade em tempo de teste por meio de busca em árvore de antecipação. Experimentos extensivos demonstram que o VisuoThink melhora significativamente as capacidades de raciocínio por meio de escalabilidade no tempo de inferência, mesmo sem ajuste fino, alcançando desempenho de ponta em tarefas envolvendo geometria e raciocínio espacial.

English

Recent advancements in Large Vision-Language Models have showcased remarkable capabilities. However, they often falter when confronted with complex reasoning tasks that humans typically address through visual aids and deliberate, step-by-step thinking. While existing methods have explored text-based slow thinking or rudimentary visual assistance, they fall short of capturing the intricate, interleaved nature of human visual-verbal reasoning processes. To overcome these limitations and inspired by the mechanisms of slow thinking in human cognition, we introduce VisuoThink, a novel framework that seamlessly integrates visuospatial and linguistic domains. VisuoThink facilitates multimodal slow thinking by enabling progressive visual-textual reasoning and incorporates test-time scaling through look-ahead tree search. Extensive experiments demonstrate that VisuoThink significantly enhances reasoning capabilities via inference-time scaling, even without fine-tuning, achieving state-of-the-art performance in tasks involving geometry and spatial reasoning.

VisuoThink: Potencializando o Raciocínio LVLM com Busca em Árvore Multimodal

VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search

Resumo

Support