VisuoThink : Renforcer le raisonnement des LVLM grâce à la recherche arborescente multimodale

papers.abstract

Les récentes avancées dans les modèles de vision et de langage à grande échelle ont démontré des capacités remarquables. Cependant, ils échouent souvent face à des tâches de raisonnement complexes que les humains abordent généralement à l'aide de supports visuels et d'une réflexion délibérée et étape par étape. Bien que les méthodes existantes aient exploré une pensée lente basée sur le texte ou une assistance visuelle rudimentaire, elles ne parviennent pas à capturer la nature complexe et entrelacée des processus de raisonnement visuel-verbal humains. Pour surmonter ces limites et inspirés par les mécanismes de la pensée lente dans la cognition humaine, nous introduisons VisuoThink, un nouveau cadre qui intègre de manière fluide les domaines visuo-spatiaux et linguistiques. VisuoThink facilite la pensée lente multimodale en permettant un raisonnement visuel-textuel progressif et intègre une mise à l'échelle au moment du test grâce à une recherche arborescente prospective. Des expériences approfondies démontrent que VisuoThink améliore significativement les capacités de raisonnement via une mise à l'échelle au moment de l'inférence, même sans ajustement fin, atteignant des performances de pointe dans les tâches impliquant la géométrie et le raisonnement spatial.

English

Recent advancements in Large Vision-Language Models have showcased remarkable capabilities. However, they often falter when confronted with complex reasoning tasks that humans typically address through visual aids and deliberate, step-by-step thinking. While existing methods have explored text-based slow thinking or rudimentary visual assistance, they fall short of capturing the intricate, interleaved nature of human visual-verbal reasoning processes. To overcome these limitations and inspired by the mechanisms of slow thinking in human cognition, we introduce VisuoThink, a novel framework that seamlessly integrates visuospatial and linguistic domains. VisuoThink facilitates multimodal slow thinking by enabling progressive visual-textual reasoning and incorporates test-time scaling through look-ahead tree search. Extensive experiments demonstrate that VisuoThink significantly enhances reasoning capabilities via inference-time scaling, even without fine-tuning, achieving state-of-the-art performance in tasks involving geometry and spatial reasoning.

VisuoThink : Renforcer le raisonnement des LVLM grâce à la recherche arborescente multimodale

VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search

papers.abstract

Support