VisuoThink : Renforcer le raisonnement des LVLM grâce à la recherche arborescente multimodale
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search
April 12, 2025
Auteurs: Yikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu
cs.AI
Résumé
Les récentes avancées dans les modèles de vision et de langage à grande échelle ont démontré des capacités remarquables. Cependant, ils échouent souvent face à des tâches de raisonnement complexes que les humains abordent généralement à l'aide de supports visuels et d'une réflexion délibérée et étape par étape. Bien que les méthodes existantes aient exploré une pensée lente basée sur le texte ou une assistance visuelle rudimentaire, elles ne parviennent pas à capturer la nature complexe et entrelacée des processus de raisonnement visuel-verbal humains. Pour surmonter ces limites et inspirés par les mécanismes de la pensée lente dans la cognition humaine, nous introduisons VisuoThink, un nouveau cadre qui intègre de manière fluide les domaines visuo-spatiaux et linguistiques. VisuoThink facilite la pensée lente multimodale en permettant un raisonnement visuel-textuel progressif et intègre une mise à l'échelle au moment du test grâce à une recherche arborescente prospective. Des expériences approfondies démontrent que VisuoThink améliore significativement les capacités de raisonnement via une mise à l'échelle au moment de l'inférence, même sans ajustement fin, atteignant des performances de pointe dans les tâches impliquant la géométrie et le raisonnement spatial.
English
Recent advancements in Large Vision-Language Models have showcased remarkable
capabilities. However, they often falter when confronted with complex reasoning
tasks that humans typically address through visual aids and deliberate,
step-by-step thinking. While existing methods have explored text-based slow
thinking or rudimentary visual assistance, they fall short of capturing the
intricate, interleaved nature of human visual-verbal reasoning processes. To
overcome these limitations and inspired by the mechanisms of slow thinking in
human cognition, we introduce VisuoThink, a novel framework that seamlessly
integrates visuospatial and linguistic domains. VisuoThink facilitates
multimodal slow thinking by enabling progressive visual-textual reasoning and
incorporates test-time scaling through look-ahead tree search. Extensive
experiments demonstrate that VisuoThink significantly enhances reasoning
capabilities via inference-time scaling, even without fine-tuning, achieving
state-of-the-art performance in tasks involving geometry and spatial reasoning.Summary
AI-Generated Summary