ChatPaper.aiChatPaper

Raisonnement Visuel Implicite Latent

Latent Implicit Visual Reasoning

December 24, 2025
papers.authors: Kelvin Li, Chuyi Shang, Leonid Karlinsky, Rogerio Feris, Trevor Darrell, Roei Herzig
cs.AI

papers.abstract

Si les grands modèles multimodaux (LMM) ont réalisé des progrès significatifs, ils restent largement centrés sur le texte, utilisant le langage comme modalité de raisonnement centrale. Par conséquent, leur capacité à traiter des tâches de raisonnement à dominante visuelle est limitée. Des approches récentes ont tenté de résoudre ce problème en supervisant les étapes visuelles intermédiaires à l'aide d'images auxiliaires, de cartes de profondeur ou de recadrages d'images. Cependant, ces stratégies imposent des préconceptions restrictives sur la forme que doivent prendre les abstractions visuelles « utiles », ajoutent des coûts d'annotation élevés et peinent à généraliser d'une tâche à l'autre. Pour remédier à cette limitation cruciale, nous proposons un mécanisme agnostique aux tâches qui entraîne les LMM à découvrir et à utiliser des jetons de raisonnement visuel sans supervision explicite. Ces jetons opèrent une attention globale et ré-encodent l'image de manière adaptative à la tâche, permettant au modèle d'extraire les informations visuelles pertinentes sans supervision artisanale. Notre approche surpasse le réglage fin direct et obtient des résultats state-of-the-art sur un large éventail de tâches centrées sur la vision – y compris celles pour lesquelles les abstractions intermédiaires sont difficiles à spécifier – tout en généralisant à l'apprentissage multi-tâches par instruction.
English
While Large Multimodal Models (LMMs) have made significant progress, they remain largely text-centric, relying on language as their core reasoning modality. As a result, they are limited in their ability to handle reasoning tasks that are predominantly visual. Recent approaches have sought to address this by supervising intermediate visual steps with helper images, depth maps, or image crops. However, these strategies impose restrictive priors on what "useful" visual abstractions look like, add heavy annotation costs, and struggle to generalize across tasks. To address this critical limitation, we propose a task-agnostic mechanism that trains LMMs to discover and use visual reasoning tokens without explicit supervision. These tokens attend globally and re-encode the image in a task-adaptive way, enabling the model to extract relevant visual information without hand-crafted supervision. Our approach outperforms direct fine-tuning and achieves state-of-the-art results on a diverse range of vision-centric tasks -- including those where intermediate abstractions are hard to specify -- while also generalizing to multi-task instruction tuning.
PDF332December 27, 2025