Latentes implizites visuelles Denken
Latent Implicit Visual Reasoning
December 24, 2025
papers.authors: Kelvin Li, Chuyi Shang, Leonid Karlinsky, Rogerio Feris, Trevor Darrell, Roei Herzig
cs.AI
papers.abstract
Während Large Multimodal Models (LMMs) bedeutende Fortschritte erzielt haben, bleiben sie weitgehend textzentriert und stützen sich auf Sprache als ihre zentrale Reasoning-Modalität. Infolgedessen sind ihre Fähigkeiten bei Reasoning-Aufgaben, die überwiegend visuell geprägt sind, eingeschränkt. Neuere Ansätze versuchen dies zu adressieren, indem sie Zwischenschritte im visuellen Bereich mit Hilfsbildern, Tiefenkarten oder Bildausschnitten überwachen. Diese Strategien setzen jedoch restriktive Annahmen darüber voraus, wie "nützliche" visuelle Abstraktionen auszusehen haben, verursachen hohe Annotationskosten und generalisieren nur schlecht über verschiedene Aufgaben hinweg. Um diese entscheidende Einschränkung zu überwinden, schlagen wir einen aufgabenagnostischen Mechanismus vor, der LMMs trainiert, visuelle Reasoning-Tokens ohne explizite Überwachung zu entdecken und zu nutzen. Diese Tokens agieren global und rekodieren das Bild auf eine aufgabenadaptive Weise, was dem Modell ermöglicht, relevante visuelle Informationen ohne manuell erstellte Supervision zu extrahieren. Unser Ansatz übertrifft direktes Fine-Tuning und erzielt state-of-the-art Ergebnisse bei einer Vielzahl visuell zentrierter Aufgaben – einschließlich solcher, bei denen Zwischenabstraktionen schwer zu spezifizieren sind – und generalisiert zugleich beim Multi-Task-Instruction-Tuning.
English
While Large Multimodal Models (LMMs) have made significant progress, they remain largely text-centric, relying on language as their core reasoning modality. As a result, they are limited in their ability to handle reasoning tasks that are predominantly visual. Recent approaches have sought to address this by supervising intermediate visual steps with helper images, depth maps, or image crops. However, these strategies impose restrictive priors on what "useful" visual abstractions look like, add heavy annotation costs, and struggle to generalize across tasks. To address this critical limitation, we propose a task-agnostic mechanism that trains LMMs to discover and use visual reasoning tokens without explicit supervision. These tokens attend globally and re-encode the image in a task-adaptive way, enabling the model to extract relevant visual information without hand-crafted supervision. Our approach outperforms direct fine-tuning and achieves state-of-the-art results on a diverse range of vision-centric tasks -- including those where intermediate abstractions are hard to specify -- while also generalizing to multi-task instruction tuning.