Fragebewusster Vision-Transformer für multimodales Schließen
Question Aware Vision Transformer for Multimodal Reasoning
February 8, 2024
Autoren: Roy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman
cs.AI
Zusammenfassung
Vision-Language (VL)-Modelle haben erhebliche Forschungsaufmerksamkeit erlangt und bemerkenswerte Fortschritte im multimodalen Denken ermöglicht. Diese Architekturen bestehen typischerweise aus einem Vision-Encoder, einem Large Language Model (LLM) und einem Projektionsmodul, das visuelle Merkmale mit dem Repräsentationsraum des LLM abstimmt. Trotz ihrer Erfolge besteht eine entscheidende Einschränkung: Der Prozess der visuellen Kodierung bleibt von Benutzeranfragen, oft in Form von bildbezogenen Fragen, entkoppelt. Folglich sind die resultierenden visuellen Merkmale möglicherweise nicht optimal auf die fragenspezifischen Elemente des Bildes abgestimmt. Um dies zu beheben, führen wir QA-ViT ein, einen Question Aware Vision Transformer-Ansatz für multimodales Denken, der das Bewusstsein für Fragen direkt in den Vision-Encoder integriert. Diese Integration führt zu dynamischen visuellen Merkmalen, die sich auf die relevanten Aspekte des Bildes in Bezug auf die gestellte Frage konzentrieren. QA-ViT ist modellagnostisch und kann effizient in jede VL-Architektur eingebunden werden. Umfangreiche Experimente demonstrieren die Wirksamkeit der Anwendung unserer Methode auf verschiedene multimodale Architekturen, was zu einer konsistenten Verbesserung über diverse Aufgaben hinweg führt und ihr Potenzial zur Verbesserung des visuellen und Szenentextverständnisses aufzeigt.
English
Vision-Language (VL) models have gained significant research focus, enabling
remarkable advances in multimodal reasoning. These architectures typically
comprise a vision encoder, a Large Language Model (LLM), and a projection
module that aligns visual features with the LLM's representation space. Despite
their success, a critical limitation persists: the vision encoding process
remains decoupled from user queries, often in the form of image-related
questions. Consequently, the resulting visual features may not be optimally
attuned to the query-specific elements of the image. To address this, we
introduce QA-ViT, a Question Aware Vision Transformer approach for multimodal
reasoning, which embeds question awareness directly within the vision encoder.
This integration results in dynamic visual features focusing on relevant image
aspects to the posed question. QA-ViT is model-agnostic and can be incorporated
efficiently into any VL architecture. Extensive experiments demonstrate the
effectiveness of applying our method to various multimodal architectures,
leading to consistent improvement across diverse tasks and showcasing its
potential for enhancing visual and scene-text understanding.