Lumos: Stärkung multimodaler LLMs durch Szenentext-Erkennung
Lumos : Empowering Multimodal LLMs with Scene Text Recognition
February 12, 2024
Autoren: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI
Zusammenfassung
Wir stellen Lumos vor, das erste end-to-end multimodale Frage-Antwort-System mit Textverständnisfähigkeiten. Im Kern von Lumos befindet sich eine Scene Text Recognition (STR)-Komponente, die Text aus Bildern aus der Ego-Perspektive extrahiert. Die Ausgabe dieser Komponente wird verwendet, um den Eingang eines Multimodalen Large Language Models (MM-LLM) zu erweitern. Beim Aufbau von Lumos sahen wir uns zahlreichen Herausforderungen in Bezug auf die STR-Qualität, die Gesamtlatenz und die Modellinferenz gegenüber. In diesem Artikel gehen wir auf diese Herausforderungen ein und diskutieren die Systemarchitektur, Designentscheidungen und Modellierungstechniken, die eingesetzt wurden, um diese Hindernisse zu überwinden. Zudem bieten wir eine umfassende Bewertung für jede Komponente, die hohe Qualität und Effizienz demonstriert.
English
We introduce Lumos, the first end-to-end multimodal question-answering system
with text understanding capabilities. At the core of Lumos is a Scene Text
Recognition (STR) component that extracts text from first person point-of-view
images, the output of which is used to augment input to a Multimodal Large
Language Model (MM-LLM). While building Lumos, we encountered numerous
challenges related to STR quality, overall latency, and model inference. In
this paper, we delve into those challenges, and discuss the system
architecture, design choices, and modeling techniques employed to overcome
these obstacles. We also provide a comprehensive evaluation for each component,
showcasing high quality and efficiency.