Lumos: Stärkung multimodaler LLMs durch Szenentext-Erkennung

papers.abstract

Wir stellen Lumos vor, das erste end-to-end multimodale Frage-Antwort-System mit Textverständnisfähigkeiten. Im Kern von Lumos befindet sich eine Scene Text Recognition (STR)-Komponente, die Text aus Bildern aus der Ego-Perspektive extrahiert. Die Ausgabe dieser Komponente wird verwendet, um den Eingang eines Multimodalen Large Language Models (MM-LLM) zu erweitern. Beim Aufbau von Lumos sahen wir uns zahlreichen Herausforderungen in Bezug auf die STR-Qualität, die Gesamtlatenz und die Modellinferenz gegenüber. In diesem Artikel gehen wir auf diese Herausforderungen ein und diskutieren die Systemarchitektur, Designentscheidungen und Modellierungstechniken, die eingesetzt wurden, um diese Hindernisse zu überwinden. Zudem bieten wir eine umfassende Bewertung für jede Komponente, die hohe Qualität und Effizienz demonstriert.

English

We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.

Lumos: Stärkung multimodaler LLMs durch Szenentext-Erkennung

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

papers.abstract

Support