Lumos: Potenziamento dei Modelli Linguistici Multimodali con il Riconoscimento del Testo nelle Scene

Abstract

Presentiamo Lumos, il primo sistema end-to-end di risposta a domande multimodale con capacità di comprensione del testo. Al cuore di Lumos si trova un componente di Riconoscimento del Testo nelle Scene (STR, Scene Text Recognition) che estrae il testo da immagini in prima persona, il cui output viene utilizzato per arricchire l'input di un Modello Linguistico Multimodale di Grande Scala (MM-LLM, Multimodal Large Language Model). Durante lo sviluppo di Lumos, abbiamo affrontato numerose sfide legate alla qualità dello STR, alla latenza complessiva e all'inferenza del modello. In questo articolo, approfondiamo tali sfide e discutiamo l'architettura del sistema, le scelte progettuali e le tecniche di modellazione impiegate per superare questi ostacoli. Forniamo inoltre una valutazione completa per ciascun componente, dimostrando elevata qualità ed efficienza.

English

We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.

Lumos: Potenziamento dei Modelli Linguistici Multimodali con il Riconoscimento del Testo nelle Scene

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Abstract

Support