Lumos: Potenziamento dei Modelli Linguistici Multimodali con il Riconoscimento del Testo nelle Scene
Lumos : Empowering Multimodal LLMs with Scene Text Recognition
February 12, 2024
Autori: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI
Abstract
Presentiamo Lumos, il primo sistema end-to-end di risposta a domande multimodale con capacità di comprensione del testo. Al cuore di Lumos si trova un componente di Riconoscimento del Testo nelle Scene (STR, Scene Text Recognition) che estrae il testo da immagini in prima persona, il cui output viene utilizzato per arricchire l'input di un Modello Linguistico Multimodale di Grande Scala (MM-LLM, Multimodal Large Language Model). Durante lo sviluppo di Lumos, abbiamo affrontato numerose sfide legate alla qualità dello STR, alla latenza complessiva e all'inferenza del modello. In questo articolo, approfondiamo tali sfide e discutiamo l'architettura del sistema, le scelte progettuali e le tecniche di modellazione impiegate per superare questi ostacoli. Forniamo inoltre una valutazione completa per ciascun componente, dimostrando elevata qualità ed efficienza.
English
We introduce Lumos, the first end-to-end multimodal question-answering system
with text understanding capabilities. At the core of Lumos is a Scene Text
Recognition (STR) component that extracts text from first person point-of-view
images, the output of which is used to augment input to a Multimodal Large
Language Model (MM-LLM). While building Lumos, we encountered numerous
challenges related to STR quality, overall latency, and model inference. In
this paper, we delve into those challenges, and discuss the system
architecture, design choices, and modeling techniques employed to overcome
these obstacles. We also provide a comprehensive evaluation for each component,
showcasing high quality and efficiency.