Lumos : Renforcer les LLM multimodaux grâce à la reconnaissance de texte scénique

papers.abstract

Nous présentons Lumos, le premier système de question-réponse multimodal de bout en bout doté de capacités de compréhension textuelle. Au cœur de Lumos se trouve un composant de Reconnaissance de Texte dans les Scènes (Scene Text Recognition, STR) qui extrait le texte à partir d'images en vue à la première personne, dont la sortie est utilisée pour enrichir l'entrée d'un Modèle de Langage Multimodal de Grande Taille (Multimodal Large Language Model, MM-LLM). Lors de la construction de Lumos, nous avons rencontré de nombreux défis liés à la qualité du STR, à la latence globale et à l'inférence du modèle. Dans cet article, nous explorons ces défis et discutons de l'architecture du système, des choix de conception et des techniques de modélisation employées pour surmonter ces obstacles. Nous fournissons également une évaluation complète de chaque composant, mettant en avant une qualité et une efficacité élevées.

English

We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.

Lumos : Renforcer les LLM multimodaux grâce à la reconnaissance de texte scénique

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

papers.abstract

Support