Lumos : Renforcer les LLM multimodaux grâce à la reconnaissance de texte scénique
Lumos : Empowering Multimodal LLMs with Scene Text Recognition
February 12, 2024
Auteurs: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI
Résumé
Nous présentons Lumos, le premier système de question-réponse multimodal de bout en bout doté de capacités de compréhension textuelle. Au cœur de Lumos se trouve un composant de Reconnaissance de Texte dans les Scènes (Scene Text Recognition, STR) qui extrait le texte à partir d'images en vue à la première personne, dont la sortie est utilisée pour enrichir l'entrée d'un Modèle de Langage Multimodal de Grande Taille (Multimodal Large Language Model, MM-LLM). Lors de la construction de Lumos, nous avons rencontré de nombreux défis liés à la qualité du STR, à la latence globale et à l'inférence du modèle. Dans cet article, nous explorons ces défis et discutons de l'architecture du système, des choix de conception et des techniques de modélisation employées pour surmonter ces obstacles. Nous fournissons également une évaluation complète de chaque composant, mettant en avant une qualité et une efficacité élevées.
English
We introduce Lumos, the first end-to-end multimodal question-answering system
with text understanding capabilities. At the core of Lumos is a Scene Text
Recognition (STR) component that extracts text from first person point-of-view
images, the output of which is used to augment input to a Multimodal Large
Language Model (MM-LLM). While building Lumos, we encountered numerous
challenges related to STR quality, overall latency, and model inference. In
this paper, we delve into those challenges, and discuss the system
architecture, design choices, and modeling techniques employed to overcome
these obstacles. We also provide a comprehensive evaluation for each component,
showcasing high quality and efficiency.Summary
AI-Generated Summary