ChatPaper.aiChatPaper

Lumos : Renforcer les LLM multimodaux grâce à la reconnaissance de texte scénique

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

February 12, 2024
Auteurs: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI

Résumé

Nous présentons Lumos, le premier système de question-réponse multimodal de bout en bout doté de capacités de compréhension textuelle. Au cœur de Lumos se trouve un composant de Reconnaissance de Texte dans les Scènes (Scene Text Recognition, STR) qui extrait le texte à partir d'images en vue à la première personne, dont la sortie est utilisée pour enrichir l'entrée d'un Modèle de Langage Multimodal de Grande Taille (Multimodal Large Language Model, MM-LLM). Lors de la construction de Lumos, nous avons rencontré de nombreux défis liés à la qualité du STR, à la latence globale et à l'inférence du modèle. Dans cet article, nous explorons ces défis et discutons de l'architecture du système, des choix de conception et des techniques de modélisation employées pour surmonter ces obstacles. Nous fournissons également une évaluation complète de chaque composant, mettant en avant une qualité et une efficacité élevées.
English
We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.

Summary

AI-Generated Summary

PDF282December 15, 2024