Lumos: Multimodale LLM's versterken met scènetekstherkenning
Lumos : Empowering Multimodal LLMs with Scene Text Recognition
February 12, 2024
Auteurs: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI
Samenvatting
We introduceren Lumos, het eerste end-to-end multimodale vraag-antwoordsysteem met tekstbegripcapaciteiten. De kern van Lumos bestaat uit een Scene Text Recognition (STR)-component die tekst extraheert uit first-person beelden, waarvan de output wordt gebruikt om de invoer van een Multimodaal Taalmodel (MM-LLM) te verrijken. Tijdens de ontwikkeling van Lumos kwamen we tal van uitdagingen tegen met betrekking tot de kwaliteit van STR, de algehele latentie en modelinferentie. In dit artikel gaan we dieper in op deze uitdagingen en bespreken we de systeemarchitectuur, ontwerpkeuzes en modelleertechnieken die zijn ingezet om deze obstakels te overwinnen. We bieden ook een uitgebreide evaluatie van elke component, waarbij hoge kwaliteit en efficiëntie worden aangetoond.
English
We introduce Lumos, the first end-to-end multimodal question-answering system
with text understanding capabilities. At the core of Lumos is a Scene Text
Recognition (STR) component that extracts text from first person point-of-view
images, the output of which is used to augment input to a Multimodal Large
Language Model (MM-LLM). While building Lumos, we encountered numerous
challenges related to STR quality, overall latency, and model inference. In
this paper, we delve into those challenges, and discuss the system
architecture, design choices, and modeling techniques employed to overcome
these obstacles. We also provide a comprehensive evaluation for each component,
showcasing high quality and efficiency.