Lumos: Multimodale LLM's versterken met scènetekstherkenning

Samenvatting

We introduceren Lumos, het eerste end-to-end multimodale vraag-antwoordsysteem met tekstbegripcapaciteiten. De kern van Lumos bestaat uit een Scene Text Recognition (STR)-component die tekst extraheert uit first-person beelden, waarvan de output wordt gebruikt om de invoer van een Multimodaal Taalmodel (MM-LLM) te verrijken. Tijdens de ontwikkeling van Lumos kwamen we tal van uitdagingen tegen met betrekking tot de kwaliteit van STR, de algehele latentie en modelinferentie. In dit artikel gaan we dieper in op deze uitdagingen en bespreken we de systeemarchitectuur, ontwerpkeuzes en modelleertechnieken die zijn ingezet om deze obstakels te overwinnen. We bieden ook een uitgebreide evaluatie van elke component, waarbij hoge kwaliteit en efficiëntie worden aangetoond.

English

We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.

Lumos: Multimodale LLM's versterken met scènetekstherkenning

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Samenvatting

Support