Lumos: Capacitando LLMs Multimodais com Reconhecimento de Texto em Cenas
Lumos : Empowering Multimodal LLMs with Scene Text Recognition
February 12, 2024
Autores: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI
Resumo
Apresentamos o Lumos, o primeiro sistema de resposta a perguntas multimodal de ponta a ponta com capacidades de compreensão de texto. No núcleo do Lumos está um componente de Reconhecimento de Texto em Cena (STR, na sigla em inglês) que extrai texto de imagens em primeira pessoa, cuja saída é usada para enriquecer a entrada de um Modelo de Linguagem Multimodal de Grande Escala (MM-LLM, na sigla em inglês). Durante o desenvolvimento do Lumos, enfrentamos diversos desafios relacionados à qualidade do STR, à latência geral e à inferência do modelo. Neste artigo, exploramos esses desafios e discutimos a arquitetura do sistema, as escolhas de design e as técnicas de modelagem empregadas para superar esses obstáculos. Também fornecemos uma avaliação abrangente de cada componente, demonstrando alta qualidade e eficiência.
English
We introduce Lumos, the first end-to-end multimodal question-answering system
with text understanding capabilities. At the core of Lumos is a Scene Text
Recognition (STR) component that extracts text from first person point-of-view
images, the output of which is used to augment input to a Multimodal Large
Language Model (MM-LLM). While building Lumos, we encountered numerous
challenges related to STR quality, overall latency, and model inference. In
this paper, we delve into those challenges, and discuss the system
architecture, design choices, and modeling techniques employed to overcome
these obstacles. We also provide a comprehensive evaluation for each component,
showcasing high quality and efficiency.