Lumos: Potenciando los LLM multimodales con reconocimiento de texto en escenas
Lumos : Empowering Multimodal LLMs with Scene Text Recognition
February 12, 2024
Autores: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI
Resumen
Presentamos Lumos, el primer sistema de respuesta a preguntas multimodal de extremo a extremo con capacidades de comprensión de texto. En el núcleo de Lumos se encuentra un componente de Reconocimiento de Texto en Escenas (STR, por sus siglas en inglés) que extrae texto de imágenes en primera persona, cuya salida se utiliza para enriquecer la entrada a un Modelo de Lenguaje Multimodal de Gran Escala (MM-LLM). Durante el desarrollo de Lumos, nos enfrentamos a numerosos desafíos relacionados con la calidad del STR, la latencia general y la inferencia del modelo. En este artículo, profundizamos en esos desafíos y discutimos la arquitectura del sistema, las decisiones de diseño y las técnicas de modelado empleadas para superar estos obstáculos. También proporcionamos una evaluación exhaustiva de cada componente, demostrando alta calidad y eficiencia.
English
We introduce Lumos, the first end-to-end multimodal question-answering system
with text understanding capabilities. At the core of Lumos is a Scene Text
Recognition (STR) component that extracts text from first person point-of-view
images, the output of which is used to augment input to a Multimodal Large
Language Model (MM-LLM). While building Lumos, we encountered numerous
challenges related to STR quality, overall latency, and model inference. In
this paper, we delve into those challenges, and discuss the system
architecture, design choices, and modeling techniques employed to overcome
these obstacles. We also provide a comprehensive evaluation for each component,
showcasing high quality and efficiency.