Lumos: Potenciando los LLM multimodales con reconocimiento de texto en escenas

Resumen

Presentamos Lumos, el primer sistema de respuesta a preguntas multimodal de extremo a extremo con capacidades de comprensión de texto. En el núcleo de Lumos se encuentra un componente de Reconocimiento de Texto en Escenas (STR, por sus siglas en inglés) que extrae texto de imágenes en primera persona, cuya salida se utiliza para enriquecer la entrada a un Modelo de Lenguaje Multimodal de Gran Escala (MM-LLM). Durante el desarrollo de Lumos, nos enfrentamos a numerosos desafíos relacionados con la calidad del STR, la latencia general y la inferencia del modelo. En este artículo, profundizamos en esos desafíos y discutimos la arquitectura del sistema, las decisiones de diseño y las técnicas de modelado empleadas para superar estos obstáculos. También proporcionamos una evaluación exhaustiva de cada componente, demostrando alta calidad y eficiencia.

English

We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.

Lumos: Potenciando los LLM multimodales con reconocimiento de texto en escenas

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Resumen

Support