NExT-Chat: Un Modelo de Lenguaje Multimodal para Chat, Detección y Segmentación
NExT-Chat: An LMM for Chat, Detection and Segmentation
November 8, 2023
Autores: Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua
cs.AI
Resumen
El desarrollo de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado significativamente el campo de la comprensión multimodal, dando lugar al surgimiento de modelos multimodales de gran escala (LMMs). Para mejorar el nivel de comprensión visual, estudios recientes han dotado a los LMMs con capacidades de comprensión a nivel de región, representando las coordenadas de las cajas delimitadoras de objetos como una serie de secuencias de texto (pixel2seq). En este artículo, presentamos un nuevo paradigma para el modelado de ubicación de objetos llamado método pixel2emb, donde solicitamos al LMM que genere incrustaciones de ubicación que luego son decodificadas por diferentes decodificadores. Este paradigma permite el uso de diferentes formatos de ubicación (como cajas delimitadoras y máscaras) en conversaciones multimodales. Además, este tipo de modelado de ubicación basado en incrustaciones facilita la utilización de prácticas existentes en tareas de localización, como detección y segmentación. En escenarios con recursos limitados, nuestro método pixel2emb demuestra un rendimiento superior en comparación con los enfoques más avanzados (SOTA, por sus siglas en inglés) en tareas de entrada y salida de ubicación bajo una comparación justa. Aprovechando el método pixel2emb propuesto, entrenamos un LMM llamado NExT-Chat y demostramos su capacidad para manejar múltiples tareas como anclaje visual, descripción de regiones y razonamiento fundamentado.
English
The development of large language models (LLMs) has greatly advanced the
field of multimodal understanding, leading to the emergence of large multimodal
models (LMMs). In order to enhance the level of visual comprehension, recent
studies have equipped LMMs with region-level understanding capabilities by
representing object bounding box coordinates as a series of text sequences
(pixel2seq). In this paper, we introduce a novel paradigm for object location
modeling called pixel2emb method, where we ask the LMM to output the location
embeddings and then decoded by different decoders. This paradigm allows for
different location formats (such as bounding boxes and masks) to be used in
multimodal conversations Furthermore, this kind of embedding based location
modeling enables the utilization of existing practices in localization tasks,
such as detection and segmentation. In scenarios with limited resources, our
pixel2emb demonstrates superior performance compared to existing
state-of-the-art (SOTA) approaches in both the location input and output tasks
under fair comparison. Leveraging the proposed pixel2emb method, we train an
LMM named NExT-Chat and demonstrate its capability of handling multiple tasks
like visual grounding, region caption, and grounded reasoning.