ChatPaper.aiChatPaper

NExT-Chat: Un Modelo de Lenguaje Multimodal para Chat, Detección y Segmentación

NExT-Chat: An LMM for Chat, Detection and Segmentation

November 8, 2023
Autores: Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua
cs.AI

Resumen

El desarrollo de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado significativamente el campo de la comprensión multimodal, dando lugar al surgimiento de modelos multimodales de gran escala (LMMs). Para mejorar el nivel de comprensión visual, estudios recientes han dotado a los LMMs con capacidades de comprensión a nivel de región, representando las coordenadas de las cajas delimitadoras de objetos como una serie de secuencias de texto (pixel2seq). En este artículo, presentamos un nuevo paradigma para el modelado de ubicación de objetos llamado método pixel2emb, donde solicitamos al LMM que genere incrustaciones de ubicación que luego son decodificadas por diferentes decodificadores. Este paradigma permite el uso de diferentes formatos de ubicación (como cajas delimitadoras y máscaras) en conversaciones multimodales. Además, este tipo de modelado de ubicación basado en incrustaciones facilita la utilización de prácticas existentes en tareas de localización, como detección y segmentación. En escenarios con recursos limitados, nuestro método pixel2emb demuestra un rendimiento superior en comparación con los enfoques más avanzados (SOTA, por sus siglas en inglés) en tareas de entrada y salida de ubicación bajo una comparación justa. Aprovechando el método pixel2emb propuesto, entrenamos un LMM llamado NExT-Chat y demostramos su capacidad para manejar múltiples tareas como anclaje visual, descripción de regiones y razonamiento fundamentado.
English
The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pixel2seq). In this paper, we introduce a novel paradigm for object location modeling called pixel2emb method, where we ask the LMM to output the location embeddings and then decoded by different decoders. This paradigm allows for different location formats (such as bounding boxes and masks) to be used in multimodal conversations Furthermore, this kind of embedding based location modeling enables the utilization of existing practices in localization tasks, such as detection and segmentation. In scenarios with limited resources, our pixel2emb demonstrates superior performance compared to existing state-of-the-art (SOTA) approaches in both the location input and output tasks under fair comparison. Leveraging the proposed pixel2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region caption, and grounded reasoning.
PDF160December 15, 2024