OMG-LLaVA: Uniendo el razonamiento y la comprensión a nivel de imagen, objeto y píxelOMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and
Understanding
Los métodos actuales de segmentación universal demuestran capacidades sólidas en la comprensión de imágenes y videos a nivel de píxeles. Sin embargo, carecen de habilidades de razonamiento y no pueden ser controlados mediante instrucciones de texto. En contraste, los grandes modelos multimodales de visión y lenguaje exhiben poderosas capacidades de conversación y razonamiento basadas en la visión, pero carecen de comprensión a nivel de píxeles y tienen dificultades para aceptar indicaciones visuales para una interacción flexible con el usuario. Este artículo propone OMG-LLaVA, un nuevo y elegante marco que combina una poderosa comprensión visual a nivel de píxeles con habilidades de razonamiento. Puede aceptar diversas indicaciones visuales y de texto para una interacción flexible con el usuario. Específicamente, utilizamos un método de segmentación universal como codificador visual, integrando información de la imagen, conocimientos previos de percepción e indicaciones visuales en tokens visuales proporcionados al LLM. El LLM es responsable de comprender las instrucciones de texto del usuario y proporcionar respuestas de texto y resultados de segmentación a nivel de píxeles basados en la información visual. Proponemos la incorporación de conocimientos previos de percepción para integrar mejor estos conocimientos con las características de la imagen. OMG-LLaVA logra razonamiento y comprensión a nivel de imagen, objeto y píxel en un solo modelo, igualando o superando el rendimiento de métodos especializados en múltiples benchmarks. En lugar de utilizar el LLM para conectar a cada especialista, nuestro trabajo apunta al entrenamiento de extremo a extremo en un codificador, un decodificador y un LLM. El código y el modelo han sido liberados para futuras investigaciones.