MAOAM: Selección unificada de objetos y materiales con modelos de visión y lenguaje

Resumen

La selección es una operación fundamental en la edición interactiva de imágenes. Para que sea práctica, el usuario debe poder especificar y desambiguar la región de selección deseada mediante interacciones basadas en texto o clics, y el sistema debe permitir seleccionar no solo objetos, sino también otros criterios, como los materiales. La selección basada en materiales resulta valiosa para tareas como la retexturización de superficies o la edición de instancias de un material específico. Sin embargo, los métodos de selección existentes basados en modelos de lenguaje y visión (VLM, por sus siglas en inglés) están centrados en objetos y suelen admitir una única modalidad de interacción, lo que limita su aplicabilidad. En este trabajo, presentamos, por tanto, Mask Any Object And Material (MAOAM), un marco unificado de selección que permite una selección precisa a nivel de objetos y materiales, tanto en interacciones basadas en texto como en clics. MAOAM aprovecha un VLM con un cabezal de segmentación para generar máscaras a nivel de píxel a partir de las indicaciones del usuario: el VLM interpreta la intención de selección del usuario (a nivel de objeto o material) y codifica entidades visuales, atributos y relaciones espaciales, mientras que el cabezal de segmentación decodifica el token de salida en una máscara. Un desafío clave es la falta de conjuntos de datos de selección de materiales con anotaciones textuales. Proponemos un flujo de generación de datos escalable: recopilamos imágenes reales y sintéticas con máscaras de materiales, y aprovechamos los VLM para generar descripciones de materiales con una semántica visual rica. Entrenamos MAOAM con un objetivo multitarea que abarca la selección basada en clics y en texto, junto con una tarea auxiliar de VQA derivada de las descripciones de materiales para facilitar una comprensión más profunda de los materiales. A pesar de haber sido entrenado con indicaciones unimodales, nuestro modelo muestra una mejora emergente en la selección al combinar texto y clics durante la inferencia, lo que permite flujos de trabajo flexibles de edición de imágenes. Los experimentos demuestran selecciones precisas y coherentes en diversos objetos, materiales y escenarios de interacción, destacando su robustez en la práctica.

English

Selection is a core operation in interactive image editing. To be practical, a user should be able to specify and disambiguate the desired selection region through either text or click-based interactions, and the system should support selecting not only objects but also other criteria, such as materials. Material-based selection is valuable for tasks like re-texturing surfaces or editing instances of a specific material. However, existing vision-language-model (VLM) based selection methods are object-centric and typically support a single interaction modality, limiting their applicability. In this work, we thus present Mask Any Object And Material (MAOAM), a unified selection framework that enables precise object and material-level selection across both text- and click-based interactions. MAOAM leverages a VLM with a segmentation head to produce pixel-accurate masks from user prompts: the VLM interprets the user's selection intent (object or material-level) and encodes visual entities, attributes, and spatial relations, while the segmentation head decodes the output token into a mask. A key challenge is the lack of material selection datasets with text annotations. We propose a scalable data generation pipeline: we collect real and synthetic images with material masks, and leverage VLMs to generate material descriptions with rich visual-semantics. We train MAOAM with a multi-task objective over click and text-based selection, along with an auxiliary VQA task derived from the material descriptions to facilitate deeper material understanding. Despite being trained with uni-modal prompts, our model exhibits an emergent improvement in selection when combining text and clicks at inference, enabling flexible image editing workflows. Experiments demonstrate accurate and coherent selections across diverse objects, materials, and interaction scenarios, highlighting robustness in practice.