ChatPaper.aiChatPaper

MAOAM: Seleção Unificada de Objetos e Materiais com Modelos de Visão-Linguagem

MAOAM: Unified Object and Material Selection with Vision-Language Models

June 2, 2026
Autores: Jaden Park, Valentin Deschaintre, Jason Kuen, Kangning Liu, Iliyan Georgiev, Krishna Kumar Singh, Yong Jae Lee, Michael Fischer
cs.AI

Resumo

A seleção é uma operação central na edição interativa de imagens. Para ser prática, a usuária deve conseguir especificar e desambiguar a região de seleção desejada por meio de interações baseadas em texto ou cliques, e o sistema deve permitir selecionar não apenas objetos, mas também outros critérios, como materiais. A seleção baseada em materiais é valiosa para tarefas como retexturizar superfícies ou editar instâncias de um material específico. No entanto, os métodos existentes de seleção baseados em modelos de visão-linguagem (VLMs) são centrados em objetos e geralmente suportam uma única modalidade de interação, limitando sua aplicabilidade. Neste trabalho, apresentamos o MAOAM (Mask Any Object And Material), uma estrutura de seleção unificada que possibilita a seleção precisa de objetos e materiais por meio de interações baseadas em texto e cliques. O MAOAM utiliza um VLM com uma cabeça de segmentação para produzir máscaras precisas em nível de pixel a partir das instruções da usuária: o VLM interpreta a intenção de seleção (nível de objeto ou material) e codifica entidades visuais, atributos e relações espaciais, enquanto a cabeça de segmentação decodifica o token de saída em uma máscara. Um desafio fundamental é a falta de conjuntos de dados de seleção de materiais com anotações textuais. Propomos um pipeline escalável de geração de dados: coletamos imagens reais e sintéticas com máscaras de materiais e utilizamos VLMs para gerar descrições de materiais com rica semântica visual. Treinamos o MAOAM com um objetivo multitarefa para seleção baseada em cliques e texto, juntamente com uma tarefa auxiliar de VQA derivada das descrições de materiais para facilitar uma compreensão mais profunda dos materiais. Apesar de treinado com instruções unimodais, nosso modelo apresenta uma melhoria emergente na seleção ao combinar texto e cliques na inferência, possibilitando fluxos de trabalho flexíveis de edição de imagens. Experimentos demonstram seleções precisas e coerentes em diversos objetos, materiais e cenários de interação, evidenciando robustez na prática.
English
Selection is a core operation in interactive image editing. To be practical, a user should be able to specify and disambiguate the desired selection region through either text or click-based interactions, and the system should support selecting not only objects but also other criteria, such as materials. Material-based selection is valuable for tasks like re-texturing surfaces or editing instances of a specific material. However, existing vision-language-model (VLM) based selection methods are object-centric and typically support a single interaction modality, limiting their applicability. In this work, we thus present Mask Any Object And Material (MAOAM), a unified selection framework that enables precise object and material-level selection across both text- and click-based interactions. MAOAM leverages a VLM with a segmentation head to produce pixel-accurate masks from user prompts: the VLM interprets the user's selection intent (object or material-level) and encodes visual entities, attributes, and spatial relations, while the segmentation head decodes the output token into a mask. A key challenge is the lack of material selection datasets with text annotations. We propose a scalable data generation pipeline: we collect real and synthetic images with material masks, and leverage VLMs to generate material descriptions with rich visual-semantics. We train MAOAM with a multi-task objective over click and text-based selection, along with an auxiliary VQA task derived from the material descriptions to facilitate deeper material understanding. Despite being trained with uni-modal prompts, our model exhibits an emergent improvement in selection when combining text and clicks at inference, enabling flexible image editing workflows. Experiments demonstrate accurate and coherent selections across diverse objects, materials, and interaction scenarios, highlighting robustness in practice.