MAOAM: Geünificeerde Object- en Materiaalselectie met Visie-Taalmodellen
MAOAM: Unified Object and Material Selection with Vision-Language Models
June 2, 2026
Auteurs: Jaden Park, Valentin Deschaintre, Jason Kuen, Kangning Liu, Iliyan Georgiev, Krishna Kumar Singh, Yong Jae Lee, Michael Fischer
cs.AI
Samenvatting
Selectie is een kernbewerking in interactieve beeldbewerking. Om praktisch te zijn, moet een gebruiker het gewenste selectiegebied kunnen specificeren en ontwarren via tekst- of klikgebaseerde interacties, en het systeem moet niet alleen objecten ondersteunen, maar ook andere criteria, zoals materialen. Materiaalgebaseerde selectie is waardevol voor taken zoals het hertextureren van oppervlakken of het bewerken van exemplaren van een specifiek materiaal. Echter, bestaande op visueel-taalmodel (VTM) gebaseerde selectiemethoden zijn objectgericht en ondersteunen doorgaans een enkele interactiemodaliteit, wat hun toepasbaarheid beperkt.
In dit werk presenteren wij daarom Mask Any Object And Material (MAOAM), een uniform selectieraamwerk dat nauwkeurige object- en materiaalniveauselectie mogelijk maakt bij zowel tekst- als klikgebaseerde interacties. MAOAM maakt gebruik van een VTM met een segmentatiekop om pixelnauwkeurige maskers te produceren op basis van gebruikersprompts: de VTM interpreteert de selectie-intentie van de gebruiker (object- of materiaalniveau) en codeert visuele entiteiten, attributen en ruimtelijke relaties, terwijl de segmentatiekop de uitvoertoken decodeert naar een masker. Een belangrijke uitdaging is het gebrek aan materiaalselectiedatasets met tekstannotaties. Wij stellen een schaalbare datageneratiepijplijn voor: we verzamelen echte en synthetische afbeeldingen met materiaalmaskers, en maken gebruik van VTM's om materiaalbeschrijvingen met rijke visueel-semantische kenmerken te genereren.
Wij trainen MAOAM met een meervoudige taakdoelstelling voor klik- en tekstgebaseerde selectie, samen met een aanvullende VQA-taak afgeleid van de materiaalbeschrijvingen om een dieper materiaalbegrip te bevorderen. Ondanks dat het model is getraind met unimodale prompts, vertoont het een emergente verbetering in selectie bij het combineren van tekst en klikken tijdens de inferentie, wat flexibele beeldbewerkingsworkflows mogelijk maakt. Experimenten tonen nauwkeurige en coherente selecties aan over diverse objecten, materialen en interactiescenario's, wat de robuustheid in de praktijk benadrukt.
English
Selection is a core operation in interactive image editing. To be practical, a user should be able to specify and disambiguate the desired selection region through either text or click-based interactions, and the system should support selecting not only objects but also other criteria, such as materials. Material-based selection is valuable for tasks like re-texturing surfaces or editing instances of a specific material. However, existing vision-language-model (VLM) based selection methods are object-centric and typically support a single interaction modality, limiting their applicability. In this work, we thus present Mask Any Object And Material (MAOAM), a unified selection framework that enables precise object and material-level selection across both text- and click-based interactions. MAOAM leverages a VLM with a segmentation head to produce pixel-accurate masks from user prompts: the VLM interprets the user's selection intent (object or material-level) and encodes visual entities, attributes, and spatial relations, while the segmentation head decodes the output token into a mask. A key challenge is the lack of material selection datasets with text annotations. We propose a scalable data generation pipeline: we collect real and synthetic images with material masks, and leverage VLMs to generate material descriptions with rich visual-semantics. We train MAOAM with a multi-task objective over click and text-based selection, along with an auxiliary VQA task derived from the material descriptions to facilitate deeper material understanding. Despite being trained with uni-modal prompts, our model exhibits an emergent improvement in selection when combining text and clicks at inference, enabling flexible image editing workflows. Experiments demonstrate accurate and coherent selections across diverse objects, materials, and interaction scenarios, highlighting robustness in practice.