MAOAM : Sélection unifiée d'objets et de matériaux avec des modèles vision-langage

Résumé

La sélection est une opération fondamentale dans l'édition interactive d'images. Pour être pratique, un utilisateur doit pouvoir spécifier et lever l'ambiguïté de la région de sélection souhaitée via des interactions textuelles ou par clic, et le système doit permettre de sélectionner non seulement des objets, mais aussi d'autres critères, comme les matériaux. La sélection basée sur les matériaux est précieuse pour des tâches telles que la retexturation de surfaces ou l'édition d'instances d'un matériau spécifique. Cependant, les méthodes de sélection existantes basées sur des modèles vision-langage (VLM) sont centrées sur les objets et ne supportent généralement qu'une seule modalité d'interaction, ce qui limite leur applicabilité. Dans ce travail, nous présentons donc Mask Any Object And Material (MAOAM), un cadre de sélection unifié qui permet une sélection précise au niveau des objets et des matériaux à la fois par interactions textuelles et par clic. MAOAM exploite un VLM doté d'une tête de segmentation pour produire des masques précis au pixel près à partir des prompts utilisateur : le VLM interprète l'intention de sélection de l'utilisateur (au niveau objet ou matériau) et encode les entités visuelles, les attributs et les relations spatiales, tandis que la tête de segmentation décode le token de sortie en un masque. Un défi clé est le manque de jeux de données de sélection de matériaux avec annotations textuelles. Nous proposons un pipeline de génération de données évolutive : nous collectons des images réelles et synthétiques avec des masques de matériaux, et exploitons les VLM pour générer des descriptions de matériaux riches en sémantique visuelle. Nous entraînons MAOAM avec un objectif multitâche couvrant la sélection par clic et par texte, ainsi qu'une tâche auxiliaire de VQA dérivée des descriptions de matériaux pour faciliter une compréhension plus approfondie des matériaux. Bien qu'entraîné avec des prompts unimodaux, notre modèle présente une amélioration émergente de la sélection lors de la combinaison de texte et de clics en inférence, permettant des flux de travail d'édition d'images flexibles. Les expériences démontrent des sélections précises et cohérentes sur divers objets, matériaux et scénarios d'interaction, soulignant la robustesse en pratique.

English

Selection is a core operation in interactive image editing. To be practical, a user should be able to specify and disambiguate the desired selection region through either text or click-based interactions, and the system should support selecting not only objects but also other criteria, such as materials. Material-based selection is valuable for tasks like re-texturing surfaces or editing instances of a specific material. However, existing vision-language-model (VLM) based selection methods are object-centric and typically support a single interaction modality, limiting their applicability. In this work, we thus present Mask Any Object And Material (MAOAM), a unified selection framework that enables precise object and material-level selection across both text- and click-based interactions. MAOAM leverages a VLM with a segmentation head to produce pixel-accurate masks from user prompts: the VLM interprets the user's selection intent (object or material-level) and encodes visual entities, attributes, and spatial relations, while the segmentation head decodes the output token into a mask. A key challenge is the lack of material selection datasets with text annotations. We propose a scalable data generation pipeline: we collect real and synthetic images with material masks, and leverage VLMs to generate material descriptions with rich visual-semantics. We train MAOAM with a multi-task objective over click and text-based selection, along with an auxiliary VQA task derived from the material descriptions to facilitate deeper material understanding. Despite being trained with uni-modal prompts, our model exhibits an emergent improvement in selection when combining text and clicks at inference, enabling flexible image editing workflows. Experiments demonstrate accurate and coherent selections across diverse objects, materials, and interaction scenarios, highlighting robustness in practice.