MAOAM: Einheitliche Objekt- und Materialauswahl mit Vision-Sprach-Modellen

Zusammenfassung

Die Auswahl ist eine Kernoperation in der interaktiven Bildbearbeitung. Um praktikabel zu sein, sollte ein Nutzer die gewünschte Auswahlregion entweder durch text- oder klickbasierte Interaktionen spezifizieren und disambiguieren können, und das System sollte nicht nur die Auswahl von Objekten, sondern auch anderer Kriterien wie Materialien unterstützen. Die materialbasierte Auswahl ist wertvoll für Aufgaben wie das Neutexturieren von Oberflächen oder das Bearbeiten von Instanzen eines bestimmten Materials. Allerdings sind bestehende, auf Vision-Language-Modellen (VLM) basierende Auswahlmethoden objektzentriert und unterstützen typischerweise nur eine einzelne Interaktionsmodalität, was ihre Anwendbarkeit einschränkt. In dieser Arbeit stellen wir daher Mask Any Object And Material (MAOAM) vor, ein einheitliches Auswahlframework, das eine präzise Auswahl auf Objekt- und Materialebene sowohl über text- als auch klickbasierte Interaktionen ermöglicht. MAOAM nutzt ein VLM mit einem Segmentierungskopf, um aus Nutzeraufforderungen pixelgenaue Masken zu erzeugen: Das VLM interpretiert die Auswahlabsicht des Nutzers (auf Objekt- oder Materialebene) und kodiert visuelle Entitäten, Attribute und räumliche Beziehungen, während der Segmentierungskopf das Ausgabetoken in eine Maske dekodiert. Eine zentrale Herausforderung ist das Fehlen von Materialauswahl-Datensätzen mit Textannotationen. Wir schlagen eine skalierbare Datengenerierungspipeline vor: Wir sammeln reale und synthetische Bilder mit Materialmasken und nutzen VLMs, um Materialbeschreibungen mit reichhaltiger visueller Semantik zu generieren. Wir trainieren MAOAM mit einem Multi-Task-Ziel über klick- und textbasierte Auswahl, zusammen mit einer aus den Materialbeschreibungen abgeleiteten Hilfs-VQA-Aufgabe, um ein tieferes Materialverständnis zu fördern. Obwohl das Modell mit unimodalen Aufforderungen trainiert wurde, zeigt es eine emergente Verbesserung der Auswahl, wenn bei der Inferenz Text und Klicks kombiniert werden, was flexible Bildbearbeitungsabläufe ermöglicht. Experimente zeigen genaue und kohärente Auswahlen über verschiedene Objekte, Materialien und Interaktionsszenarien hinweg, was die Robustheit in der Praxis unterstreicht.

English

Selection is a core operation in interactive image editing. To be practical, a user should be able to specify and disambiguate the desired selection region through either text or click-based interactions, and the system should support selecting not only objects but also other criteria, such as materials. Material-based selection is valuable for tasks like re-texturing surfaces or editing instances of a specific material. However, existing vision-language-model (VLM) based selection methods are object-centric and typically support a single interaction modality, limiting their applicability. In this work, we thus present Mask Any Object And Material (MAOAM), a unified selection framework that enables precise object and material-level selection across both text- and click-based interactions. MAOAM leverages a VLM with a segmentation head to produce pixel-accurate masks from user prompts: the VLM interprets the user's selection intent (object or material-level) and encodes visual entities, attributes, and spatial relations, while the segmentation head decodes the output token into a mask. A key challenge is the lack of material selection datasets with text annotations. We propose a scalable data generation pipeline: we collect real and synthetic images with material masks, and leverage VLMs to generate material descriptions with rich visual-semantics. We train MAOAM with a multi-task objective over click and text-based selection, along with an auxiliary VQA task derived from the material descriptions to facilitate deeper material understanding. Despite being trained with uni-modal prompts, our model exhibits an emergent improvement in selection when combining text and clicks at inference, enabling flexible image editing workflows. Experiments demonstrate accurate and coherent selections across diverse objects, materials, and interaction scenarios, highlighting robustness in practice.