MAOAM: Унифицированный выбор объектов и материалов с использованием визуально-языковых моделей

Аннотация

Выделение является ключевой операцией в интерактивном редактировании изображений. Для практического применения пользователь должен иметь возможность задать и устранить неоднозначность желаемой области выделения с помощью текстовых или кликовых взаимодействий, а система должна поддерживать выделение не только объектов, но и других критериев, например, материалов. Выделение на основе материалов полезно для таких задач, как перетекстурирование поверхностей или редактирование экземпляров определённого материала. Однако существующие методы выделения на основе моделей "зрение-язык" (VLM) являются объектно-ориентированными и, как правило, поддерживают только одну модальность взаимодействия, что ограничивает их применимость. В данной работе мы представляем MAOAM (Mask Any Object And Material) — унифицированную систему выделения, обеспечивающую точное выделение объектов и материалов как на основе текстовых, так и кликовых взаимодействий. MAOAM использует VLM с головой сегментации для создания попиксельно точных масок по запросам пользователя: VLM интерпретирует намерение пользователя (выделение объекта или материала) и кодирует визуальные сущности, атрибуты и пространственные отношения, в то время как голова сегментации декодирует выходной токен в маску. Ключевой проблемой является отсутствие наборов данных для выделения материалов с текстовыми аннотациями. Мы предлагаем масштабируемый конвейер генерации данных: собираем реальные и синтетические изображения с масками материалов и используем VLM для генерации описаний материалов с богатой визуально-семантической информацией. Мы обучаем MAOAM с многоцелевой функцией потерь для кликового и текстового выделения, а также с вспомогательной задачей VQA, полученной из описаний материалов, для углублённого понимания материалов. Несмотря на обучение на одномодальных подсказках, наша модель демонстрирует эмерджентное улучшение выделения при комбинировании текста и кликов во время инференса, что позволяет реализовать гибкие рабочие процессы редактирования изображений. Эксперименты показывают точное и согласованное выделение разнообразных объектов, материалов и сценариев взаимодействия, что подчёркивает практическую надёжность модели.

English

Selection is a core operation in interactive image editing. To be practical, a user should be able to specify and disambiguate the desired selection region through either text or click-based interactions, and the system should support selecting not only objects but also other criteria, such as materials. Material-based selection is valuable for tasks like re-texturing surfaces or editing instances of a specific material. However, existing vision-language-model (VLM) based selection methods are object-centric and typically support a single interaction modality, limiting their applicability. In this work, we thus present Mask Any Object And Material (MAOAM), a unified selection framework that enables precise object and material-level selection across both text- and click-based interactions. MAOAM leverages a VLM with a segmentation head to produce pixel-accurate masks from user prompts: the VLM interprets the user's selection intent (object or material-level) and encodes visual entities, attributes, and spatial relations, while the segmentation head decodes the output token into a mask. A key challenge is the lack of material selection datasets with text annotations. We propose a scalable data generation pipeline: we collect real and synthetic images with material masks, and leverage VLMs to generate material descriptions with rich visual-semantics. We train MAOAM with a multi-task objective over click and text-based selection, along with an auxiliary VQA task derived from the material descriptions to facilitate deeper material understanding. Despite being trained with uni-modal prompts, our model exhibits an emergent improvement in selection when combining text and clicks at inference, enabling flexible image editing workflows. Experiments demonstrate accurate and coherent selections across diverse objects, materials, and interaction scenarios, highlighting robustness in practice.