ChatPaper.aiChatPaper

Опиши что угодно: детализированное локализованное описание изображений и видео

Describe Anything: Detailed Localized Image and Video Captioning

April 22, 2025
Авторы: Long Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui
cs.AI

Аннотация

Создание детальных и точных описаний для конкретных областей на изображениях и в видеороликах остается фундаментальной задачей для моделей, работающих на стыке зрения и языка. Мы представляем модель Describe Anything Model (DAM), разработанную для детального локализованного описания (DLC). DAM сохраняет как локальные детали, так и глобальный контекст благодаря двум ключевым инновациям: фокальному промпту, который обеспечивает высокоточное кодирование целевых областей, и локализованной визуальной основе, которая интегрирует точную локализацию с более широким контекстом. Для решения проблемы недостатка высококачественных данных DLC мы предлагаем полуавтоматический конвейер данных на основе полуконтролируемого обучения (SSL) — DLC-SDP. DLC-SDP начинается с существующих наборов данных для сегментации и расширяется на неразмеченные изображения из интернета с использованием SSL. Мы также представляем DLC-Bench — эталонный тест, предназначенный для оценки DLC без использования эталонных описаний. DAM устанавливает новый рекорд на 7 эталонных тестах, охватывающих ключевые слова, фразы и детальные многосложные описания для локализованных изображений и видеороликов.
English
Generating detailed and accurate descriptions for specific regions in images and videos remains a fundamental challenge for vision-language models. We introduce the Describe Anything Model (DAM), a model designed for detailed localized captioning (DLC). DAM preserves both local details and global context through two key innovations: a focal prompt, which ensures high-resolution encoding of targeted regions, and a localized vision backbone, which integrates precise localization with its broader context. To tackle the scarcity of high-quality DLC data, we propose a Semi-supervised learning (SSL)-based Data Pipeline (DLC-SDP). DLC-SDP starts with existing segmentation datasets and expands to unlabeled web images using SSL. We introduce DLC-Bench, a benchmark designed to evaluate DLC without relying on reference captions. DAM sets new state-of-the-art on 7 benchmarks spanning keyword-level, phrase-level, and detailed multi-sentence localized image and video captioning.

Summary

AI-Generated Summary

PDF584April 23, 2025