DICEPTION: Um Modelo de Difusão Generalista para Tarefas de Percepção Visual
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
February 24, 2025
Autores: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI
Resumo
Nosso principal objetivo aqui é criar um bom modelo de percepção generalista que possa lidar com múltiplas tarefas, dentro de limites de recursos computacionais e dados de treinamento. Para alcançar isso, recorremos a modelos de difusão texto-para-imagem pré-treinados em bilhões de imagens. Nossas métricas de avaliação exaustivas demonstram que o DICEPTION aborda efetivamente múltiplas tarefas de percepção, alcançando desempenho comparável aos modelos state-of-the-art. Conseguimos resultados equivalentes ao SAM-vit-h usando apenas 0,06% de seus dados (por exemplo, 600K vs. 1B de imagens anotadas em nível de pixel). Inspirados por Wang et al., o DICEPTION formula as saídas de várias tarefas de percepção usando codificação de cores; e mostramos que a estratégia de atribuir cores aleatórias a diferentes instâncias é altamente eficaz tanto na segmentação de entidades quanto na segmentação semântica. Unificar várias tarefas de percepção como geração condicional de imagens nos permite aproveitar totalmente modelos texto-para-imagem pré-treinados. Assim, o DICEPTION pode ser treinado de forma eficiente a um custo ordens de magnitude menor, em comparação com modelos convencionais que foram treinados do zero. Ao adaptar nosso modelo a outras tarefas, ele requer apenas ajuste fino em tão poucas quanto 50 imagens e 1% de seus parâmetros. O DICEPTION fornece insights valiosos e uma solução mais promissora para modelos generalistas visuais.
English
Our primary goal here is to create a good, generalist perception model that
can tackle multiple tasks, within limits on computational resources and
training data. To achieve this, we resort to text-to-image diffusion models
pre-trained on billions of images. Our exhaustive evaluation metrics
demonstrate that DICEPTION effectively tackles multiple perception tasks,
achieving performance on par with state-of-the-art models. We achieve results
on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B
pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates
the outputs of various perception tasks using color encoding; and we show that
the strategy of assigning random colors to different instances is highly
effective in both entity segmentation and semantic segmentation. Unifying
various perception tasks as conditional image generation enables us to fully
leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently
trained at a cost of orders of magnitude lower, compared to conventional models
that were trained from scratch. When adapting our model to other tasks, it only
requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION
provides valuable insights and a more promising solution for visual generalist
models.Summary
AI-Generated Summary