ChatPaper.aiChatPaper

ConceptAttention: i Transformer di Diffusione Apprendono Caratteristiche Altamente Interpretabili

ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

February 6, 2025
Autori: Alec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau
cs.AI

Abstract

Le rappresentazioni ricche dei trasformatori di diffusione multimodale (DiTs) mostrano proprietà uniche che migliorano la loro interpretabilità? Introduciamo ConceptAttention, un nuovo metodo che sfrutta il potere espressivo degli strati di attenzione DiT per generare mappe di evidenziazione di alta qualità che localizzano precisamente i concetti testuali all'interno delle immagini. Senza richiedere ulteriore addestramento, ConceptAttention riutilizza i parametri degli strati di attenzione DiT per produrre embedding di concetti altamente contestualizzati, contribuendo alla scoperta principale che l'esecuzione di proiezioni lineari nello spazio di output degli strati di attenzione DiT produce mappe di evidenziazione significativamente più nitide rispetto ai meccanismi di cross-attenzione comunemente utilizzati. Notevolmente, ConceptAttention raggiunge persino prestazioni all'avanguardia nei benchmark di segmentazione di immagini a zero-shot, superando altri 11 metodi di interpretabilità a zero-shot sul dataset ImageNet-Segmentation e su un sottoinsieme di singola classe di PascalVOC. Il nostro lavoro fornisce la prima evidenza che le rappresentazioni dei modelli multimodali DiT come Flux sono altamente trasferibili a compiti di visione come la segmentazione, superando persino i modelli di base multimodali come CLIP.
English
Do the rich representations of multi-modal diffusion transformers (DiTs) exhibit unique properties that enhance their interpretability? We introduce ConceptAttention, a novel method that leverages the expressive power of DiT attention layers to generate high-quality saliency maps that precisely locate textual concepts within images. Without requiring additional training, ConceptAttention repurposes the parameters of DiT attention layers to produce highly contextualized concept embeddings, contributing the major discovery that performing linear projections in the output space of DiT attention layers yields significantly sharper saliency maps compared to commonly used cross-attention mechanisms. Remarkably, ConceptAttention even achieves state-of-the-art performance on zero-shot image segmentation benchmarks, outperforming 11 other zero-shot interpretability methods on the ImageNet-Segmentation dataset and on a single-class subset of PascalVOC. Our work contributes the first evidence that the representations of multi-modal DiT models like Flux are highly transferable to vision tasks like segmentation, even outperforming multi-modal foundation models like CLIP.

Summary

AI-Generated Summary

PDF383February 7, 2025