ConceptAttention: i Transformer di Diffusione Apprendono Caratteristiche Altamente Interpretabili
ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
February 6, 2025
Autori: Alec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau
cs.AI
Abstract
Le rappresentazioni ricche dei trasformatori di diffusione multimodale (DiTs) mostrano proprietà uniche che migliorano la loro interpretabilità? Introduciamo ConceptAttention, un nuovo metodo che sfrutta il potere espressivo degli strati di attenzione DiT per generare mappe di evidenziazione di alta qualità che localizzano precisamente i concetti testuali all'interno delle immagini. Senza richiedere ulteriore addestramento, ConceptAttention riutilizza i parametri degli strati di attenzione DiT per produrre embedding di concetti altamente contestualizzati, contribuendo alla scoperta principale che l'esecuzione di proiezioni lineari nello spazio di output degli strati di attenzione DiT produce mappe di evidenziazione significativamente più nitide rispetto ai meccanismi di cross-attenzione comunemente utilizzati. Notevolmente, ConceptAttention raggiunge persino prestazioni all'avanguardia nei benchmark di segmentazione di immagini a zero-shot, superando altri 11 metodi di interpretabilità a zero-shot sul dataset ImageNet-Segmentation e su un sottoinsieme di singola classe di PascalVOC. Il nostro lavoro fornisce la prima evidenza che le rappresentazioni dei modelli multimodali DiT come Flux sono altamente trasferibili a compiti di visione come la segmentazione, superando persino i modelli di base multimodali come CLIP.
English
Do the rich representations of multi-modal diffusion transformers (DiTs)
exhibit unique properties that enhance their interpretability? We introduce
ConceptAttention, a novel method that leverages the expressive power of DiT
attention layers to generate high-quality saliency maps that precisely locate
textual concepts within images. Without requiring additional training,
ConceptAttention repurposes the parameters of DiT attention layers to produce
highly contextualized concept embeddings, contributing the major discovery that
performing linear projections in the output space of DiT attention layers
yields significantly sharper saliency maps compared to commonly used
cross-attention mechanisms. Remarkably, ConceptAttention even achieves
state-of-the-art performance on zero-shot image segmentation benchmarks,
outperforming 11 other zero-shot interpretability methods on the
ImageNet-Segmentation dataset and on a single-class subset of PascalVOC. Our
work contributes the first evidence that the representations of multi-modal DiT
models like Flux are highly transferable to vision tasks like segmentation,
even outperforming multi-modal foundation models like CLIP.Summary
AI-Generated Summary