KonzeptAufmerksamkeit: Diffusions-Transformer lernen äußerst interpretierbare Merkmale
ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
February 6, 2025
Autoren: Alec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau
cs.AI
Zusammenfassung
Zeigen die reichen Repräsentationen von Multi-Modalen Diffusions-Transformern (DiTs) einzigartige Eigenschaften, die ihre Interpretierbarkeit verbessern? Wir stellen ConceptAttention vor, eine neuartige Methode, die die Ausdruckskraft der Aufmerksamkeitsschichten von DiTs nutzt, um hochwertige Saliency-Maps zu generieren, die textuelle Konzepte präzise in Bildern lokalisieren. Ohne zusätzliches Training zu erfordern, nutzt ConceptAttention die Parameter der Aufmerksamkeitsschichten von DiTs um hochkontextualisierte Konzept-Einbettungen zu erzeugen, wobei die bedeutende Entdeckung gemacht wird, dass lineare Projektionen im Ausgaberaum von DiT-Aufmerksamkeitsschichten im Vergleich zu häufig verwendeten Cross-Attention-Mechanismen deutlich schärfere Saliency-Maps erzeugen. Bemerkenswerterweise erreicht ConceptAttention sogar eine State-of-the-Art-Leistung bei Zero-Shot-Benchmarktests zur Bildsegmentierung, indem es 11 andere Zero-Shot-Interpretierbarkeitsmethoden auf dem ImageNet-Segmentierungsdatensatz und auf einem Einzelklassen-Teilsubset von PascalVOC übertrifft. Unsere Arbeit liefert den ersten Beweis dafür, dass die Repräsentationen von Multi-Modalen DiT-Modellen wie Flux hoch übertragbar auf Vision-Aufgaben wie Segmentierung sind, sogar Multi-Modale Grundlagenmodelle wie CLIP übertreffend.
English
Do the rich representations of multi-modal diffusion transformers (DiTs)
exhibit unique properties that enhance their interpretability? We introduce
ConceptAttention, a novel method that leverages the expressive power of DiT
attention layers to generate high-quality saliency maps that precisely locate
textual concepts within images. Without requiring additional training,
ConceptAttention repurposes the parameters of DiT attention layers to produce
highly contextualized concept embeddings, contributing the major discovery that
performing linear projections in the output space of DiT attention layers
yields significantly sharper saliency maps compared to commonly used
cross-attention mechanisms. Remarkably, ConceptAttention even achieves
state-of-the-art performance on zero-shot image segmentation benchmarks,
outperforming 11 other zero-shot interpretability methods on the
ImageNet-Segmentation dataset and on a single-class subset of PascalVOC. Our
work contributes the first evidence that the representations of multi-modal DiT
models like Flux are highly transferable to vision tasks like segmentation,
even outperforming multi-modal foundation models like CLIP.Summary
AI-Generated Summary