KonzeptAufmerksamkeit: Diffusions-Transformer lernen äußerst interpretierbare Merkmale

papers.abstract

Zeigen die reichen Repräsentationen von Multi-Modalen Diffusions-Transformern (DiTs) einzigartige Eigenschaften, die ihre Interpretierbarkeit verbessern? Wir stellen ConceptAttention vor, eine neuartige Methode, die die Ausdruckskraft der Aufmerksamkeitsschichten von DiTs nutzt, um hochwertige Saliency-Maps zu generieren, die textuelle Konzepte präzise in Bildern lokalisieren. Ohne zusätzliches Training zu erfordern, nutzt ConceptAttention die Parameter der Aufmerksamkeitsschichten von DiTs um hochkontextualisierte Konzept-Einbettungen zu erzeugen, wobei die bedeutende Entdeckung gemacht wird, dass lineare Projektionen im Ausgaberaum von DiT-Aufmerksamkeitsschichten im Vergleich zu häufig verwendeten Cross-Attention-Mechanismen deutlich schärfere Saliency-Maps erzeugen. Bemerkenswerterweise erreicht ConceptAttention sogar eine State-of-the-Art-Leistung bei Zero-Shot-Benchmarktests zur Bildsegmentierung, indem es 11 andere Zero-Shot-Interpretierbarkeitsmethoden auf dem ImageNet-Segmentierungsdatensatz und auf einem Einzelklassen-Teilsubset von PascalVOC übertrifft. Unsere Arbeit liefert den ersten Beweis dafür, dass die Repräsentationen von Multi-Modalen DiT-Modellen wie Flux hoch übertragbar auf Vision-Aufgaben wie Segmentierung sind, sogar Multi-Modale Grundlagenmodelle wie CLIP übertreffend.

English

Do the rich representations of multi-modal diffusion transformers (DiTs) exhibit unique properties that enhance their interpretability? We introduce ConceptAttention, a novel method that leverages the expressive power of DiT attention layers to generate high-quality saliency maps that precisely locate textual concepts within images. Without requiring additional training, ConceptAttention repurposes the parameters of DiT attention layers to produce highly contextualized concept embeddings, contributing the major discovery that performing linear projections in the output space of DiT attention layers yields significantly sharper saliency maps compared to commonly used cross-attention mechanisms. Remarkably, ConceptAttention even achieves state-of-the-art performance on zero-shot image segmentation benchmarks, outperforming 11 other zero-shot interpretability methods on the ImageNet-Segmentation dataset and on a single-class subset of PascalVOC. Our work contributes the first evidence that the representations of multi-modal DiT models like Flux are highly transferable to vision tasks like segmentation, even outperforming multi-modal foundation models like CLIP.

KonzeptAufmerksamkeit: Diffusions-Transformer lernen äußerst interpretierbare Merkmale

ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

papers.abstract

Support