ChatPaper.aiChatPaper

GeneCIS: Ein Benchmark für allgemeine bedingte Bildähnlichkeit

GeneCIS: A Benchmark for General Conditional Image Similarity

June 13, 2023
Autoren: Sagar Vaze, Nicolas Carion, Ishan Misra
cs.AI

Zusammenfassung

Wir argumentieren, dass es viele Vorstellungen von „Ähnlichkeit“ gibt und dass Modelle, ähnlich wie Menschen, in der Lage sein sollten, sich dynamisch an diese anzupassen. Dies steht im Gegensatz zu den meisten Methoden des Repräsentationslernens, sei es überwacht oder selbstüberwacht, die eine feste Einbettungsfunktion erlernen und somit implizit eine einzige Vorstellung von Ähnlichkeit annehmen. Beispielsweise sind Modelle, die auf ImageNet trainiert wurden, auf Objektkategorien ausgerichtet, während ein Benutzer möglicherweise bevorzugt, dass das Modell sich auf Farben, Texturen oder spezifische Elemente in der Szene konzentriert. In diesem Artikel schlagen wir den GeneCIS-Benchmark („Genesis“) vor, der die Fähigkeit von Modellen misst, sich an eine Reihe von Ähnlichkeitsbedingungen anzupassen. In Erweiterung früherer Arbeiten ist unser Benchmark ausschließlich für die Zero-Shot-Evaluierung konzipiert und betrachtet somit eine offene Menge von Ähnlichkeitsbedingungen. Wir stellen fest, dass Baseline-Modelle leistungsstarker CLIP-Modelle bei GeneCIS Schwierigkeiten haben und dass die Leistung auf dem Benchmark nur schwach mit der Genauigkeit auf ImageNet korreliert, was darauf hindeutet, dass eine einfache Skalierung bestehender Methoden nicht zielführend ist. Darüber hinaus schlagen wir eine einfache, skalierbare Lösung vor, die auf der automatischen Extraktion von Informationen aus bestehenden Bild-Beschriftungs-Datensätzen basiert. Wir stellen fest, dass unsere Methode eine erhebliche Verbesserung gegenüber den Baseline-Modellen auf GeneCIS bietet und die Zero-Shot-Leistung auf verwandten Bildersuch-Benchmarks weiter verbessert. Tatsächlich übertrifft unser Modell, obwohl es Zero-Shot evaluiert wird, state-of-the-art überwachte Modelle auf MIT-States. Projektseite unter https://sgvaze.github.io/genecis/.
English
We argue that there are many notions of 'similarity' and that models, like humans, should be able to adapt to these dynamically. This contrasts with most representation learning methods, supervised or self-supervised, which learn a fixed embedding function and hence implicitly assume a single notion of similarity. For instance, models trained on ImageNet are biased towards object categories, while a user might prefer the model to focus on colors, textures or specific elements in the scene. In this paper, we propose the GeneCIS ('genesis') benchmark, which measures models' ability to adapt to a range of similarity conditions. Extending prior work, our benchmark is designed for zero-shot evaluation only, and hence considers an open-set of similarity conditions. We find that baselines from powerful CLIP models struggle on GeneCIS and that performance on the benchmark is only weakly correlated with ImageNet accuracy, suggesting that simply scaling existing methods is not fruitful. We further propose a simple, scalable solution based on automatically mining information from existing image-caption datasets. We find our method offers a substantial boost over the baselines on GeneCIS, and further improves zero-shot performance on related image retrieval benchmarks. In fact, though evaluated zero-shot, our model surpasses state-of-the-art supervised models on MIT-States. Project page at https://sgvaze.github.io/genecis/.
PDF40December 15, 2024