CatLIP: CLIP-Ebene visuelle Erkennungsgenauigkeit mit 2,7-facher Beschleunigung durch Vor-Training auf webbasierten Bild-Text-DatenCatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster
Pre-training on Web-scale Image-Text Data
Kontrastives Lernen hat sich als eine transformative Methode zur Erlangung effektiver visueller Repräsentationen durch die Ausrichtung von Bild- und Texteinbettungen etabliert. Die paarweise Ähnlichkeitsberechnung im kontrastiven Verlust zwischen Bild- und Textpaaren stellt jedoch eine rechnerische Herausforderung dar. Dieses Papier präsentiert ein neuartiges schwach überwachtes Vor-Training von Vision-Modellen auf webbasierten Bild-Text-Daten. Die vorgeschlagene Methode konzipiert das Vor-Training auf Bild-Text-Daten als eine Klassifizierungsaufgabe um. Dadurch entfällt die Notwendigkeit für paarweise Ähnlichkeitsberechnungen im kontrastiven Verlust und erreicht eine bemerkenswerte 2,7-fache Beschleunigung der Trainingsgeschwindigkeit im Vergleich zum kontrastiven Lernen auf webbasierten Daten. Durch umfangreiche Experimente, die verschiedene Vision-Aufgaben umfassen, einschließlich Detektion und Segmentierung, zeigen wir, dass die vorgeschlagene Methode eine hohe Repräsentationsqualität beibehält. Unser Quellcode zusammen mit vorab trainierten Modellgewichten und Trainingsanleitungen ist verfügbar unter https://github.com/apple/corenet.