Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen fest, dass gängige Rauschzeitpläne für Diffusionen nicht sicherstellen, dass der letzte Zeitschritt ein Signal-Rausch-Verhältnis (SNR) von null aufweist, und dass einige Implementierungen von Diffusionssamplern nicht vom letzten Zeitschritt ausgehen. Solche Designs sind fehlerhaft und spiegeln nicht wider, dass dem Modell während der Inferenz reines Gaußsches Rauschen gegeben wird, was zu einer Diskrepanz zwischen Training und Inferenz führt. Wir zeigen, dass das fehlerhafte Design in bestehenden Implementierungen reale Probleme verursacht. In Stable Diffusion schränkt es das Modell stark ein, sodass es nur Bilder mittlerer Helligkeit erzeugen kann und die Generierung sehr heller und dunkler Proben verhindert wird. Wir schlagen einige einfache Korrekturen vor: (1) Skalieren Sie den Rauschzeitplan neu, um ein SNR von null am Ende zu erzwingen; (2) trainieren Sie das Modell mit v-Vorhersage; (3) ändern Sie den Sampler so, dass er immer vom letzten Zeitschritt ausgeht; (4) skalieren Sie die klassifikatorfreie Führung neu, um Überbelichtung zu verhindern. Diese einfachen Änderungen stellen sicher, dass der Diffusionsprozess zwischen Training und Inferenz konsistent ist und ermöglichen es dem Modell, Proben zu erzeugen, die der ursprünglichen Datenverteilung treuer entsprechen.
In diesem Artikel stellen wir FitMe vor, ein Modell für die Gesichtsreflektanz und eine Pipeline für differentielles Rendering, das zur Erstellung hochauflösender, renderbarer menschlicher Avatare aus einzelnen oder mehreren Bildern verwendet werden kann. Das Modell besteht aus einem multimodalen, stilbasierten Generator, der das Gesichtserscheinungsbild in Bezug auf diffuse und spekulare Reflektanz erfasst, sowie einem PCA-basierten Formmodell. Wir verwenden einen schnellen differentiellen Rendering-Prozess, der in einer Optimierungspipeline eingesetzt werden kann und gleichzeitig fotorealistische Gesichtsbeleuchtung erreicht. Unser Optimierungsprozess erfasst sowohl die Gesichtsreflektanz als auch die Form präzise in hoher Detailgenauigkeit, indem er die Ausdrucksstärke der stilbasierten latenten Repräsentation und unseres Formmodells nutzt. FitMe erreicht state-of-the-art Ergebnisse bei der Reflektanzakquisition und Identitätserhaltung auf einzelnen „in-the-wild“ Gesichtsbildern, während es beeindruckende, scanähnliche Ergebnisse liefert, wenn mehrere ungezwungene Gesichtsbilder derselben Identität verwendet werden. Im Gegensatz zu neueren impliziten Avatar-Rekonstruktionen benötigt FitMe nur eine Minute und erzeugt beleuchtbare, mesh- und texturbasierte Avatare, die von Endbenutzeranwendungen genutzt werden können.
Diffusionsmodelle zeichnen sich in der Text-zu-Bild-Generierung aus, insbesondere bei der subjektgesteuerten Generierung personalisierter Bilder. Bestehende Methoden sind jedoch ineffizient, da sie eine subjektspezifische Feinabstimmung erfordern, die rechenintensiv ist und eine effiziente Bereitstellung behindert. Darüber hinaus haben bestehende Methoden Schwierigkeiten bei der Generierung mehrerer Subjekte, da sie häufig Merkmale zwischen den Subjekten vermischen. Wir stellen FastComposer vor, das eine effiziente, personalisierte, mehrsubjektige Text-zu-Bild-Generierung ohne Feinabstimmung ermöglicht. FastComposer verwendet Subjekt-Einbettungen, die von einem Bildencoder extrahiert werden, um die generische Textkonditionierung in Diffusionsmodellen zu erweitern, und ermöglicht so die Generierung personalisierter Bilder basierend auf Subjektbildern und textuellen Anweisungen mit nur Vorwärtsdurchläufen. Um das Problem der Identitätsvermischung bei der mehrsubjektigen Generierung zu lösen, schlägt FastComposer eine Kreuz-Aufmerksamkeits-Lokalisierungsüberwachung während des Trainings vor, die die Aufmerksamkeit der Referenzsubjekte auf die korrekten Regionen in den Zielbildern lenkt. Eine naive Konditionierung auf Subjekt-Einbettungen führt zu einer Überanpassung des Subjekts. FastComposer schlägt eine verzögerte Subjektkonditionierung im Denoising-Schritt vor, um sowohl die Identität als auch die Bearbeitbarkeit bei der subjektgesteuerten Bildgenerierung zu erhalten. FastComposer generiert Bilder mehrerer unbekannter Personen mit unterschiedlichen Stilen, Aktionen und Kontexten. Es erreicht eine 300- bis 2500-fache Beschleunigung im Vergleich zu Methoden, die auf Feinabstimmung basieren, und benötigt keinen zusätzlichen Speicherplatz für neue Subjekte. FastComposer ebnet den Weg für eine effiziente, personalisierte und hochwertige Erstellung von Bildern mit mehreren Subjekten. Code, Modell und Datensatz sind verfügbar unter https://github.com/mit-han-lab/fastcomposer.
Die automatische Bestimmung, ob ein Text und ein entsprechendes Bild semantisch übereinstimmen, stellt eine bedeutende Herausforderung für visuell-sprachliche Modelle dar, mit Anwendungen in generativen Text-zu-Bild- und Bild-zu-Text-Aufgaben. In dieser Arbeit untersuchen wir Methoden zur automatischen Bewertung der Text-Bild-Übereinstimmung. Zunächst stellen wir SeeTRUE vor: einen umfassenden Bewertungssatz, der mehrere Datensätze aus sowohl Text-zu-Bild- als auch Bild-zu-Text-Generierungsaufgaben umfasst und menschliche Bewertungen darüber enthält, ob ein gegebenes Text-Bild-Paar semantisch übereinstimmt. Anschließend beschreiben wir zwei automatische Methoden zur Bestimmung der Übereinstimmung: Die erste beinhaltet eine Pipeline basierend auf Fragen generierenden und visuellen Fragen beantwortenden Modellen, während die zweite einen end-to-end Klassifikationsansatz durch das Feinabstimmen von multimodalen vortrainierten Modellen verwendet. Beide Methoden übertreffen bisherige Ansätze in verschiedenen Text-Bild-Übereinstimmungsaufgaben, mit signifikanten Verbesserungen in anspruchsvollen Fällen, die komplexe Kompositionen oder unnatürliche Bilder beinhalten. Schließlich zeigen wir, wie unsere Ansätze spezifische Fehlübereinstimmungen zwischen einem Bild und einem gegebenen Text lokalisieren können und wie sie zur automatischen Neubewertung von Kandidaten in der Text-zu-Bild-Generierung verwendet werden können.
Menschen können ein einzelnes Bild problemlos als Darstellung mehrerer potenzieller Objekte verstehen, die eine Interaktion ermöglichen. Wir nutzen diese Fähigkeit, um unsere Interaktionen mit der Welt zu planen und das Verständnis neuer Objekte zu beschleunigen, ohne direkt mit ihnen zu interagieren. In diesem Artikel möchten wir Maschinen eine ähnliche Fähigkeit verleihen, damit intelligente Agenten 3D-Szenen besser erkunden oder Objekte manipulieren können. Unser Ansatz ist ein Transformer-basiertes Modell, das die 3D-Position, physikalischen Eigenschaften und Affordanzen von Objekten vorhersagt. Um dieses Modell zu trainieren, sammeln wir einen Datensatz mit Internetvideos, egozentrischen Videos und Innenraumaufgaben, um unseren Ansatz zu trainieren und zu validieren. Unser Modell erzielt eine starke Leistung auf unseren Daten und generalisiert gut auf Robotikdaten.
Die Forschung zum Online-Continual-Learning (OCL) hat sich bisher hauptsächlich darauf konzentriert, katastrophales Vergessen zu minimieren, wobei die Speicherzuweisung während der gesamten Lebensdauer des Agenten fest und begrenzt war. Die zunehmende Erschwinglichkeit von Datenspeicherung verdeutlicht jedoch eine breite Palette von Anwendungen, die diesen Annahmen nicht entsprechen. In diesen Fällen liegt das Hauptaugenmerk auf der Verwaltung der Rechenkosten anstelle des Speichers. In diesem Artikel konzentrieren wir uns auf solche Szenarien und untersuchen das Problem des Online-Continual-Learnings, indem wir Speicherbeschränkungen lockern und einen festen, begrenzten wirtschaftlichen Budgetrahmen betonen. Wir stellen einen einfachen Algorithmus vor, der den gesamten eingehenden Datenstrom unter geringen Rechenbudgets kompakt speichern und nutzen kann, indem ein kNN-Klassifikator und universelle vortrainierte Merkmalsextraktoren verwendet werden. Unser Algorithmus bietet eine für Continual Learning attraktive Konsistenzeigenschaft: Er wird niemals zuvor gesehene Daten vergessen. Wir setzen einen neuen Maßstab auf zwei groß angelegten OCL-Datensätzen: Continual LOCalization (CLOC), der 39 Millionen Bilder über 712 Klassen umfasst, und Continual Google Landmarks V2 (CGLM), der 580.000 Bilder über 10.788 Klassen enthält – und übertreffen dabei Methoden mit weitaus höheren Rechenbudgets in Bezug auf die Reduzierung des katastrophalen Vergessens vergangener Daten und die schnelle Anpassung an sich rasch ändernde Datenströme. Wir stellen Code zur Reproduktion unserer Ergebnisse unter https://github.com/drimpossible/ACM bereit.