Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Wasserzeichen der Ausgaben von generativen Modellen ist eine entscheidende Technik, um Urheberrechte nachzuverfolgen und potenzielle Schäden durch KI-generierte Inhalte zu verhindern. In diesem Artikel stellen wir eine neuartige Technik namens Tree-Ring Watermarking vor, die die Ausgaben von Diffusionsmodellen robust fingerabdruckt. Im Gegensatz zu bestehenden Methoden, die nachträgliche Modifikationen an Bildern nach der Erstellung vornehmen, beeinflusst Tree-Ring Watermarking subtil den gesamten Erstellungsprozess, wodurch ein für Menschen unsichtbarer Modell-Fingerabdruck entsteht. Das Wasserzeichen bettet ein Muster in den anfänglichen Rauschvektor ein, der für die Erstellung verwendet wird. Diese Muster sind im Fourier-Raum strukturiert, sodass sie invariant gegenüber Faltungen, Zuschneidungen, Vergrößerungen, Spiegelungen und Rotationen sind. Nach der Bilderzeugung wird das Wasserzeichensignal durch die Umkehrung des Diffusionsprozesses erkannt, um den Rauschvektor abzurufen, der dann auf das eingebettete Signal überprüft wird. Wir zeigen, dass diese Technik leicht auf beliebige Diffusionsmodelle, einschließlich textbedingter Stable Diffusion, als Plug-in mit vernachlässigbarem Verlust in FID angewendet werden kann. Unser Wasserzeichen ist semantisch im Bildraum verborgen und weitaus robuster als derzeit eingesetzte Wasserzeichenalternativen. Der Code ist verfügbar unter github.com/YuxinWenRick/tree-ring-watermark.
Transformer-basierte große Sprachmodelle (LLMs) haben Bewunderung für ihre außergewöhnliche Leistung bei Aufgaben geweckt, die komplexe, mehrstufige Denkprozesse erfordern. Gleichzeitig zeigen diese Modelle jedoch Versagen bei überraschend trivialen Problemen. Dies wirft die Frage auf: Sind diese Fehler zufällig, oder deuten sie auf grundlegendere Einschränkungen hin? In dem Versuch, die Funktionsweise von Transformern zu entschlüsseln, untersuchen wir die Grenzen dieser Modelle anhand von drei repräsentativen kompositionellen Aufgaben – der Multiplikation mehrstelliger Zahlen, Logik-Rätseln und einem klassischen dynamischen Programmierproblem. Diese Aufgaben erfordern es, Probleme in Teilschritte zu zerlegen und diese Schritte zu einer präzisen Lösung zu synthetisieren. Wir formulieren kompositionelle Aufgaben als Berechnungsgraphen, um das Komplexitätsniveau systematisch zu quantifizieren, und zerlegen Denkschritte in Zwischenverfahren. Unsere empirischen Ergebnisse deuten darauf hin, dass Transformer kompositionelle Aufgaben lösen, indem sie mehrstufiges, kompositionelles Denken in eine linearisierte Teilgraphenzuordnung reduzieren, ohne dabei notwendigerweise systematische Problemlösungsfähigkeiten zu entwickeln. Um unsere empirische Studie abzurunden, liefern wir theoretische Argumente zu abstrakten, mehrstufigen Denkproblemen, die verdeutlichen, wie die Leistung von Transformern mit zunehmender Aufgabenkomplexität rapide abnimmt.
Die automatische Text-zu-3D-Synthese hat durch die Optimierung von 3D-Modellen bemerkenswerte Fortschritte erzielt. Bestehende Methoden stützen sich häufig auf vortrainierte Text-zu-Bild-Generierungsmodelle, wie beispielsweise Diffusionsmodelle, die Bewertungen für 2D-Renderings von Neural Radiance Fields (NeRFs) liefern und zur Optimierung von NeRFs genutzt werden. Diese Methoden stoßen jedoch oft auf Artefakte und Inkonsistenzen über mehrere Ansichten hinweg, da ihr Verständnis der 3D-Geometrie begrenzt ist. Um diese Einschränkungen zu überwinden, schlagen wir eine Neuformulierung des Optimierungsverlusts unter Verwendung des Diffusionspriors vor. Darüber hinaus führen wir einen neuartigen Trainingsansatz ein, der das Potenzial des Diffusionspriors freisetzt. Um die Darstellung der 3D-Geometrie zu verbessern, wenden wir eine zusätzliche Tiefenüberwachung für NeRF-gerenderte Bilder an und regularisieren das Dichtefeld von NeRFs. Umfangreiche Experimente demonstrieren die Überlegenheit unserer Methode gegenüber früheren Arbeiten, was zu einem fortgeschrittenen Fotorealismus und einer verbesserten Mehransichtskonsistenz führt.
Die jüngsten Fortschritte in Bild-Text-Diffusionsmodellen haben das Forschungsinteresse an großskaligen 3D-Generativmodellen stimuliert. Dennoch stellt die begrenzte Verfügbarkeit vielfältiger 3D-Ressourcen erhebliche Herausforderungen für das Lernen dar. In diesem Artikel präsentieren wir eine neuartige Methode zur Erzeugung hochwertiger, stilisierten 3D-Avatare, die vortrainierte Bild-Text-Diffusionsmodelle zur Datengenerierung und ein auf Generative Adversarial Networks (GAN) basierendes 3D-Generierungsnetzwerk für das Training nutzt. Unsere Methode nutzt die umfassenden Vorinformationen zu Aussehen und Geometrie, die von Bild-Text-Diffusionsmodellen bereitgestellt werden, um Multi-View-Bilder von Avataren in verschiedenen Stilen zu generieren. Während der Datengenerierung verwenden wir Posen, die aus bestehenden 3D-Modellen extrahiert wurden, um die Erzeugung von Multi-View-Bildern zu steuern. Um die Fehlausrichtung zwischen Posen und Bildern in den Daten zu beheben, untersuchen wir ansichtsspezifische Prompts und entwickeln einen grob-zu-fein Diskriminator für das GAN-Training. Wir befassen uns auch mit attributbezogenen Prompts, um die Vielfalt der generierten Avatare zu erhöhen. Zusätzlich entwickeln wir ein latentes Diffusionsmodell innerhalb des Stilraums von StyleGAN, um die Erzeugung von Avataren basierend auf Bildinputs zu ermöglichen. Unser Ansatz zeigt eine überlegene Leistung gegenüber aktuellen state-of-the-art Methoden in Bezug auf die visuelle Qualität und Vielfalt der erzeugten Avatare.
Dieses Papier stellt ein neues Sprachdatenset namens „LibriTTS-R“ vor, das für die Text-zu-Sprache-Synthese (TTS) entwickelt wurde. Es wurde durch die Anwendung von Sprachrestaurierung auf das LibriTTS-Korpus erstellt, das 585 Stunden Sprachdaten mit einer Abtastrate von 24 kHz von 2.456 Sprechern sowie die entsprechenden Texte umfasst. Die einzelnen Samples in LibriTTS-R sind identisch zu denen in LibriTTS, wobei lediglich die Klangqualität verbessert wurde. Experimentelle Ergebnisse zeigen, dass die Ground-Truth-Samples in LibriTTS-R eine deutlich verbesserte Klangqualität im Vergleich zu denen in LibriTTS aufweisen. Darüber hinaus erreichte ein neuronales End-to-End-TTS-System, das mit LibriTTS-R trainiert wurde, eine Sprachqualität, die der der Ground-Truth-Samples entspricht. Das Korpus steht kostenlos zum Download unter http://www.openslr.org/141/ zur Verfügung.
Jüngste Fortschritte bei Diffusionsmodellen haben es ermöglicht, hochauflösende Bilder mithilfe von Textbeschreibungen zu generieren. Es besteht jedoch eine Domänenlücke zwischen generierten Bildern und realen Bildern, was die Erzeugung hochwertiger Variationen realer Bilder erschwert. Unsere Untersuchung zeigt, dass diese Domänenlücke auf eine Verteilungslücke der latenten Variablen in verschiedenen Diffusionsprozessen zurückzuführen ist. Um dieses Problem zu lösen, schlagen wir eine neuartige Inferenzpipeline namens Real-world Image Variation by ALignment (RIVAL) vor, die Diffusionsmodelle nutzt, um Bildvariationen aus einem einzelnen Bildbeispiel zu erzeugen. Unsere Pipeline verbessert die Generierungsqualität von Bildvariationen, indem sie den Bildgenerierungsprozess an die Inversionskette des Quellbilds anpasst. Insbesondere zeigen wir, dass eine schrittweise Ausrichtung der latenten Verteilung entscheidend für die Erzeugung hochwertiger Variationen ist. Um dies zu erreichen, entwerfen wir eine selbstaufmerksamkeitsbasierte Feature-Interaktion über Bilder hinweg sowie eine schrittweise Verteilungsnormalisierung, um die latenten Merkmale auszurichten. Die Integration dieser Anpassungsprozesse in ein Diffusionsmodell ermöglicht es RIVAL, hochwertige Bildvariationen ohne weitere Parameteroptimierung zu generieren. Unsere experimentellen Ergebnisse zeigen, dass unser vorgeschlagener Ansatz bestehende Methoden hinsichtlich semantischer Ähnlichkeit und wahrgenommener Qualität übertrifft. Darüber hinaus kann diese verallgemeinerte Inferenzpipeline leicht auf andere diffusionsbasierte Generierungsaufgaben angewendet werden, wie z. B. bildgestützte Text-zu-Bild-Generierung und beispielbasierte Bildinpainting.
Große Sprachmodelle (LLMs) können lernen, eine Vielzahl von natürlichen Sprachaufgaben anhand nur weniger Beispiele im Kontext auszuführen. Allerdings ist es für LLMs eine Herausforderung, bei der Erzeugung von Zeichenketten aus hochstrukturierten Sprachen (z. B. semantisches Parsing in komplexen domänenspezifischen Sprachen) aus nur wenigen Beispielen zu verallgemeinern. Wir untersuchen Grammatik-Prompting als einen einfachen Ansatz, um LLMs zu ermöglichen, externes Wissen und domänenspezifische Einschränkungen, die durch eine Grammatik in Backus-Naur-Form (BNF) ausgedrückt werden, während des Lernens im Kontext zu nutzen. Grammatik-Prompting erweitert jedes Demonstrationsbeispiel mit einer spezialisierten Grammatik, die minimal ausreichend ist, um das jeweilige Ausgabebeispiel zu erzeugen, wobei die spezialisierte Grammatik eine Teilmenge der vollständigen DSL-Grammatik darstellt. Für die Inferenz sagt das LLM zunächst eine BNF-Grammatik für eine Testeingabe voraus und erzeugt dann die Ausgabe gemäß den Regeln der Grammatik. Experimente zeigen, dass Grammatik-Prompting LLMs in der Lage macht, auf einer vielfältigen Reihe von DSL-Erzeugungsaufgaben wettbewerbsfähig abzuschneiden, darunter semantisches Parsing (SMCalFlow, Overnight, GeoQuery), PDDL-Planung und sogar Molekülgenerierung (SMILES).
Wir präsentieren das Trainingsrezept und die Ergebnisse der Skalierung von PaLI-X, einem multilingualen Modell für Vision und Sprache, sowohl in Bezug auf die Größe der Komponenten als auch auf die Breite der Trainingsaufgabenmischung. Unser Modell erreicht neue Leistungsniveaus bei einer Vielzahl von unterschiedlichen und komplexen Aufgaben, darunter mehrere bildbasierte Beschreibungs- und Frage-Antwort-Aufgaben, bildbasiertes Dokumentenverständnis und Few-Shot-Lernen (im Kontext), sowie Objekterkennung, Video-Frage-Antworten und Videobeschreibungen. PaLI-X setzt neue Maßstäbe auf den meisten betrachteten Benchmarks für Vision und Sprache (mehr als 25). Schließlich beobachten wir aufkommende Fähigkeiten, wie komplexes Zählen und multilinguale Objekterkennung, Aufgaben, die nicht explizit in der Trainingsmischung enthalten sind.
Große Diffusionsmodelle waren bei Text-zu-Audio (T2A)-Synthesizeaufgaben erfolgreich, leiden jedoch häufig unter häufigen Problemen wie semantischer Fehlausrichtung und schlechter zeitlicher Konsistenz aufgrund von begrenztem Verständnis natürlicher Sprache und Datenknappheit. Darüber hinaus führen die in T2A-Arbeiten weit verbreiteten 2D-räumlichen Strukturen zu unbefriedigender Audioqualität bei der Erzeugung von variablen Audiolängen, da sie zeitliche Informationen nicht ausreichend priorisieren. Um diese Herausforderungen zu bewältigen, schlagen wir Make-an-Audio 2 vor, eine latente diffusionsbasierte T2A-Methode, die auf den Erfolg von Make-an-Audio aufbaut. Unser Ansatz umfasst mehrere Techniken zur Verbesserung der semantischen Ausrichtung und zeitlichen Konsistenz: Erstens verwenden wir vortrainierte große Sprachmodelle (LLMs), um den Text in strukturierte <Ereignis & Reihenfolge>-Paare zu parsen, um zeitliche Informationen besser zu erfassen. Wir führen außerdem einen weiteren strukturierten Text-Encoder ein, um das Lernen der semantischen Ausrichtung während des Diffusionsentrauschungsprozesses zu unterstützen. Um die Leistung bei der Erzeugung variabler Längen zu verbessern und die Extraktion zeitlicher Informationen zu verstärken, entwerfen wir einen feed-forward Transformer-basierten Diffusionsentrauscher. Schließlich verwenden wir LLMs, um eine große Menge an Audio-Label-Daten zu erweitern und in Audio-Text-Datensätze umzuwandeln, um das Problem der Knappheit zeitlicher Daten zu mildern. Umfangreiche Experimente zeigen, dass unsere Methode Baseline-Modelle sowohl in objektiven als auch in subjektiven Metriken übertrifft und signifikante Verbesserungen im Verständnis zeitlicher Informationen, in der semantischen Konsistenz und in der Klangqualität erzielt.
Dieses Papier stellt eine Methode vor, die dynamische 3D-Avatare schnell an beliebige Textbeschreibungen neuer Stile anpassen kann. Unter den bestehenden Ansätzen zur Avatar-Stylisierung können direkte Optimierungsmethoden hervorragende Ergebnisse für beliebige Stile erzielen, sind jedoch unangenehm langsam. Darüber hinaus erfordern sie, den Optimierungsprozess für jede neue Eingabe von Grund auf neu durchzuführen. Schnelle Approximationsmethoden, die Feedforward-Netzwerke verwenden, die auf einem großen Datensatz von Stilbildern trainiert wurden, können schnell Ergebnisse für neue Eingaben generieren, tendieren jedoch dazu, sich nicht gut auf neue Stile zu verallgemeinern und fallen in der Qualität zurück. Daher untersuchen wir einen neuen Ansatz, AlteredAvatar, der diese beiden Ansätze mithilfe des Meta-Learning-Frameworks kombiniert. In der inneren Schleife lernt das Modell, sich zu optimieren, um einen einzelnen Zielstil gut zu treffen, während es in der äußeren Schleife lernt, effizient über viele Stile hinweg zu stylisieren. Nach dem Training lernt AlteredAvatar eine Initialisierung, die sich innerhalb einer kleinen Anzahl von Aktualisierungsschritten schnell an einen neuen Stil anpassen kann, der durch Texte, ein Referenzbild oder eine Kombination aus beidem gegeben werden kann. Wir zeigen, dass AlteredAvatar eine gute Balance zwischen Geschwindigkeit, Flexibilität und Qualität erreichen kann, während es die Konsistenz über eine breite Palette neuer Ansichten und Gesichtsausdrücke beibehält.
Wir schlagen einen automatisierten Algorithmus vor, um ein trainiertes visuelles Modell durch die Generierung von sprachgesteuerten kontrafaktischen Testbildern (LANCE) zu stress-testen. Unsere Methode nutzt die jüngsten Fortschritte im Bereich des Large Language Modeling und der textbasierten Bildbearbeitung, um einen IID-Testdatensatz mit einer Vielzahl von diversen, realistischen und herausfordernden Testbildern zu erweitern, ohne die Modellgewichte zu verändern. Wir bewerten die Leistung einer vielfältigen Gruppe vortrainierter Modelle auf unseren generierten Daten und beobachten signifikante und konsistente Leistungseinbußen. Darüber hinaus analysieren wir die Modellempfindlichkeit bei verschiedenen Arten von Bearbeitungen und demonstrieren die Anwendbarkeit unserer Methode, um bisher unbekannte klassenbezogene Modellverzerrungen in ImageNet aufzudecken.
Probleme mit geometrischen Daten treten in verschiedenen Bereichen auf, darunter Computer Vision, Robotik, Chemie und Physik. Solche Daten können zahlreiche Formen annehmen, wie Punkte, Richtungsvektoren, Ebenen oder Transformationen, aber bis heute gibt es keine einzige Architektur, die auf eine so große Vielfalt geometrischer Typen angewendet werden kann, während gleichzeitig ihre Symmetrien respektiert werden. In diesem Artikel stellen wir den Geometric Algebra Transformer (GATr) vor, eine allgemeine Architektur für geometrische Daten. GATr repräsentiert Eingaben, Ausgaben und versteckte Zustände in der projektiven geometrischen Algebra, die eine effiziente 16-dimensionale Vektorraumdarstellung gängiger geometrischer Objekte sowie Operatoren, die auf sie wirken, bietet. GATr ist äquivariant in Bezug auf E(3), die Symmetriegruppe des dreidimensionalen euklidischen Raums. Als Transformer ist GATr skalierbar, ausdrucksstark und vielseitig. In Experimenten zur n-Körper-Modellierung und zur robotischen Planung zeigt GATr deutliche Verbesserungen gegenüber nicht-geometrischen Baselines.
Diffusionsmodelle sind derzeit der Stand der Technik in der Bildgenerierung und erzeugen hochwertige Bilder, indem sie den Generierungsprozess in viele fein abgestufte Entrauschungsschritte unterteilen. Trotz ihrer guten Leistung sind Diffusionsmodelle rechenintensiv und erfordern viele Auswertungen von neuronalen Funktionen (NFEs). In dieser Arbeit schlagen wir ein jederzeit anwendbares, diffusionsbasiertes Verfahren vor, das brauchbare Bilder erzeugen kann, wenn es zu beliebigen Zeitpunkten vor Abschluss gestoppt wird. Unter Verwendung bestehender vortrainierter Diffusionsmodelle zeigen wir, dass das Generierungsschema als zwei verschachtelte Diffusionsprozesse neu zusammengesetzt werden kann, was eine schnelle iterative Verfeinerung eines generierten Bildes ermöglicht. Wir nutzen diesen Ansatz der Verschachtelten Diffusion, um Einblicke in den Generierungsprozess zu gewinnen und eine flexible Planung basierend auf den momentanen Präferenzen des Benutzers zu ermöglichen. In Experimenten zur ImageNet- und Stable-Diffusion-basierten Text-zu-Bild-Generierung zeigen wir sowohl qualitativ als auch quantitativ, dass die Zwischengenerierungsqualität unserer Methode die des ursprünglichen Diffusionsmodells deutlich übertrifft, während das endgültige Ergebnis der langsamen Generierung vergleichbar bleibt.
Das Verständnis von Bildwerbung ist eine entscheidende Aufgabe mit breiten Anwendungen in der realen Welt. Obwohl es aufgrund der Einbeziehung vielfältiger atypischer Szenen, realer Entitäten und der Schlussfolgerung über Szenentexte äußerst herausfordernd ist, wurde die Interpretation von Bildwerbung bisher relativ wenig erforscht, insbesondere im Zeitalter der grundlegenden Vision-Sprache-Modelle (VLMs), die durch beeindruckende Generalisierbarkeit und Anpassungsfähigkeit gekennzeichnet sind. In diesem Papier führen wir die erste empirische Studie zum Verständnis von Bildwerbung durch die Linse vortrainierter VLMs durch. Wir benchmarken und enthüllen praktische Herausforderungen bei der Anpassung dieser VLMs an das Verständnis von Bildwerbung. Wir schlagen eine einfache Feature-Anpassungsstrategie vor, um multimodale Informationen für Bildwerbung effektiv zu fusionieren und sie weiter mit Wissen über reale Entitäten zu stärken. Wir hoffen, dass unsere Studie mehr Aufmerksamkeit auf das Verständnis von Bildwerbung lenkt, das für die Werbebranche von großer Relevanz ist.