papers.description
Textgesteuerte Bildbearbeitung wird im täglichen Leben vielfach benötigt, sowohl für den persönlichen Gebrauch als auch für professionelle Anwendungen wie Photoshop. Bisherige Methoden sind jedoch entweder Zero-Shot oder auf einem automatisch synthetisierten Datensatz trainiert, der eine hohe Menge an Rauschen enthält. Daher erfordern sie in der Praxis immer noch viel manuelle Anpassungen, um zufriedenstellende Ergebnisse zu erzielen. Um dieses Problem zu lösen, stellen wir MagicBrush (https://osu-nlp-group.github.io/MagicBrush/) vor, den ersten groß angelegten, manuell annotierten Datensatz für instruktionsgesteuerte Bearbeitung realer Bilder, der verschiedene Szenarien abdeckt: Einzel- und Mehrfachbearbeitungen sowie Bearbeitungen mit und ohne Masken. MagicBrush umfasst über 10.000 manuell annotierte Tripel (Quellbild, Anweisung, Zielbild), die das Training groß angelegter Modelle für textgesteuerte Bildbearbeitung unterstützen. Wir feintunen InstructPix2Pix auf MagicBrush und zeigen, dass das neue Modell laut menschlicher Bewertung deutlich bessere Bilder erzeugen kann. Darüber hinaus führen wir umfangreiche Experimente durch, um aktuelle Baselines der Bildbearbeitung aus mehreren Dimensionen zu bewerten, einschließlich quantitativer, qualitativer und menschlicher Bewertungen. Die Ergebnisse verdeutlichen die anspruchsvolle Natur unseres Datensatzes und die Lücke zwischen den aktuellen Baselines und den Anforderungen der realen Bildbearbeitung.
Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache (NLP) revolutioniert, erfordern jedoch enorme GPU-Ressourcen für das Training. Die Senkung der Schwelle für das Training von LLMs würde eine stärkere Beteiligung von Forschern fördern, was sowohl der Wissenschaft als auch der Gesellschaft zugutekäme. Während bestehende Ansätze sich auf parameter-effizientes Fine-Tuning konzentriert haben, bei dem eine kleine Anzahl von Parametern angepasst oder hinzugefügt wird, haben nur wenige die Herausforderung angegangen, die vollständigen Parameter von LLMs mit begrenzten Ressourcen anzupassen. In dieser Arbeit schlagen wir einen neuen Optimierer vor, die LOw-Memory Optimization (LOMO), die die Gradientenberechnung und die Parameteraktualisierung in einem Schritt zusammenführt, um den Speicherverbrauch zu reduzieren. Durch die Integration von LOMO mit bestehenden Speicherspar-Techniken reduzieren wir den Speicherverbrauch auf 10,8 % im Vergleich zum Standardansatz (DeepSpeed-Lösung). Folglich ermöglicht unser Ansatz das vollständige Fine-Tuning der Parameter eines 65B-Modells auf einer einzelnen Maschine mit 8 RTX 3090, jeweils mit 24 GB Speicher.
Große Sprachmodelle (LLMs) haben eine bemerkenswerte Fähigkeit zur Codegeneration gezeigt, kämpfen jedoch immer noch mit anspruchsvollen Programmieraufgaben. Selbstreparatur – bei der das Modell Fehler in seinem eigenen Code debuggt und behebt – ist in letzter Zeit zu einer beliebten Methode geworden, um die Leistung in diesen Kontexten zu steigern. Es gibt jedoch nur sehr begrenzte Studien in der Literatur, die untersuchen, wie und wann Selbstreparatur effektiv funktioniert, und man könnte sich fragen, inwieweit ein Modell wirklich in der Lage ist, genaue Rückmeldungen darüber zu geben, warum der Code fehlerhaft ist, wenn dieser Code vom gleichen Modell generiert wurde. In diesem Artikel analysieren wir die Fähigkeit von GPT-3.5 und GPT-4, Selbstreparatur auf APPS durchzuführen, einem anspruchsvollen Datensatz, der aus diversen Programmierherausforderungen besteht. Dazu entwickeln wir zunächst eine neue Bewertungsstrategie namens pass@t, die die Erfolgsrate der Aufgaben im Verhältnis zur Gesamtzahl der vom Modell generierten Tokens misst und so einen fairen Vergleich zu rein stichprobenbasierten Ansätzen ermöglicht. Mit dieser Bewertungsstrategie stellen wir fest, dass die Wirksamkeit der Selbstreparatur nur bei GPT-4 zu beobachten ist. Wir beobachten auch, dass die Selbstreparatur durch die Feedback-Phase begrenzt wird; durch die Verwendung von GPT-4, um Feedback zu den von GPT-3.5 generierten Programmen zu geben, und durch die Verwendung von erfahrenen menschlichen Programmierern, um Feedback zu den von GPT-4 generierten Programmen zu geben, erzielen wir signifikante Leistungssteigerungen.
Wir stellen AvatarBooth vor, eine neuartige Methode zur Erzeugung hochwertiger 3D-Avatare mithilfe von Textbeschreibungen oder spezifischen Bildern. Im Gegensatz zu früheren Ansätzen, die nur Avatare basierend auf einfachen Textbeschreibungen synthetisieren können, ermöglicht unsere Methode die Erstellung personalisierter Avatare aus beiläufig aufgenommenen Gesichts- oder Körperbildern, während sie gleichzeitig die textbasierte Modellgenerierung und -bearbeitung unterstützt. Unser wesentlicher Beitrag ist die präzise Steuerung der Avatar-Generierung durch die Verwendung von zwei separat feinabgestimmten Diffusionsmodellen für das menschliche Gesicht und den Körper. Dies ermöglicht es uns, feine Details des Gesichtsaussehens, der Kleidung und der Accessoires zu erfassen, was zu hochrealistischen Avatar-Generierungen führt. Darüber hinaus führen wir eine pose-konsistente Beschränkung in den Optimierungsprozess ein, um die Multi-View-Konsistenz der synthetisierten Kopfbilder aus dem Diffusionsmodell zu verbessern und somit Störungen durch unkontrollierte menschliche Posen zu eliminieren. Zusätzlich präsentieren wir eine Multi-Resolution-Rendering-Strategie, die eine grob- bis feinabgestufte Überwachung der 3D-Avatar-Generierung ermöglicht und dadurch die Leistung des vorgeschlagenen Systems verbessert. Das resultierende Avatar-Modell kann weiterhin mit zusätzlichen Textbeschreibungen bearbeitet und durch Bewegungssequenzen gesteuert werden. Experimente zeigen, dass AvatarBooth frühere Text-zu-3D-Methoden in Bezug auf Rendering- und geometrische Qualität sowohl bei Textbeschreibungen als auch bei spezifischen Bildern übertrifft. Bitte besuchen Sie unsere Projektwebsite unter https://zeng-yifei.github.io/avatarbooth_page/.
Die offen-vokabular Objekterkennung hat stark von vortrainierten Vision-Sprache-Modellen profitiert, ist jedoch nach wie vor durch die Menge der verfügbaren Erkennungstrainingsdaten begrenzt. Zwar können Erkennungstrainingsdaten durch die Verwendung von Web-Bild-Text-Paaren als schwache Supervision erweitert werden, dies wurde jedoch noch nicht in einem mit der Bild-Level-Vortraining vergleichbaren Umfang durchgeführt. Hier skalieren wir die Erkennungsdaten durch Selbsttraining, bei dem ein bestehender Detektor verwendet wird, um Pseudo-Box-Annotationen auf Bild-Text-Paaren zu generieren. Die Hauptherausforderungen bei der Skalierung des Selbsttrainings sind die Wahl des Label-Raums, die Filterung von Pseudo-Annotationen und die Trainings-Effizienz. Wir präsentieren das OWLv2-Modell und das OWL-ST-Selbsttrainingsrezept, die diese Herausforderungen adressieren. OWLv2 übertrifft die Leistung bisheriger State-of-the-Art offen-vokabular Detektoren bereits bei vergleichbaren Trainingsumfängen (~10M Beispiele). Mit OWL-ST können wir jedoch auf über 1B Beispiele skalieren, was weitere erhebliche Verbesserungen bringt: Mit einer L/14-Architektur verbessert OWL-ST den AP auf LVIS seltene Klassen, für die das Modell keine menschlichen Box-Annotationen gesehen hat, von 31,2 % auf 44,6 % (43 % relative Verbesserung). OWL-ST ermöglicht Web-skalierbares Training für die offene Welt Lokalisierung, ähnlich wie es für Bildklassifikation und Sprachmodellierung beobachtet wurde.
Wir präsentieren einen selbstüberwachten sensomotorischen Vorverarbeitungsansatz für die Robotik. Unser Modell, genannt RPT, ist ein Transformer, der auf Sequenzen von sensomotorischen Tokens operiert. Gegeben eine Sequenz von Kamerabildern, propriozeptiven Robotzuständen und vergangenen Aktionen, kodieren wir die verschachtelte Sequenz in Tokens, maskieren eine zufällige Teilmenge aus und trainieren ein Modell, um die maskierten Inhalte vorherzusagen. Wir stellen die Hypothese auf, dass der Roboter, wenn er die fehlenden Inhalte vorhersagen kann, ein gutes Modell der physischen Welt erworben hat, das es ihm ermöglicht, zu handeln. RPT ist darauf ausgelegt, auf latenten visuellen Repräsentationen zu operieren, was die Vorhersage handhabbar macht, die Skalierung auf 10x größere Modelle ermöglicht und eine Inferenz mit 10 Hz auf einem realen Roboter erlaubt. Um unseren Ansatz zu evaluieren, sammeln wir über einen Zeitraum von 9 Monaten einen Datensatz von 20.000 realen Trajektorien unter Verwendung einer Kombination aus Bewegungsplanung und modellbasierten Greifalgorithmen. Wir stellen fest, dass die Vorverarbeitung auf diesen Daten durchweg besser abschneidet als das Training von Grund auf, zu 2x Verbesserungen in der Blockstapelaufgabe führt und vorteilhafte Skalierungseigenschaften aufweist.
State-Space-Modelle (SSMs) haben beeindruckende Ergebnisse bei Aufgaben gezeigt, die die Modellierung langreichweitiger Abhängigkeiten erfordern und sich aufgrund ihrer subquadratischen Laufzeitkomplexität effizient auf lange Sequenzen skalieren lassen. Ursprünglich für kontinuierliche Signale entwickelt, haben SSMs in einer Vielzahl von Aufgaben in den Bereichen Vision und Audio überlegene Leistungen gezeigt; dennoch hinken SSMs in Sprachmodellierungsaufgaben der Leistung von Transformern hinterher. In dieser Arbeit schlagen wir eine hybride Schicht namens Block-State Transformer (BST) vor, die intern eine SSM-Unterebene für die langreichweitige Kontextualisierung und eine Block-Transformer-Unterebene für die kurzfristige Repräsentation von Sequenzen kombiniert. Wir untersuchen drei verschiedene, vollständig parallelisierbare Varianten, die SSMs und blockweise Aufmerksamkeit integrieren. Wir zeigen, dass unser Modell ähnliche Transformer-basierte Architekturen in Bezug auf die Sprachmodellierungsperplexität übertrifft und sich auf längere Sequenzen verallgemeinern lässt. Darüber hinaus demonstriert der Block-State Transformer im Vergleich zum Block-Recurrent Transformer bei der Modellparallelisierung eine mehr als zehnfache Geschwindigkeitssteigerung auf der Ebenenebene.
Untersuchungen zu Skalierungsgesetzen haben gezeigt, dass große Sprachmodelle (LMs) vorhersehbare Verbesserungen des Gesamtverlusts mit zunehmender Skalierung (Modellgröße, Trainingsdaten und Rechenleistung) aufweisen. Hier präsentieren wir Belege für die Behauptung, dass LMs eine umgekehrte Skalierung zeigen könnten, d. h. eine schlechtere Aufgabenleistung mit zunehmender Skalierung, beispielsweise aufgrund von Mängeln im Trainingsziel und in den Daten. Wir liefern empirische Belege für eine umgekehrte Skalierung anhand von 11 Datensätzen, die im Rahmen eines öffentlichen Wettbewerbs, dem Inverse Scaling Prize, mit einem beträchtlichen Preisgeld gesammelt wurden. Durch die Analyse dieser Datensätze sowie weiterer Beispiele aus der Literatur identifizieren wir vier potenzielle Ursachen für die umgekehrte Skalierung: (i) die Tendenz, auswendig gelernte Sequenzen zu wiederholen, anstatt kontextbezogene Anweisungen zu befolgen, (ii) die Nachahmung unerwünschter Muster in den Trainingsdaten, (iii) Aufgaben, die eine einfache Ablenkungsaufgabe enthalten, auf die sich die LMs konzentrieren könnten, anstatt die schwierigere eigentliche Aufgabe zu lösen, und (iv) korrekte, aber irreführende Few-Shot-Demonstrationen der Aufgabe. Wir veröffentlichen die gewinnenden Datensätze unter https://inversescaling.com/data, um weitere Untersuchungen zur umgekehrten Skalierung zu ermöglichen. Unsere Aufgaben haben dazu beigetragen, U-förmige und umgekehrt U-förmige Skalierungstrends zu entdecken, bei denen ein anfänglicher Trend sich umkehrt, was darauf hindeutet, dass Skalierungstrends weniger zuverlässig sind, um das Verhalten von Modellen größerer Skalierung vorherzusagen, als bisher angenommen. Insgesamt deuten unsere Ergebnisse darauf hin, dass es Aufgaben gibt, bei denen eine alleinige Erhöhung der Modellgröße möglicherweise nicht zu Fortschritten führt und dass sorgfältigere Überlegungen in die Daten und Ziele für das Training von Sprachmodellen einfließen müssen.
Aktuelle Arbeiten haben die Text-zu-Audio-Synthese unter Verwendung großer Mengen gepaarter Text-Audio-Daten untersucht. Allerdings können Audioaufnahmen mit hochwertigen Textannotationen schwer zu beschaffen sein. In dieser Arbeit nähern wir uns der Text-zu-Audio-Synthese mithilfe ungelabelter Videos und vortrainierter Sprach-Bild-Modelle. Wir schlagen vor, die gewünschte Text-Audio-Korrespondenz zu erlernen, indem wir die visuelle Modalität als Brücke nutzen. Wir trainieren ein bedingtes Diffusionsmodell, um den Audiospur eines Videos zu generieren, basierend auf einem Videobild, das durch ein vortrainiertes kontrastives Sprach-Bild-Pretraining (CLIP)-Modell kodiert wurde. Zum Testzeitpunkt untersuchen wir zunächst die Durchführung eines Zero-Shot-Modalitätswechsels und konditionieren das Diffusionsmodell mit einer CLIP-kodierten Textanfrage. Allerdings beobachten wir einen deutlichen Leistungsabfall im Vergleich zu Bildanfragen. Um diese Lücke zu schließen, setzen wir zusätzlich ein vortrainiertes Diffusions-Prior-Modell ein, um eine CLIP-Bildeinbettung basierend auf einer CLIP-Texteinbettung zu generieren. Unsere Ergebnisse zeigen die Effektivität der vorgeschlagenen Methode und dass das vortrainierte Diffusions-Prior-Modell die Lücke beim Modalitätswechsel verringern kann. Während wir uns auf die Text-zu-Audio-Synthese konzentrieren, kann das vorgeschlagene Modell auch Audio aus Bildanfragen generieren und zeigt in einem subjektiven Hörtest eine wettbewerbsfähige Leistung im Vergleich zu einem modernen Bild-zu-Audio-Synthese-Modell. Diese Studie bietet eine neue Richtung zur Annäherung an die Text-zu-Audio-Synthese, die die natürlich vorkommende Audio-Visuelle-Korrespondenz in Videos und die Leistungsfähigkeit vortrainierter Sprach-Bild-Modelle nutzt.
Der Einsatz großer Sprachmodelle (LLMs) kann Risiken durch schädliche Ausgaben wie toxische oder unehrliche Äußerungen bergen. Bisherige Arbeiten haben Tools eingeführt, die schädliche Ausgaben provozieren, um diese Risiken zu identifizieren und zu mindern. Obwohl dies ein wertvoller Schritt zur Absicherung von Sprachmodellen ist, stützen sich diese Ansätze typischerweise auf einen bereits existierenden Klassifikator für unerwünschte Ausgaben. Dies schränkt ihre Anwendung auf Situationen ein, in denen die Art des schädlichen Verhaltens im Voraus präzise bekannt ist. Dadurch wird jedoch eine zentrale Herausforderung des Red Teaming übersprungen: die Entwicklung eines kontextuellen Verständnisses der Verhaltensweisen, die ein Modell zeigen kann. Darüber hinaus hat Red Teaming, wenn ein solcher Klassifikator bereits existiert, nur begrenzten zusätzlichen Nutzen, da der Klassifikator einfach verwendet werden könnte, um Trainingsdaten oder Modellausgaben zu filtern. In dieser Arbeit betrachten wir Red Teaming unter der Annahme, dass der Gegner von einer abstrakten, hochrangigen Spezifikation unerwünschten Verhaltens ausgeht. Das Red Team soll diese Spezifikation verfeinern/erweitern und Methoden identifizieren, um dieses Verhalten aus dem Modell zu provozieren. Unser Red Teaming-Framework besteht aus drei Schritten: 1) Erforschung des Modellverhaltens im gewünschten Kontext; 2) Etablierung einer Messung unerwünschten Verhaltens (z. B. ein Klassifikator, der trainiert wurde, um menschliche Bewertungen widerzuspiegeln); und 3) Ausnutzung der Schwächen des Modells unter Verwendung dieser Messung und einer etablierten Red Teaming-Methodik. Wir wenden diesen Ansatz an, um GPT-2- und GPT-3-Modelle zu red teamen und systematisch Klassen von Eingabeaufforderungen zu entdecken, die toxische und unehrliche Aussagen provozieren. Dabei erstellen und veröffentlichen wir auch den CommonClaim-Datensatz mit 20.000 Aussagen, die von menschlichen Probanden als allgemeinwahr, allgemeinfalsch oder keines von beidem gekennzeichnet wurden. Der Code ist verfügbar unter https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim ist verfügbar unter https://github.com/thestephencasper/common_claim.
Menschen verfügen über die kognitive Fähigkeit, Szenen auf eine kompositionelle Weise zu verstehen. Um KI-Systeme mit ähnlichen Fähigkeiten auszustatten, zielt das objektzentrierte Repräsentationslernen darauf ab, Repräsentationen einzelner Objekte aus visuellen Szenen ohne jegliche Überwachung zu erlernen. Obwohl jüngste Fortschritte im objektzentrierten Repräsentationslernen bemerkenswerte Erfolge auf komplexen Synthesedatensätzen erzielt haben, besteht eine große Herausforderung bei der Anwendung in komplexen realen Szenen. Ein wesentlicher Grund dafür ist der Mangel an realen Datensätzen, die speziell für objektzentrierte Repräsentationslernmethoden entwickelt wurden. Um dieses Problem zu lösen, schlagen wir einen vielseitigen realen Datensatz von Tischszenen für das objektzentrierte Lernen vor, der OCTScenes genannt wird und sorgfältig als Benchmark für den Vergleich, die Bewertung und die Analyse von objektzentrierten Repräsentationslernmethoden konzipiert ist. OCTScenes enthält 5000 Tischszenen mit insgesamt 15 alltäglichen Objekten. Jede Szene wird in 60 Bildern erfasst, die eine 360-Grad-Perspektive abdecken. Folglich ist OCTScenes ein vielseitiger Benchmark-Datensatz, der gleichzeitig die Bewertung von objektzentrierten Repräsentationslernmethoden für statische Szenen, dynamische Szenen und Multi-View-Szenen-Aufgaben erfüllen kann. Umfangreiche Experimente von objektzentrierten Repräsentationslernmethoden für statische, dynamische und Multi-View-Szenen werden auf OCTScenes durchgeführt. Die Ergebnisse zeigen die Schwächen der state-of-the-art Methoden beim Erlernen aussagekräftiger Repräsentationen aus realen Daten, trotz ihrer beeindruckenden Leistung auf komplexen Synthesedatensätzen. Darüber hinaus kann OCTScenes als Katalysator für die Weiterentwicklung bestehender state-of-the-art Methoden dienen und sie dazu inspirieren, sich an reale Szenen anzupassen. Der Datensatz und der Code sind unter https://huggingface.co/datasets/Yinxuan/OCTScenes verfügbar.
Wir präsentieren CAJun, ein neuartiges hierarchisches Lern- und Steuerungsframework, das laufenden Robotern ermöglicht, kontinuierlich mit adaptiven Sprungweiten zu springen. CAJun besteht aus einer High-Level-Zentroidal-Policy und einem Low-Level-Beincontroller. Insbesondere verwenden wir Reinforcement Learning (RL), um die Zentroidal-Policy zu trainieren, die den Gangrhythmus, die Basisgeschwindigkeit und die Position des Schwungbeins für den Beincontroller vorgibt. Der Beincontroller optimiert die Motorsteuerbefehle für die Schwung- und Standbeine gemäß dem Gangrhythmus, um das Schwungbeinziel und die Basisgeschwindigkeitsbefehle mithilfe optimaler Steuerung zu verfolgen. Zusätzlich reformulieren wir den Standbein-Optimierer im Beincontroller, um die Policy-Trainingsgeschwindigkeit um eine Größenordnung zu erhöhen. Unser System kombiniert die Vielseitigkeit des Lernens mit der Robustheit optimaler Steuerung. Durch die Kombination von RL mit Methoden der optimalen Steuerung erreicht unser System die Vielseitigkeit des Lernens und profitiert gleichzeitig von der Robustheit der Steuerungsmethoden, was es leicht auf reale Roboter übertragbar macht. Wir zeigen, dass CAJun nach 20 Minuten Training auf einer einzelnen GPU kontinuierliche, lange Sprünge mit adaptiven Weiten auf einem Go1-Roboter mit geringen Sim-to-Real-Lücken erreichen kann. Darüber hinaus kann der Roboter über Lücken mit einer maximalen Breite von 70 cm springen, was über 40 % breiter ist als bei bestehenden Methoden.