Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Gegeben zwei Bilder, die eine Person und ein Kleidungsstück, das von einer anderen Person getragen wird, darstellen, besteht unser Ziel darin, eine Visualisierung zu erzeugen, wie das Kleidungsstück auf der Eingabeperson aussehen könnte. Eine zentrale Herausforderung besteht darin, eine fotorealistische, detailerhaltende Visualisierung des Kleidungsstücks zu synthetisieren, während das Kleidungsstück so verformt wird, dass es eine signifikante Veränderung der Körperhaltung und -form zwischen den Personen berücksichtigt. Bisherige Methoden konzentrieren sich entweder auf die Erhaltung der Kleidungsdetails ohne effektive Variation von Haltung und Form oder ermöglichen das Anprobieren mit der gewünschten Form und Haltung, jedoch ohne die Kleidungsdetails. In diesem Artikel schlagen wir eine diffusionsbasierte Architektur vor, die zwei UNets vereint (als Parallel-UNet bezeichnet), wodurch wir Kleidungsdetails erhalten und das Kleidungsstück für signifikante Haltungs- und Körperveränderungen in einem einzigen Netzwerk verformen können. Die Schlüsselideen hinter Parallel-UNet umfassen: 1) das Kleidungsstück wird implizit über einen Cross-Attention-Mechanismus verformt, 2) die Verformung des Kleidungsstücks und die Verschmelzung mit der Person erfolgen als Teil eines einheitlichen Prozesses im Gegensatz zu einer Abfolge von zwei separaten Aufgaben. Experimentelle Ergebnisse zeigen, dass TryOnDiffusion sowohl qualitativ als auch quantitativ state-of-the-art Leistungen erzielt.
Die reflektierende Natur des menschlichen Auges ist eine unterschätzte Informationsquelle darüber, wie die Welt um uns herum aussieht. Indem wir die Augen einer sich bewegenden Person abbilden, können wir durch die Reflexionen in den Augen mehrere Ansichten einer Szene außerhalb der direkten Sichtlinie der Kamera sammeln. In diesem Papier rekonstruieren wir eine 3D-Szene außerhalb der Sichtlinie der Kamera mithilfe von Porträtbildern, die Augenreflexionen enthalten. Diese Aufgabe ist aufgrund von 1) der Schwierigkeit, die Augenpositionen genau zu schätzen, und 2) der verschränkten Erscheinung der Iris und der Szenenreflexionen herausfordernd. Unsere Methode verfeinert gleichzeitig die Hornhautpositionen, das Radiance Field, das die Szene darstellt, und die Textur der Iris des Beobachters. Wir schlagen außerdem ein einfaches Regularisierungs-Prior für das Iris-Texturmuster vor, um die Rekonstruktionsqualität zu verbessern. Durch verschiedene Experimente mit synthetischen und realen Aufnahmen von Personen mit unterschiedlichen Augenfarben demonstrieren wir die Machbarkeit unseres Ansatzes, 3D-Szenen mithilfe von Augenreflexionen wiederherzustellen.
Code Large Language Models (Code LLMs), wie StarCoder, haben außergewöhnliche Leistungen bei codebezogenen Aufgaben gezeigt. Die meisten bestehenden Modelle werden jedoch ausschließlich auf umfangreichen Rohdaten von Code vortrainiert, ohne eine Feinabstimmung durch Instruktionen. In diesem Artikel stellen wir WizardCoder vor, das Code LLMs durch komplexe Instruktionsfeinabstimmung stärkt, indem die Evol-Instruct-Methode auf den Bereich des Codes angewendet wird. Durch umfassende Experimente auf vier bedeutenden Benchmarks für Code-Generierung, nämlich HumanEval, HumanEval+, MBPP und DS-1000, enthüllen wir die außergewöhnlichen Fähigkeiten unseres Modells. Es übertrifft alle anderen Open-Source-Code-LLMs mit deutlichem Abstand. Darüber hinaus übertrifft unser Modell sogar die größten geschlossenen LLMs, Anthropics Claude und Googles Bard, bei HumanEval und HumanEval+. Unser Code, die Modellgewichte und die Daten sind öffentlich unter https://github.com/nlpxucan/WizardLM verfügbar.
Aktuelle Forschungen zu Large Language Models (LLMs) haben zu bemerkenswerten Fortschritten bei allgemeinen NLP-KI-Assistenten geführt. Einige Studien haben zudem die Nutzung von LLMs für die Planung und den Aufruf von Modellen oder APIs untersucht, um allgemeinere multimodale Benutzeranfragen zu bearbeiten. Trotz dieser Fortschritte bleiben komplexe visuelle Aufgaben aufgrund der Vielfalt visueller Aufgaben weiterhin herausfordernd. Diese Vielfalt zeigt sich in zwei Aspekten: 1) Argumentationspfade. Für viele reale Anwendungen ist es schwierig, eine Anfrage allein durch deren Betrachtung präzise zu zerlegen. Eine Planung basierend auf dem spezifischen visuellen Inhalt und den Ergebnissen jedes Schritts ist meist erforderlich. 2) Flexible Eingaben und Zwischenergebnisse. Die Eingabeformen können in realen Fällen flexibel sein und beinhalten nicht nur ein einzelnes Bild oder Video, sondern eine Mischung aus Videos und Bildern, z. B. ein Benutzeransichtsbild mit einigen Referenzvideos. Darüber hinaus erzeugt ein komplexer Argumentationsprozess auch diverse multimodale Zwischenergebnisse, z. B. Videokommentare, segmentierte Videoclips usw. Um solche allgemeinen Fälle zu bewältigen, schlagen wir einen multimodalen KI-Assistenten, AssistGPT, mit einem verschachtelten Code- und Sprachargumentationsansatz namens Plan, Execute, Inspect, and Learn (PEIL) vor, um LLMs mit verschiedenen Tools zu integrieren. Konkret ist der Planner in der Lage, natürliche Sprache zu verwenden, um zu planen, welches Tool im Executor als nächstes basierend auf dem aktuellen Argumentationsfortschritt verwendet werden soll. Der Inspector ist ein effizienter Speichermanager, der den Planner dabei unterstützt, die richtigen visuellen Informationen in ein bestimmtes Tool einzuspeisen. Schließlich ist, da der gesamte Argumentationsprozess komplex und flexibel ist, ein Learner entworfen, um dem Modell zu ermöglichen, autonom die optimale Lösung zu erkunden und zu entdecken. Wir haben Experimente auf den Benchmarks A-OKVQA und NExT-QA durchgeführt und dabei state-of-the-art Ergebnisse erzielt. Darüber hinaus zeigen Demonstrationen die Fähigkeit unseres Systems, Fragen zu bewältigen, die weitaus komplexer sind als die in den Benchmarks gefundenen.
Knowledge Distillation (KD) ist eine vielversprechende Technik zur Reduzierung des hohen Rechenbedarfs von großen Sprachmodellen (LLMs). Bisherige KD-Methoden werden jedoch hauptsächlich auf White-Box-Klassifikationsmodelle angewendet oder darauf, kleine Modelle dazu zu trainieren, Black-Box-Modelle wie ChatGPT nachzuahmen. Wie man das Wissen aus White-Box-generativen LLMs effektiv destilliert, ist noch weitgehend unerforscht, wird jedoch mit der zunehmenden Verbreitung von LLMs immer wichtiger. In dieser Arbeit schlagen wir MiniLLM vor, das kleinere Sprachmodelle aus generativen größeren Sprachmodellen destilliert. Wir ersetzen zunächst das Forward-Kullback-Leibler-Divergenz (KLD)-Ziel in den Standard-KD-Ansätzen durch Reverse KLD, das besser für KD bei generativen Sprachmodellen geeignet ist, um zu verhindern, dass das Schülermodell die Niedrigwahrscheinlichkeitsbereiche der Lehrerverteilung überschätzt. Anschließend leiten wir einen effektiven Optimierungsansatz ab, um dieses Ziel zu lernen. Umfangreiche Experimente im Kontext der Befolgung von Anweisungen zeigen, dass die MiniLLM-Modelle präzisere Antworten mit höherer Gesamtqualität, geringerem Exposure Bias, besserer Kalibrierung und besserer Leistung bei der Generierung langer Texte erzeugen. Unser Verfahren ist auch skalierbar für verschiedene Modellfamilien mit 120M bis 13B Parametern. Wir werden unseren Code und unsere Modell-Checkpoints unter https://aka.ms/MiniLLM veröffentlichen.
Die beispiellose Leistung großer Sprachmodelle (LLMs) erfordert Verbesserungen in der Evaluierung. Anstatt lediglich die Bandbreite der Fähigkeiten von LLMs zu erkunden, glauben wir, dass sorgfältige und durchdachte Designs für umfassende, unvoreingenommene und anwendbare Evaluierungen unerlässlich sind. Angesichts der Bedeutung von Weltwissen für LLMs entwickeln wir einen Wissensorientierten LLM-Bewertungsbenchmark (KoLA), in dem wir drei entscheidende Faktoren sorgfältig gestalten: (1) Für die Fähigkeitsmodellierung imitieren wir die menschliche Kognition, um eine vierstufige Taxonomie von wissensbezogenen Fähigkeiten zu bilden, die 19 Aufgaben abdeckt. (2) Für die Daten verwenden wir sowohl Wikipedia, ein Korpus, der häufig von LLMs vortrainiert wird, als auch kontinuierlich gesammelte neue Korpora, um die Fähigkeit zur Verarbeitung unbekannter Daten und sich entwickelnden Wissens zu bewerten. (3) Für die Bewertungskriterien setzen wir ein kontrastives System ein, das Gesamtstandardwerte für eine bessere numerische Vergleichbarkeit über Aufgaben und Modelle hinweg sowie ein einzigartiges Selbstkontrastmetrik zur automatischen Bewertung von Wissenshalluzinationen umfasst. Wir evaluieren 21 Open-Source- und kommerzielle LLMs und erhalten einige interessante Erkenntnisse. Der KoLA-Datensatz und das offene Teilnahme-Ranking sind öffentlich unter https://kola.xlore.cn verfügbar und werden kontinuierlich aktualisiert, um Referenzen für die Entwicklung von LLMs und wissensbezogenen Systemen zu bieten.
Foundation Large Language Models (LLMs) wie GPT-4 stellen eine Revolution in der KI dar, insbesondere durch ihre Anwendungen in der natürlichen Sprachverarbeitung. Allerdings bergen sie auch erhebliche Risiken, wie das Vorhandensein von voreingenommenen, privaten oder schädlichen Texten sowie die unbefugte Einbindung von urheberrechtlich geschütztem Material. Wir stellen h2oGPT vor, eine Sammlung von Open-Source-Code-Repositories zur Erstellung und Nutzung von Large Language Models (LLMs) basierend auf Generative Pretrained Transformers (GPTs). Das Ziel dieses Projekts ist es, die weltweit beste, wirklich Open-Source-Alternative zu proprietären GPTs zu schaffen. In Zusammenarbeit mit und als Teil der beeindruckenden und unaufhaltsamen Open-Source-Community veröffentlichen wir mehrere feinabgestimmte h2oGPT-Modelle mit 7 bis 40 Milliarden Parametern, die unter vollständig freizügigen Apache-2.0-Lizenzen für die kommerzielle Nutzung bereitstehen. In unserer Veröffentlichung enthalten ist auch eine 100 % private Dokumentensuche mittels natürlicher Sprache. Open-Source-Sprachmodelle fördern die KI-Entwicklung und machen sie zugänglicher und vertrauenswürdiger. Sie senken die Einstiegshürden und ermöglichen es Einzelpersonen und Gruppen, diese Modelle an ihre Bedürfnisse anzupassen. Diese Offenheit steigert Innovation, Transparenz und Fairness. Eine Open-Source-Strategie ist notwendig, um die Vorteile der KI gerecht zu teilen, und H2O.ai wird weiterhin die Demokratisierung von KI und LLMs vorantreiben.
Wir stellen DreamHuman vor, eine Methode zur Erzeugung realistischer, animierbarer 3D-Mensch-Avatarmodelle ausschließlich aus textuellen Beschreibungen. Aktuelle Text-zu-3D-Methoden haben zwar erhebliche Fortschritte in der Generierung gemacht, weisen jedoch weiterhin wichtige Defizite auf. Die Kontrolle und oft auch die räumliche Auflösung bleiben begrenzt, bestehende Methoden erzeugen statische statt animierte 3D-Menschmodelle, und die anthropometrische Konsistenz für komplexe Strukturen wie Menschen bleibt eine Herausforderung. DreamHuman verbindet große Text-zu-Bild-Synthesemodelle, neurale Strahlungsfelder und statistische Körpermodelle in einem neuartigen Modellierungs- und Optimierungsframework. Dies ermöglicht die Generierung dynamischer 3D-Menschavatare mit hochwertigen Texturen und gelernten, instanzspezifischen Oberflächendeformationen. Wir zeigen, dass unsere Methode in der Lage ist, eine Vielzahl animierbarer, realistischer 3D-Menschmodelle aus Text zu erzeugen. Unsere 3D-Modelle weisen eine vielfältige Erscheinung, Kleidung, Hauttöne und Körperformen auf und übertreffen sowohl generische Text-zu-3D-Ansätze als auch frühere textbasierte 3D-Avatargeneratoren deutlich in der visuellen Qualität. Für weitere Ergebnisse und Animationen besuchen Sie bitte unsere Website unter https://dream-human.github.io.
Obwohl instruktionsfeinabgestimmte große Sprachmodelle (LLMs) bemerkenswerte Fähigkeiten in verschiedenen NLP-Aufgaben gezeigt haben, wurde ihre Wirksamkeit auf andere Datenmodalitäten jenseits von Text noch nicht umfassend untersucht. In dieser Arbeit schlagen wir Macaw-LLM vor, ein neuartiges multimodales LLM, das visuelle, auditive und textuelle Informationen nahtlos integriert. Macaw-LLM besteht aus drei Hauptkomponenten: einem Modalitätsmodul zur Kodierung multimodaler Daten, einem kognitiven Modul zur Nutzung vortrainierter LLMs und einem Ausrichtungsmodul zur Harmonisierung verschiedener Repräsentationen. Unser neuartiges Ausrichtungsmodul überbrückt nahtlos multimodale Merkmale mit textuellen Merkmalen und vereinfacht den Anpassungsprozess von den Modalitätsmodulen zum kognitiven Modul. Darüber hinaus haben wir einen groß angelegten multimodalen Instruktionsdatensatz im Hinblick auf mehrstufige Dialoge erstellt, der 69.000 Bildinstanzen und 50.000 Videoinstanzen umfasst. Wir haben unsere Daten, unseren Code und unser Modell öffentlich zugänglich gemacht, was hoffentlich den Weg für zukünftige Forschung in multimodalen LLMs ebnen und die Fähigkeiten von LLMs erweitern kann, um diverse Datenmodalitäten zu verarbeiten und komplexe reale Szenarien zu bewältigen.
Große Sprachmodelle (LLMs) haben aufregende Fortschritte beim Erwerb vielfältiger neuer Fähigkeiten durch In-Context-Lernen gezeigt, die von logischem Denken bis hin zum Schreiben von Code reichen. Robotikforscher haben ebenfalls untersucht, LLMs zu nutzen, um die Fähigkeiten der Robotersteuerung voranzutreiben. Da jedoch Low-Level-Roboteraktionen hardwareabhängig sind und in den Trainingskorpora von LLMs unterrepräsentiert sind, haben bestehende Bemühungen zur Anwendung von LLMs in der Robotik diese weitgehend als semantische Planer behandelt oder sich auf menschlich entwickelte Steuerungsprimitive verlassen, um mit dem Roboter zu interagieren. Andererseits haben sich Belohnungsfunktionen als flexible Repräsentationen erwiesen, die für Steuerungsrichtlinien optimiert werden können, um verschiedene Aufgaben zu erreichen, während ihre semantische Reichhaltigkeit sie geeignet macht, von LLMs spezifiziert zu werden. In dieser Arbeit führen wir ein neues Paradigma ein, das diese Erkenntnis nutzt, indem LLMs verwendet werden, um Belohnungsparameter zu definieren, die optimiert und eine Vielzahl von Robotikaufgaben bewältigen können. Indem wir die Belohnung als die von LLMs generierte Zwischenschnittstelle verwenden, können wir effektiv die Lücke zwischen High-Level-Sprachanweisungen oder Korrekturen und Low-Level-Roboteraktionen überbrücken. Gleichzeitig ermöglicht die Kombination mit einem Echtzeit-Optimierer, MuJoCo MPC, eine interaktive Verhaltenserstellungserfahrung, bei der Benutzer die Ergebnisse sofort beobachten und dem System Feedback geben können. Um die Leistung unserer vorgeschlagenen Methode systematisch zu bewerten, haben wir insgesamt 17 Aufgaben für einen simulierten Quadruped-Roboter und einen geschickten Manipulatorroboter entworfen. Wir zeigen, dass unsere vorgeschlagene Methode zuverlässig 90 % der entworfenen Aufgaben bewältigt, während eine Baseline, die primitive Fähigkeiten als Schnittstelle mit Code-as-Policies verwendet, 50 % der Aufgaben erreicht. Wir haben unsere Methode weiterhin an einem echten Roboterarm validiert, bei dem komplexe Manipulationsfähigkeiten wie das nicht greifende Schieben durch unser interaktives System entstehen.
Die Vielfalt der Objekte in der realen Welt ist nahezu unbegrenzt und lässt sich daher nicht mit Modellen erfassen, die auf einem festen Satz von Kategorien trainiert wurden. Infolgedessen haben in den letzten Jahren Methoden mit offenem Vokabular das Interesse der Fachgemeinschaft geweckt. Dieses Papier schlägt eine neue Methode für die Null-Shot-Segmentierung mit offenem Vokabular vor. Bisherige Arbeiten stützen sich weitgehend auf kontrastives Training unter Verwendung von Bild-Text-Paaren, wobei Gruppierungsmechanismen genutzt werden, um Bildmerkmale zu erlernen, die sowohl mit der Sprache abgestimmt als auch gut lokalisiert sind. Dies kann jedoch zu Mehrdeutigkeiten führen, da das visuelle Erscheinungsbild von Bildern mit ähnlichen Beschreibungen oft variiert. Stattdessen nutzen wir die generativen Eigenschaften von großskaligen Text-zu-Bild-Diffusionsmodellen, um eine Reihe von Unterstützungsbildern für eine gegebene textuelle Kategorie zu erzeugen. Dies liefert eine Verteilung von Erscheinungsformen für einen gegebenen Text und umgeht das Problem der Mehrdeutigkeit. Darüber hinaus schlagen wir einen Mechanismus vor, der den kontextuellen Hintergrund der erzeugten Bilder berücksichtigt, um Objekte besser zu lokalisieren und den Hintergrund direkt zu segmentieren. Wir zeigen, dass unsere Methode verwendet werden kann, um mehrere bestehende, vortrainierte selbstüberwachte Merkmalsextraktoren in natürlicher Sprache zu verankern und erklärbare Vorhersagen zu liefern, indem auf Regionen im Unterstützungssatz zurückgegriffen wird. Unser Vorschlag ist trainingsfrei und stützt sich ausschließlich auf vortrainierte Komponenten, zeigt jedoch eine starke Leistung bei einer Reihe von Benchmarks für die Segmentierung mit offenem Vokabular und erzielt einen Vorsprung von mehr als 10 % beim Pascal VOC Benchmark.
Bei der Lösung von Entscheidungsaufgaben stützen sich Menschen typischerweise auf Informationen aus zwei Hauptquellen: (1) Historische Richtliniendaten, die Interaktionswiederholungen aus der Umgebung liefern, und (2) Analytische Erkenntnisse in natürlicher Sprache, die den wertvollen Denkprozess oder strategische Überlegungen offenlegen. Trotzdem konzentriert sich der Großteil der bisherigen Forschung nur auf eine Quelle: Entweder wird ausschließlich historische Wiederholung verwendet, um direkt Richtlinien- oder Wertfunktionen zu lernen, oder es wird lediglich ein Sprachmodelltraining anhand von Sprachkorpora durchgeführt. In diesem Papier argumentieren wir, dass ein leistungsstarker autonomer Agent beide Quellen abdecken sollte. Daher schlagen wir ChessGPT vor, ein GPT-Modell, das Richtlinienlernen und Sprachmodellierung durch die Integration von Daten aus diesen beiden Quellen in Schachspielen verbindet. Konkret erstellen wir einen groß angelegten Datensatz, der Spiele und Sprache im Zusammenhang mit Schach umfasst. Mithilfe dieses Datensatzes präsentieren wir zwei Modellbeispiele, ChessCLIP und ChessGPT, die Richtlinienlernen und Sprachmodellierung integrieren. Schließlich schlagen wir ein umfassendes Bewertungsframework vor, um die Schachfähigkeiten des Sprachmodells zu evaluieren. Experimentelle Ergebnisse bestätigen die Effektivität unseres Modells und Datensatzes. Wir stellen unseren Code, das Modell und den Datensatz unter https://github.com/waterhorse1/ChessGPT als Open Source zur Verfügung.
Wir haben einen umfassenden Datensatz von 4.550 Fragen und Lösungen aus Übungsblättern, Zwischenprüfungen und Abschlussprüfungen aller MIT-Mathematik- und Elektrotechnik- und Informatikstudiengänge (EECS) zusammengestellt, die für den Abschluss eines Studiums erforderlich sind. Wir bewerten die Fähigkeit großer Sprachmodelle, die Abschlussanforderungen für jeden MIT-Studiengang in Mathematik und EECS zu erfüllen. Unsere Ergebnisse zeigen, dass GPT-3.5 ein Drittel des gesamten MIT-Lehrplans erfolgreich löst, während GPT-4 mit Prompt-Engineering eine perfekte Lösungsrate auf einem Testdatensatz erreicht, der Fragen basierend auf Bildern ausschließt. Wir feintunen ein Open-Source-Großsprachmodell auf diesem Datensatz. Wir verwenden GPT-4, um Modellantworten automatisch zu bewerten, und bieten eine detaillierte Leistungsaufschlüsselung nach Kurs, Frage und Antworttyp. Durch die Einbettung von Fragen in einen niedrigdimensionalen Raum untersuchen wir die Beziehungen zwischen Fragen, Themen und Kursen und entdecken, welche Fragen und Kurse für die Lösung anderer Fragen und Kurse durch Few-Shot-Lernen erforderlich sind. Unsere Analyse bietet wertvolle Einblicke in Kursvoraussetzungen und Lehrplangestaltung und hebt das Potenzial von Sprachmodellen für das Lernen und die Verbesserung der Mathematik- und EECS-Ausbildung hervor.
Wir stellen Antizipation vor: eine Methode zur Konstruktion eines kontrollierbaren generativen Modells eines zeitlichen Punktprozesses (des Ereignisprozesses), das asynchron auf Realisierungen eines zweiten, korrelierten Prozesses (des Kontrollprozesses) bedingt ist. Dies erreichen wir, indem wir Sequenzen von Ereignissen und Kontrollen verschachteln, sodass Kontrollen nach Stoppzeiten in der Ereignissequenz erscheinen. Diese Arbeit wird durch Probleme motiviert, die bei der Kontrolle der symbolischen Musikerzeugung auftreten. Wir konzentrieren uns auf Infilling-Kontrollaufgaben, bei denen die Kontrollen eine Teilmenge der Ereignisse selbst sind und die bedingte Erzeugung eine Ereignissequenz gegeben der festen Kontrollereignisse vervollständigt. Wir trainieren antizipatorische Infilling-Modelle mit dem umfangreichen und vielfältigen Lakh MIDI-Musikdatensatz. Diese Modelle erreichen die Leistung autoregressiver Modelle für die promptgesteuerte Musikerzeugung, mit der zusätzlichen Fähigkeit, Infilling-Kontrollaufgaben, einschließlich Begleitung, durchzuführen. Menschliche Bewerter berichten, dass ein antizipatorisches Modell Begleitungen mit einer ähnlichen Musikalität wie sogar von Menschen komponierte Musik über einen 20-Sekunden-Ausschnitt erzeugt.
Wir schlagen eine Methode vor, um Musik für ein Eingabevideo zu empfehlen, wobei der Benutzer die Musikauswahl mit freier natürlicher Sprache steuern kann. Eine zentrale Herausforderung in diesem Problemkontext besteht darin, dass bestehende Musikvideo-Datensätze zwar die benötigten (Video, Musik)-Trainingspaare bereitstellen, jedoch Textbeschreibungen der Musik fehlen. Diese Arbeit adressiert diese Herausforderung mit den folgenden drei Beiträgen. Erstens schlagen wir einen Text-Synthese-Ansatz vor, der auf einem Analogie-basierten Prompting-Verfahren beruht, um natürliche Sprachbeschreibungen der Musik aus einem großskaligen Sprachmodell (BLOOM-176B) zu generieren, basierend auf den Ausgaben eines vortrainierten Musik-Taggers und einer kleinen Anzahl menschlicher Textbeschreibungen. Zweitens verwenden wir diese synthetisierten Musikbeschreibungen, um ein neues trimodales Modell zu trainieren, das Text- und Video-Eingabedarstellungen fusioniert, um Musikbeispiele abzufragen. Für das Training führen wir einen Text-Dropout-Regularisierungsmechanismus ein, den wir als entscheidend für die Modellleistung zeigen. Unser Modelldesign ermöglicht es, dass die abgerufene Musik mit den beiden Eingabemodalitäten übereinstimmt, indem der visuelle Stil im Video und das musikalische Genre, die Stimmung oder die Instrumentierung, wie in der natürlichen Sprachabfrage beschrieben, abgeglichen werden. Drittens sammeln wir zur Bewertung unseres Ansatzes einen Testdatensatz für unser Problem, indem wir eine Teilmenge von 4.000 Clips aus dem YT8M-MusicVideo-Datensatz mit natürlichen Sprachbeschreibungen der Musik annotieren, die wir öffentlich zugänglich machen. Wir zeigen, dass unser Ansatz die Leistung früherer Methoden bei der Video-zu-Musik-Retrieval erreichen oder übertreffen kann, während die Retrieval-Genauigkeit bei der Verwendung von Textführung signifikant verbessert wird.
Wir behandeln eine Benchmark-Aufgabe in der agilen Robotik: das Fangen von Objekten, die mit hoher Geschwindigkeit geworfen werden. Dies ist eine anspruchsvolle Aufgabe, die das Verfolgen, Abfangen und Auffangen eines geworfenen Objekts beinhaltet, wobei nur visuelle Beobachtungen des Objekts und der propriozeptive Zustand des Roboters zur Verfügung stehen – alles innerhalb eines Bruchteils einer Sekunde. Wir präsentieren die relativen Vorzüge zweier grundlegend unterschiedlicher Lösungsstrategien: (i) Modellprädiktive Regelung unter Verwendung von beschleunigter, beschränkter Trajektorienoptimierung und (ii) Reinforcement Learning mit Optimierung nullter Ordnung. Wir geben Einblicke in verschiedene Leistungskompromisse, einschließlich Stichprobeneffizienz, Sim-to-Real-Transfer, Robustheit gegenüber Verteilungsverschiebungen und Ganzkörper-Multimodalität, durch umfangreiche Hardware-Experimente. Wir schließen mit Vorschlägen zur Fusion von „klassischen“ und „lernbasierten“ Techniken für die agile Robotersteuerung. Videos unserer Experimente finden Sie unter https://sites.google.com/view/agile-catching.
Vortrainierte multimodale Vision-Sprach-Modelle (VLMs) gewinnen aufgrund ihrer außergewöhnlichen Leistung bei nachgelagerten Vision-Anwendungen, insbesondere in Few-Shot- und Zero-Shot-Szenarien, zunehmend an Popularität. Die Auswahl des leistungsstärksten VLM für bestimmte nachgelagerte Anwendungen ist jedoch nicht trivial, da sie von Datensatz und Aufgabe abhängt. Gleichzeitig ist die umfassende Evaluierung aller verfügbaren VLMs für eine neue Anwendung nicht nur zeit- und rechenintensiv, sondern erfordert auch die Erstellung eines annotierten Datensatzes für die Bewertung. Mit der zunehmenden Anzahl von Open-Source-VLM-Varianten besteht die Notwendigkeit einer effizienten Modellauswahlstrategie, die keinen Zugriff auf einen kuratierten Evaluierungsdatensatz erfordert. Dieses Papier schlägt eine neue Aufgabe und ein Benchmark vor, um die Zero-Shot-Leistung von VLMs bei nachgelagerten Anwendungen effizient zu bewerten, ohne Zugriff auf den Datensatz der nachgelagerten Aufgabe zu haben. Konkret führen wir eine neue Aufgabe namens LOVM (Language-Only Vision Model Selection) ein, bei der Methoden sowohl die Modellauswahl als auch die Leistungsvorhersage allein basierend auf einer Textbeschreibung der gewünschten nachgelagerten Anwendung durchführen sollen. Anschließend stellen wir einen umfangreichen LOVM-Benchmark vor, der Ground-Truth-Evaluierungen von 35 vortrainierten VLMs und 23 Datensätzen umfasst, bei dem Methoden die vortrainierten VLMs bewerten und ihre Zero-Shot-Leistung vorhersagen sollen.
Kürzlich haben diffusionsbasierte generative Modelle bemerkenswerte Erfolge bei der Bildgenerierung und -bearbeitung erzielt. Ihre Anwendung für die Videobearbeitung steht jedoch noch vor wichtigen Herausforderungen. In diesem Artikel stellen wir VidEdit vor, eine neuartige Methode für die null-Shot-Text-basierte Videobearbeitung, die eine starke zeitliche und räumliche Konsistenz gewährleistet. Zunächst schlagen wir vor, atlasbasierte und vortrainierte Text-zu-Bild-Diffusionsmodelle zu kombinieren, um eine trainingsfreie und effiziente Bearbeitungsmethode bereitzustellen, die von Natur aus zeitliche Glattheit erfüllt. Zweitens nutzen wir verfügbare panoptische Segmentierer zusammen mit Kantendetektoren und passen deren Verwendung für die bedingte diffusionsbasierte Atlasbearbeitung an. Dies gewährleistet eine präzise räumliche Kontrolle über Zielregionen, während die Struktur des Originalvideos strikt erhalten bleibt. Quantitative und qualitative Experimente zeigen, dass VidEdit auf dem DAVIS-Datensatz im Hinblick auf semantische Treue, Bildbewahrung und zeitliche Konsistenzmetriken state-of-the-art-Methoden übertrifft. Mit diesem Framework dauert die Verarbeitung eines einzelnen Videos nur etwa eine Minute, und es können mehrere kompatible Bearbeitungen basierend auf einem einzigartigen Textprompt generiert werden. Projektwebseite unter https://videdit.github.io.
Jüngste Fortschritte im Bereich des 3D-Szenenverständnisses ermöglichen das skalierbare Lernen von Repräsentationen über große Datensätze vielfältiger Szenen hinweg. Infolgedessen ist es nun möglich, eine Generalisierung auf unbekannte Szenen und Objekte zu erreichen, neue Ansichten aus nur einem oder einer Handvoll Eingabebildern zu rendern sowie eine kontrollierbare Szenengenerierung zu unterstützen, die Bearbeitungen ermöglicht. Allerdings führt das gemeinsame Training auf einer großen Anzahl von Szenen typischerweise zu einer Beeinträchtigung der Renderqualität im Vergleich zu Modellen, die für einzelne Szenen optimiert sind, wie beispielsweise NeRFs. In diesem Beitrag nutzen wir die jüngsten Fortschritte bei Diffusionsmodellen, um 3D-Szenenrepräsentationslernmodellen die Fähigkeit zu verleihen, hochauflösende neue Ansichten zu rendern, während gleichzeitig Vorteile wie die Bearbeitung von Szenen auf Objektebene weitgehend erhalten bleiben. Insbesondere schlagen wir DORSal vor, das eine Video-Diffusionsarchitektur für die 3D-Szenengenerierung anpasst, die auf objektzentrierten, slot-basierten Repräsentationen von Szenen basiert. Sowohl bei komplexen synthetischen Multi-Objektszenen als auch bei dem groß angelegten realen Street-View-Datensatz zeigen wir, dass DORSal das skalierbare neuronale Rendern von 3D-Szenen mit Objektebene-Bearbeitung ermöglicht und bestehende Ansätze verbessert.
Wir zeigen, wie ein Modell erstellt werden kann, das realistische, freie Blickwinkel-Renderings einer Szene unter neuen Beleuchtungsbedingungen aus einem Video ermöglicht. Unsere Methode – UrbanIR: Urban Scene Inverse Rendering – berechnet eine inverse grafische Darstellung aus dem Video. UrbanIR leitet gemeinsam Form, Albedo, Sichtbarkeit sowie Sonnen- und Himmelsbeleuchtung aus einem einzelnen Video von unbegrenzten Außenszenen mit unbekannter Beleuchtung ab. UrbanIR verwendet Videos von Kameras, die an Fahrzeugen montiert sind (im Gegensatz zu vielen Ansichten derselben Punkte in typischen NeRF-Schätzungen). Infolgedessen liefern Standardmethoden schlechte Geometrieschätzungen (zum Beispiel für Dächer), und es gibt zahlreiche „Floater“. Fehler in der inversen grafischen Inferenz können zu starken Rendering-Artefakten führen. UrbanIR verwendet neuartige Verlustfunktionen, um diese und andere Fehlerquellen zu kontrollieren. UrbanIR nutzt eine neuartige Verlustfunktion, um sehr gute Schätzungen der Schattenvolumen in der ursprünglichen Szene zu erzielen. Die resultierenden Darstellungen ermöglichen kontrollierbare Bearbeitungen und liefern fotorealistische freie Blickwinkel-Renderings von neu beleuchteten Szenen und eingefügten Objekten. Die qualitative Bewertung zeigt deutliche Verbesserungen gegenüber dem Stand der Technik.
In diesem Artikel stellen wir ein autonomes, informationssuchendes Framework für visuelle Fragebeantwortung vor, AVIS. Unsere Methode nutzt ein großes Sprachmodell (LLM), um die Nutzung externer Tools dynamisch zu strategisieren und deren Ausgaben zu untersuchen, wodurch das notwendige Wissen erworben wird, um Antworten auf die gestellten Fragen zu liefern. Die Beantwortung von visuellen Fragen, die externes Wissen erfordern, wie z.B. „Welches Ereignis wird durch das in diesem Bild dargestellte Gebäude gedacht?“, ist eine komplexe Aufgabe. Diese Aufgabe präsentiert einen kombinatorischen Suchraum, der eine Abfolge von Aktionen erfordert, einschließlich des Aufrufs von APIs, der Analyse ihrer Antworten und der Treffen fundierter Entscheidungen. Wir führen eine Nutzerstudie durch, um verschiedene Beispiele menschlicher Entscheidungsfindung bei dieser Aufgabe zu sammeln. Diese Daten werden dann verwendet, um ein System zu entwerfen, das aus drei Komponenten besteht: ein LLM-gestützter Planer, der dynamisch bestimmt, welches Tool als nächstes verwendet werden soll, ein LLM-gestützter Denker, der die Ausgaben der Tools analysiert und Schlüsselinformationen extrahiert, und eine Arbeitsgedächtnis-Komponente, die die erworbenen Informationen während des gesamten Prozesses speichert. Das gesammelte Nutzerverhalten dient unserem System auf zwei wesentliche Arten als Leitfaden. Erstens erstellen wir einen Übergangsgraphen, indem wir die Abfolge der von den Nutzern getroffenen Entscheidungen analysieren. Dieser Graph beschreibt unterschiedliche Zustände und begrenzt die Menge der in jedem Zustand verfügbaren Aktionen. Zweitens verwenden wir Beispiele der Nutzerentscheidungsfindung, um unserem LLM-gestützten Planer und Denker relevante kontextuelle Instanzen zur Verfügung zu stellen, wodurch ihre Fähigkeit, fundierte Entscheidungen zu treffen, verbessert wird. Wir zeigen, dass AVIS state-of-the-art Ergebnisse auf wissensintensiven Benchmarks für visuelle Fragebeantwortung wie Infoseek und OK-VQA erzielt.
Jüngste Fortschritte in der neuronalen Rekonstruktion ermöglichen eine hochwertige 3D-Objektrekonstruktion aus beiläufig aufgenommenen Bildersammlungen. Aktuelle Techniken analysieren ihren Fortschritt meist anhand relativ einfacher Bildersammlungen, bei denen Structure-from-Motion (SfM)-Techniken Ground-Truth (GT)-Kameraposen liefern können. Wir stellen fest, dass SfM-Techniken bei Bildersammlungen „in the wild“, wie z. B. Bildsuchergebnissen mit variierenden Hintergründen und Beleuchtungen, oft versagen. Um systematische Forschungsfortschritte bei der 3D-Rekonstruktion aus beiläufigen Bildaufnahmen zu ermöglichen, schlagen wir NAVI vor: einen neuen Datensatz kategorieagnostischer Bildersammlungen von Objekten mit hochwertigen 3D-Scans sowie per Bild 2D-3D-Ausrichtungen, die nahezu perfekte GT-Kameraparameter liefern. Diese 2D-3D-Ausrichtungen ermöglichen es uns, präzise abgeleitete Annotationen wie dichte Pixelkorrespondenzen, Tiefen- und Segmentierungskarten zu extrahieren. Wir demonstrieren die Verwendung von NAVI-Bildersammlungen in verschiedenen Problemstellungen und zeigen, dass NAVI umfassendere Bewertungen ermöglicht, die mit bestehenden Datensätzen nicht möglich waren. Wir glauben, dass NAVI für systematische Forschungsfortschritte in der 3D-Rekonstruktion und Korrespondenzschätzung von Vorteil ist. Projektseite: https://navidataset.github.io
In dieser Arbeit untersuchen wir den Einfluss von Large-scale Language Models (LLM) auf die Automatische Spracherkennung (ASR) von YouTube-Videos, die wir als Quelle für langformatige ASR verwenden. Wir zeigen eine relative Reduktion der Wortfehlerrate (WER) von bis zu 8 % bei langformatigen ASR-Testdatensätzen für US-Englisch (en-us) und code-switched Indian English (en-in) sowie eine relative Reduktion der Salient Term Error Rate (STER) von bis zu 30 % gegenüber einem starken First-Pass-Baseline-Modell, das ein Maximum-Entropy-basiertes Sprachmodell verwendet. Eine verbesserte Gitterverarbeitung, die zu einem Gitter mit einer korrekten (nicht-baumartigen) Digraphentopologie führt und den Kontext aus der 1-best-Hypothese der vorherigen Segmente überträgt, führt zu signifikanten Verbesserungen beim Rescoring mit LLMs. Wir stellen außerdem fest, dass die Leistungssteigerungen durch die Kombination von LLMs, die auf großen Mengen verfügbarer Daten (wie C4) trainiert wurden, und konventionellen neuronalen Sprachmodellen additiv sind und ein starkes First-Pass-Baseline-Modell mit einem Maximum-Entropy-Sprachmodell deutlich übertreffen.
Die Rekonstruktion und Neubeleuchtung von Objekten und Szenen unter variierenden Lichtbedingungen ist eine Herausforderung: bestehende neuronale Rendering-Methoden können oft die komplexen Wechselwirkungen zwischen Materialien und Licht nicht bewältigen. Die Einbindung von vorberechneten Radiance-Transfer-Techniken ermöglicht zwar globale Beleuchtung, hat jedoch weiterhin Schwierigkeiten mit Materialien, die Subsurface-Scattering-Effekte aufweisen. Wir schlagen ein neuartiges Framework vor, das das Radiance-Transfer-Feld durch Volumenrendering lernt und verschiedene Erscheinungsmerkmale nutzt, um die Geometrie end-to-end zu verfeinern. Dieses Framework erweitert die Fähigkeiten zur Neubeleuchtung und Rekonstruktion, um eine breitere Palette von Materialien auf datengetriebene Weise zu handhaben. Die resultierenden Modelle erzeugen plausible Rendering-Ergebnisse in bestehenden und neuen Bedingungen. Wir werden unseren Code sowie einen neuartigen Light-Stage-Datensatz von Objekten mit Subsurface-Scattering-Effekten öffentlich zugänglich machen.
Betrachten wir einen Roboter, der damit beauftragt ist, einen Schreibtisch aufzuräumen, auf dem ein sorgfältig konstruiertes Lego-Sportauto steht. Ein Mensch würde möglicherweise erkennen, dass es sozial nicht angemessen ist, das Sportauto auseinanderzunehmen und wegzuräumen, um den Schreibtisch zu „säubern“. Wie kann ein Roboter zu dieser Schlussfolgerung gelangen? Obwohl große Sprachmodelle (LLMs) in letzter Zeit zur Ermöglichung sozialer Schlussfolgerungen eingesetzt wurden, war es eine Herausforderung, diese Schlussfolgerungen in der realen Welt zu verankern. Um in der realen Welt zu schlussfolgern, müssen Roboter über das passive Abfragen von LLMs hinausgehen und *aktiv Informationen aus der Umgebung sammeln*, die erforderlich sind, um die richtige Entscheidung zu treffen. Beispielsweise könnte der Roboter, nachdem er ein verdecktes Auto erkannt hat, aktiv das Auto wahrnehmen müssen, um festzustellen, ob es sich um ein hochwertiges Modellauto aus Legos oder um ein Spielzeugauto handelt, das von einem Kleinkind gebaut wurde. Wir schlagen einen Ansatz vor, der ein LLM und ein visuelles Sprachmodell (VLM) nutzt, um einem Roboter zu helfen, seine Umgebung aktiv wahrzunehmen und fundierte soziale Schlussfolgerungen zu ziehen. Um unser Framework in großem Maßstab zu evaluieren, veröffentlichen wir den MessySurfaces-Datensatz, der Bilder von 70 realen Oberflächen enthält, die gereinigt werden müssen. Zusätzlich demonstrieren wir unseren Ansatz mit einem Roboter auf zwei sorgfältig gestalteten Oberflächen. Wir verzeichnen eine durchschnittliche Verbesserung von 12,9 % auf dem MessySurfaces-Benchmark und eine durchschnittliche Verbesserung von 15 % in den Roboter-Experimenten gegenüber Baseline-Methoden, die keine aktive Wahrnehmung verwenden. Der Datensatz, der Code und Videos unseres Ansatzes sind unter https://minaek.github.io/groundedsocialreasoning verfügbar.
Die Optimierung von Hyperparametern bei Deep-Learning-Modellen kann zu Leistungssteigerungen in der Größenordnung führen, bei gleichem Rechenaufwand. Dennoch ist eine systematische Optimierung unüblich, insbesondere bei großen Modellen, deren Evaluierung kostspielig ist und die tendenziell viele Hyperparameter aufweisen, was schwierige Abwägungen hinsichtlich Kompromissen, Budgets und Suchgrenzen erfordert. Um diese Probleme zu adressieren und eine praktische Methode zur robusten Optimierung großer Modelle vorzuschlagen, präsentieren wir Cost-Aware Pareto Region Bayesian Search (CARBS), einen Bayesianischen Optimierungsalgorithmus, der eine lokale Suche entlang der Leistungs-Kosten-Pareto-Grenze durchführt. CARBS funktioniert auch in unbegrenzten Suchräumen mit vielen Hyperparametern effektiv, lernt Skalierungsbeziehungen, sodass es Modelle auch bei deren Skalierung optimieren kann, und automatisiert einen Großteil der „schwarzen Magie“ der Optimierung. Zu unseren Ergebnissen gehört, dass wir den gesamten ProcGen-Benchmark effektiv lösen, indem wir lediglich eine einfache Baseline (PPO, wie im ursprünglichen ProcGen-Paper beschrieben) optimieren. Zudem reproduzieren wir das Ergebnis zur Skalierung von Modellgröße vs. Trainings-Tokens aus dem Chinchilla-Projekt (Hoffmann et al. 2022), während wir gleichzeitig Skalierungsgesetze für jeden anderen Hyperparameter entdecken – durch einen einfachen, automatisierten Prozess, der deutlich weniger Rechenleistung erfordert und auf jedes Deep-Learning-Problem anwendbar ist (nicht nur auf Sprachmodelle).