Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen das Inhaltsdeformationsfeld CoDeF als eine neue Art der Videodarstellung vor, das aus einem kanonischen Inhaltsfeld besteht, das die statischen Inhalte des gesamten Videos aggregiert, und einem zeitlichen Deformationsfeld, das die Transformationen vom kanonischen Bild (d.h., gerendert aus dem kanonischen Inhaltsfeld) zu jedem einzelnen Frame entlang der Zeitachse aufzeichnet. Für ein gegebenes Zielvideo werden diese beiden Felder gemeinsam optimiert, um es durch eine sorgfältig angepasste Rendering-Pipeline zu rekonstruieren. Wir führen gezielt einige Regularisierungen in den Optimierungsprozess ein, um das kanonische Inhaltsfeld dazu zu bewegen, Semantik (z.B. die Objektform) aus dem Video zu übernehmen. Mit einem solchen Design unterstützt CoDeF auf natürliche Weise die Übertragung von Bildalgorithmen zur Videoverarbeitung, in dem Sinne, dass man einen Bildalgorithmus auf das kanonische Bild anwenden und die Ergebnisse mit Hilfe des zeitlichen Deformationsfelds mühelos auf das gesamte Video übertragen kann. Wir zeigen experimentell, dass CoDeF in der Lage ist, Bild-zu-Bild-Übersetzung in Video-zu-Video-Übersetzung und die Erkennung von Schlüsselpunkten in die Verfolgung von Schlüsselpunkten ohne jegliches Training zu übertragen. Noch wichtiger ist, dass wir dank unserer Übertragungsstrategie, die die Algorithmen auf nur einem Bild einsetzt, eine überlegene konsistente Rahmenübergreifende Konsistenz in verarbeiteten Videos im Vergleich zu bestehenden Video-zu-Video-Übersetzungsansätzen erreichen und sogar in der Lage sind, nicht starre Objekte wie Wasser und Smog zu verfolgen. Die Projektseite finden Sie unter https://qiuyu96.github.io/CoDeF/.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wie GPT-4 und PaLM-2 haben bedeutende Verbesserungen bei der Bewältigung mathematischer Denkprobleme gebracht. Insbesondere die neueste Version von GPT-4, bekannt als GPT-4 Code Interpreter, zeigt bemerkenswerte Leistungen auf anspruchsvollen mathematischen Datensätzen. In diesem Artikel untersuchen wir den Einfluss von Code auf die Verbesserung der Denkfähigkeit von LLMs, indem wir verschiedene Einschränkungen für die Code-Nutzungshäufigkeit von GPT-4 Code Interpreter einführen. Wir fanden heraus, dass sein Erfolg weitgehend auf seinen leistungsstarken Fähigkeiten beruht, Code zu generieren und auszuführen, die Ausgabe der Code-Ausführung zu bewerten und seine Lösung zu korrigieren, wenn unvernünftige Ausgaben erhalten werden. Basierend auf dieser Erkenntnis schlagen wir eine neuartige und effektive Prompting-Methode vor, die explizite codebasierte Selbstüberprüfung (CSV), um das mathematische Denkpotenzial von GPT-4 Code Interpreter weiter zu steigern. Diese Methode verwendet einen Zero-Shot-Prompt auf GPT-4 Code Interpreter, um ihn dazu zu ermutigen, Code zur Selbstüberprüfung seiner Antworten zu verwenden. In Fällen, in denen der Überprüfungsstatus als „Falsch“ registriert wird, soll das Modell seine Lösung automatisch korrigieren, ähnlich unserem Ansatz zur Fehlerkorrektur während einer Mathematikprüfung. Darüber hinaus erkennen wir, dass die Zustände des Überprüfungsergebnisses die Zuversicht einer Lösung anzeigen, was die Effektivität der Mehrheitsabstimmung verbessern kann. Mit GPT-4 Code Interpreter und CSV erreichen wir eine beeindruckende Zero-Shot-Genauigkeit auf dem MATH-Datensatz (53,9\% bis 84,3\%).
In diesem Artikel untersuchen wir die Fähigkeit zum In-Context-Lernen von retrieval-augmentierten Encoder-Decoder-Sprachmodellen. Zunächst führen wir eine umfassende Analyse des state-of-the-art ATLAS-Modells durch und identifizieren dessen Einschränkungen beim In-Context-Lernen, die hauptsächlich auf eine Diskrepanz zwischen Pretraining und Testen sowie auf eine begrenzte Kontextlänge zurückzuführen sind. Um diese Probleme zu adressieren, schlagen wir RAVEN vor, ein Modell, das retrieval-augmentiertes Masked Language Modeling und Prefix Language Modeling kombiniert. Darüber hinaus führen wir Fusion-in-Context-Learning ein, um die Few-Shot-Leistung zu verbessern, indem das Modell in die Lage versetzt wird, mehr In-Context-Beispiele zu nutzen, ohne zusätzliches Training oder Modifikationen zu erfordern. Durch umfangreiche Experimente zeigen wir, dass RAVEN ATLAS deutlich übertrifft und in bestimmten Szenarien Ergebnisse erzielt, die mit den fortschrittlichsten Sprachmodellen vergleichbar sind, obwohl es erheblich weniger Parameter aufweist. Unsere Arbeit unterstreicht das Potenzial von retrieval-augmentierten Encoder-Decoder-Sprachmodellen für das In-Context-Lernen und regt weitere Forschung in dieser Richtung an.
Die Fähigkeit, aus dem Kontext mit neuen Konzepten zu lernen und angemessene Antworten zu liefern, ist in menschlichen Gesprächen von entscheidender Bedeutung. Obwohl aktuelle Multimodale Große Sprachmodelle (MLLMs) und Große Sprachmodelle (LLMs) auf riesigen Datensätzen trainiert werden, bleibt die Erkennung unbekannter Bilder oder das Verständnis neuer Konzepte in einer trainingsfreien Weise eine Herausforderung. In-Context-Learning (ICL) untersucht trainingsfreies Few-Shot-Lernen, bei dem Modelle dazu angeregt werden, „Lernen zu lernen“ von begrenzten Aufgaben und auf unbekannte Aufgaben zu verallgemeinern. In dieser Arbeit schlagen wir Link-Context-Learning (LCL) vor, das „Schlussfolgern aus Ursache und Wirkung“ betont, um die Lernfähigkeiten von MLLMs zu erweitern. LCL geht über traditionelles ICL hinaus, indem es die kausale Beziehung zwischen dem Support-Set und dem Query-Set explizit stärkt. Durch die Bereitstellung von Demonstrationen mit kausalen Verknüpfungen leitet LCL das Modell an, nicht nur die Analogie, sondern auch die zugrunde liegenden kausalen Zusammenhänge zwischen Datenpunkten zu erkennen, was MLLMs befähigt, unbekannte Bilder zu erkennen und neue Konzepte effektiver zu verstehen. Um die Bewertung dieses neuartigen Ansatzes zu erleichtern, führen wir den ISEKAI-Datensatz ein, der ausschließlich aus unbekannten generierten Bild-Label-Paaren besteht, die für Link-Context-Learning entwickelt wurden. Umfangreiche Experimente zeigen, dass unser LCL-MLLM starke Link-Context-Learning-Fähigkeiten für neue Konzepte im Vergleich zu herkömmlichen MLLMs aufweist. Code und Daten werden unter https://github.com/isekai-portal/Link-Context-Learning veröffentlicht.
Dieses Papier widmet sich der Herausforderung, neu beleuchtbare und animierbare neuronale Avatare aus spärlichen Ansichten (oder sogar monokularen) Videos von dynamischen Menschen unter unbekannter Beleuchtung zu erstellen. Im Vergleich zu Studio-Umgebungen ist diese Einstellung praktischer und zugänglicher, stellt jedoch ein äußerst schwieriges, schlecht gestelltes Problem dar. Bisherige Methoden zur neuronalen Rekonstruktion von Menschen sind in der Lage, animierbare Avatare aus spärlichen Ansichten mithilfe von deformierten Signed Distance Fields (SDF) zu rekonstruieren, können jedoch keine Materialparameter für die Neuausleuchtung wiederherstellen. Während differenzierbare inverse Rendering-basierte Methoden bei der Materialwiederherstellung statischer Objekte erfolgreich waren, ist es nicht einfach, diese auf dynamische Menschen zu erweitern, da es rechenintensiv ist, Pixel-Oberflächen-Schnittpunkte und Lichtsichtbarkeit auf deformierten SDFs für das inverse Rendering zu berechnen. Um diese Herausforderung zu lösen, schlagen wir einen Hierarchical Distance Query (HDQ)-Algorithmus vor, um die Weltraumdistanzen unter beliebigen menschlichen Posen zu approximieren. Insbesondere schätzen wir grobe Distanzen basierend auf einem parametrischen menschlichen Modell und berechnen feine Distanzen, indem wir die lokale Deformationsinvarianz von SDF ausnutzen. Basierend auf dem HDQ-Algorithmus nutzen wir Sphere Tracing, um effizient den Oberflächenschnittpunkt und die Lichtsichtbarkeit zu schätzen. Dies ermöglicht es uns, das erste System zu entwickeln, das animierbare und neu beleuchtbare neuronale Avatare aus spärlichen Ansichten (oder monokularen) Eingaben wiederherstellt. Experimente zeigen, dass unser Ansatz im Vergleich zu state-of-the-art Methoden überlegene Ergebnisse liefern kann. Unser Code wird zur Reproduzierbarkeit veröffentlicht.
Aktuelle Arbeiten im Bereich des Deep Reinforcement Learning (DRL) haben gezeigt, dass algorithmische Informationen über gute Strategien aus Offline-Daten extrahiert werden können, denen explizite Informationen über ausgeführte Aktionen fehlen. Beispielsweise können Videos von Menschen oder Robotern viele implizite Informationen über lohnende Aktionssequenzen vermitteln, aber eine DRL-Maschine, die von der Betrachtung solcher Videos profitieren möchte, muss zunächst selbst lernen, relevante Zustände/Aktionen/Belohnungen zu identifizieren und zu erkennen. Ohne sich auf Ground-Truth-Annotationen zu verlassen, lernt unsere neue Methode namens Deep State Identifier, Erträge aus Episoden vorherzusagen, die als Videos kodiert sind. Anschließend verwendet sie eine Art maskenbasierte Sensitivitätsanalyse, um wichtige kritische Zustände zu extrahieren bzw. zu identifizieren. Umfangreiche Experimente demonstrieren das Potenzial unserer Methode, das Verhalten von Agenten zu verstehen und zu verbessern. Der Quellcode und die generierten Datensätze sind unter https://github.com/AI-Initiative-KAUST/VideoRLCS verfügbar.
Texteinspritzung für die automatische Spracherkennung (ASR), bei der ungepaarte textbasierte Daten verwendet werden, um gepaarte Audio-Text-Daten zu ergänzen, hat vielversprechende Verbesserungen bei der Wortfehlerrate gezeigt. Diese Studie untersucht die Verwendung von Texteinspritzung für Hilfsaufgaben, die die nicht-ASR-bezogenen Aufgaben sind, die oft von einem End-to-End-Modell (E2E) ausgeführt werden. In dieser Arbeit verwenden wir das gemeinsame End-to-End- und interne Sprachmodell-Training (JEIT) als unseren Texteinspritzungsalgorithmus, um ein ASR-Modell zu trainieren, das zwei Hilfsaufgaben ausführt. Die erste ist die Großschreibung, eine Denormalisierungsaufgabe. Die zweite ist die Vorhersage von Sprecherwechseln, bei der versucht wird, festzustellen, ob ein Benutzer seinen Gesprächsbeitrag in einer Interaktion mit einem digitalen Assistenten abgeschlossen hat. Wir zeigen Ergebnisse, die demonstrieren, dass unsere Texteinspritzungsmethode die Leistung bei der Großschreibung für langschwänzige Daten verbessert und die Erkennungsrate von Sprecherwechseln steigert.