Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Selbstkorrektur ist eine äußerst wünschenswerte Fähigkeit großer Sprachmodelle (LLMs), wurde jedoch in modernen LLMs bisher als weitgehend unwirksam erachtet. Bestehende Ansätze zur Schulung der Selbstkorrektur erfordern entweder mehrere Modelle oder setzen ein leistungsfähigeres Modell oder andere Formen der Aufsicht voraus. Zu diesem Zweck entwickeln wir einen Multi-Turn-Online-Verstärkungslernansatz (RL), SCoRe, der die Selbstkorrekturfähigkeit eines LLMs erheblich verbessert, indem ausschließlich selbstgenerierte Daten verwendet werden. Um SCoRe aufzubauen, zeigen wir zunächst, dass Varianten des überwachten Feintunings (SFT) anhand offline vom Modell generierter Korrekturtrajektorien nicht ausreichen, um ein Selbstkorrekturverhalten zu vermitteln. Insbesondere beobachten wir, dass das Training über SFT entweder unter einem Verteilungsfehler zwischen den Trainingsdaten und den eigenen Antworten des Modells leidet oder implizit nur eine bestimmte Art des Korrekturverhaltens bevorzugt, die oft nicht effektiv zur Testzeit ist. SCoRe begegnet diesen Herausforderungen, indem es unter der eigenen Verteilung des Modells von selbstgenerierten Korrekturtrajektorien trainiert und geeignete Regularisierung verwendet, um den Lernprozess in die Richtung einer Selbstkorrekturstrategie zu lenken, die zur Testzeit effektiv ist, anstatt einfach hochbelohnte Antworten für eine bestimmte Eingabe anzupassen. Diese Regularisierung schreibt vor, eine erste Phase des RL auf einem Basismodell durchzuführen, um eine Richtlinieninitialisierung zu generieren, die weniger anfällig für Zusammenbrüche ist, und dann einen Belohnungsbonus zu verwenden, um die Selbstkorrektur während des Trainings zu verstärken. Bei Anwendung auf die Modelle Gemini 1.0 Pro und 1.5 Flash stellen wir fest, dass SCoRe eine Spitzenleistung bei der Selbstkorrektur erzielt und die Selbstkorrektur der Basismodelle auf den MATH- und HumanEval-Benchmarks um jeweils 15,6 % bzw. 9,1 % verbessert.
Das Vortrainieren auf umfangreichen, hochwertigen Datensätzen ist entscheidend für die Verbesserung der Schlussfolgerungsfähigkeiten von Large Language Models (LLMs), insbesondere in spezialisierten Bereichen wie der Mathematik. Trotz der anerkannten Bedeutung fehlt es dem Bereich der Multimodal LLMs (MLLMs) derzeit an einem umfassenden Open-Source-Vortrainingsdatensatz, der speziell für mathematisches Schlussfolgern konzipiert ist. Um diese Lücke zu schließen, stellen wir InfiMM-WebMath-40B vor, einen hochwertigen Datensatz von ineinander verschachtelten Bild-Text-Dokumenten. Er umfasst 24 Millionen Webseiten, 85 Millionen zugehörige Bild-URLs und 40 Milliarden Text-Token, die alle sorgfältig aus CommonCrawl extrahiert und gefiltert wurden. Wir bieten einen detaillierten Überblick über unsere Datensammlung und Verarbeitungspipeline. Um die Robustheit von InfiMM-WebMath-40B zu demonstrieren, führten wir Bewertungen sowohl in reinen Text- als auch in multimodalen Einstellungen durch. Unsere Bewertungen auf reinen Text-Benchmarks zeigen, dass unser Datensatz trotz der Verwendung von nur 40 Milliarden Token die Leistung unseres 1,3B-Modells signifikant verbessert und Ergebnisse liefert, die mit DeepSeekMath-1.3B vergleichbar sind, welches 120 Milliarden Token für dieselbe Modellgröße verwendet. Dennoch setzen unsere Modelle mit der Einführung unseres multimodalen mathematischen Vortrainingsdatensatzes einen neuen Stand der Technik bei Open-Source-Modellen auf multimodalen Mathematik-Benchmarks wie MathVerse und We-Math. Wir veröffentlichen unsere Daten unter https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
Das Aufkommen von Large Language Models (LLMs) hat den Weg für KI-Suchmaschinen geebnet, z. B. SearchGPT, die ein neues Paradigma in der Mensch-Internet-Interaktion zeigen. Die meisten aktuellen KI-Suchmaschinen sind jedoch auf reine Textumgebungen beschränkt und vernachlässigen die multimodalen Benutzeranfragen und die textbildverflochtene Natur von Website-Informationen. Kürzlich haben Large Multimodal Models (LMMs) beeindruckende Fortschritte gemacht. Ob sie jedoch als KI-Suchmaschinen fungieren können, bleibt weitgehend unerforscht, was das Potenzial von LMMs in der multimodalen Suche zu einer offenen Frage macht. Zu diesem Zweck entwerfen wir zunächst eine durchdachte Pipeline, MMSearch-Engine, um allen LMMs multimodale Suchfunktionen zu verleihen. Darüber hinaus führen wir MMSearch ein, einen umfassenden Evaluierungsmaßstab zur Bewertung der multimodalen Suchleistung von LMMs. Der kuratierte Datensatz enthält 300 manuell gesammelte Instanzen aus 14 Teilbereichen, die keine Überschneidungen mit den aktuellen Trainingsdaten der LMMs aufweisen, um sicherzustellen, dass die richtige Antwort nur durch die Suche erhalten werden kann. Durch die Verwendung von MMSearch-Engine werden die LMMs bewertet, indem drei einzelne Aufgaben (erneute Abfrage, Neusortierung und Zusammenfassung) sowie eine anspruchsvolle End-to-End-Aufgabe mit einem vollständigen Suchprozess durchgeführt werden. Wir führen umfangreiche Experimente mit Closed-Source- und Open-Source-LMMs durch. Unter allen getesteten Modellen erzielt GPT-4o mit MMSearch-Engine die besten Ergebnisse, die das kommerzielle Produkt Perplexity Pro in der End-to-End-Aufgabe übertreffen und die Wirksamkeit unserer vorgeschlagenen Pipeline demonstrieren. Darüber hinaus präsentieren wir eine Fehleranalyse, um aufzuzeigen, dass aktuelle LMMs nach wie vor Schwierigkeiten haben, die multimodalen Suchaufgaben vollständig zu erfassen, und führen eine Ablationsstudie durch, um das Potenzial der Skalierung der Testzeitberechnung für KI-Suchmaschinen aufzuzeigen. Wir hoffen, dass MMSearch einzigartige Einblicke liefern kann, um die zukünftige Entwicklung von multimodalen KI-Suchmaschinen zu lenken. Projektseite: https://mmsearch.github.io
Die Auswahl der besten Code-Lösung aus mehreren generierten Lösungen ist eine wesentliche Aufgabe in der Code-Generierung, die durch die Verwendung einiger zuverlässiger Validatoren (z. B. vom Entwickler verfasste Testfälle) unterstützt werden kann. Da zuverlässige Testfälle nicht immer verfügbar sind und in der Praxis teuer sein können, schlagen Forscher vor, Testfälle automatisch zu generieren, um Code-Lösungen zu bewerten. Wenn jedoch sowohl Code-Lösungen als auch Testfälle plausibel und nicht zuverlässig sind, wird die Auswahl der besten Lösung herausfordernd. Obwohl einige heuristische Strategien vorgeschlagen wurden, um dieses Problem zu lösen, fehlt es an einer starken theoretischen Garantie, und es ist immer noch eine offene Frage, ob eine optimale Auswahlstrategie existiert. Unsere Arbeit trägt auf zwei Arten bei. Erstens zeigen wir, dass innerhalb eines bayesianischen Rahmens die optimale Auswahlstrategie basierend auf der posterioren Wahrscheinlichkeit der beobachteten Bestehenszustände zwischen Lösungen und Tests definiert werden kann. Das Problem, die beste Lösung zu identifizieren, wird dann als ein ganzzahliges Programmierproblem formuliert. Zweitens schlagen wir einen effizienten Ansatz zur Approximation dieser optimalen (aber unberrechenbaren) Strategie vor, wobei der Approximationsfehler durch die Richtigkeit des Vorwissens begrenzt ist. Wir integrieren dann effektives Vorwissen, um Code-Generierungsaufgaben anzupassen. Sowohl theoretische als auch empirische Studien bestätigen, dass bestehende Heuristiken eingeschränkt sind bei der Auswahl der besten Lösungen mit plausiblen Testfällen. Unsere vorgeschlagene approximierte optimale Strategie B4 übertrifft signifikant bestehende Heuristiken bei der Auswahl von Code-Lösungen, die von großen Sprachmodellen (LLMs) mit LLM-generierten Tests erzeugt wurden, und erzielt eine relative Leistungsverbesserung um bis zu 50 % gegenüber der stärksten Heuristik und 246 % gegenüber der zufälligen Auswahl in den anspruchsvollsten Szenarien. Unser Code ist öffentlich verfügbar unter https://github.com/ZJU-CTAG/B4.
Visuelle Daten kommen in verschiedenen Formen vor, von kleinen Symbolen mit nur wenigen Pixeln bis hin zu langen Videos, die Stunden dauern. Bestehende multimodale LLMs standardisieren in der Regel diese vielfältigen visuellen Eingaben auf eine feste Auflösung für visuelle Encoder und erzeugen ähnliche Token-Zahlen für LLMs. Dieser Ansatz ist nicht optimal für multimodales Verständnis und ineffizient für die Verarbeitung von Eingaben mit langen und kurzen visuellen Inhalten. Um das Problem zu lösen, schlagen wir Oryx vor, eine vereinheitlichte multimodale Architektur für das räumlich-zeitliche Verständnis von Bildern, Videos und mehreren Ansichten von 3D-Szenen. Oryx bietet eine Lösung auf Abruf, um visuelle Eingaben mit beliebigen räumlichen Größen und zeitlichen Längen nahtlos und effizient zu verarbeiten, durch zwei Kerninnovationen: 1) ein vorab trainiertes OryxViT-Modell, das Bilder in beliebiger Auflösung in LLM-freundliche visuelle Darstellungen kodieren kann; 2) ein dynamisches Komprimierungsmodul, das auf Anfrage eine Kompression von 1x bis 16x auf visuelle Tokens unterstützt. Diese Designmerkmale ermöglichen es Oryx, extrem lange visuelle Kontexte wie Videos mit geringerer Auflösung und hoher Kompression zu verarbeiten, während gleichzeitig eine hohe Erkennungsgenauigkeit für Aufgaben wie das Verständnis von Dokumenten mit nativer Auflösung und ohne Kompression beibehalten wird. Über die architektonischen Verbesserungen hinaus tragen verbesserte Datenkuratierung und spezialisiertes Training zur Langkontext-Wiederherstellung und räumlich bewussten Daten dazu bei, dass Oryx gleichzeitig starke Fähigkeiten im Verständnis von Bildern, Videos und 3D-Multimodalität erreicht. Unsere Arbeit ist unter https://github.com/Oryx-mllm/Oryx als Open Source verfügbar.
Wir schlagen das erste Video-Diffusionsframework für die referenzbasierte Linienkunst-Videokolorierung vor. Im Gegensatz zu früheren Arbeiten, die ausschließlich auf bildgenerative Modelle zur Kolorierung von Linienkunstbildern Frame für Frame angewiesen sind, nutzt unser Ansatz ein groß angelegtes, vorab trainiertes Video-Diffusionsmodell, um kolorierte Animationsvideos zu generieren. Dieser Ansatz führt zu zeitlich konsistenteren Ergebnissen und ist besser geeignet, um große Bewegungen zu handhaben. Zunächst stellen wir das Sketch-guided ControlNet vor, das zusätzliche Steuerung bietet, um ein Bild-zu-Video-Diffusionsmodell für kontrollierte Videosynthese feinzustimmen, was die Generierung von Animationsvideos ermöglicht, die auf Linienkunst basieren. Anschließend schlagen wir die Reference Attention vor, um den Transfer von Farben vom Referenzrahmen zu anderen Frames mit schnellen und weitreichenden Bewegungen zu erleichtern. Schließlich präsentieren wir ein neuartiges Schema für die sequenzielle Abtastung, das das Overlapped Blending Module und die Prev-Reference Attention integriert, um das Video-Diffusionsmodell über seine ursprüngliche festgelegte Längenbeschränkung hinaus für die langfristige Videokolorierung zu erweitern. Sowohl qualitative als auch quantitative Ergebnisse zeigen, dass unsere Methode in Bezug auf Bild- und Videoqualität sowie zeitliche Konsistenz signifikant besser abschneidet als modernste Techniken. Darüber hinaus ist unsere Methode in der Lage, hochwertige, langfristig konsistente Animationsvideos mit großen Bewegungen zu generieren, was in früheren Arbeiten nicht erreicht wurde. Unser Code und Modell sind unter https://luckyhzt.github.io/lvcd verfügbar.
Die Vorphase des Trainings von Sprachmodellen beginnt oft mit zufällig initialisierten Parametern. Mit den aktuellen Trends bei der Skalierung von Modellen kann das Training ihrer großen Anzahl an Parametern extrem langsam und kostspielig sein. Im Gegensatz dazu sind kleine Sprachmodelle günstiger zu trainieren, erreichen jedoch oft nicht die Genauigkeit großer Modelle. In diesem Paper untersuchen wir eine faszinierende Idee, um diese beiden verschiedenen Bereiche zu verbinden: Können wir eine Methode entwickeln, um große Sprachmodelle mit Hilfe kleinerer vortrainierter Modelle zu initialisieren? Wird eine solche Initialisierung Vorteile in Bezug auf Trainingszeit und endgültige Genauigkeit bringen? In diesem Paper stellen wir HyperCloning vor, eine Methode, die die Parameter eines vortrainierten Sprachmodells auf die eines größeren Modells mit erhöhten versteckten Dimensionen erweitern kann. Unsere Methode stellt sicher, dass das größere Modell die Funktionalität des kleineren Modells beibehält. Als Ergebnis erbt das größere Modell bereits die Vorhersagekraft und Genauigkeit des kleineren Modells, bevor das Training beginnt. Wir zeigen, dass das Training eines solchen initialisierten Modells signifikante Einsparungen in Bezug auf die für das Vortraining großer Sprachmodelle erforderlichen GPU-Stunden mit sich bringt.
Die steigende Nachfrage nach hochwertigen 3D-Ressourcen in verschiedenen Branchen erfordert eine effiziente und automatisierte Erstellung von 3D-Inhalten. Trotz der jüngsten Fortschritte bei 3D-generativen Modellen stehen bestehende Methoden immer noch vor Herausforderungen hinsichtlich Optimierungsgeschwindigkeit, geometrischer Treue und dem Mangel an Ressourcen für physikalisch basiertes Rendering (PBR). In diesem Paper stellen wir 3DTopia-XL vor, ein skalierbares natives 3D-generatives Modell, das entwickelt wurde, um diese Einschränkungen zu überwinden. 3DTopia-XL nutzt eine neuartige primitives-basierte 3D-Darstellung, PrimX, die detaillierte Form, Albedo und Materialfeld in einem kompakten tensoriellen Format codiert, was die Modellierung von hochauflösender Geometrie mit PBR-Ressourcen erleichtert. Auf Basis der neuartigen Darstellung schlagen wir ein generatives Framework auf Basis des Diffusion Transformer (DiT) vor, das 1) Primitive Patch Compression und 2) Latent Primitive Diffusion umfasst. 3DTopia-XL lernt, hochwertige 3D-Ressourcen aus textuellen oder visuellen Eingaben zu generieren. Wir führen umfangreiche qualitative und quantitative Experimente durch, um zu zeigen, dass 3DTopia-XL signifikant bessere Leistungen als bestehende Methoden bei der Generierung hochwertiger 3D-Ressourcen mit fein abgestuften Texturen und Materialien erbringt und somit effizient die Qualitätslücke zwischen generativen Modellen und realen Anwendungen überbrückt.
Tuning-freie personalisierte Bildgenerierungsmethoden haben signifikante Erfolge bei der Aufrechterhaltung der Gesichtskonsistenz, d. h. der Identitäten, auch bei mehreren Charakteren erzielt. Allerdings behindert der Mangel an ganzheitlicher Konsistenz in Szenen mit mehreren Charakteren die Fähigkeit dieser Methoden, eine zusammenhängende Erzählung zu erstellen. In diesem Paper stellen wir StoryMaker vor, eine Personalisierungslösung, die nicht nur die Gesichtskonsistenz, sondern auch die Kleidung, Frisuren und Körperkonsistenz bewahrt und somit die Erstellung einer Geschichte durch eine Serie von Bildern erleichtert. StoryMaker integriert Bedingungen basierend auf Gesichtsidentitäten und zugeschnittenen Charakterbildern, die Kleidung, Frisuren und Körper umfassen. Speziell integrieren wir die Gesichtsidentitätsinformationen mit den zugeschnittenen Charakterbildern unter Verwendung des Positional-aware Perceiver Resamplers (PPR), um unterschiedliche Charaktermerkmale zu erhalten. Um Vermischung von mehreren Charakteren und dem Hintergrund zu verhindern, beschränken wir separat die Kreuz-Aufmerksamkeits-Impaktbereiche verschiedener Charaktere und des Hintergrunds unter Verwendung von MSE-Verlust mit Segmentierungsmasken. Zusätzlich trainieren wir das Generierungsnetzwerk bedingt auf Posen, um die Entkopplung von Posen zu fördern. Ein LoRA wird ebenfalls eingesetzt, um die Treue und Qualität zu verbessern. Experimente unterstreichen die Wirksamkeit unseres Ansatzes. StoryMaker unterstützt zahlreiche Anwendungen und ist mit anderen gesellschaftlichen Plug-Ins kompatibel. Unsere Quellcodes und Modellgewichte sind verfügbar unter https://github.com/RedAIGC/StoryMaker.
Aktuelle Methoden zur Texturerzeugung erzielen beeindruckende Ergebnisse aufgrund des leistungsstarken generativen Priors, den sie aus groß angelegten Text-zu-Bild-Diffusionsmodellen nutzen. Allerdings sind abstrakte textuelle Anweisungen begrenzt in der Bereitstellung globaler texturaler oder formaler Informationen, was dazu führt, dass die Texturerzeugungsmethoden unscharfe oder inkonsistente Muster erzeugen. Um dies zu bewältigen, präsentieren wir FlexiTex, das reichhaltige Informationen über visuelle Anleitungen einbettet, um eine qualitativ hochwertige Textur zu erzeugen. Der Kern von FlexiTex ist das Modul zur Verbesserung der visuellen Anleitung, das spezifischere Informationen aus visuellen Anleitungen integriert, um Mehrdeutigkeiten in der Textanweisung zu reduzieren und hochfrequente Details zu bewahren. Zur weiteren Verbesserung der visuellen Anleitung führen wir ein Modul zur richtungsabhängigen Anpassung ein, das automatisch Richtungsanweisungen basierend auf verschiedenen Kamerapositionen entwirft, um das Janus-Problem zu vermeiden und semantisch globale Konsistenz zu wahren. Durch die visuelle Anleitung erzielt FlexiTex quantitativ und qualitativ überzeugende Ergebnisse und zeigt sein Potenzial zur Weiterentwicklung der Texturerzeugung für Anwendungen in der realen Welt.
Sprachmodelle (LMs) können Fehler produzieren, die für Menschen schwer zu erkennen sind, insbesondere wenn die Aufgabe komplex ist. RLHF, die beliebteste Methode nach dem Training, könnte dieses Problem verschärfen: Um höhere Belohnungen zu erzielen, könnten LMs besser darin werden, Menschen zu überzeugen, dass sie richtig liegen, selbst wenn sie falsch liegen. Wir untersuchen dieses Phänomen unter einem standardmäßigen RLHF-Pipeline und nennen es "U-SOPHISTRY", da es unbeabsichtigt von den Modellentwicklern ist. Konkret bitten wir zeitlich eingeschränkte (z. B. 3-10 Minuten) menschliche Probanden, die Korrektheit der Modellausgaben zu bewerten und die Genauigkeit der Menschen gegenüber den Goldlabels zu berechnen. Bei einer Frage-Antwort-Aufgabe (QuALITY) und einer Programmieraufgabe (APPS) macht RLHF die LMs besser darin, unsere Probanden zu überzeugen, aber nicht darin, die Aufgabe korrekt abzuschließen. RLHF macht es auch schwieriger, das Modell zu bewerten: Die Falsch-Positiv-Rate unserer Probanden steigt um 24,1% bei QuALITY und 18,3% bei APPS. Schließlich zeigen wir, dass das Sondieren, ein hochmoderner Ansatz zur Erkennung von beabsichtigter Sophistik (z. B. Hintertür-LMs), nicht auf U-SOPHISTRY verallgemeinert. Unsere Ergebnisse verdeutlichen einen wichtigen Fehlermodus von RLHF und fordern weitere Forschung zur Unterstützung von Menschen, um sie auszurichten.
Die Anpassung von Anweisungen verbessert große Sprachmodelle (LLMs), indem sie sie mit menschlichen Präferenzen über verschiedene Aufgaben hinweg abstimmen. Traditionelle Ansätze zur Erstellung von Anpassungsdatensätzen für Anweisungen stoßen bei wenig ressourcenstarken Sprachen auf ernsthafte Herausforderungen aufgrund ihrer Abhängigkeit von Datenannotation. Diese Arbeit stellt eine neuartige Methode vor, Multilingual Reverse Instructions (MURI), die hochwertige Anpassungsdatensätze für wenig ressourcenstarke Sprachen generiert, ohne menschliche Annotatoren oder bereits vorhandene mehrsprachige Modelle zu benötigen. Durch die Verwendung von Umkehranweisungen und einer Übersetzungspipeline erzeugt MURI Anweisungs-Ausgabe-Paare aus vorhandenen, von Menschen geschriebenen Texten in wenig ressourcenstarken Sprachen. Diese Methode gewährleistet kulturelle Relevanz und Vielfalt, indem Texte aus verschiedenen nativen Bereichen bezogen und Filter angewendet werden, um unangemessene Inhalte zu eliminieren. Unser Datensatz, MURI-IT, umfasst mehr als 2 Millionen Anweisungs-Ausgabe-Paare in 200 Sprachen. Die Evaluation durch Muttersprachler und Feinabstimmungsexperimente mit mT5-Modellen zeigen die Wirksamkeit des Ansatzes sowohl für NLU als auch für die offene Generierung. Wir veröffentlichen Datensätze und Modelle öffentlich unter https://github.com/akoksal/muri.
Wir präsentieren 3DGS-LM, eine neue Methode, die die Rekonstruktion von 3D-Gaussian Splatting (3DGS) beschleunigt, indem sie seinen ADAM-Optimierer durch einen maßgeschneiderten Levenberg-Marquardt (LM) ersetzt. Bestehende Methoden reduzieren die Optimierungszeit, indem sie die Anzahl der Gaussians verringern oder die Implementierung des differenzierbaren Rasterisierers verbessern. Dennoch verlassen sie sich weiterhin auf den ADAM-Optimierer, um die Gauß-Parameter einer Szene in Tausenden von Iterationen anzupassen, was bis zu einer Stunde dauern kann. Zu diesem Zweck ändern wir den Optimierer zu LM, der in Verbindung mit dem differenzierbaren 3DGS-Rasterisierer läuft. Für eine effiziente GPU-Parallelisierung schlagen wir eine Zwischenspeicher-Datenstruktur für Zwischengrade vor, die es uns ermöglicht, Jacobian-Vektor-Produkte in benutzerdefinierten CUDA-Kernels effizient zu berechnen. In jeder LM-Iteration berechnen wir Aktualisierungsrichtungen aus mehreren Bildteilmengen mithilfe dieser Kerne und kombinieren sie in einem gewichteten Mittelwert. Insgesamt ist unsere Methode um 30 % schneller als das originale 3DGS und erzielt dabei die gleiche Rekonstruktionsqualität. Unsere Optimierung ist auch unabhängig von anderen Methoden, die 3DGS beschleunigen, und ermöglicht so noch schnellere Beschleunigungen im Vergleich zum reinen 3DGS.
Die Videogenerierung mithilfe von Diffusionsmodellen wird durch hohe Rechenkosten aufgrund des frame-weise iterativen Diffusionsprozesses eingeschränkt. Diese Arbeit stellt ein Diffusion Reuse MOtion (Dr. Mo) Netzwerk vor, um die latente Videogenerierung zu beschleunigen. Unsere Schlüsselerkenntnis ist, dass grobkörnige Rauschen in früheren Denoising-Schritten eine hohe Bewegungskonsistenz über aufeinanderfolgende Videoframes gezeigt haben. Basierend auf dieser Beobachtung propagiert Dr. Mo diese grobkörnigen Rauschen auf den nächsten Frame, indem sorgfältig gestaltete, leichtgewichtige inter-frame Bewegungen integriert werden, um massive Rechenredundanz in frame-weise Diffusionsmodellen zu eliminieren. Die empfindlicheren und feinkörnigen Rauschen werden weiterhin über spätere Denoising-Schritte erworben, die entscheidend sein können, um visuelle Qualitäten zu erhalten. Daher kann die Entscheidung, welche Zwischenschritte von bewegungsbasierten Propagationen zu Denoising wechseln sollten, ein entscheidendes Problem und ein wesentlicher Kompromiss zwischen Effizienz und Qualität sein. Dr. Mo verwendet ein Meta-Netzwerk namens Denoising Step Selector (DSS), um dynamisch wünschenswerte Zwischenschritte über Videoframes hinweg zu bestimmen. Umfangreiche Bewertungen von Videogenerierungs- und Bearbeitungsaufgaben haben gezeigt, dass Dr. Mo Diffusionsmodelle in Videotasks signifikant beschleunigen kann, ohne die visuellen Qualitäten zu beeinträchtigen.
Die automatisierte Audio-Beschriftungsaufgabe (AAC) fordert Modelle auf, natürlichsprachliche Beschreibungen eines Audioeingangs zu generieren. Die Bewertung dieser maschinengenerierten Audio-Beschriftungen ist eine komplexe Aufgabe, die das Berücksichtigen verschiedener Faktoren erfordert, darunter das Verständnis der auditiven Szene, die Inferenz von Klangobjekten, die zeitliche Kohärenz und der Umgebungskontext der Szene. Während aktuelle Methoden sich auf spezifische Aspekte konzentrieren, gelingt es ihnen oft nicht, eine Gesamtbewertung bereitzustellen, die gut mit menschlichem Urteil übereinstimmt. In dieser Arbeit schlagen wir CLAIR-A vor, eine einfache und flexible Methode, die die Null-Schuss-Fähigkeiten großer Sprachmodelle (LLMs) nutzt, um Kandidaten-Audio-Beschriftungen zu bewerten, indem sie LLMs direkt nach einem semantischen Distanzwert fragt. In unseren Bewertungen sagt CLAIR-A die menschlichen Qualitätsurteile besser voraus im Vergleich zu traditionellen Metriken, mit einer relativen Genauigkeitsverbesserung von 5,8% im Vergleich zur domänenspezifischen FENSE-Metrik und bis zu 11% über dem besten allgemeinen Maß auf dem Clotho-Eval-Datensatz. Darüber hinaus bietet CLAIR-A mehr Transparenz, indem es dem Sprachmodell ermöglicht, die Begründung hinter seinen Bewertungen zu erklären, wobei diese Erklärungen von menschlichen Evaluatoren um bis zu 30% besser bewertet werden als die von Basismethoden bereitgestellten. CLAIR-A ist öffentlich verfügbar unter https://github.com/DavidMChan/clair-a.