Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Der Kontrastive Sprach-Bild-Vorabtrainingsansatz (CLIP) wird weit verbreitet eingesetzt, um Modelle zu trainieren, die Bilder und Texte in einem gemeinsamen Einbettungsraum ausrichten, indem sie sie auf Vektoren fester Größe abbilden. Diese Modelle sind entscheidend für die multimodale Informationsgewinnung und verwandte Aufgaben. Allerdings schneiden CLIP-Modelle im Allgemeinen bei reinen Textaufgaben im Vergleich zu spezialisierten Textmodellen schlechter ab. Dies führt zu Ineffizienzen bei Informationssuchsystemen, die getrennte Einbettungen und Modelle für reine Text- und multimodale Aufgaben verwenden. Wir schlagen eine neuartige, multitask-Kontrastiv-Trainingsmethode vor, um dieses Problem anzugehen, die wir verwenden, um das jina-clip-v1-Modell zu trainieren und damit die Leistung auf dem neuesten Stand der Technik sowohl bei Text-Bild- als auch bei Text-Text-Abrufaufgaben zu erzielen.
In den letzten Jahren haben große Sprachmodelle (LLMs) bemerkenswerte Erfolge in verschiedenen Bereichen erzielt. Allerdings haben die Unzeitigkeit und die Kosten von Wissensaktualisierungen in Verbindung mit den Halluzinationsproblemen von LLMs ihre Anwendungen in wissensintensiven Aufgaben eingeschränkt, bei denen die Abfrage ergänzte Generierung (RAG) hilfreich sein kann. Dennoch verwenden bestehende abfrageergänzte Modelle in der Regel Ähnlichkeit als Brücke zwischen Abfragen und Dokumenten und folgen einem Abfragen-und-Lesen-Verfahren. In dieser Arbeit argumentieren wir, dass Ähnlichkeit nicht immer die Allheilmittel ist und dass sich die Leistung der abfrageergänzten Generierung manchmal verschlechtern würde, wenn man ausschließlich auf Ähnlichkeit vertrauen würde. Zu diesem Zweck schlagen wir MetRag vor, ein Multi-Layered Thoughts-enhanced Retrieval Augmented Generation Framework. Zunächst einmal, über das bestehende ähnlichkeitsorientierte Denken hinaus, übernehmen wir ein kleinskaliges Nutzenmodell, das Aufsicht von einem LLM für nutzungsorientiertes Denken erhält, und entwickeln ein intelligenteres Modell, indem wir das ähnlichkeits- und nutzungsorientierte Denken umfassend kombinieren. Darüber hinaus, da der abgerufene Dokumentensatz dazu neigt, umfangreich zu sein und es schwierig macht, die Gemeinsamkeiten und Merkmale zwischen ihnen zu erfassen, schlagen wir vor, dass ein LLM als aufgabenadaptiver Zusammenfasser fungiert, um der abfrageergänzten Generierung ein kompaktheitsorientiertes Denken zu verleihen. Schließlich wird mit den mehrschichtigen Gedanken aus den vorangegangenen Phasen ein LLM für wissensgestützte Generierung herangezogen. Umfangreiche Experimente in wissensintensiven Aufgaben haben die Überlegenheit von MetRag nachgewiesen.
Diese Studie taucht in den Bereich der Multi-Modalität (d.h. Video- und Bewegungsmodalitäten) der menschlichen Verhaltensanalyse ein, indem sie die leistungsstarken Fähigkeiten großer Sprachmodelle (LLMs) nutzt. Abweichend von kürzlich entwickelten LLMs, die ausschließlich für die Verständnis von Videos oder Bewegungen konzipiert wurden, argumentieren wir, dass das Verständnis menschlichen Verhaltens ein gemeinsames Modellieren von Videos und Bewegungssequenzen (z.B. SMPL-Sequenzen) erfordert, um die nuancierten Dynamiken und Semantiken der Körperteile effektiv zu erfassen. In diesem Zusammenhang präsentieren wir MotionLLM, ein einfaches, aber effektives Framework für das Verständnis, die Beschriftung und das Schlussfolgern menschlicher Bewegungen. Speziell übernimmt MotionLLM eine vereinheitlichte Video-Bewegungs-Trainingsstrategie, die die ergänzenden Vorteile vorhandener grober Video-Text-Daten und feingranularer Bewegungs-Text-Daten nutzt, um reiche räumlich-zeitliche Erkenntnisse zu gewinnen. Darüber hinaus sammeln wir einen umfangreichen Datensatz, MoVid, bestehend aus vielfältigen Videos, Bewegungen, Beschriftungen und Anweisungen. Zusätzlich schlagen wir MoVid-Bench vor, mit sorgfältig manuellen Anmerkungen, zur besseren Bewertung des Verständnisses menschlichen Verhaltens in Videos und Bewegungen. Umfangreiche Experimente zeigen die Überlegenheit von MotionLLM in der Beschriftung, räumlich-zeitlichen Erfassung und Schlussfolgerungsfähigkeit.
In dieser Arbeit präsentieren wir Xwin-LM, eine umfassende Suite von Ausrichtungsmethoden für große Sprachmodelle (LLMs). Diese Suite umfasst mehrere Schlüsseltechniken, darunter überwachtes Feintuning (SFT), Belohnungsmodellierung (RM), Feintuning durch Ablehnungssampling (RS) und direkte Präferenzoptimierung (DPO). Die Hauptkomponenten sind wie folgt: (1) Xwin-LM-SFT, Modelle, die anfangs mit hochwertigen Anweisungsdaten feinabgestimmt wurden; (2) Xwin-Pair, ein groß angelegter, mehrstufiger Präferenzdatensatz, der sorgfältig mit GPT-4 annotiert wurde; (3) Xwin-RM, Belohnungsmodelle, die auf Xwin-Pair trainiert wurden, entwickelt in den Größenordnungen von 7B, 13B und 70B Parametern; (4) Xwin-Set, ein Multiwise-Präferenzdatensatz, bei dem jeder Anstoß mit 64 einzigartigen Antworten verknüpft ist, die von Xwin-LM-SFT generiert und von Xwin-RM bewertet wurden; (5) Xwin-LM-RS, Modelle, die mit den am besten bewerteten Antworten aus Xwin-Set feinabgestimmt wurden; (6) Xwin-LM-DPO, Modelle, die auf Xwin-Set weiter optimiert wurden, unter Verwendung des DPO-Algorithmus. Unsere Bewertungen auf AlpacaEval und MT-bench zeigen konsistente und signifikante Verbesserungen entlang des Prozesses auf und demonstrieren die Stärke und Skalierbarkeit von Xwin-LM. Das Repository https://github.com/Xwin-LM/Xwin-LM wird kontinuierlich aktualisiert, um die Gemeinschaftsforschung zu fördern.
Kontrollierbare Musikgenerierungsmethoden sind entscheidend für die auf den Menschen ausgerichtete musikalische Kreation auf Basis KI, werden jedoch derzeit durch Geschwindigkeit, Qualität und Designkompromisse bei der Steuerung eingeschränkt. Die Diffusion Inference-Time T-Optimierung (DITTO) bietet insbesondere modernste Ergebnisse, ist jedoch über 10-mal langsamer als Echtzeit, was die praktische Anwendung begrenzt. Wir schlagen Distilled Diffusion Inference-Time T-Optimierung (oder DITTO-2) vor, eine neue Methode zur Beschleunigung der Optimierung zur Inferenzzeit und zur Freischaltung einer schnelleren als Echtzeit-Generierung für eine Vielzahl von Anwendungen wie Musik-Inpainting, Outpainting, Intensität, Melodie und musikalische Struktursteuerung. Unsere Methode funktioniert durch (1) Destillieren eines vortrainierten Diffusionsmodells für schnelles Sampling über einen effizienten, modifizierten Konsistenz- oder Konsistenz-Trajektorien-Destillationsprozess, (2) Durchführung der Inferenzzeit-Optimierung unter Verwendung unseres destillierten Modells mit Ein-Schritt-Sampling als effiziente Ersatzoptimierungsaufgabe und (3) Ausführen einer abschließenden Mehrschritt-Sampling-Generierung (Dekodierung) unter Verwendung unserer geschätzten Rauschlatenten für eine hochwertige, schnelle, kontrollierbare Generierung. Durch gründliche Evaluation stellen wir fest, dass unsere Methode nicht nur die Generierung um das 10- bis 20-fache beschleunigt, sondern gleichzeitig die Steuerungsadhärenz und Generierungsqualität gleichzeitig verbessert. Darüber hinaus wenden wir unseren Ansatz auf eine neue Anwendung zur Maximierung der Textadhärenz (CLAP-Score) an und zeigen, dass wir ein bedingungsloses Diffusionsmodell ohne Texteingaben in ein Modell umwandeln können, das modernste Textsteuerung bietet. Klangbeispiele finden Sie unter https://ditto-music.github.io/ditto2/.
Wir präsentieren MOFA-Video, eine fortschrittliche steuerbare Bildanimationsmethode, die ein Video aus dem gegebenen Bild mithilfe verschiedener zusätzlicher steuerbarer Signale (wie menschliche Landmarkenreferenzen, manuelle Trajektorien und ein weiteres bereitgestelltes Video) oder deren Kombinationen generiert. Dies unterscheidet sich von früheren Methoden, die nur in einem spezifischen Bewegungsbereich arbeiten können oder schwache Steuerungsfähigkeiten mit Diffusionspriorität aufweisen. Um unser Ziel zu erreichen, entwerfen wir mehrere domänenbewusste Bewegungsfeldadapter (d. h. MOFA-Adapter), um die generierten Bewegungen im Videogenerierungsprozess zu steuern. Bei den MOFA-Adaptern berücksichtigen wir die zeitliche Bewegungskonsistenz des Videos und generieren zuerst den dichten Bewegungsfluss aus den gegebenen spärlichen Steuerbedingungen, und dann werden die mehrskaligen Merkmale des gegebenen Bildes als geführtes Merkmal für die stabile Videodiffusionsgenerierung umgesetzt. Wir trainieren naiv zwei Bewegungsadapter für die manuellen Trajektorien und die menschlichen Landmarken individuell, da sie beide spärliche Informationen zur Steuerung enthalten. Nach dem Training können die MOFA-Adapter in verschiedenen Bereichen auch zusammenarbeiten, um eine noch steuerbarere Videogenerierung zu ermöglichen.
Die 3D-Generierung hat in den letzten Jahren bemerkenswerte Fortschritte gemacht. Bestehende Techniken, wie beispielsweise Score-Destillationsmethoden, liefern beachtliche Ergebnisse, erfordern jedoch umfangreiche Optimierungen pro Szene, was sich auf die Zeiteffizienz auswirkt. Alternativ priorisieren rekonstruktionsbasierte Ansätze Effizienz, gehen jedoch aufgrund ihres begrenzten Umgangs mit Unsicherheit Kompromisse bei der Qualität ein. Wir stellen GECO vor, eine neuartige Methode für hochwertiges 3D-generatives Modellieren, die innerhalb einer Sekunde arbeitet. Unser Ansatz begegnet den vorherrschenden Problemen von Unsicherheit und Ineffizienz in aktuellen Methoden durch einen zweistufigen Ansatz. In der ersten Stufe trainieren wir ein Single-Step-Multi-View-generatives Modell mit Score-Destillation. Anschließend wird eine Destillation in der zweiten Stufe angewendet, um die Herausforderung der Ansichtsinhärenz aus der Multi-View-Vorhersage anzugehen. Dieser zweistufige Prozess gewährleistet einen ausgewogenen Ansatz für die 3D-Generierung, der sowohl Qualität als auch Effizienz optimiert. Unsere umfassenden Experimente zeigen, dass GECO eine hochwertige Bild-zu-3D-Generierung mit einem beispiellosen Maß an Effizienz erreicht.
Da textkonditionierte Diffusionsmodelle (DMs) Durchbrüche in der Bild-, Video- und 3D-Generierung erzielen, hat sich der Fokus der Forschungsgemeinschaft auf die anspruchsvollere Aufgabe der Text-zu-4D-Synthese verlagert, die eine zeitliche Dimension einführt, um dynamische 3D-Objekte zu generieren. In diesem Zusammenhang identifizieren wir Score Distillation Sampling (SDS), eine weit verbreitete Technik für die Text-zu-3D-Synthese, als signifikante Hürde für die Leistung bei der Text-zu-4D-Synthese aufgrund ihrer Janus-gesichtigen und texturunrealistischen Probleme in Verbindung mit hohen Rechenkosten. In diesem Paper schlagen wir Pixel-Level-Abstimmungen für die Text-zu-4D-Gauß-Splatting (PLA4D) vor, eine neuartige Methode, die Text-zu-Video-Frames als explizite Pixel-Abstimmungsziele nutzt, um statische 3D-Objekte zu generieren und Bewegung in sie einzufügen. Speziell führen wir Focal Alignment ein, um Kamerapositionen für die Darstellung zu kalibrieren, und GS-Mesh Contrastive Learning, um Geometrieprioritäten aus gerenderten Bildkontrasten auf Pixel-Ebene zu destillieren. Darüber hinaus entwickeln wir Motion Alignment unter Verwendung eines Deformationsnetzwerks, um Änderungen in Gaußschen zu steuern, und implementieren Reference Refinement für glatte 4D-Objektoberflächen. Diese Techniken ermöglichen es der 4D-Gauß-Splatting, Geometrie, Textur und Bewegung mit generierten Videos auf Pixel-Ebene abzustimmen. Im Vergleich zu früheren Methoden erzeugt PLA4D synthetisierte Ausgaben mit besseren Texturdetails in kürzerer Zeit und mildert effektiv das Janus-gesichtige Problem. PLA4D wird vollständig unter Verwendung von Open-Source-Modellen implementiert und bietet eine zugängliche, benutzerfreundliche und vielversprechende Richtung für die Erstellung von 4D-Digitalinhalten. Unsere Projektseite: https://github.com/MiaoQiaowei/PLA4D.github.io.
Die Bewertung der Kodierfähigkeiten von Large Language Models (LLMs) bleibt eine offene Frage. Wir stellen fest, dass bestehende Benchmarks schlecht auf reale Code-Repositories abgestimmt sind und nicht ausreichen, um die Kodierfähigkeiten von LLMs zu bewerten. Um die Wissenslücke zu schließen, schlagen wir einen neuen Benchmark namens DevEval vor, der drei Fortschritte aufweist. (1) DevEval ist in mehreren Dimensionen auf reale Repositories ausgerichtet, z. B. Code- und Abhängigkeitsverteilungen. (2) DevEval wird von 13 Entwicklern annotiert und enthält umfassende Annotationen (z. B. Anforderungen, originale Repositories, Referenzcode und Referenzabhängigkeiten). (3) DevEval umfasst 1.874 Testbeispiele aus 117 Repositories, die 10 beliebte Domänen abdecken (z. B. Internet, Datenbank). Basierend auf DevEval schlagen wir die Codegenerierung auf Repository-Ebene vor und bewerten 8 beliebte LLMs auf DevEval (z. B. gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Unsere Experimente zeigen die Kodierfähigkeiten dieser LLMs in realen Code-Repositories auf. Zum Beispiel beträgt in unseren Experimenten die höchste Passrate von gpt-4-turbo nur 53,04%. Wir analysieren auch die fehlgeschlagenen Fälle der LLMs und fassen ihre Mängel zusammen. Wir hoffen, dass DevEval die Entwicklung von LLMs in realen Code-Repositories erleichtern kann. DevEval, Anreize und Vorhersagen der LLMs wurden veröffentlicht.
Der Aufstieg großer Sprachmodelle (LLMs) hat LLM-basierte Anwendungen ermöglicht (auch bekannt als KI-Agenten oder Co-Piloten), ein neues Software-Paradigma, das die Stärke von LLM und konventioneller Software kombiniert. Unterschiedliche LLM-Anwendungen von verschiedenen Nutzern könnten komplexe Workflows entwerfen, indem sie mehrere LLM-Anfragen verwenden, um eine Aufgabe zu erledigen. Allerdings müssen sie die übervereinfachte Anfrageebene-API nutzen, die von den öffentlichen LLM-Diensten von heute bereitgestellt wird, wodurch wesentliche anwendungsspezifische Informationen verloren gehen. Öffentliche LLM-Dienste müssen einzelne LLM-Anfragen blind optimieren, was zu einer suboptimalen End-to-End-Leistung von LLM-Anwendungen führt. Dieser Artikel stellt Parrot vor, ein LLM-Service-System, das sich auf das End-to-End-Erlebnis von LLM-basierten Anwendungen konzentriert. Parrot schlägt eine semantische Variable vor, eine vereinheitlichte Abstraktion, um anwendungsspezifisches Wissen öffentlichen LLM-Diensten zugänglich zu machen. Eine semantische Variable annotiert eine Ein-/Ausgabevariable im Prompt einer Anfrage und erstellt die Datenpipeline beim Verbinden mehrerer LLM-Anfragen, was eine natürliche Möglichkeit bietet, LLM-Anwendungen zu programmieren. Die Offenlegung semantischer Variablen für den öffentlichen LLM-Dienst ermöglicht es, konventionelle Datenflussanalyse durchzuführen, um die Korrelationen über mehrere LLM-Anfragen hinweg aufzudecken. Diese Korrelation eröffnet einen völlig neuen Optimierungsbereich für die End-to-End-Leistung von LLM-basierten Anwendungen. Umfangreiche Evaluierungen zeigen, dass Parrot für beliebte und praktische Anwendungsfälle von LLM-Anwendungen eine Verbesserung um bis zu eine Größenordnung erreichen kann.
In letzter Zeit haben sich die Techniken zur Videogenerierung rasant weiterentwickelt. Angesichts der Beliebtheit von Videoinhalten auf Social-Media-Plattformen verstärken diese Modelle Bedenken hinsichtlich der Verbreitung von falschen Informationen. Daher besteht eine wachsende Nachfrage nach Detektoren, die in der Lage sind, zwischen gefälschten KI-generierten Videos zu unterscheiden und die potenziellen Schäden durch falsche Informationen zu mindern. Allerdings stellt der Mangel an groß angelegten Datensätzen der fortschrittlichsten Videogeneratoren eine Hürde für die Entwicklung solcher Detektoren dar. Um diese Lücke zu schließen, stellen wir den ersten KI-generierten Videoerkennungsdatensatz, GenVideo, vor. Er zeichnet sich durch folgende Merkmale aus: (1) ein großes Volumen an Videos, darunter über eine Million KI-generierte und echte gesammelte Videos; (2) eine reiche Vielfalt an generierten Inhalten und Methoden, die ein breites Spektrum von Videokategorien und Generierungstechniken abdecken. Wir führten umfangreiche Studien des Datensatzes durch und schlugen zwei Bewertungsmethoden vor, die für Szenarien ähnlich der realen Welt entwickelt wurden, um die Leistung der Detektoren zu bewerten: Die Aufgabe der Videoklassifizierung über verschiedene Generatoren bewertet die Generalisierbarkeit der trainierten Detektoren auf Generatoren; die Aufgabe der Klassifizierung von degradierten Videos bewertet die Robustheit der Detektoren im Umgang mit Videos, die während der Verbreitung an Qualität verloren haben. Darüber hinaus haben wir ein Plug-and-Play-Modul namens Detail Mamba (DeMamba) eingeführt, das entwickelt wurde, um die Detektoren zu verbessern, indem es KI-generierte Videos durch die Analyse von Inkonsistenzen in zeitlichen und räumlichen Dimensionen identifiziert. Unsere umfangreichen Experimente zeigen die überlegene Generalisierbarkeit und Robustheit von DeMamba auf GenVideo im Vergleich zu bestehenden Detektoren. Wir sind der Überzeugung, dass der GenVideo-Datensatz und das DeMamba-Modul das Feld der KI-generierten Videoerkennung maßgeblich voranbringen werden. Unser Code und Datensatz sind unter https://github.com/chenhaoxing/DeMamba verfügbar.