Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben in den letzten Jahren große Fortschritte gemacht, um beispiellose Leistungen in verschiedenen Aufgaben zu erzielen. Aufgrund des kommerziellen Interesses wurden jedoch die wettbewerbsfähigsten Modelle wie GPT, Gemini und Claude hinter proprietären Schnittstellen versteckt, ohne die Schulungsdetails offenzulegen. In letzter Zeit haben viele Institutionen mehrere starke LLMs wie LLaMA-3 quelloffen gemacht, die mit bestehenden geschlossenen LLMs vergleichbar sind. Allerdings werden nur die Gewichte des Modells bereitgestellt, während die meisten Details (z. B. Zwischenprüfpunkte, Vorkorpus und Schulungscode usw.) nicht offengelegt werden. Um die Transparenz von LLMs zu verbessern, hat sich die Forschungsgemeinschaft dazu entschlossen, wirklich offene LLMs (z. B. Pythia, Amber, OLMo) quelloffen zu machen, bei denen mehr Details (z. B. Vorkorpus und Schulungscode) bereitgestellt werden. Diese Modelle haben das wissenschaftliche Studium dieser großen Modelle erheblich vorangetrieben, einschließlich ihrer Stärken, Schwächen, Vorurteile und Risiken. Es fällt jedoch auf, dass die vorhandenen wirklich offenen LLMs für Aufgaben im Bereich des Denkens, des Wissens und des Codierens immer noch unterlegen sind gegenüber bestehenden LLMs auf dem neuesten Stand der Technik mit ähnlichen Modellgrößen. Zu diesem Zweck stellen wir MAP-Neo quelloffen vor, ein hochleistungsfähiges und transparentes zweisprachiges Sprachmodell mit 7 Milliarden Parametern, das von Grund auf auf 4,5 Billionen hochwertigen Tokens trainiert wurde. Unser MAP-Neo ist das erste vollständig quelloffene zweisprachige LLM mit vergleichbarer Leistung im Vergleich zu bestehenden LLMs auf dem neuesten Stand der Technik. Darüber hinaus stellen wir alle Details zur Reproduktion unseres MAP-Neo quelloffen zur Verfügung, wobei der bereinigte Vorkorpus, die Datenbereinigungspipeline, Zwischenprüfpunkte und ein gut optimiertes Schulungs-/Auswertungsframework bereitgestellt werden. Abschließend hoffen wir, dass unser MAP-Neo die offene Forschungsgemeinschaft stärken und stärken wird und mehr Innovationen und Kreativität inspirieren wird, um die weiteren Verbesserungen von LLMs zu erleichtern.
Die Optimierung von Präferenzen, insbesondere durch Verstärkendes Lernen aus menschlichem Feedback (RLHF), hat bedeutenden Erfolg dabei erzielt, Große Sprachmodelle (LLMs) an menschliche Absichten anzupassen. Im Gegensatz zur Offline-Anpassung mit einem festen Datensatz führt die Online-Rückmeldung von Menschen oder KI zu Modellgenerationen in der Regel zu leistungsfähigeren Belohnungsmodellen und besser angepassten LLMs durch einen iterativen Prozess. Allerdings erfordert die Erreichung eines global genauen Belohnungsmodells systematische Exploration, um vielfältige Antworten zu generieren, die den weiten Raum der natürlichen Sprache abdecken. Das zufällige Auswählen aus Standard-Belohnungs-maximierenden LLMs allein reicht nicht aus, um diese Anforderung zu erfüllen. Um dieses Problem anzugehen, schlagen wir ein zweistufiges Ziel vor, das optimistisch auf potenziell hochbelohnende Antworten ausgerichtet ist, um aktiv außerhalb der Verteilungsregionen zu erkunden. Durch die Lösung des inneren Problems mit der reparametrisierten Belohnungsfunktion beseitigt der resultierende Algorithmus, namens Selbst-erkundende Sprachmodelle (SELM), die Notwendigkeit eines separaten RM und aktualisiert iterativ das LLM mit einem klaren Ziel. Im Vergleich zur Direkten Präferenzoptimierung (DPO) reduziert das SELM-Ziel die wahllose Bevorzugung von ungesehenen Extrapolationen und verbessert die Explorations-Effizienz. Unsere experimentellen Ergebnisse zeigen, dass SELM die Leistung bei Anweisungsfolge-Benchmarks wie MT-Bench und AlpacaEval 2.0 sowie verschiedenen Standard-Akademie-Benchmarks in verschiedenen Umgebungen signifikant steigert, wenn es an Zephyr-7B-SFT und Llama-3-8B-Instruct-Modellen feinabgestimmt wird. Unser Code und unsere Modelle sind unter https://github.com/shenao-zhang/SELM verfügbar.
Text-zu-Video-Modelle auf der Basis von Diffusion haben signifikante Erfolge erzielt, werden jedoch weiterhin durch die langsame Abtastgeschwindigkeit ihrer iterativen Abtastprozesse behindert. Zur Bewältigung dieser Herausforderung wurden Konsistenzmodelle vorgeschlagen, um schnelle Inferenz zu ermöglichen, jedoch auf Kosten der Probenqualität. In dieser Arbeit zielen wir darauf ab, den Qualitätsengpass eines Video-Konsistenzmodells zu überwinden, um sowohl schnelle als auch qualitativ hochwertige Videoerzeugung zu erreichen. Wir stellen T2V-Turbo vor, das Rückmeldungen aus einer Mischung verschiedeneriierbarer Belohnungsmodelle in den Konsistenz-Destillationsprozess eines vorab trainierten T2V-Modells integriert. Bemerkenswert ist, dass wir Belohnungen direkt optimieren, die mit Einzelschritt-Erzeugungen verbunden sind, die sich natürlich aus der Berechnung des CD-Verlusts ergeben, und somit effektiv die Speicherbeschränkungen umgehen, die durch das Rückpropagieren von Gradienten durch einen iterativen Abtastprozess auferlegt werden. Bemerkenswerterweise erzielen die 4-Schritt-Erzeugungen unseres T2V-Turbo den höchsten Gesamtscore auf VBench, sogar höher als Gen-2 und Pika. Wir führen außerdem menschliche Bewertungen durch, um die Ergebnisse zu bestätigen, und validieren, dass die 4-Schritt-Erzeugungen unseres T2V-Turbo gegenüber den 50-Schritt-DDIM-Proben ihrer Lehrmodelle bevorzugt werden, was eine Beschleunigung um mehr als das Zehnfache darstellt und die Qualität der Videoerzeugung verbessert.
Dieses Paper untersucht, inwieweit große Sprachmodelle (LLMs) eine Theorie des höheren Ordnung des Geistes (ToM) entwickelt haben; die menschliche Fähigkeit, über mehrere mentale und emotionale Zustände auf rekursive Weise zu reflektieren (z.B. Ich denke, dass du glaubst, dass sie weiß). Dieses Paper baut auf früheren Arbeiten auf, indem es einen handgeschriebenen Testkatalog -- Multi-Order Theory of Mind Q&A -- einführt und ihn verwendet, um die Leistung von fünf LLMs mit einem neu erhobenen Benchmark von erwachsenen Menschen zu vergleichen. Wir stellen fest, dass GPT-4 und Flan-PaLM insgesamt eine Leistung auf dem Niveau von Erwachsenen und nahe am Niveau von Erwachsenen bei ToM-Aufgaben erreichen, und dass GPT-4 die Leistung von Erwachsenen bei Inferenzen der 6. Ordnung übertrifft. Unsere Ergebnisse legen nahe, dass es eine Wechselwirkung zwischen Modellgröße und Feinabstimmung für die Realisierung von ToM-Fähigkeiten gibt und dass die am besten abschneidenden LLMs eine generalisierte Kapazität für ToM entwickelt haben. Angesichts der Rolle, die die Theorie des höheren Ordnung des Geistes bei einer Vielzahl kooperativer und konkurrierender menschlicher Verhaltensweisen spielt, haben diese Erkenntnisse bedeutende Auswirkungen auf LLM-Anwendungen für Endbenutzer.
Das dominante Framework zur Ausrichtung großer Sprachmodelle (LLM), sei es durch Verstärkungslernen aus menschlichem Feedback oder direkte Präferenzoptimierung, besteht darin, aus Präferenzdaten zu lernen. Dies beinhaltet den Aufbau von Datensätzen, bei denen jedes Element ein Quadrupel aus einer Anfrage, zwei unabhängigen Antworten (Vervollständigungen der Anfrage) und einer menschlichen Präferenz zwischen den beiden unabhängigen Antworten ist, was eine bevorzugte und eine nicht bevorzugte Antwort ergibt. Solche Daten sind typischerweise knapp und teuer zu sammeln. Andererseits sind Einzel-Trajektoriendatensätze, bei denen jedes Element ein Tripel aus einer Anfrage, einer Antwort und einem menschlichen Feedback ist, natürlicherweise häufiger vorhanden. Das kanonische Element solcher Datensätze ist beispielsweise die Antwort eines LLM auf eine Benutzeranfrage, gefolgt von einem Benutzerfeedback wie einem Daumen hoch/runter. In dieser Arbeit schlagen wir daher DRO oder Direkte Belohnungsoptimierung als ein Framework und zugehörige Algorithmen vor, die keine paarweisen Präferenzen erfordern. DRO verwendet ein einfaches mittleres quadratisches Ziel, das auf verschiedene Weisen implementiert werden kann. Wir validieren unsere Ergebnisse empirisch, indem wir T5-Encoder-Decoder-Sprachmodelle verwenden, und zeigen die Leistung von DRO im Vergleich zu ausgewählten Baselines wie der Kahneman-Tversky-Optimierung (KTO). Somit bestätigen wir, dass DRO eine einfache und empirisch überzeugende Methode für die Optimierung von Einzel-Trajektorienrichtlinien ist.
Große Sprachmodelle (LLMs) halluzinieren oft und können keine Attribution für ihre Generierungen liefern. Semi-parametrische LMs, wie z.B. kNN-LM, umgehen diese Einschränkungen, indem sie die Ausgabe eines LM für einen bestimmten Anstoß verfeinern, indem sie seine nächstgelegenen Nachbarn in einem nicht-parametrischen Datenspeicher verwenden. Diese Modelle zeigen jedoch oft langsame Inferenzgeschwindigkeiten und erzeugen nicht fließende Texte. In diesem Artikel stellen wir Nearest Neighbor Speculative Decoding (NEST) vor, einen neuartigen semi-parametrischen Ansatz zur Sprachmodellierung, der in der Lage ist, Textabschnitte beliebiger Länge aus der realen Welt in die LM-Generierungen zu integrieren und deren Quellen zu benennen. NEST führt auf Token-Ebene eine Rückgewinnung bei jedem Inferenzschritt durch, um eine semi-parametrische Mischverteilung zu berechnen und vielversprechende Abschnittsfortsetzungen in einem Korpus zu identifizieren. Anschließend verwendet es ein ungefähres spekulatives Dekodierungsverfahren, das ein Präfix des abgerufenen Abschnitts akzeptiert oder ein neues Token generiert. NEST verbessert signifikant die Generierungsqualität und die Attributionrate des Basismodells über eine Vielzahl von wissensintensiven Aufgaben hinweg, übertrifft die herkömmliche kNN-LM-Methode und konkurriert erfolgreich mit der In-Context-Rückgewinnungserweiterung. Darüber hinaus verbessert NEST die Generierungsgeschwindigkeit erheblich und erzielt eine 1,8-fache Beschleunigung der Inferenzzeit, wenn es auf Llama-2-Chat 70B angewendet wird.
Dieses Paper präsentiert EasyAnimate, eine fortschrittliche Methode zur Videogenerierung, die die Leistungsfähigkeit der Transformer-Architektur für hochwertige Ergebnisse nutzt. Wir haben das DiT-Framework, das ursprünglich für die Synthese von 2D-Bildern entwickelt wurde, erweitert, um die Komplexitäten der 3D-Videogenerierung durch die Integration eines Bewegungsmodul-Blocks zu berücksichtigen. Dieser wird verwendet, um zeitliche Dynamiken zu erfassen und somit die Erzeugung konsistenter Frames und nahtloser Bewegungsübergänge sicherzustellen. Das Bewegungsmodul kann an verschiedene DiT-Basisverfahren angepasst werden, um Videos mit unterschiedlichen Stilen zu generieren. Es kann auch Videos mit verschiedenen Bildraten und Auflösungen sowohl während des Trainings als auch der Inferenzphasen generieren, geeignet für Bilder und Videos. Darüber hinaus stellen wir Slice VAE vor, einen neuartigen Ansatz zur Verdichtung der Zeitachse, der die Generierung von langen Videos ermöglicht. Derzeit zeigt EasyAnimate die Fähigkeit, Videos mit 144 Frames zu generieren. Wir bieten ein ganzheitliches Ökosystem für die Videoproduktion auf Basis von DiT, das Aspekte wie die Datenvorbereitung, das VAE-Training, das DiT-Modelltraining (sowohl des Basis- als auch des LoRA-Modells) und die End-to-End-Videoinferenz umfasst. Der Code ist verfügbar unter: https://github.com/aigc-apps/EasyAnimate. Wir arbeiten kontinuierlich daran, die Leistungsfähigkeit unserer Methode zu verbessern.
Die Integration mehrerer generativer Grundlagenmodelle, insbesondere solche, die auf verschiedenen Modalitäten trainiert wurden, zu etwas Größerem als die Summe seiner Teile, birgt erhebliche Herausforderungen. Zwei Schlüsselhindernisse sind die Verfügbarkeit von abgeglichenen Daten (Konzepte, die eine ähnliche Bedeutung haben, aber in verschiedenen Modalitäten unterschiedlich ausgedrückt werden) und die effektive Nutzung unimodaler Repräsentationen bei generativen Aufgaben zwischen verschiedenen Domänen, ohne ihre ursprünglichen unimodalen Fähigkeiten zu beeinträchtigen. Wir schlagen Zipper vor, eine Architektur mit mehreren Türmen, die diese Anliegen durch die Verwendung von Cross-Attention angeht, um multimodale generative Modelle flexibel aus unabhängig vortrainierten unimodalen Decodern zusammenzusetzen. In unseren Experimenten zur Fusion von Sprach- und Textmodalitäten zeigen wir, dass die vorgeschlagene Architektur in Szenarien mit begrenzten abgeglichenen Text-Sprach-Daten sehr wettbewerbsfähig abschneidet. Wir präsentieren auch die Flexibilität unseres Modells, die unimodale (z. B. Text-zu-Text-Generierung) Generationsleistung selektiv beizubehalten, indem der entsprechende Modalturm (z. B. Text) eingefroren wird. Bei cross-modalen Aufgaben wie der automatischen Spracherkennung (ASR), bei der die Ausgabemodalität Text ist, zeigen wir, dass das Einfrieren des Text-Backbones zu vernachlässigbaren Leistungseinbußen führt. Bei cross-modalen Aufgaben wie der Text-zu-Sprache-Generierung (TTS), bei der die Ausgabemodalität Sprache ist, zeigen wir, dass die Verwendung eines vortrainierten Sprach-Backbones zu einer überlegenen Leistung im Vergleich zum Ausgangspunkt führt.
Die Erstellung hochwertiger, digitaler Versionen von menschlichen Köpfen ist ein wichtiger Schritt im Prozess der weiteren Integration virtueller Komponenten in unseren Alltag. Die Konstruktion solcher Avatare ist ein anspruchsvolles Forschungsproblem aufgrund der hohen Nachfrage nach fotorealistischer Darstellung und Echtzeit-Rendering-Leistung. In dieser Arbeit schlagen wir Neural Parametric Gaussian Avatars (NPGA) vor, einen datengesteuerten Ansatz zur Erstellung hochwertiger, steuerbarer Avatare aus Mehransichtsvideoaufnahmen. Wir bauen unsere Methode um 3D-Gaussian Splatting aufgrund seiner hocheffizienten Darstellung und der Vererbung der topologischen Flexibilität von Punktewolken. Im Gegensatz zu früheren Arbeiten konditionieren wir die Dynamik unserer Avatare auf den reichhaltigen Ausdrucksraum neuronaler parametrischer Kopfmodelle (NPHM) anstelle von meshbasierten 3DMMs. Zu diesem Zweck destillieren wir das rückwärtige Deformationsfeld unseres zugrunde liegenden NPHM in Vorwärtsdeformationen, die mit rasterbasiertem Rendering kompatibel sind. Alle verbleibenden feinskaligen, ausdrucksabhängigen Details werden aus den Mehransichtsvideos gelernt. Um die Repräsentationskapazität unserer Avatare zu erhöhen, erweitern wir die kanonische Gaußsche Punktewolke unter Verwendung von latenten Merkmalen pro Primitive, die ihr dynamisches Verhalten steuern. Zur Regulierung dieser erhöhten dynamischen Ausdrucksfähigkeit schlagen wir Laplacian-Terme auf den latenten Merkmalen und den vorhergesagten Dynamiken vor. Wir evaluieren unsere Methode am öffentlichen NeRSemble-Datensatz und zeigen, dass NPGA die bisherigen State-of-the-Art-Avatare bei der Selbstnachstellungsaufgabe um 2,6 PSNR signifikant übertrifft. Darüber hinaus zeigen wir präzise Animationsfähigkeiten aus monokularen Videos aus der realen Welt.
Die Verstärkungslernmethode mit menschlichem Feedback (RLHF) hat großes Potenzial gezeigt, um große Sprachmodelle (LLMs) mit menschlichen Präferenzen in Einklang zu bringen. Abhängig von der Verfügbarkeit von Präferenzdaten sind sowohl Online- als auch Offline-RLHF aktive Forschungsbereiche. Ein zentraler Engpass besteht darin, zu verstehen, wie man die Unsicherheitsschätzung in die aus den Präferenzdaten für RLHF gelernte Belohnungsfunktion integrieren kann, unabhängig davon, wie die Präferenzdaten gesammelt werden. Während die Prinzipien von Optimismus oder Pessimismus unter Unsicherheit im herkömmlichen Verstärkungslernen (RL) gut etabliert sind, steht eine praktisch umsetzbare und theoretisch fundierte Form, die für große Sprachmodelle geeignet ist, noch nicht zur Verfügung, da herkömmliche Techniken zur Konstruktion von Vertrauensintervallen unter beliebigen Richtlinienparametrisierungen unpraktikabel werden. In diesem Artikel stellen wir einen vereinheitlichten Ansatz für Online- und Offline-RLHF vor - die wertanreizende Präferenzoptimierung (VPO) -, der die Maximum-Likelihood-Schätzung der Belohnungsfunktion mit der entsprechenden Wertefunktion reguliert, moduliert durch ein Vorzeichen, um anzuzeigen, ob Optimismus oder Pessimismus gewählt wird. VPO optimiert auch direkt die Richtlinie mit impliziter Belohnungsmodellierung und teilt daher eine einfachere RLHF-Pipeline, ähnlich der direkten Präferenzoptimierung. Theoretische Garantien von VPO werden sowohl für Online- als auch für Offline-Einstellungen bereitgestellt und entsprechen den Raten ihrer herkömmlichen RL-Gegenstücke. Darüber hinaus bestätigen Experimente zur Textzusammenfassung und zum Dialog die Praktikabilität und Wirksamkeit von VPO.
Der Klanginhalt ist ein unverzichtbares Element für multimediale Werke wie Videospiele, Musik und Filme. Aktuelle hochwertige diffusionsbasierte Klanggenerierungsmodelle können wertvolle Werkzeuge für die Schöpfer darstellen. Trotz der Erzeugung hochwertiger Klänge leiden diese Modelle jedoch oft unter langsamen Inferenzgeschwindigkeiten. Dieser Nachteil belastet die Schöpfer, die in der Regel ihre Klänge durch Ausprobieren verfeinern, um sie mit ihren künstlerischen Absichten in Einklang zu bringen. Um dieses Problem anzugehen, stellen wir die Sound Consistency Trajectory Models (SoundCTM) vor. Unser Modell ermöglicht einen flexiblen Übergang zwischen hochwertiger 1-Schritt-Klanggenerierung und überlegener Klangqualität durch Mehrschrittgenerierung. Dies ermöglicht es den Schöpfern, Klänge zunächst mit 1-Schritt-Samples zu steuern, bevor sie diese durch Mehrschrittgenerierung verfeinern. Während CTM grundsätzlich eine flexible 1-Schritt- und Mehrschrittgenerierung erreicht, hängt seine beeindruckende Leistung stark von einem zusätzlichen vorab trainierten Merkmalsextraktor und einem adversen Verlust ab, die teuer zu trainieren sind und nicht immer in anderen Bereichen verfügbar sind. Daher überarbeiten wir das Schulungsrahmenwerk von CTM und führen einen neuartigen Merkmalsabstand ein, indem wir den Netzwerk des Lehrers für einen Destillationsverlust nutzen. Darüber hinaus trainieren wir bei der Destillation von klassifizierungsfreien geführten Trajektorien gleichzeitig bedingte und unbedingte Schülermodelle und interpolieren zwischen diesen Modellen während der Inferenz. Wir schlagen auch schulungsfreie steuerbare Rahmenwerke für SoundCTM vor, die seine flexible Abtastfähigkeit nutzen. SoundCTM erreicht sowohl vielversprechende 1-Schritt- als auch Mehrschritt-Echtzeit-Klanggenerierung, ohne zusätzliche Netzwerke von der Stange zu verwenden. Darüber hinaus zeigen wir die Fähigkeit von SoundCTM zur steuerbaren Klanggenerierung auf schulungsfreie Weise.
Bestehende auf Diffusion basierende Methoden zur Text-zu-3D-Generierung konzentrieren sich hauptsächlich auf die Erzeugung visuell realistischer Formen und Erscheinungsbilder, wobei oft die physikalischen Einschränkungen vernachlässigt werden, die für nachgelagerte Aufgaben erforderlich sind. Die generierten Modelle scheitern häufig daran, das Gleichgewicht zu halten, wenn sie in physikbasierte Simulationen oder 3D-gedruckt platziert werden. Dieses Gleichgewicht ist entscheidend, um die Designabsichten der Benutzer in interaktiven Spielen, verkörpertem KI und Robotik zu erfüllen, wo stabile Modelle für eine zuverlässige Interaktion benötigt werden. Darüber hinaus stellen stabile Modelle sicher, dass 3D-gedruckte Objekte, wie Figuren zur Heimdekoration, eigenständig stehen können, ohne zusätzliche Stützen zu benötigen. Um diese Lücke zu schließen, stellen wir Atlas3D vor, eine automatische und einfach umsetzbare Methode, die bestehende auf Score Distillation Sampling (SDS) basierende Text-zu-3D-Tools verbessert. Atlas3D gewährleistet die Generierung selbsttragender 3D-Modelle, die den physikalischen Gesetzen der Stabilität unter Schwerkraft, Kontakt und Reibung entsprechen. Unser Ansatz kombiniert eine neuartige differentiell simulierte verlustbehaftete Funktion mit physikalisch inspirierter Regularisierung, die entweder als Verfeinerungs- oder als Nachbearbeitungsmodul für bestehende Frameworks dient. Wir überprüfen die Wirksamkeit von Atlas3D durch umfangreiche Generierungsaufgaben und validieren die resultierenden 3D-Modelle sowohl in simulierten als auch in realen Umgebungen.