Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Drivable 3D Gaussian Avatars (D3GA), das erste 3D-steuerbare Modell für menschliche Körper, das mit Gaussian Splats gerendert wird. Aktuelle fotorealistische, steuerbare Avatare erfordern entweder präzise 3D-Registrierungen während des Trainings, dichte Eingabebilder während des Tests oder beides. Diejenigen, die auf neuralen Strahlungsfeldern basieren, sind zudem oft unverhältnismäßig langsam für Telepräsenzanwendungen. Diese Arbeit nutzt die kürzlich vorgestellte 3D Gaussian Splatting (3DGS)-Technik, um realistische Menschen in Echtzeit-Frameraten zu rendern, wobei dichte kalibrierte Multi-View-Videos als Eingabe verwendet werden. Um diese Primitiven zu verformen, weichen wir von der häufig verwendeten Punktverformungsmethode des Linear Blend Skinning (LBS) ab und verwenden eine klassische volumetrische Verformungsmethode: Cage-Verformungen. Aufgrund ihrer geringeren Größe steuern wir diese Verformungen mit Gelenkwinkeln und Keypoints, die besser für Kommunikationsanwendungen geeignet sind. Unsere Experimente mit neun Probanden mit unterschiedlichen Körperformen, Kleidungen und Bewegungen erzielen qualitativ hochwertigere Ergebnisse als state-of-the-art-Methoden bei Verwendung der gleichen Trainings- und Testdaten.
Wir präsentieren einen Ansatz zur Erzeugung einer 360-Grad-Ansicht einer Person mit einem konsistenten, hochauflösenden Erscheinungsbild aus einem einzelnen Eingabebild. NeRF und seine Varianten benötigen typischerweise Videos oder Bilder aus verschiedenen Blickwinkeln. Die meisten bestehenden Ansätze, die monokulare Eingaben verwenden, verlassen sich entweder auf Ground-Truth-3D-Scans zur Überwachung oder mangelt es an 3D-Konsistenz. Während aktuelle 3D-Generierungsmodelle das Potenzial einer 3D-konsistenten Digitalisierung von Menschen zeigen, generalisieren diese Ansätze nicht gut auf diverse Kleidungserscheinungen, und die Ergebnisse mangelt es an Fotorealismus. Im Gegensatz zu bestehenden Arbeiten nutzen wir hochkapazitive 2D-Diffusionsmodelle, die für allgemeine Bildsyntheseaufgaben vortrainiert wurden, als Erscheinungs-Prior für bekleidete Menschen. Um eine bessere 3D-Konsistenz bei Beibehaltung der Eingabeidentität zu erreichen, synthetisieren wir schrittweise mehrere Ansichten des Menschen im Eingabebild, indem wir fehlende Regionen mit formgeführter Diffusion, die auf Silhouette und Oberflächennormale konditioniert ist, ausfüllen. Anschließend fusionieren wir diese synthetisierten Multi-View-Bilder durch inverses Rendering, um ein vollständig texturiertes, hochauflösendes 3D-Mesh der gegebenen Person zu erhalten. Experimente zeigen, dass unser Ansatz frühere Methoden übertrifft und einen fotorealistischen 360-Grad-Synthese einer breiten Palette von bekleideten Menschen mit komplexen Texturen aus einem einzelnen Bild erreicht.
Wir stellen DMV3D vor, einen neuartigen Ansatz zur 3D-Generierung, der ein transformer-basiertes 3D-Rekonstruktionsmodell verwendet, um Multi-View-Diffusion zu entrauschen. Unser Rekonstruktionsmodell integriert eine Triplane-NeRF-Darstellung und kann verrauschte Multi-View-Bilder durch NeRF-Rekonstruktion und -Rendering entrauschen, wodurch eine einstufige 3D-Generierung in ca. 30 Sekunden auf einer einzelnen A100-GPU erreicht wird. Wir trainieren DMV3D auf groß angelegten Multi-View-Bilddatensätzen von hochgradig diversen Objekten, wobei wir ausschließlich Bildrekonstruktionsverluste verwenden, ohne auf 3D-Assets zuzugreifen. Wir demonstrieren state-of-the-art Ergebnisse für das Problem der Einzelbildrekonstruktion, bei dem eine probabilistische Modellierung unsichtbarer Objektteile erforderlich ist, um diverse Rekonstruktionen mit scharfen Texturen zu erzeugen. Wir zeigen auch hochwertige Text-zu-3D-Generierungsergebnisse, die bisherige 3D-Diffusionsmodelle übertreffen. Unsere Projektwebsite befindet sich unter: https://justimyhxu.github.io/projects/dmv3d/.
Audiomodellierung durch Diffusion kann eine Vielzahl von Klängen synthetisieren. Bestehende Modelle arbeiten häufig im latenten Raum mit kaskadierten Phasenwiederherstellungsmodulen, um die Wellenform zu rekonstruieren. Dies stellt Herausforderungen bei der Erzeugung von hochwertigem Audio dar. In diesem Artikel schlagen wir EDMSound vor, ein diffusionsbasiertes generatives Modell im Spektrogrammbereich, das auf dem Framework der erläuterten Diffusionsmodelle (EDM) basiert. In Kombination mit einem effizienten deterministischen Sampler erreichten wir einen ähnlichen Fréchet-Audio-Distanz (FAD)-Score wie das beste Baseline-Modell mit nur 10 Schritten und erzielten mit 50 Schritten Spitzenleistungen auf dem DCASE2023-Benchmark für die Erzeugung von Foley-Sounds. Wir deckten auch ein potenzielles Problem bei diffusionsbasierten Audio-Generierungsmodellen auf: Sie neigen dazu, Samples mit hoher wahrgenommener Ähnlichkeit zu den Trainingsdaten zu erzeugen. Projektseite: https://agentcooper2002.github.io/EDMSound/
Dialogbasierte Rollenspiele (RPGs) erfordern eine starke Erzählkunst. Die Geschichten dafür können Jahre in Anspruch nehmen und beinhalten in der Regel ein großes kreatives Team. In dieser Arbeit zeigen wir das Potenzial großer generativer Textmodelle, diesen Prozess zu unterstützen. GRIM, ein prototypisches GRaphbasiertes Interaktives narratives Visualisierungssystem für Spiele, erzeugt einen umfangreichen narrativen Graphen mit verzweigten Handlungssträngen, die einer übergeordneten narrativen Beschreibung und den vom Designer vorgegebenen Einschränkungen entsprechen. Spieldesigner können den Graphen interaktiv bearbeiten, indem automatisch neue Teilgraphen generiert werden, die sich in die ursprüngliche Erzählung und die vorgegebenen Einschränkungen einfügen. Wir veranschaulichen die Verwendung von GRIM in Kombination mit GPT-4, indem wir verzweigte Erzählungen für vier bekannte Geschichten mit unterschiedlichen kontextuellen Einschränkungen generieren.
Das komplementäre Potenzial von Large Language Models (LLMs) geht davon aus, dass Standard-LLMs heterogene Expertise in einer Vielzahl von Domänen und Aufgaben besitzen, sodass ein Ensemble von LLMs durchgängig bessere Leistungen erzielen kann. Bestehende Ensemble-Methoden für LLMs konzentrieren sich hauptsächlich auf das Ranking von Ausgaben durch Reward-Modelle, was zu erheblichem Rechenaufwand führt. Um dieses Problem zu bekämpfen, untersuchen wir erneut das komplementäre Potenzial von LLMs und erweitern es durch die Nutzung latenter Expertise mit Standard-Reward-Modellen. Wir schlagen Zooter vor, eine Reward-gesteuerte Routing-Methode, die Belohnungen auf Trainingsanfragen destilliert, um eine Routing-Funktion zu trainieren, die jede Anfrage präzise an den LLM mit der entsprechenden Expertise weiterleitet. Zusätzlich integrieren wir eine tag-basierte Label-Verbesserung, um Rauschen durch Unsicherheit bei der Verwendung von Belohnungen als silberne Supervision zu mildern. Zooter zeigt Recheneffizienz in der Inferenz, da es im Vergleich zu Reward-Modell-Ranking-Methoden nur einen geringen zusätzlichen Rechenaufwand durch die Routing-Funktion einführt. Wir evaluieren Zooter auf einer umfassenden Benchmark-Sammlung mit 26 Teilmengen aus verschiedenen Domänen und Aufgaben. Zooter übertrifft im Durchschnitt das beste Einzelmodell und belegt auf 44 % der Aufgaben den ersten Platz, wobei es sogar mehrere Reward-Modell-Ranking-Methoden übertrifft.
Sprachtechnologien, die die Dynamik von Ereignissen präzise modellieren, müssen gesunden Menschenverstand (Commonsense Reasoning) anwenden. Bisherige Arbeiten zur Bewertung von Commonsense Reasoning konzentrieren sich darauf, Schlussfolgerungen über alltägliche, gewöhnliche Situationen zu ziehen. Um stattdessen die Fähigkeit zur Modellierung ungewöhnlicher, unerwarteter und unwahrscheinlicher Situationen zu untersuchen, erforschen wir die Aufgabe des ungewöhnlichen abduktiven Schließens (Uncommonsense Abductive Reasoning). Bei dieser Aufgabe wird ein Kontext mit einem unerwarteten Ergebnis vorgegeben, und es ist erforderlich, abduktiv zu schließen, um eine natürliche sprachliche Erklärung zu generieren, die das unerwartete Ergebnis im Kontext wahrscheinlicher macht. Zu diesem Zweck stellen wir einen neuen englischsprachigen Korpus namens UNcommonsense zusammen und veröffentlichen ihn. Wir charakterisieren die Unterschiede zwischen der Leistung menschlicher Erklärer und den besten großen Sprachmodellen und stellen fest, dass durch Modelle verbesserte, von Menschen verfasste Erklärungen die höchste Qualität erreichen, indem sie zwischen Spezifität und Vielfalt abwägen. Schließlich experimentieren wir mit mehreren Online-Imitation-Learning-Algorithmen, um offene und zugängliche Sprachmodelle für diese Aufgabe zu trainieren. Im Vergleich zum herkömmlichen Ansatz des überwachten Feinabstimmens reduzieren diese Methoden konsequent die Verlustraten sowohl beim gewöhnlichen als auch beim ungewöhnlichen abduktiven Schließen, wie von menschlichen Bewertern beurteilt.
Parameter Efficient Tuning hat sich als ein herausragender Ansatz erwiesen, um große Sprachmodelle an nachgelagerte Aufgaben anzupassen. Die meisten bisherigen Arbeiten betrachten das Hinzufügen von dichten trainierbaren Parametern, bei denen alle Parameter zur Anpassung an eine bestimmte Aufgabe verwendet werden. Wir haben empirisch festgestellt, dass dies weniger effektiv ist, wie das Beispiel von LoRA zeigt, bei dem das Einführen weiterer trainierbarer Parameter keinen Nutzen bringt. Motiviert durch diese Erkenntnis untersuchen wir die Bedeutung der Nutzung von „spärlicher“ Berechnung und schlagen SiRA vor: eine spärliche Mischung aus Low-Rank-Adaption. SiRA nutzt die Sparse Mixture of Experts (SMoE), um die Leistung von LoRA zu steigern. Insbesondere erzwingt es das Routing der Top-k-Experten mit einer Kapazitätsbegrenzung, die die maximale Anzahl von Token festlegt, die jeder Experte verarbeiten kann. Wir schlagen eine neuartige und einfache Experten-Dropout-Methode auf Basis des Gating-Netzwerks vor, um das Problem der Überanpassung zu reduzieren. Durch umfangreiche Experimente bestätigen wir, dass SiRA in verschiedenen Einzelaufgaben und Multitask-Szenarien besser abschneidet als LoRA und andere Mixture-of-Expert-Ansätze.
Leistungsstarke große Sprachmodelle haben die Entwicklung von Schreibassistenten ermöglicht, die versprechen, die Qualität und Effizienz des Verfassens und der Kommunikation erheblich zu verbessern. Ein Hindernis für eine effektive Unterstützung ist jedoch der Mangel an Personalisierung der Ausgaben von LLMs an den Kommunikationsstil und das spezialisierte Wissen des Autors. In diesem Papier gehen wir diese Herausforderung an, indem wir PEARL vorschlagen, einen retrieval-augmentierten LLM-Schreibassistenten, der mit einem generation-kalibrierten Retriever personalisiert wird. Unser Retriever wird darauf trainiert, historische, vom Benutzer verfasste Dokumente für die Prompt-Erweiterung auszuwählen, sodass sie wahrscheinlich die LLM-Generierungen für eine Benutzeranfrage am besten personalisieren. Wir schlagen zwei wesentliche Neuerungen für das Training unseres Retrievers vor: 1) Eine Methode zur Auswahl von Trainingsdaten, die Benutzeranfragen identifiziert, die wahrscheinlich von einer Personalisierung profitieren, sowie Dokumente, die diesen Nutzen bieten; und 2) Ein skalierkalibrierendes KL-Divergenz-Ziel, das sicherstellt, dass unser Retriever den Nutzen eines Dokuments für die personalisierte Generierung genau verfolgt. Wir demonstrieren die Wirksamkeit von PEARL bei der Generierung personalisierter Social-Media-Beiträge und Reddit-Kommentare am Arbeitsplatz. Schließlich zeigen wir das Potenzial eines generation-kalibrierten Retrievers auf, der gleichzeitig als Leistungsprädiktor fungiert und qualitativ minderwertige Generierungen durch LLM-Chaining weiter verbessert.
Jüngste Fortschritte bei Transformer-basierten Large Language Models haben große Fortschritte in der natürlichen Sprachgenerierung erzielt. Um jedoch K Tokens zu dekodieren, benötigt ein autoregressives Modell K sequenzielle Vorwärtspassagen, was ein Leistungsengpass für große Sprachmodelle darstellen kann. Viele Forschungen zu nicht-autoregressiven (NAR) Modellen zielen darauf ab, diesen sequenziellen Engpass zu beheben, wobei sich viele auf eine spezialisierte Architektur in überwachten Benchmarks konzentriert haben. In dieser Arbeit haben wir das unbeaufsichtigte Vortraining für nicht-autoregressive T5-Modelle durch unrolled Denoising untersucht und deren State-of-the-Art-Ergebnisse in nachgelagerten Generierungsaufgaben wie SQuAD-Fragengenerierung und XSum gezeigt.
Um das Vertrauen der Nutzer zu bewahren, sollten große Sprachmodelle (LLMs) bei Beispielen, bei denen sie falsch liegen, ein geringes Vertrauen signalisieren, anstatt den Nutzer in die Irre zu führen. Der Standardansatz zur Schätzung des Vertrauens besteht darin, die Softmax-Wahrscheinlichkeiten dieser Modelle zu verwenden, aber Stand November 2023 bieten state-of-the-art LLMs wie GPT-4 und Claude-v1.3 keinen Zugriff auf diese Wahrscheinlichkeiten. Wir untersuchen zunächst, das Vertrauen sprachlich zu ermitteln – indem wir ein LLM nach seinem Vertrauen in seine Antwort fragen – was vernünftige Ergebnisse liefert (80,5 % AUC bei GPT-4, gemittelt über 12 Frage-Antwort-Datensätze – 7 % über einer zufälligen Baseline), aber noch Raum für Verbesserungen lässt. Anschließend untersuchen wir die Verwendung eines Ersatzvertrauensmodells – ein Modell, bei dem wir Wahrscheinlichkeiten haben, um das Vertrauen des ursprünglichen Modells in eine gegebene Frage zu bewerten. Überraschenderweise führt diese Methode, obwohl diese Wahrscheinlichkeiten von einem anderen und oft schwächeren Modell stammen, bei 9 von 12 Datensätzen zu einer höheren AUC als sprachliche Vertrauensangaben. Unsere beste Methode, die sprachliche Vertrauensangaben und Wahrscheinlichkeiten des Ersatzmodells kombiniert, liefert state-of-the-art Vertrauensschätzungen für alle 12 Datensätze (84,6 % durchschnittliche AUC bei GPT-4).
Große Sprachmodelle (LLMs) haben eine transformative Ära im Bereich der natürlichen Sprachverarbeitung eingeleitet und glänzen bei Aufgaben im Zusammenhang mit Textverständnis und -generierung. Dennoch stoßen sie auf Schwierigkeiten, wenn sie mit chaotischen Kontexten konfrontiert werden (z. B. Ablenkungen statt langen irrelevanten Kontexten), was dazu führt, dass bestimmte Details innerhalb des chaotischen Kontexts versehentlich übersehen werden. Als Antwort auf diese Herausforderungen führen wir die „Thread of Thought“ (ThoT)-Strategie ein, die von menschlichen kognitiven Prozessen inspiriert ist. ThoT segmentiert und analysiert systematisch umfangreiche Kontexte und wählt dabei geschickt relevante Informationen aus. Diese Strategie dient als vielseitiges „Plug-and-Play“-Modul, das sich nahtlos in verschiedene LLMs und Prompting-Techniken integrieren lässt. In den Experimenten verwenden wir die PopQA- und EntityQ-Datensätze sowie einen von uns gesammelten Multi-Turn Conversation Response (MTCR)-Datensatz, um zu zeigen, dass ThoT die Reasoning-Leistung im Vergleich zu anderen Prompting-Techniken erheblich verbessert.
Die Bewertung von Large Language Models (LLMs) ist eine komplexe Aufgabe, insbesondere angesichts der Feinheiten des natürlichen Sprachverständnisses und der Erwartungen an hochrangiges Denken. Traditionelle Bewertungsmethoden stützen sich typischerweise auf menschenbasierte, modellbasierte oder automatische Metriken, wobei jede dieser Ansätze ihre eigenen Vor- und Nachteile hat. Wir stellen „Fusion-Eval“ vor, ein System, das LLMs nicht ausschließlich für direkte Bewertungen einsetzt, sondern geschickt Erkenntnisse aus verschiedenen Bewertern integriert. Dies verleiht Fusion-Eval Flexibilität, sodass es effektiv über verschiedene Aufgaben hinweg arbeiten und optimal mehrere Referenzen nutzen kann. Bei Tests am SummEval-Datensatz erreichte Fusion-Eval eine Spearman-Korrelation von 0,96 und übertraf damit andere Bewertungssysteme. Der Erfolg von Fusion-Eval unterstreicht das Potenzial von LLMs, Bewertungen zu erzeugen, die eng mit menschlichen Perspektiven übereinstimmen, und setzt damit einen neuen Standard im Bereich der LLM-Bewertung.