Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Text-zu-Bild-Diffusionsmodelle haben beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Bilder gezeigt. Wenn diese Modelle jedoch auf den Videobereich angewendet werden, bleibt die Sicherstellung der zeitlichen Konsistenz über Videobilder hinweg eine große Herausforderung. Dieses Papier schlägt ein neuartiges Zero-Shot-Text-geführtes Video-zu-Video-Übersetzungsframework vor, um Bildmodelle für Videos anzupassen. Das Framework besteht aus zwei Teilen: Schlüsselbild-Übersetzung und vollständige Video-Übersetzung. Der erste Teil verwendet ein angepasstes Diffusionsmodell, um Schlüsselbilder zu erzeugen, wobei hierarchische bildübergreifende Beschränkungen angewendet werden, um Kohärenz in Formen, Texturen und Farben zu gewährleisten. Der zweite Teil überträgt die Schlüsselbilder auf andere Bilder mit zeitlich bewusstem Patch-Matching und Bildverschmelzung. Unser Framework erreicht globale Stil- und lokale Textur-Zeitkonsistenz zu geringen Kosten (ohne Neu-Training oder Optimierung). Die Anpassung ist mit bestehenden Bilddiffusionstechniken kompatibel, was es unserem Framework ermöglicht, diese zu nutzen, wie z.B. die Anpassung eines bestimmten Subjekts mit LoRA und die Einführung zusätzlicher räumlicher Führung mit ControlNet. Umfangreiche experimentelle Ergebnisse demonstrieren die Effektivität unseres vorgeschlagenen Frameworks gegenüber bestehenden Methoden bei der Darstellung hochwertiger und zeitlich kohärenter Videos.
Wir präsentieren Generalized LoRA (GLoRA), einen fortschrittlichen Ansatz für universelle parameter-effiziente Feinabstimmungsaufgaben. GLoRA erweitert Low-Rank Adaptation (LoRA) durch die Verwendung eines generalisierten Prompt-Moduls, um die Gewichte vortrainierter Modelle zu optimieren und Zwischenaktivierungen anzupassen, wodurch mehr Flexibilität und Leistungsfähigkeit über verschiedene Aufgaben und Datensätze hinweg geboten wird. Darüber hinaus ermöglicht GLoRA eine effiziente Parameteranpassung durch die Verwendung einer skalierbaren, modularen, schichtweisen Struktursuche, die individuelle Adapter für jede Schicht lernt. Ausgehend von einer einheitlichen mathematischen Formulierung zeigt GLoRA starke Fähigkeiten im Transferlernen, Few-Shot-Lernen und der Domänengeneralisierung, da es sich durch zusätzliche Dimensionen bei Gewichten und Aktivierungen an neue Aufgaben anpasst. Umfassende Experimente zeigen, dass GLoRA alle bisherigen Methoden in natürlichen, spezialisierten und strukturierten Benchmarks übertrifft und mit weniger Parametern und Berechnungen auf verschiedenen Datensätzen eine überlegene Genauigkeit erreicht. Darüber hinaus stellt unser strukturelles Re-Parameterisierungsdesign sicher, dass GLoRA keine zusätzlichen Inferenzkosten verursacht, was es zu einer praktischen Lösung für ressourcenbeschränkte Anwendungen macht. Der Code ist verfügbar unter: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
In diesem Artikel konzentrieren wir uns darauf, wie künstliche Intelligenz (KI) genutzt werden kann, um Benutzer bei der Erstellung von Anime-Porträts zu unterstützen, d.h. das Konvertieren von groben Skizzen in Anime-Porträts während des Zeichenprozesses. Die Eingabe besteht aus einer Sequenz unvollständiger Freihandskizzen, die schrittweise Strich für Strich verfeinert werden, während die Ausgabe eine Sequenz hochwertiger Anime-Porträts ist, die den Eingabeskizzen als Leitfaden entsprechen. Obwohl aktuelle GANs hochwertige Bilder erzeugen können, ist es eine Herausforderung, die hohe Qualität der generierten Bilder aus Skizzen mit einem geringen Fertigstellungsgrad aufgrund von schlecht gestellten Problemen in der bedingten Bildgenerierung aufrechtzuerhalten. Selbst mit der neuesten Sketch-to-Image (S2I)-Technologie ist es schwierig, hochwertige Bilder aus unvollständigen groben Skizzen für Anime-Porträts zu erstellen, da der Anime-Stil tendenziell abstrakter ist als der realistische Stil. Um dieses Problem zu lösen, verwenden wir eine Latent-Space-Exploration von StyleGAN mit einer zweistufigen Trainingsstrategie. Wir betrachten die Eingabestriche einer Freihandskizze als Entsprechung zu kanteninformationsbezogenen Attributen im latenten Strukturcode von StyleGAN und bezeichnen die Übereinstimmung zwischen Strichen und diesen Attributen als Strich-Level-Disentanglement. In der ersten Stufe haben wir einen Bildencoder mit dem vortrainierten StyleGAN-Modell als Lehrer-Encoder trainiert. In der zweiten Stufe simulierten wir den Zeichenprozess der generierten Bilder ohne zusätzliche Daten (Labels) und trainierten den Skizzen-Encoder für unvollständige progressive Skizzen, um hochwertige Porträtbilder mit Feature-Alignment zu den disentangled Repräsentationen im Lehrer-Encoder zu erzeugen. Wir haben das vorgeschlagene progressive S2I-System sowohl qualitativ als auch quantitativ evaluiert und hochwertige Anime-Porträts aus unvollständigen progressiven Skizzen erzielt. Unsere Benutzerstudie bewies seine Effektivität bei der Unterstützung der Kunstschaffung im Anime-Stil.
Wir präsentieren WebGLM, ein webbasiertes Frage-Antwort-System, das auf dem General Language Model (GLM) basiert. Ziel ist es, ein vortrainiertes großes Sprachmodell (LLM) mit Web-Such- und Retrieval-Fähigkeiten zu erweitern, während es effizient für den Einsatz in der Praxis bleibt. Um dies zu erreichen, entwickeln wir WebGLM mit Strategien für den LLM-erweiterten Retriever, den bootstrapped Generator und einen menschlichen Präferenz-berücksichtigenden Scorer. Insbesondere identifizieren und adressieren wir die Einschränkungen von WebGPT (OpenAI), wodurch WebGLM mit Vorteilen in Bezug auf Genauigkeit, Effizienz und Kosteneffektivität ausgestattet wird. Zusätzlich schlagen wir systematische Kriterien für die Bewertung von webbasierten Frage-Antwort-Systemen vor. Wir führen mehrdimensionale menschliche Bewertungen und quantitative Ablationsstudien durch, die die Überlegenheit der vorgeschlagenen WebGLM-Designs gegenüber bestehenden Systemen nahelegen. WebGLM mit dem 10-Milliarden-Parameter-GLM (10B) zeigt in der menschlichen Bewertung eine bessere Leistung als das ähnlich große WebGPT (13B) und ist sogar vergleichbar mit WebGPT (175B). Der Code, die Demo und die Daten sind unter https://github.com/THUDM/WebGLM verfügbar.
Kontrastives Pretraining auf Bild-Text-Paaren aus dem Internet ist eine der beliebtesten groß angelegten Pretraining-Strategien für Vision-Backbones, insbesondere im Kontext großer multimodaler Modelle. Gleichzeitig wird Bildbeschreibung auf dieser Art von Daten häufig als eine unterlegene Pretraining-Strategie angesehen. In diesem Artikel führen wir einen fairen Vergleich dieser beiden Pretraining-Strategien durch, wobei wir Trainingsdaten, Rechenleistung und Modellkapazität sorgfältig abgleichen. Unter Verwendung eines standardmäßigen Encoder-Decoder-Transformers stellen wir fest, dass Bildbeschreibung allein überraschend effektiv ist: Bei Klassifizierungsaufgaben erzeugt Bildbeschreibung Vision-Encoder, die mit kontrastiv vortrainierten Encodern konkurrieren können, während sie diese bei Vision- und Sprachaufgaben übertreffen. Wir analysieren weiterhin den Einfluss der Modellarchitektur und -skalierung sowie der Pretraining-Daten auf die Repräsentationsqualität und stellen fest, dass Bildbeschreibung das gleiche oder ein besseres Skalierungsverhalten entlang dieser Achsen zeigt. Insgesamt zeigen unsere Ergebnisse, dass einfache Bildbeschreibung eine leistungsfähigere Pretraining-Strategie ist, als bisher angenommen wurde.
Große Sprachmodelle (LLMs) zeigen Fähigkeiten zum In-Context-Lernen, die es demselben Modell ermöglichen, mehrere Aufgaben ohne aufgabenspezifisches Training auszuführen. Im Gegensatz dazu passen traditionelle Adaptionsansätze, wie das Feinabstimmen (Fine-Tuning), die zugrunde liegenden Modelle für jede spezifische Aufgabe an. In-Context-Lernen schneidet jedoch selbst bei denselben Beispielen durchweg schlechter ab als aufgabenspezifische Abstimmungsansätze. Während sich die meisten bestehenden Ansätze (z. B. Prompt Engineering) auf die gelernten Repräsentationen des LLMs konzentrieren, um diese Leistungslücke zu schließen, zeigt unsere Analyse tatsächlich, dass die Repräsentationen des LLMs ausreichend Informationen enthalten, um gute Vorhersagen zu treffen. Daher konzentrieren wir uns auf die Fähigkeiten des LLMs zum logischen Schlussfolgern und zeigen, dass diese Leistungslücke auf ihre Unfähigkeit zurückzuführen ist, einfache probabilistische Schlussfolgerungsaufgaben durchzuführen. Dies wirft eine interessante Frage auf: Sind LLMs tatsächlich in der Lage, aufgabenunabhängig zu lernen, wie man schlussfolgert? Wir beantworten dies mit Ja und schlagen TART vor, das die Fähigkeiten eines LLMs zum logischen Schlussfolgern generisch verbessert, indem es ein synthetisch trainiertes Transformer-basiertes Schlussfolgerungsmodul verwendet. TART trainiert dieses Schlussfolgerungsmodul aufgabenunabhängig nur mit synthetischen logistischen Regressionsaufgaben und kombiniert es mit einem beliebigen realweltlichen vortrainierten Modell, ohne zusätzliches Training. Mit einem einzigen Inferenzmodul verbessert TART die Leistung über verschiedene Modellfamilien (GPT-Neo, Pythia, BLOOM), Modellgrößen (100M - 6B), Aufgaben (14 NLP-Binärklassifikationsaufgaben) und sogar über verschiedene Modalitäten (Audio und Vision) hinweg. Darüber hinaus verbessert TART auf dem RAFT-Benchmark die Leistung von GPT-Neo (125M) so stark, dass es BLOOM (176B) übertrifft und nur 4 % hinter GPT-3 (175B) liegt. Unser Code und unsere Modelle sind unter https://github.com/HazyResearch/TART verfügbar.
Die Text-zu-3D-Modellierung hat durch die Kombination generativer Text-zu-Bild-Modelle mit Bild-zu-3D-Methoden wie Neural Radiance Fields spannende Fortschritte erzielt. DreamFusion hat kürzlich hochwertige Ergebnisse erzielt, erfordert jedoch eine zeitintensive, pro-Prompt-Optimierung zur Erstellung von 3D-Objekten. Um dies zu adressieren, amortisieren wir die Optimierung über Text-Prompts, indem wir ein einheitliches Modell mit vielen Prompts gleichzeitig trainieren, anstatt sie separat zu behandeln. Dadurch teilen wir die Berechnungen über eine Prompt-Menge und reduzieren die Trainingszeit im Vergleich zur pro-Prompt-Optimierung. Unser Framework – Amortized Text-to-3D (ATT3D) – ermöglicht die Wissensweitergabe zwischen Prompts, um auf unbekannte Konfigurationen zu generalisieren und fließende Interpolationen zwischen Texten für neue Assets und einfache Animationen zu ermöglichen.
Große Sprachmodelle (LLMs) haben das Potenzial gezeigt, hochrangige Planungsaufgaben zu bewältigen. Dennoch bleibt es eine Herausforderung für LLMs, niedrigrangige Befehle wie Gelenkwinkelziele oder Motordrehmomente zu verstehen. Dieses Papier schlägt einen Ansatz vor, der Fußkontaktmuster als Schnittstelle verwendet, um menschliche Befehle in natürlicher Sprache mit einem Fortbewegungsregler zu verbinden, der diese niedrigrangigen Befehle ausgibt. Dies führt zu einem interaktiven System für vierbeinige Roboter, das es den Nutzern ermöglicht, vielfältige Fortbewegungsverhalten flexibel zu gestalten. Wir tragen ein LLM-Prompt-Design, eine Belohnungsfunktion und eine Methode bei, um den Regler mit der realisierbaren Verteilung von Kontaktmustern vertraut zu machen. Die Ergebnisse sind ein Regler, der in der Lage ist, diverse Fortbewegungsmuster zu erreichen, die auf echte Roboterhardware übertragen werden können. Im Vergleich zu anderen Designentscheidungen erreicht der vorgeschlagene Ansatz eine Erfolgsrate von mehr als 50 % bei der Vorhersage der korrekten Kontaktmuster und kann 10 zusätzliche Aufgaben von insgesamt 30 Aufgaben lösen. Unsere Projektseite ist: https://saytap.github.io.
In dieser Arbeit streben wir die Rekonstruktion eines zeitlich variierenden 3D-Modells an, das in der Lage ist, fotorealistische Darstellungen mit unabhängiger Steuerung von Blickwinkel, Beleuchtung und Zeit aus Internetfotos von großflächigen Wahrzeichen zu erzeugen. Die zentralen Herausforderungen sind zweifach. Erstens sind verschiedene Arten von zeitlichen Veränderungen, wie Beleuchtung und Änderungen der zugrunde liegenden Szene selbst (z. B. das Ersetzen eines Graffitikunstwerks durch ein anderes), in den Bildern miteinander verflochten. Zweitens sind szenenbezogene zeitliche Veränderungen oft diskret und sporadisch über die Zeit verteilt, anstatt kontinuierlich zu sein. Um diese Probleme zu bewältigen, schlagen wir eine neue Szenendarstellung vor, die mit einer neuartigen Methode zur Kodierung von zeitlichen Sprungfunktionen ausgestattet ist, die diskrete szenenbezogene Inhaltsänderungen als stückweise konstante Funktionen über die Zeit modellieren kann. Konkret repräsentieren wir die Szene als ein Raum-Zeit-Radiance-Feld mit einer pro Bild eingebetteten Beleuchtung, wobei zeitlich variierende Szenenänderungen mithilfe einer Reihe von gelernten Sprungfunktionen kodiert werden. Um unsere Aufgabe der Chronologie-Rekonstruktion aus Internetbildern zu erleichtern, haben wir außerdem einen neuen Datensatz von vier Szenen gesammelt, die verschiedene Veränderungen im Laufe der Zeit aufweisen. Wir zeigen, dass unsere Methode auf diesem Datensatz state-of-the-art Ergebnisse bei der Ansichtssynthese erzielt, während sie eine unabhängige Steuerung von Blickwinkel, Zeit und Beleuchtung ermöglicht.
Ohne eine genaue Transkription numerischer Daten in wissenschaftlichen Dokumenten kann ein Wissenschaftler keine präzisen Schlussfolgerungen ziehen. Leider ist der Prozess des Kopierens numerischer Daten von einem Papier in ein anderer anfällig für menschliche Fehler. In diesem Artikel schlagen wir vor, diese Herausforderung durch die neuartige Aufgabe der automatischen Tabellenverifizierung (AutoTV) zu bewältigen, bei der es darum geht, die Genauigkeit numerischer Daten in Tabellen durch den Abgleich mit zitierten Quellen zu überprüfen. Um diese Aufgabe zu unterstützen, stellen wir einen neuen Benchmark vor, arXiVeri, der Tabellendaten aus frei zugänglichen akademischen Artikeln auf arXiv umfasst. Wir führen Metriken ein, um die Leistung eines Tabellenverifizierers in zwei Schlüsselbereichen zu bewerten: (i) Tabellenabgleich, bei dem es darum geht, die Quelltabelle in einem zitierten Dokument zu identifizieren, die einer Zieltabelle entspricht, und (ii) Zellenabgleich, bei dem es darum geht, gemeinsame Zellen zwischen einer Ziel- und einer Quelltabelle zu lokalisieren und ihre Zeilen- und Spaltenindizes genau zu bestimmen. Durch die Nutzung der flexiblen Fähigkeiten moderner großer Sprachmodelle (LLMs) schlagen wir einfache Baselines für die Tabellenverifizierung vor. Unsere Ergebnisse unterstreichen die Komplexität dieser Aufgabe, selbst für state-of-the-art LLMs wie OpenAI's GPT-4. Der Code und der Benchmark werden öffentlich zugänglich gemacht.
Große Sprachmodelle (LLMs) wurden im Bereich der Sprachverarbeitung eingesetzt, was oft zu einem Leistungsabfall aufgrund von Fehlausrichtungen zwischen Sprach- und Textrepräsentationen führt. Um diese Lücke zu schließen, schlagen wir ein gemeinsames Sprach- und Textmodell (SLM) vor, das einen Speech2Text-Adapter verwendet, der Sprache in den Text-Token-Einbettungsraum abbildet, ohne Sprachinformationen zu verlieren. Zusätzlich können wir durch eine CTC-basierte Leerzeichenfilterung die Länge der Sprachsequenz auf die des Textes reduzieren. Im Speech MultiWoz-Datensatz (DSTC11-Challenge) verbessert das SLM die Leistung der Dialogzustandsverfolgung (DST) erheblich (von 24,7 % auf 28,4 % Genauigkeit). Um Fehler bei seltenen Entitäten zu beheben, erweitern wir das SLM mit einem Speech2Entity-Retriever, der Sprache verwendet, um relevante Entitäten abzurufen, und diese dann als Präfix zum ursprünglichen SLM-Eingabe hinzufügt. Mit diesem retrievergestützten SLM (ReSLM) steigt die DST-Leistung auf 34,6 % Genauigkeit. Darüber hinaus verbessert die Erweiterung der ASR-Aufgabe um die Dialogverständnisaufgabe die ASR-Leistung von 9,4 % auf 8,5 % WER.
Wir schlagen einen neuen score-basierten Ansatz vor, um 3D-Moleküle zu generieren, die als atomare Dichten auf regelmäßigen Gittern dargestellt werden. Zunächst trainieren wir ein denoisendes neuronales Netzwerk, das lernt, von einer glatten Verteilung verrauschter Moleküle zur Verteilung echter Moleküle abzubilden. Anschließend folgen wir dem neuralen empirischen Bayes-Rahmen [Saremi und Hyvarinen, 2019] und generieren Moleküle in zwei Schritten: (i) Ziehen von verrauschten Dichtegittern aus einer glatten Verteilung mittels untergedämpfter Langevin-Markov-Ketten-Monte-Carlo-Methode und (ii) Wiederherstellung des „sauberen“ Moleküls durch Entrauschen des verrauschten Gitters in einem einzigen Schritt. Unser Verfahren, VoxMol, generiert Moleküle auf eine grundlegend andere Weise als der aktuelle Stand der Technik (d.h. Diffusionsmodelle, die auf Atompunktwolken angewendet werden). Es unterscheidet sich in Bezug auf die Datenrepräsentation, das Rauschmodell, die Netzwerkarchitektur und den generativen Modellierungsalgorithmus. VoxMol erzielt vergleichbare Ergebnisse wie der Stand der Technik bei der unbedingten 3D-Molekülgenerierung, ist jedoch einfacher zu trainieren und schneller in der Molekülgenerierung.
Wir argumentieren, dass es viele Vorstellungen von „Ähnlichkeit“ gibt und dass Modelle, ähnlich wie Menschen, in der Lage sein sollten, sich dynamisch an diese anzupassen. Dies steht im Gegensatz zu den meisten Methoden des Repräsentationslernens, sei es überwacht oder selbstüberwacht, die eine feste Einbettungsfunktion erlernen und somit implizit eine einzige Vorstellung von Ähnlichkeit annehmen. Beispielsweise sind Modelle, die auf ImageNet trainiert wurden, auf Objektkategorien ausgerichtet, während ein Benutzer möglicherweise bevorzugt, dass das Modell sich auf Farben, Texturen oder spezifische Elemente in der Szene konzentriert. In diesem Artikel schlagen wir den GeneCIS-Benchmark („Genesis“) vor, der die Fähigkeit von Modellen misst, sich an eine Reihe von Ähnlichkeitsbedingungen anzupassen. In Erweiterung früherer Arbeiten ist unser Benchmark ausschließlich für die Zero-Shot-Evaluierung konzipiert und betrachtet somit eine offene Menge von Ähnlichkeitsbedingungen. Wir stellen fest, dass Baseline-Modelle leistungsstarker CLIP-Modelle bei GeneCIS Schwierigkeiten haben und dass die Leistung auf dem Benchmark nur schwach mit der Genauigkeit auf ImageNet korreliert, was darauf hindeutet, dass eine einfache Skalierung bestehender Methoden nicht zielführend ist. Darüber hinaus schlagen wir eine einfache, skalierbare Lösung vor, die auf der automatischen Extraktion von Informationen aus bestehenden Bild-Beschriftungs-Datensätzen basiert. Wir stellen fest, dass unsere Methode eine erhebliche Verbesserung gegenüber den Baseline-Modellen auf GeneCIS bietet und die Zero-Shot-Leistung auf verwandten Bildersuch-Benchmarks weiter verbessert. Tatsächlich übertrifft unser Modell, obwohl es Zero-Shot evaluiert wird, state-of-the-art überwachte Modelle auf MIT-States. Projektseite unter https://sgvaze.github.io/genecis/.
Wir präsentieren Galactic, ein groß angelegtes Simulations- und Reinforcement-Learning (RL)-Framework für die mobile Manipulation von Robotern in Innenräumen. Konkret wird ein Fetch-Roboter (ausgestattet mit einer mobilen Basis, einem 7DoF-Arm, einer RGBD-Kamera, Egomotion und Onboard-Sensoren) in einer häuslichen Umgebung platziert und aufgefordert, Objekte umzuordnen – indem er zu einem Objekt navigiert, es aufnimmt, zu einem Zielort navigiert und das Objekt dann am Zielort platziert. Galactic ist schnell. In Bezug auf die Simulationsgeschwindigkeit (Rendering + Physik) erreicht Galactic über 421.000 Schritte pro Sekunde (SPS) auf einem 8-GPU-Knoten, was 54-mal schneller ist als Habitat 2.0 (7699 SPS). Noch wichtiger ist, dass Galactic so konzipiert wurde, um das gesamte Zusammenspiel von Rendering, Physik und RL zu optimieren, da jeder Engpass in diesem Zusammenspiel das Training verlangsamt. In Bezug auf die Simulations-+RL-Geschwindigkeit (Rendering + Physik + Inferenz + Lernen) erreicht Galactic über 108.000 SPS, was 88-mal schneller ist als Habitat 2.0 (1243 SPS). Diese massiven Beschleunigungen verkürzen nicht nur drastisch die Echtzeit-Trainingsdauer bestehender Experimente, sondern ermöglichen auch einen beispiellosen Umfang neuer Experimente. Erstens kann Galactic eine mobile Greiffertigkeit in weniger als 16 Minuten auf eine Genauigkeit von über 80 % trainieren, was einer 100-fachen Beschleunigung im Vergleich zu den über 24 Stunden entspricht, die das Training derselben Fertigkeit in Habitat 2.0 erfordert. Zweitens nutzen wir Galactic, um das bisher größte Experiment zur Umordnung durchzuführen, bei dem 5 Milliarden Schritte an Erfahrung in 46 Stunden gesammelt werden, was 20 Jahren Robotererfahrung entspricht. Diese Skalierung führt zu einem einzelnen neuronalen Netzwerk, das aus aufgabenunabhängigen Komponenten besteht und eine Erfolgsquote von 85 % bei der GeometricGoal-Umordnung erreicht, verglichen mit 0 % Erfolg, die in Habitat 2.0 für denselben Ansatz berichtet wurden. Der Code ist unter github.com/facebookresearch/galactic verfügbar.
Bestehende Methoden zur Erfassung von Datensätzen von 3D-Köpfen in dichter semantischer Korrespondenz sind langsam und behandeln das Problem üblicherweise in zwei separaten Schritten: Multi-View-Stereo (MVS)-Rekonstruktion gefolgt von nicht-starrer Registrierung. Um diesen Prozess zu vereinfachen, führen wir TEMPEH (Towards Estimation of 3D Meshes from Performances of Expressive Heads) ein, um 3D-Köpfe in dichter Korrespondenz direkt aus kalibrierten Multi-View-Bildern abzuleiten. Die Registrierung von Datensätzen aus 3D-Scans erfordert typischerweise manuelle Parameteroptimierung, um die richtige Balance zwischen einer präzisen Anpassung der Scan-Oberflächen und der Robustheit gegenüber Scan-Rauschen und Ausreißern zu finden. Stattdessen schlagen wir vor, einen 3D-Kopfdatensatz gemeinsam mit dem Training von TEMPEH zu registrieren. Konkret minimieren wir während des Trainings einen geometrischen Verlust, der üblicherweise für die Oberflächenregistrierung verwendet wird, und nutzen TEMPEH effektiv als Regularisierer. Unsere Multi-View-Kopfableitung basiert auf einer volumetrischen Merkmalsdarstellung, die Merkmale aus jeder Ansicht unter Verwendung von Kamerakalibrierungsinformationen abtastet und fusioniert. Um partielle Verdeckungen und ein großes Aufnahmevolumen, das Kopfbewegungen ermöglicht, zu berücksichtigen, verwenden wir eine ansichts- und oberflächenbewusste Merkmalsfusion sowie ein raumtransformatorbasiertes Kopf-Lokalisierungsmodul. Wir verwenden rohe MVS-Scans als Supervision während des Trainings, aber einmal trainiert, sagt TEMPEH direkt 3D-Köpfe in dichter Korrespondenz voraus, ohne Scans zu benötigen. Die Vorhersage eines Kopfes dauert etwa 0,3 Sekunden mit einem medianen Rekonstruktionsfehler von 0,26 mm, was 64 % niedriger ist als der aktuelle Stand der Technik. Dies ermöglicht die effiziente Erfassung großer Datensätze, die mehrere Personen und diverse Gesichtsbewegungen enthalten. Code, Modell und Daten sind öffentlich verfügbar unter https://tempeh.is.tue.mpg.de.
Transkriptionen von Telefongesprächen sind in verschiedenen Bereichen von erheblichem Wert, wie beispielsweise im Vertrieb, Kundenservice, Gesundheitswesen und in der Strafverfolgung. Dennoch kann die Analyse dieser aufgezeichneten Gespräche ein mühsamer und zeitintensiver Prozess sein, insbesondere bei langen oder komplexen Dialogen. In dieser Arbeit schlagen wir eine neuartige Methode vor, GPT-distilled Calls Segmentation and Tagging (GPT-Calls), für eine effiziente und präzise Segmentierung und Themenextraktion von Gesprächen. GPT-Calls besteht aus Offline- und Online-Phasen. Die Offline-Phase wird einmal auf eine gegebene Liste von Themen angewendet und umfasst die Generierung einer Verteilung synthetischer Sätze für jedes Thema mithilfe eines GPT-Modells sowie die Extraktion von Ankervektoren. Die Online-Phase wird auf jedes Gespräch separat angewendet und bewertet die Ähnlichkeit zwischen dem transkribierten Gespräch und den in der Offline-Phase ermittelten Themenankern. Anschließend wird eine Zeitbereichsanalyse auf die Ähnlichkeitswerte angewendet, um Äußerungen in Segmente zu gruppieren und sie mit Themen zu versehen. Das vorgeschlagene Paradigma bietet eine präzise und effiziente Methode für die Segmentierung und Themenextraktion von Gesprächen, die keine annotierten Daten erfordert, wodurch es sich als vielseitiger Ansatz für verschiedene Domänen eignet. Unser Algorithmus wird in der Produktion unter Dynamics 365 Sales Conversation Intelligence eingesetzt, und unsere Forschung basiert auf realen Vertriebsgesprächen, die von verschiedenen Dynamics 365 Sales-Mandanten gesammelt wurden.
Angesichts der überwältigenden Menge an Daten, die heute sowohl online als auch offline verfügbar sind, sind Empfehlungssysteme dringend erforderlich, um Nutzern dabei zu helfen, auf ihre Interessen zugeschnittene Inhalte zu finden. Wenn Informationen aus sozialen Netzwerken vorhanden sind, gibt es Methoden, die diese Informationen nutzen, um bessere Empfehlungen zu geben. Allerdings sind diese Methoden oft umständlich, mit komplexen Architekturen und Trainingsverfahren. Darüber hinaus verwenden viele der bestehenden Methoden Graph-Neuronale Netzwerke, die bekanntermaßen schwer zu trainieren sind. Um dies zu adressieren, schlagen wir Socially-aware Temporally caUsal Decoder recommender sYstems (STUDY) vor. STUDY führt eine gemeinsame Inferenz über Gruppen von Nutzern durch, die im sozialen Netzwerk-Graph benachbart sind, und verwendet dabei einen einzigen Vorwärtsdurchlauf eines modifizierten Transformer-Decoder-Netzwerks. Wir testen unsere Methode in einem schulbasierten Bildungskontext, wobei die Klassenstruktur zur Definition sozialer Netzwerke verwendet wird. Unsere Methode übertrifft sowohl soziale als auch sequenzielle Methoden und behält dabei die Design-Einfachheit eines einzigen homogenen Netzwerks bei, das alle Interaktionen in den Daten modelliert. Wir führen auch Ablationsstudien durch, um die Treiber unserer Leistungssteigerungen zu verstehen, und stellen fest, dass unser Modell von der Nutzung einer sozialen Netzwerkstruktur abhängt, die die Ähnlichkeiten im Nutzerverhalten effektiv modelliert.