Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diffusionsmodelle dominieren derzeit das Feld der datengesteuerten Bildsynthese mit ihrer beispiellosen Skalierbarkeit auf große Datensätze. In diesem Artikel identifizieren und beheben wir mehrere Ursachen für ungleichmäßiges und ineffektives Training in der populären ADM-Diffusionsmodellarchitektur, ohne dessen übergeordnete Struktur zu verändern. Durch die Beobachtung unkontrollierter Größenänderungen und Ungleichgewichte in den Netzwerkaktivierungen und -gewichten während des Trainingsprozesses gestalten wir die Netzwerkschichten neu, um die Größenordnungen von Aktivierungen, Gewichten und Updates im Erwartungswert zu erhalten. Wir stellen fest, dass die systematische Anwendung dieses Prinzips die beobachteten Drifts und Ungleichgewichte beseitigt, was zu deutlich besseren Netzwerken bei gleicher Rechenkomplexität führt. Unsere Modifikationen verbessern den bisherigen Rekord-FID von 2,41 in der ImageNet-512-Synthese auf 1,81, erreicht mit schnellem deterministischem Sampling. Als eigenständigen Beitrag präsentieren wir eine Methode zur nachträglichen Festlegung der Parameter des exponentiellen gleitenden Durchschnitts (EMA), d.h. nach Abschluss des Trainingslaufs. Dies ermöglicht eine präzise Feinabstimmung der EMA-Länge ohne die Kosten mehrerer Trainingsläufe und offenbart deren überraschende Wechselwirkungen mit Netzwerkarchitektur, Trainingsdauer und Guidance.
Wir stellen „ImageDream“ vor, ein innovatives Bild-Prompt-Multi-View-Diffusionsmodell zur 3D-Objekterzeugung. ImageDream zeichnet sich durch seine Fähigkeit aus, 3D-Modelle von höherer Qualität im Vergleich zu bestehenden, bildbasierten State-of-the-Art-Methoden zu erzeugen. Unser Ansatz nutzt eine kanonische Kamerakoordination für die Objekte in den Bildern, was die Genauigkeit der visuellen Geometrie verbessert. Das Modell ist mit verschiedenen Kontrollebenen in jedem Block innerhalb des Diffusionsmodells basierend auf dem Eingabebild gestaltet, wobei die globale Kontrolle das Gesamtlayout des Objekts formt und die lokale Kontrolle die Bilddetails feinabstimmt. Die Wirksamkeit von ImageDream wird durch umfangreiche Evaluierungen anhand einer standardisierten Prompt-Liste demonstriert. Weitere Informationen finden Sie auf unserer Projektseite unter https://Image-Dream.github.io.
Die Qualität der Neubeleuchtung wird sowohl durch die Geometrie- als auch durch die Darstellung der Erscheinung begrenzt. Bei der Geometrie haben sowohl Mesh- als auch volumetrische Ansätze Schwierigkeiten, komplexe Strukturen wie 3D-Haargeometrie zu modellieren. Bei der Erscheinung sind bestehende Neubeleuchtungsmodelle in ihrer Qualität eingeschränkt und oft zu langsam, um in Echtzeit mit hochauflösenden, kontinuierlichen Umgebungen gerendert zu werden. In dieser Arbeit präsentieren wir Relightable Gaussian Codec Avatars, eine Methode zur Erstellung hochwertiger, neubeleuchtbarer Kopfavatare, die animiert werden können, um neue Ausdrücke zu erzeugen. Unser Geometriemodell basiert auf 3D-Gaußschen und kann 3D-konsistente Details im Submillimeterbereich wie Haare und Poren in dynamischen Gesichtssequenzen erfassen. Um verschiedene Materialien des menschlichen Kopfes wie Augen, Haut und Haare einheitlich zu unterstützen, stellen wir ein neuartiges neubeleuchtbares Erscheinungsmodell basierend auf lernbarer Strahlungstransfer vor. Zusammen mit global beleuchtungsbewussten sphärischen Harmonischen für die diffusen Komponenten erreichen wir eine Echtzeit-Neubeleuchtung mit räumlich hochfrequenten Reflexionen unter Verwendung von sphärischen Gaußschen. Dieses Erscheinungsmodell kann effizient sowohl unter Punktlicht als auch unter kontinuierlicher Beleuchtung neu beleuchtet werden. Wir verbessern weiterhin die Qualität der Augenreflexionen und ermöglichen eine explizite Blicksteuerung durch die Einführung von neubeleuchtbaren expliziten Augenmodellen. Unsere Methode übertrifft bestehende Ansätze, ohne die Echtzeitleistung zu beeinträchtigen. Wir demonstrieren auch die Echtzeit-Neubeleuchtung von Avataren auf einem kabelgebundenen Consumer-VR-Headset, was die Effizienz und Qualität unserer Avatare unterstreicht.
Wir stellen X-Adapter vor, einen universellen Upgrader, der es vortrainierten Plug-and-Play-Modulen (z. B. ControlNet, LoRA) ermöglicht, direkt mit dem aktualisierten Text-zu-Bild-Diffusionsmodell (z. B. SDXL) zu arbeiten, ohne dass eine weitere Nachschulung erforderlich ist. Dieses Ziel erreichen wir, indem wir ein zusätzliches Netzwerk trainieren, um das eingefrorene aktualisierte Modell mit neuen Text-Bild-Datenpaaren zu steuern. Im Detail behält X-Adapter eine eingefrorene Kopie des alten Modells, um die Verbindungen verschiedener Plugins zu bewahren. Zusätzlich fügt X-Adapter trainierbare Mapping-Schichten hinzu, die die Decoder von Modellen unterschiedlicher Versionen für die Feature-Remapping verbinden. Die remappten Features werden als Anleitung für das aktualisierte Modell verwendet. Um die Anleitungsfähigkeit von X-Adapter zu verbessern, verwenden wir eine Null-Text-Trainingsstrategie für das aktualisierte Modell. Nach dem Training führen wir auch eine zweistufige Denoising-Strategie ein, um die initialen Latents von X-Adapter und dem aktualisierten Modell auszurichten. Dank unserer Strategien zeigt X-Adapter universelle Kompatibilität mit verschiedenen Plugins und ermöglicht es auch Plugins unterschiedlicher Versionen, zusammenzuarbeiten, wodurch die Funktionalitäten der Diffusions-Community erweitert werden. Um die Wirksamkeit der vorgeschlagenen Methode zu überprüfen, führen wir umfangreiche Experimente durch, und die Ergebnisse zeigen, dass X-Adapter eine breitere Anwendung im aktualisierten grundlegenden Diffusionsmodell erleichtern kann.
Multimodale große Sprachmodelle (MLLMs) haben aufgrund ihrer starken Fähigkeit zum multimodalen Verständnis erhebliche Aufmerksamkeit erregt. Bisherige Arbeiten stützen sich jedoch stark auf modalspezifische Encoder, die sich in der Architektur unterscheiden und auf gängige Modalitäten beschränkt sind. In diesem Artikel präsentieren wir OneLLM, ein MLLM, das acht Modalitäten mithilfe eines einheitlichen Frameworks an Sprache anpasst. Dies erreichen wir durch einen einheitlichen multimodalen Encoder und eine progressive multimodale Anpassungspipeline. Im Detail trainieren wir zunächst ein Bildprojektionsmodul, um einen Vision-Encoder mit dem LLM zu verbinden. Anschließend erstellen wir ein universelles Projektionsmodul (UPM), indem wir mehrere Bildprojektionsmodule und dynamisches Routing kombinieren. Schließlich passen wir schrittweise weitere Modalitäten mithilfe des UPM an das LLM an. Um das volle Potenzial von OneLLM bei der Befolgung von Anweisungen auszuschöpfen, haben wir auch einen umfassenden multimodalen Instruktionsdatensatz zusammengestellt, der 2M Einträge aus Bildern, Audio, Videos, Punktwolken, Tiefen-/Normalenkarten, IMU und fMRI-Gehirnaktivitäten umfasst. OneLLM wird auf 25 verschiedenen Benchmarks evaluiert, die Aufgaben wie multimodale Beschriftung, Fragebeantwortung und logisches Schlussfolgern umfassen, und zeigt dabei hervorragende Leistungen. Code, Daten, Modell und eine Online-Demo sind unter https://github.com/csuhan/OneLLM verfügbar.
Diffusionsmodelle haben kürzlich das Feld der Bildsynthese revolutioniert, da sie in der Lage sind, fotorealistische Bilder zu erzeugen. Ein wesentlicher Nachteil von Diffusionsmodellen besteht jedoch darin, dass der Bildgenerierungsprozess rechenintensiv ist. Ein großes Bild-zu-Bild-Netzwerk muss viele Male angewendet werden, um ein Bild iterativ aus zufälligem Rauschen zu verfeinern. Obwohl viele aktuelle Arbeiten Techniken vorschlagen, um die Anzahl der erforderlichen Schritte zu reduzieren, behandeln sie das zugrunde liegende Entrauschungsnetzwerk in der Regel als Blackbox. In dieser Arbeit untersuchen wir das Verhalten der Schichten innerhalb des Netzwerks und stellen fest, dass 1) die Ausgaben der Schichten sich im Laufe der Zeit glatt verändern, 2) die Schichten deutliche Veränderungsmuster aufweisen und 3) die Veränderung von Schritt zu Schritt oft sehr gering ist. Wir stellen die Hypothese auf, dass viele Schichtberechnungen im Entrauschungsnetzwerk redundant sind. Dies nutzend, führen wir Block-Caching ein, bei dem wir Ausgaben von Schichtblöcken aus vorherigen Schritten wiederverwenden, um die Inferenz zu beschleunigen. Darüber hinaus schlagen wir eine Technik vor, um Caching-Pläne automatisch basierend auf den Veränderungen jedes Blocks über die Zeitschritte hinweg zu bestimmen. In unseren Experimenten zeigen wir durch FID, menschliche Bewertung und qualitative Analyse, dass Block-Caching die Erzeugung von Bildern mit höherer visueller Qualität bei gleichen Rechenkosten ermöglicht. Wir demonstrieren dies für verschiedene state-of-the-art Modelle (LDM und EMU) und Solver (DDIM und DPM).
Wir stellen LooseControl vor, um eine generalisierte Tiefenkonditionierung für die diffusionsbasierte Bildgenerierung zu ermöglichen. ControlNet, der State-of-the-Art für tiefenkonditionierte Bildgenerierung, erzielt bemerkenswerte Ergebnisse, ist jedoch auf den Zugriff auf detaillierte Tiefenkarten zur Führung angewiesen. Die Erstellung solcher präziser Tiefenkarten ist in vielen Szenarien eine Herausforderung. Dieses Papier führt eine generalisierte Version der Tiefenkonditionierung ein, die viele neue Workflows zur Inhaltserstellung ermöglicht. Konkret ermöglichen wir (C1) die Steuerung von Szenengrenzen, um Szenen nur mit Randbedingungen grob zu spezifizieren, und (C2) die 3D-Box-Steuerung, um die Layoutpositionen der Zielobjekte anstelle der exakten Form und des Aussehens der Objekte festzulegen. Mit LooseControl können Benutzer, zusammen mit Textanweisungen, komplexe Umgebungen (z.B. Räume, Straßenansichten usw.) erstellen, indem sie nur Szenengrenzen und Positionen der Hauptobjekte angeben. Darüber hinaus bieten wir zwei Bearbeitungsmechanismen zur Verfeinerung der Ergebnisse: (E1) Die 3D-Box-Bearbeitung ermöglicht es dem Benutzer, Bilder zu verfeinern, indem er Boxen ändert, hinzufügt oder entfernt, während der Stil des Bildes eingefroren wird. Dies führt zu minimalen Änderungen, abgesehen von den durch die bearbeiteten Boxen verursachten Änderungen. (E2) Die Attributbearbeitung schlägt mögliche Bearbeitungsrichtungen vor, um einen bestimmten Aspekt der Szene zu ändern, wie z.B. die Gesamtobjektdichte oder ein bestimmtes Objekt. Umfangreiche Tests und Vergleiche mit Baselines demonstrieren die Allgemeingültigkeit unserer Methode. Wir glauben, dass LooseControl ein wichtiges Designtool für die einfache Erstellung komplexer Umgebungen werden und auf andere Formen von Führungskanälen erweitert werden kann. Code und weitere Informationen sind verfügbar unter https://shariqfarooq123.github.io/loose-control/.
Anpassungstechniken für Text-zu-Bild-Modelle haben den Weg für eine Vielzahl von bisher unerreichbaren Anwendungen geebnet, indem sie die Erzeugung spezifischer Konzepte in verschiedenen Kontexten und Stilen ermöglichen. Während bestehende Methoden eine hochpräzise Anpassung für einzelne Konzepte oder eine begrenzte, vordefinierte Menge davon ermöglichen, erreichen sie keine Skalierbarkeit, bei der ein einzelnes Modell nahtlos unzählige Konzepte darstellen kann. In diesem Artikel behandeln wir ein neues Problem namens Modulare Anpassung, mit dem Ziel, angepasste Modelle, die unabhängig für einzelne Konzepte feinabgestimmt wurden, effizient zu kombinieren. Dies ermöglicht es dem kombinierten Modell, Konzepte gemeinsam in einem Bild zu synthetisieren, ohne die Präzision zu beeinträchtigen oder zusätzliche Rechenkosten zu verursachen. Um dieses Problem zu lösen, führen wir Orthogonale Anpassung ein, eine Methode, die darauf abzielt, die angepassten Modelle, die während der Feinabstimmung keinen Zugriff aufeinander haben, dazu zu bringen, orthogonale Restgewichte zu haben. Dies stellt sicher, dass die angepassten Modelle während der Inferenzzeit mit minimaler Interferenz summiert werden können. Unsere vorgeschlagene Methode ist sowohl einfach als auch vielseitig und auf nahezu alle optimierbaren Gewichte in der Modellarchitektur anwendbar. Durch eine umfangreiche Reihe von quantitativen und qualitativen Bewertungen übertrifft unsere Methode relevante Baselines konsequent in Bezug auf Effizienz und Identitätserhaltung und zeigt einen bedeutenden Fortschritt in Richtung skalierbarer Anpassung von Diffusionsmodellen.
Die Bearbeitung visueller Inhalte in Videos bleibt eine große Herausforderung mit zwei Hauptproblemen: 1) direkte und einfache Benutzersteuerung, um 2) natürliche Bearbeitungsergebnisse ohne störende Verzerrungen und Artefakte nach der Veränderung von Form, Ausdruck und Layout zu erzielen. Inspiriert von DragGAN, einer kürzlich entwickelten bildbasierten Drag-Style-Bearbeitungstechnik, gehen wir diese Probleme an, indem wir DragVideo vorschlagen, bei dem eine ähnliche Drag-Style-Benutzerinteraktion zur Bearbeitung von Videoinhalten unter Beibehaltung der zeitlichen Konsistenz verwendet wird. Gestärkt durch aktuelle Diffusionsmodelle wie in DragDiffusion, enthält DragVideo die neuartige Drag-on-Video U-Net (DoVe)-Bearbeitungsmethode, die diffundierte Video-Latents optimiert, die vom Video U-Net erzeugt werden, um die gewünschte Steuerung zu erreichen. Insbesondere verwenden wir Sample-spezifisches LoRA-Fine-Tuning und Mutual Self-Attention-Steuerung, um eine treue Rekonstruktion des Videos mit der DoVe-Methode sicherzustellen. Wir präsentieren auch eine Reihe von Testbeispielen für die Drag-Style-Videobearbeitung und führen umfangreiche Experimente über eine Vielzahl anspruchsvoller Bearbeitungsaufgaben durch, wie z.B. Bewegungsbearbeitung, Skelettbearbeitung usw., die die Vielseitigkeit und Allgemeingültigkeit von DragVideo unterstreichen. Unser Code, einschließlich der DragVideo-Web-Benutzeroberfläche, wird veröffentlicht.
In dieser Ära kann der Erfolg von großen Sprachmodellen und Text-zu-Bild-Modellen auf die treibende Kraft groß angelegter Datensätze zurückgeführt werden. Im Bereich der 3D-Vision wurden jedoch, obwohl bemerkenswerte Fortschritte mit Modellen erzielt wurden, die auf groß angelegten synthetischen und real erfassten Objektdaten wie Objaverse und MVImgNet trainiert wurden, ähnliche Fortschritte im Bereich der menschenzentrierten Aufgaben teilweise aufgrund des Mangels an einem groß angelegten menschlichen Datensatz nicht beobachtet. Bestehende Datensätze von hochwertigen 3D-Menschenaufnahmen bleiben aufgrund der erheblichen Herausforderungen bei der Erfassung groß angelegter, hochwertiger 3D-Menschendaten mittelgroß. Um diese Lücke zu schließen, präsentieren wir MVHumanNet, einen Datensatz, der Multi-View-Mensch-Aktionssequenzen von 4.500 menschlichen Identitäten umfasst. Der Schwerpunkt unserer Arbeit liegt auf der Erfassung von menschlichen Daten, die eine große Anzahl verschiedener Identitäten und alltägliche Kleidung mit einem Multi-View-Menschenerfassungssystem beinhalten, das eine leicht skalierbare Datenerfassung ermöglicht. Unser Datensatz enthält 9.000 tägliche Outfits, 60.000 Bewegungssequenzen und 645 Millionen Frames mit umfangreichen Annotationen, einschließlich menschlicher Masken, Kameraparameter, 2D- und 3D-Keypoints, SMPL/SMPLX-Parameter und entsprechender textueller Beschreibungen. Um das Potenzial von MVHumanNet in verschiedenen 2D- und 3D-Visualisierungsaufgaben zu erkunden, führten wir Pilotstudien zu sichtkonsistenter Aktionserkennung, menschlicher NeRF-Rekonstruktion, textgesteuerter sichtunabhängiger menschlicher Bildgenerierung sowie 2D-sichtunabhängiger menschlicher Bild- und 3D-Avatargenerierung durch. Umfangreiche Experimente zeigen die Leistungsverbesserungen und effektiven Anwendungen, die durch den Umfang von MVHumanNet ermöglicht werden. Als derzeit größter 3D-Menschendatensatz hoffen wir, dass die Veröffentlichung der MVHumanNet-Daten mit Annotationen weitere Innovationen im Bereich der groß angelegten 3D-menschenzentrierten Aufgaben fördern wird.
Agentenbasierte Modellierung existiert seit Jahrzehnten und wird in den Sozial- und Naturwissenschaften weit verbreitet eingesetzt. Der Anwendungsbereich dieser Forschungsmethode steht nun kurz davor, sich dramatisch zu erweitern, da sie die neuen Möglichkeiten nutzt, die durch Large Language Models (LLMs) bereitgestellt werden. Generative Agentenbasierte Modelle (GABMs) sind nicht einfach klassische Agentenbasierte Modelle (ABMs), bei denen die Agenten miteinander kommunizieren. Vielmehr werden GABMs mithilfe eines LLMs konstruiert, um gesunden Menschenverstand in Situationen anzuwenden, „vernünftig“ zu handeln, allgemeines semantisches Wissen abzurufen, API-Aufrufe zur Steuerung digitaler Technologien wie Apps zu erzeugen und sowohl innerhalb der Simulation als auch mit Forschern, die sie von außen betrachten, zu kommunizieren. Hier stellen wir Concordia vor, eine Bibliothek zur Erleichterung der Konstruktion und Arbeit mit GABMs. Concordia macht es einfach, sprachvermittelte Simulationen von physisch oder digital verankerten Umgebungen zu erstellen. Concordia-Agenten erzeugen ihr Verhalten mithilfe eines flexiblen Komponentensystems, das zwischen zwei grundlegenden Operationen vermittelt: LLM-Aufrufen und dem Abruf assoziativer Erinnerungen. Ein spezieller Agent, der sogenannte Game Master (GM), der von Tabletop-Rollenspielen inspiriert wurde, ist für die Simulation der Umgebung verantwortlich, in der die Agenten interagieren. Agenten handeln, indem sie in natürlicher Sprache beschreiben, was sie tun möchten. Der GM übersetzt dann ihre Aktionen in geeignete Implementierungen. In einer simulierten physischen Welt überprüft der GM die physikalische Plausibilität der Aktionen der Agenten und beschreibt deren Auswirkungen. In digitalen Umgebungen, die Technologien wie Apps und Dienste simulieren, kann der GM API-Aufrufe verarbeiten, um sich mit externen Tools wie allgemeinen KI-Assistenten (z. B. Bard, ChatGPT) und digitalen Apps (z. B. Kalender, E-Mail, Suche usw.) zu integrieren. Concordia wurde entwickelt, um eine Vielzahl von Anwendungen sowohl in der wissenschaftlichen Forschung als auch zur Bewertung der Leistung realer digitaler Dienste durch die Simulation von Benutzern und/oder die Generierung synthetischer Daten zu unterstützen.
3D-Rekonstruktionsmethoden wie Neural Radiance Fields (NeRFs) zeichnen sich durch die Erzeugung fotorealistischer neuer Ansichten komplexer Szenen aus. Die Wiederherstellung eines hochwertigen NeRF erfordert jedoch typischerweise Dutzende bis Hunderte von Eingabebildern, was einen zeitaufwändigen Aufnahmeprozess zur Folge hat. Wir stellen ReconFusion vor, um reale Szenen mit nur wenigen Fotos zu rekonstruieren. Unser Ansatz nutzt ein Diffusion-Prior für die Synthese neuer Ansichten, das auf synthetischen und multiview-Datensätzen trainiert wurde, und reguliert eine NeRF-basierte 3D-Rekonstruktionspipeline bei neuen Kamerapositionen, die über die durch die Eingabebilder erfassten hinausgehen. Unsere Methode synthetisiert realistische Geometrie und Textur in unterbestimmten Regionen, während das Erscheinungsbild beobachteter Regionen erhalten bleibt. Wir führen eine umfangreiche Evaluierung über verschiedene reale Datensätze durch, darunter vorwärtsgerichtete und 360-Grad-Szenen, und zeigen signifikante Leistungsverbesserungen gegenüber bisherigen NeRF-Rekonstruktionsansätzen mit wenigen Ansichten.
Wir schlagen eine Methode vor, um Materialattribute von Objekten wie Rauheit, Metallizität, Albedo und Transparenz in realen Bildern zu steuern. Unsere Methode nutzt das generative Vorwissen von Text-zu-Bild-Modellen, die für ihre Fotorealismus bekannt sind, und verwendet einen Skalarwert sowie Anweisungen, um niedrigstufige Materialeigenschaften zu verändern. Um den Mangel an Datensätzen mit kontrollierten Materialattributen zu beheben, haben wir einen objektzentrierten synthetischen Datensatz mit physikalisch basierten Materialien erzeugt. Durch das Feinabstimmen eines modifizierten, vortrainierten Text-zu-Bild-Modells auf diesem synthetischen Datensatz sind wir in der Lage, Materialeigenschaften in realen Bildern zu bearbeiten, während alle anderen Attribute erhalten bleiben. Wir zeigen die potenzielle Anwendung unseres Modells für materialbearbeitete NeRFs.
In jüngster Zeit wurden bedeutende Fortschritte in der textbasierten Bewegungsgenerierung erzielt, die es ermöglichen, vielfältige und hochwertige menschliche Bewegungen zu erzeugen, die textuellen Beschreibungen entsprechen. Es bleibt jedoch eine Herausforderung, fein abgestufte oder stilisierte Bewegungen zu generieren, da es an Datensätzen mangelt, die mit detaillierten textuellen Beschreibungen annotiert sind. Durch die Anwendung einer Divide-and-Conquer-Strategie schlagen wir ein neues Framework namens Fine-Grained Human Motion Diffusion Model (FG-MDM) für die menschliche Bewegungsgenerierung vor. Konkret parsen wir zunächst frühere vage textuelle Annotationen in fein abgestufte Beschreibungen verschiedener Körperteile, indem wir ein großes Sprachmodell (GPT-3.5) nutzen. Anschließend verwenden wir diese fein abgestuften Beschreibungen, um ein transformer-basiertes Diffusionsmodell zu steuern. FG-MDM kann fein abgestufte und stilisierte Bewegungen erzeugen, selbst außerhalb der Verteilung der Trainingsdaten. Unsere experimentellen Ergebnisse demonstrieren die Überlegenheit von FG-MDM gegenüber früheren Methoden, insbesondere die starke Generalisierungsfähigkeit. Wir werden unsere fein abgestuften textuellen Annotationen für HumanML3D und KIT veröffentlichen.
Unser Verständnis der visuellen Welt dreht sich um verschiedene Konzeptachsen, die unterschiedliche Aspekte visueller Entitäten charakterisieren. Während verschiedene Konzeptachsen leicht durch Sprache spezifiziert werden können, z. B. Farbe, übersteigen die genauen visuellen Nuancen entlang jeder Achse oft die Grenzen sprachlicher Artikulation, z. B. ein bestimmter Malstil. In dieser Arbeit ist unser Ziel, eine sprachinformierte visuelle Konzeptrepräsentation zu lernen, indem wir einfach große, vortrainierte Vision-Language-Modelle destillieren. Konkret trainieren wir eine Reihe von Konzept-Encodern, um die Informationen zu einer Reihe von sprachinformierten Konzeptachsen zu kodieren, mit dem Ziel, das Eingabebild durch ein vortrainiertes Text-to-Image (T2I)-Modell zu reproduzieren. Um eine bessere Entflechtung der verschiedenen Konzept-Encoder zu fördern, verankern wir die Konzept-Einbettungen in einer Reihe von Text-Einbettungen, die aus einem vortrainierten Visual Question Answering (VQA)-Modell gewonnen wurden. Zum Inferenzzeitpunkt extrahiert das Modell Konzept-Einbettungen entlang verschiedener Achsen aus neuen Testbildern, die neu kombiniert werden können, um Bilder mit neuartigen Kompositionen visueller Konzepte zu erzeugen. Mit einem leichtgewichtigen Feinabstimmungsverfahren zur Testzeit kann es auch auf neue Konzepte verallgemeinern, die während des Trainings nicht gesehen wurden.
Interaktionen mit virtuellen Assistenten beginnen typischerweise mit einem Auslösephrase, gefolgt von einem Befehl. In dieser Arbeit untersuchen wir die Möglichkeit, diese Interaktionen natürlicher zu gestalten, indem wir die Notwendigkeit einer Auslösephrase eliminieren. Unser Ziel ist es, zu bestimmen, ob ein Benutzer den virtuellen Assistenten angesprochen hat, basierend auf Signalen, die aus dem Streaming-Audio, das vom Gerätemikrofon aufgezeichnet wird, gewonnen werden. Wir behandeln diese Aufgabe, indem wir 1-Best-Hypothesen und Decoder-Signale eines automatischen Spracherkennungssystems mit akustischen Repräsentationen eines Audio-Encoders als Eingabemerkmale für ein großes Sprachmodell (LLM) kombinieren. Insbesondere interessieren wir uns für daten- und ressourceneffiziente Systeme, die nur eine kleine Menge an Trainingsdaten benötigen und in Szenarien mit nur einem einzigen eingefrorenen LLM auf einem Gerät betrieben werden können. Aus diesem Grund wird unser Modell mit 80.000 oder weniger Beispielen multimodaler Daten trainiert, wobei eine Kombination aus Low-Rank-Adaption und Prefix-Tuning verwendet wird. Wir vergleichen das vorgeschlagene System mit unimodalen Baselines und zeigen, dass der multimodale Ansatz niedrigere Equal-Error-Rates (EERs) erreicht, während nur ein Bruchteil der Trainingsdaten verwendet wird. Wir zeigen auch, dass niedrigdimensionale spezialisierte Audio-Repräsentationen zu niedrigeren EERs führen als hochdimensionale allgemeine Audio-Repräsentationen.