Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen SDXL vor, ein latentes Diffusionsmodell für die Text-zu-Bild-Synthese. Im Vergleich zu früheren Versionen von Stable Diffusion nutzt SDXL ein dreimal größeres UNet-Backbone: Die Zunahme der Modellparameter ist hauptsächlich auf mehr Aufmerksamkeitsblöcke und einen größeren Cross-Attention-Kontext zurückzuführen, da SDXL einen zweiten Text-Encoder verwendet. Wir entwerfen mehrere neuartige Konditionierungsschemata und trainieren SDXL auf mehreren Seitenverhältnissen. Zudem führen wir ein Verfeinerungsmodell ein, das verwendet wird, um die visuelle Qualität der von SDXL generierten Proben mithilfe einer nachträglichen Bild-zu-Bild-Technik zu verbessern. Wir zeigen, dass SDXL im Vergleich zu früheren Versionen von Stable Diffusion eine drastisch verbesserte Leistung aufweist und Ergebnisse erzielt, die mit denen von Blackbox-Spitzen-Bildgeneratoren konkurrieren können. Im Geiste der Förderung offener Forschung und der Transparenz beim Training und der Evaluierung großer Modelle stellen wir den Zugang zu Code und Modellgewichten unter https://github.com/Stability-AI/generative-models bereit.
Die Skalierung der Sequenzlänge ist in der Ära der großen Sprachmodelle zu einer entscheidenden Anforderung geworden. Allerdings kämpfen bestehende Methoden entweder mit der Rechenkomplexität oder der Modellausdrucksfähigkeit, wodurch die maximale Sequenzlänge eingeschränkt bleibt. In dieser Arbeit stellen wir LongNet vor, eine Transformer-Variante, die die Sequenzlänge auf über 1 Milliarde Tokens skalieren kann, ohne die Leistung bei kürzeren Sequenzen zu beeinträchtigen. Konkret schlagen wir die dilatierte Aufmerksamkeit vor, die das Aufmerksamkeitsfeld exponentiell mit wachsendem Abstand erweitert. LongNet bietet signifikante Vorteile: 1) Es weist eine lineare Rechenkomplexität und eine logarithmische Abhängigkeit zwischen den Tokens auf; 2) Es kann als verteilter Trainer für extrem lange Sequenzen dienen; 3) Seine dilatierte Aufmerksamkeit ist ein direkter Ersatz für die Standardaufmerksamkeit, der nahtlos in die bestehende Transformer-basierte Optimierung integriert werden kann. Experimentelle Ergebnisse zeigen, dass LongNet sowohl bei der Modellierung langer Sequenzen als auch bei allgemeinen Sprachaufgaben eine starke Leistung erzielt. Unsere Arbeit eröffnet neue Möglichkeiten für die Modellierung sehr langer Sequenzen, z. B. die Behandlung eines gesamten Korpus oder sogar des gesamten Internets als eine Sequenz.
Obwohl bestehende großskalige Text-zu-Bild (T2I)-Modelle in der Lage sind, hochwertige Bilder aus detaillierten textuellen Beschreibungen zu generieren, fehlt ihnen oft die Fähigkeit, generierte oder reale Bilder präzise zu bearbeiten. In diesem Artikel schlagen wir eine neuartige Bildbearbeitungsmethode vor, DragonDiffusion, die Drag-artige Manipulationen an Diffusionsmodellen ermöglicht. Konkret konstruieren wir eine Klassifikatorführung basierend auf der starken Korrespondenz von Zwischenmerkmalen im Diffusionsmodell. Diese kann die Bearbeitungssignale über einen Merkmalskorrespondenzverlust in Gradienten umwandeln, um die Zwischendarstellung des Diffusionsmodells zu modifizieren. Basierend auf dieser Führungsstrategie entwickeln wir auch eine mehrskalige Führung, die sowohl semantische als auch geometrische Ausrichtung berücksichtigt. Darüber hinaus wird eine selbstaufmerksame Kreuzverzweigung hinzugefügt, um die Konsistenz zwischen dem Originalbild und dem Bearbeitungsergebnis zu bewahren. Unsere Methode erreicht durch ein effizientes Design verschiedene Bearbeitungsmodi für generierte oder reale Bilder, wie Objektverschiebung, Objektgrößenänderung, Objekterscheinungsersatz und Inhaltsziehen. Es ist bemerkenswert, dass alle Bearbeitungs- und Inhaltserhaltungssignale vom Bild selbst stammen und das Modell weder Feinabstimmung noch zusätzliche Module erfordert. Unser Quellcode wird unter https://github.com/MC-E/DragonDiffusion verfügbar sein.
Kürzlich hat die Veröffentlichung von INSTRUCTEVAL wertvolle Einblicke in die Leistung großer Sprachmodelle (LLMs) mit Encoder-Decoder- oder Decoder-only-Architektur geliefert. Interessanterweise übertreffen T5-basierte LLMs, wie FLAN-T5, trotz ihrer Einführung vor vier Jahren weiterhin die neuesten Decoder-basierten LLMs, wie LLAMA und VICUNA, bei Aufgaben, die allgemeine Problemlösungsfähigkeiten erfordern. Diese Leistungsunterschiede können auf drei Schlüsselfaktoren zurückgeführt werden: (1) Pre-Training-Daten, (2) Backbone-Architektur und (3) Instruktionsdatensatz. In diesem technischen Bericht liegt unser Hauptaugenmerk auf der Untersuchung der Auswirkungen des dritten Faktors, indem wir VICUNA, ein großes Sprachmodell basierend auf LLAMA, das auf ChatGPT-Konversationen feinabgestimmt wurde, nutzen. Um dieses Ziel zu erreichen, haben wir VICUNA mit einer angepassten Instruktionsdatensatzsammlung namens FLANMINI feinabgestimmt. Diese Sammlung umfasst eine Teilmenge des groß angelegten Instruktionsdatensatzes FLAN sowie verschiedene codebezogene Datensätze und Konversationsdatensätze, die aus ChatGPT/GPT-4 abgeleitet wurden. Dieser Datensatz besteht aus einer Vielzahl von Aufgaben, die Problemlösungsfähigkeiten erfordern. Unsere experimentellen Ergebnisse deuten stark darauf hin, dass die verbesserten Problemlösungsfähigkeiten unseres Modells, FLACUNA, durch die Feinabstimmung von VICUNA auf den FLAN-Datensatz erzielt werden, was zu signifikanten Verbesserungen über zahlreiche Benchmark-Datensätze in INSTRUCTEVAL führt. FLACUNA ist öffentlich verfügbar unter https://huggingface.co/declare-lab/flacuna-13b-v1.0.
Dokumentverständnis bezieht sich auf die automatische Extraktion, Analyse und Interpretation von Informationen aus verschiedenen Arten digitaler Dokumente, wie beispielsweise einer Webseite. Bestehende multimodale Large Language Models (MLLMs), einschließlich mPLUG-Owl, haben vielversprechende Zero-Shot-Fähigkeiten in der oberflächlichen OCR-freien Texterkennung gezeigt, was ihr Potenzial für OCR-freies Dokumentverständnis unterstreicht. Dennoch neigen diese Modelle ohne domänenspezifisches Training dazu, feinkörnige OCR-Merkmale wie komplexe Tabellen oder große Textblöcke zu übersehen, die für OCR-freies Dokumentverständnis entscheidend sind. In diesem Artikel schlagen wir mPLUG-DocOwl basierend auf mPLUG-Owl für OCR-freies Dokumentverständnis vor. Konkret konstruieren wir zunächst einen Instruction-Tuning-Datensatz, der eine Vielzahl von visuell-textuellen Verständnisaufgaben umfasst. Anschließend stärken wir die Fähigkeit zum OCR-freien Dokumentverständnis, indem wir das Modell gemeinsam auf sprachlichen, allgemeinen visuell-sprachlichen und dokumentbezogenen Instruction-Tuning-Datensätzen mit unserer einheitlichen Instruction-Tuning-Strategie trainieren. Wir erstellen außerdem einen OCR-freien Evaluationssatz für das Dokumentverständnis, LLMDoc, um die Fähigkeiten der Modelle in Bezug auf Instruktionsbefolgung und Dokumentverständnis besser vergleichen zu können. Experimentelle Ergebnisse zeigen, dass unser Modell bestehende multimodale Modelle übertrifft und seine starke Fähigkeit zum Dokumentverständnis unter Beweis stellt. Darüber hinaus generalisiert mPLUG-DocOwl ohne spezifisches Fine-Tuning gut auf verschiedene Downstream-Aufgaben. Unser Code, Modelle, Trainingsdaten und Evaluationssatz sind unter https://github.com/X-PLUG/mPLUG-DocOwl verfügbar.
Große Sprachmodelle, die auf Sicherheit und Schadlosigkeit trainiert wurden, bleiben anfällig für adversarischen Missbrauch, wie die Verbreitung von „Jailbreak“-Angriffen auf frühe Versionen von ChatGPT zeigt, die unerwünschtes Verhalten hervorrufen. Über die bloße Anerkennung des Problems hinaus untersuchen wir, warum solche Angriffe erfolgreich sind und wie sie erstellt werden können. Wir stellen zwei Fehlermodi des Sicherheitstrainings als Hypothesen auf: konkurrierende Ziele und unpassende Generalisierung. Konkurrierende Ziele entstehen, wenn die Fähigkeiten eines Modells und seine Sicherheitsziele in Konflikt geraten, während unpassende Generalisierung auftritt, wenn das Sicherheitstraining nicht auf einen Bereich verallgemeinert, für den Fähigkeiten vorhanden sind. Wir nutzen diese Fehlermodi, um Jailbreak-Designs zu leiten, und bewerten dann state-of-the-art Modelle, darunter OpenAI’s GPT-4 und Anthropic’s Claude v1.3, gegen bestehende und neu entwickelte Angriffe. Wir stellen fest, dass Schwachstellen trotz der umfangreichen Red-Teaming- und Sicherheitstrainingsbemühungen hinter diesen Modellen bestehen bleiben. Bemerkenswerterweise gelingen neue Angriffe, die unsere Fehlermodi nutzen, bei jedem Prompt in einer Sammlung unsicherer Anfragen aus den Red-Teaming-Evaluationssets der Modelle und übertreffen bestehende ad-hoc-Jailbreaks. Unsere Analyse unterstreicht die Notwendigkeit einer Sicherheits-Fähigkeits-Parität – dass Sicherheitsmechanismen ebenso ausgefeilt sein sollten wie das zugrunde liegende Modell – und argumentiert gegen die Vorstellung, dass Skalierung allein diese Sicherheitsfehlermodi beheben kann.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wie GPT4 haben außergewöhnliche multimodale Fähigkeiten bei der Befolgung offener Anweisungen unter Verwendung von Bildern gezeigt. Die Leistung dieser Modelle hängt jedoch stark von Designentscheidungen wie Netzwerkstrukturen, Trainingsdaten und Trainingsstrategien ab, und diese Entscheidungen wurden in der Literatur nicht ausführlich diskutiert, was es schwierig macht, Fortschritte in diesem Bereich zu quantifizieren. Um dieses Problem zu lösen, präsentiert dieses Papier eine systematische und umfassende Studie, die quantitativ und qualitativ das Training solcher Modelle untersucht. Wir implementieren über 20 Varianten mit kontrollierten Einstellungen. Konkret vergleichen wir für Netzwerkstrukturen verschiedene LLM-Backbones und Modellentwürfe. Für Trainingsdaten untersuchen wir die Auswirkungen von Daten und Sampling-Strategien. Für Anweisungen erforschen wir den Einfluss diversifizierter Prompts auf die Anweisungsbefolgung der trainierten Modelle. Für Benchmarks tragen wir, soweit uns bekannt ist, den ersten umfassenden Evaluationssatz bei, der sowohl Bild- als auch Videoaufgaben durch Crowdsourcing umfasst. Basierend auf unseren Erkenntnissen präsentieren wir Lynx, das im Vergleich zu bestehenden Open-Source-GPT4-Modellen das genaueste multimodale Verständnis bietet und gleichzeitig die beste multimodale Generierungsfähigkeit beibehält.
Große Sprachmodelle (LLMs) haben beeindruckende Planungsfähigkeiten in Einzelagenten-Umgebungen über verschiedene Domänen hinweg gezeigt. Ihre Fähigkeit zur Planung und Kommunikation in der Multi-Agenten-Kooperation bleibt jedoch unklar, obwohl dies entscheidende Fähigkeiten für intelligente verkörperte Agenten sind. In diesem Artikel präsentieren wir ein neuartiges Framework, das LLMs für die Multi-Agenten-Kooperation nutzt und in verschiedenen verkörperten Umgebungen testet. Unser Framework ermöglicht es verkörperten Agenten, zu planen, zu kommunizieren und mit anderen verkörperten Agenten oder Menschen zusammenzuarbeiten, um langfristige Aufgaben effizient zu bewältigen. Wir zeigen, dass aktuelle LLMs wie GPT-4 starke planungsbasierte Methoden übertreffen und mit unserem Framework eine emergente effektive Kommunikation zeigen können, ohne dass Feinabstimmung oder Few-Shot-Prompting erforderlich ist. Wir stellen außerdem fest, dass LLM-basierte Agenten, die in natürlicher Sprache kommunizieren, mehr Vertrauen gewinnen und effektiver mit Menschen zusammenarbeiten können. Unsere Forschung unterstreicht das Potenzial von LLMs für verkörperte KI und legt die Grundlage für zukünftige Forschungen in der Multi-Agenten-Kooperation. Videos sind auf der Projektwebsite https://vis-www.cs.umass.edu/Co-LLM-Agents/ zu finden.
Große Sprachmodelle (LLMs) zeigen eine Vielzahl vielversprechender Fähigkeiten – von schrittweiser Planung bis hin zu gesundem Menschenverstand –, die für Roboter nützlich sein könnten, neigen jedoch dazu, selbstbewusst falsche Vorhersagen zu treffen. In dieser Arbeit stellen wir KnowNo vor, ein Framework zur Messung und Ausrichtung der Unsicherheit von LLM-basierten Planern, sodass sie erkennen, wenn sie etwas nicht wissen, und bei Bedarf um Hilfe bitten. KnowNo baut auf der Theorie der konformen Vorhersage auf, um statistische Garantien für die Aufgabenerfüllung zu bieten und gleichzeitig menschliche Hilfe in komplexen, mehrstufigen Planungsszenarien zu minimieren. Experimente in verschiedenen simulierten und realen Roboterszenarien, die Aufgaben mit unterschiedlichen Arten von Mehrdeutigkeit beinhalten (z. B. von räumlichen bis hin zu numerischen Unsicherheiten, von menschlichen Präferenzen bis hin zu Winograd-Schemata), zeigen, dass KnowNo im Vergleich zu modernen Baseline-Methoden (die beispielsweise Ensembles oder umfangreiche Prompt-Optimierung beinhalten können) hinsichtlich Effizienz und Autonomie besser abschneidet und gleichzeitig formale Zusicherungen bietet. KnowNo kann mit LLMs ohne Modell-Finetuning verwendet werden und schlägt einen vielversprechenden, leichtgewichtigen Ansatz zur Modellierung von Unsicherheit vor, der die wachsenden Fähigkeiten von Foundation-Modellen ergänzen und skalieren kann. Website: https://robot-help.github.io
Kürzlich entwickelte Diffusion Transformers (z.B. DiT) haben ihre beeindruckende Effektivität bei der Erzeugung hochwertiger 2D-Bilder unter Beweis gestellt. Es ist jedoch noch unklar, ob die Transformer-Architektur bei der 3D-Formgenerierung ebenso gut abschneidet, da bisherige 3D-Diffusionsmethoden überwiegend die U-Net-Architektur verwendeten. Um diese Lücke zu schließen, schlagen wir einen neuartigen Diffusion Transformer für die 3D-Formgenerierung vor, genannt DiT-3D, der den Denoising-Prozess direkt auf voxelisierten Punktwolken mithilfe einfacher Transformer durchführen kann. Im Vergleich zu bestehenden U-Net-Ansätzen ist unser DiT-3D skalierbarer in der Modellgröße und erzeugt qualitativ hochwertigere Ergebnisse. Konkret übernimmt der DiT-3D das Designkonzept von DiT, modifiziert es jedoch durch die Einbindung von 3D-Positions- und Patch-Embeddings, um die Eingaben von voxelisierten Punktwolken adaptiv zu aggregieren. Um die Rechenkosten der Selbstaufmerksamkeit bei der 3D-Formgenerierung zu reduzieren, integrieren wir 3D-Fensteraufmerksamkeit in die Transformer-Blöcke, da die erhöhte 3D-Token-Länge aufgrund der zusätzlichen Dimension der Voxel zu hohem Rechenaufwand führen kann. Schließlich werden lineare und Devoxelisierungs-Schichten verwendet, um die denoisierten Punktwolken vorherzusagen. Darüber hinaus unterstützt unsere Transformer-Architektur ein effizientes Fine-Tuning von 2D auf 3D, wobei der vortrainierte DiT-2D-Checkpoint auf ImageNet die Leistung von DiT-3D auf ShapeNet erheblich verbessern kann. Experimentelle Ergebnisse auf dem ShapeNet-Datensatz zeigen, dass der vorgeschlagene DiT-3D Spitzenleistungen bei der Erzeugung hochauflösender und vielfältiger 3D-Punktwolken erzielt. Insbesondere reduziert unser DiT-3D die 1-Nearest Neighbor Accuracy der bisher besten Methode um 4,59 und erhöht das Coverage-Metrik um 3,51 bei der Bewertung anhand der Chamfer-Distanz.
Die Eingabe-Tokens für Vision Transformers tragen wenig semantische Bedeutung, da sie als regelmäßige, gleich große Bildausschnitte des Eingabebildes definiert sind, unabhängig von dessen Inhalt. Die Verarbeitung gleichmäßiger Hintergrundbereiche eines Bildes sollte jedoch nicht so viel Rechenleistung erfordern wie dichte, unübersichtliche Bereiche. Um dieses Problem zu lösen, schlagen wir ein dynamisches Mixed-Scale-Tokenisierungsschema für ViT, MSViT, vor. Unsere Methode führt einen bedingten Gating-Mechanismus ein, der die optimale Token-Skala für jede Bildregion auswählt, sodass die Anzahl der Tokens dynamisch pro Eingabe bestimmt wird. Das vorgeschlagene Gating-Modul ist ressourcenschonend, unabhängig von der Wahl des Transformer-Backbones und innerhalb weniger Epochen (z. B. 20 Epochen auf ImageNet) mit geringem Trainingsaufwand trainierbar. Zusätzlich führen wir eine neuartige Verallgemeinerung des Batch-Shaping-Loss ein, um das bedingte Verhalten des Gates während des Trainings zu verbessern. Wir zeigen, dass unser Gating-Modul in der Lage ist, trotz lokaler Operation auf grober Patch-Ebene, sinnvolle Semantik zu erlernen. Wir validieren MSViT in den Aufgaben der Klassifikation und Segmentierung, wo es zu einem verbesserten Kompromiss zwischen Genauigkeit und Komplexität führt.
Diese Studie untersucht die Leistung von Open-Source Large Language Models (LLMs) bei Textannotationsaufgaben und vergleicht sie mit proprietären Modellen wie ChatGPT und humanbasierten Diensten wie MTurk. Während frühere Forschung die hohe Leistungsfähigkeit von ChatGPT bei zahlreichen NLP-Aufgaben demonstrierte, gewinnen Open-Source-LLMs wie HugginChat und FLAN aufgrund ihrer Kosteneffizienz, Transparenz, Reproduzierbarkeit und überlegenen Datensicherheit zunehmend an Aufmerksamkeit. Wir bewerten diese Modelle sowohl mit Zero-Shot- als auch Few-Shot-Ansätzen und verschiedenen Temperaturparametern über eine Reihe von Textannotationsaufgaben hinweg. Unsere Ergebnisse zeigen, dass ChatGPT zwar in den meisten Aufgaben die beste Leistung erzielt, Open-Source-LLMs jedoch nicht nur MTurk übertreffen, sondern auch in bestimmten Aufgaben ein wettbewerbsfähiges Potenzial gegenüber ChatGPT aufweisen.
Avatars sind entscheidend, um interaktive und immersive Erfahrungen in virtuellen Welten zu schaffen. Eine Herausforderung bei der Animation dieser Charaktere, um die Bewegungen eines Nutzers nachzuahmen, besteht darin, dass kommerzielle AR/VR-Produkte lediglich ein Headset und Controller umfassen und somit nur sehr begrenzte Sensordaten zur Pose des Nutzers liefern. Eine weitere Herausforderung ist, dass ein Avatar möglicherweise eine andere Skelettstruktur als ein Mensch aufweist und die Zuordnung zwischen ihnen unklar ist. In dieser Arbeit gehen wir auf beide Herausforderungen ein. Wir stellen eine Methode vor, um Bewegungen in Echtzeit von spärlichen menschlichen Sensordaten auf Charaktere verschiedener Morphologien zu übertragen. Unsere Methode nutzt Reinforcement Learning, um eine Strategie zu trainieren, die Charaktere in einem Physiksimulator steuert. Wir benötigen lediglich Motion-Capture-Daten von Menschen für das Training, ohne auf künstlerisch generierte Animationen für jeden Avatar angewiesen zu sein. Dies ermöglicht es uns, große Motion-Capture-Datensätze zu nutzen, um allgemeine Strategien zu trainieren, die unbekannte Nutzer aus realen und spärlichen Daten in Echtzeit verfolgen können. Wir demonstrieren die Machbarkeit unseres Ansatzes an drei Charakteren mit unterschiedlicher Skelettstruktur: einem Dinosaurier, einer mausähnlichen Kreatur und einem Menschen. Wir zeigen, dass die Posen des Avatars oft überraschend gut mit denen des Nutzers übereinstimmen, obwohl keine Sensordaten des Unterkörpers verfügbar sind. Wir diskutieren und analysieren die wichtigen Komponenten unseres Frameworks, insbesondere den kinematischen Retargeting-Schritt, die Imitation, Kontakt- und Aktionsbelohnungen sowie unsere asymmetrischen Actor-Critic-Beobachtungen. Darüber hinaus untersuchen wir die Robustheit unserer Methode in verschiedenen Szenarien, einschließlich unausgeglichenen, tanzenden und sportlichen Bewegungen.
Dieses Papier stellt den Elastic Decision Transformer (EDT) vor, eine bedeutende Weiterentwicklung gegenüber dem bestehenden Decision Transformer (DT) und seinen Varianten. Obwohl der DT vorgibt, eine optimale Trajektorie zu generieren, deuten empirische Belege darauf hin, dass er Schwierigkeiten mit dem sogenannten Trajectory Stitching hat, einem Prozess, bei dem eine optimale oder nahezu optimale Trajektorie aus den besten Teilen einer Reihe von suboptimalen Trajektorien erzeugt wird. Der vorgeschlagene EDT unterscheidet sich dadurch, dass er das Trajectory Stitching während der Aktionsinferenz zur Testzeit erleichtert, indem er die im DT beibehaltene Historiendauer anpasst. Darüber hinaus optimiert der EDT die Trajektorie, indem er eine längere Historie beibehält, wenn die vorherige Trajektorie optimal ist, und eine kürzere, wenn sie suboptimal ist, wodurch er sich mit einer optimaleren Trajektorie „verknüpfen“ kann. Umfangreiche Experimente demonstrieren die Fähigkeit des EDT, die Leistungslücke zwischen DT-basierten und Q-Learning-basierten Ansätzen zu schließen. Insbesondere übertrifft der EDT Q-Learning-basierte Methoden in einem Multitask-Regime auf dem D4RL-Locomotion-Benchmark und bei Atari-Spielen. Videos sind verfügbar unter: https://kristery.github.io/edt/
Die Ausstattung verkörperter Agenten mit gesundem Menschenverstand ist entscheidend dafür, dass Roboter komplexe menschliche Anweisungen in allgemeinen Umgebungen erfolgreich ausführen können. Aktuelle große Sprachmodelle (LLMs) können reichhaltiges semantisches Wissen für Agenten bei der Generierung von Plänen für komplexe Aufgaben einbetten, jedoch fehlt ihnen oft die Information über die reale Welt, was häufig zu nicht durchführbaren Aktionssequenzen führt. In diesem Artikel schlagen wir einen Task-Planning-Agenten (TaPA) für verkörperte Aufgaben vor, der eine geerdete Planung mit physikalischen Szenenbeschränkungen ermöglicht, wobei der Agent ausführbare Pläne basierend auf den vorhandenen Objekten in der Szene generiert, indem LLMs mit visuellen Wahrnehmungsmodellen abgeglichen werden. Konkret konstruieren wir zunächst einen multimodalen Datensatz, der Tripel aus Innenraumszenen, Anweisungen und Aktionsplänen enthält, wobei wir entworfene Prompts und eine Liste der vorhandenen Objekte in der Szene für GPT-3.5 bereitstellen, um eine große Anzahl von Anweisungen und entsprechend geplanten Aktionen zu generieren. Die generierten Daten werden für die geerdete Planabstimmung vortrainierter LLMs genutzt. Während der Inferenz entdecken wir die Objekte in der Szene, indem wir Open-Vocabulary-Objekterkennungssysteme auf Multi-View-RGB-Bilder erweitern, die an verschiedenen erreichbaren Positionen gesammelt wurden. Experimentelle Ergebnisse zeigen, dass die von unserem TaPA-Framework generierten Pläne eine deutlich höhere Erfolgsrate erzielen als LLaVA und GPT-3.5, was die Praktikabilität der verkörperten Aufgabenplanung in allgemeinen und komplexen Umgebungen unterstreicht.
Musik wird verwendet, um Emotionen zu vermitteln, und daher ist die Erzeugung emotionaler Musik in der automatischen Musikgenerierung von Bedeutung. Bisherige Arbeiten zur emotionalen Musikgenerierung verwenden direkt annotierte Emotionslabels als Steuersignale, was unter subjektiven Verzerrungen leidet: Unterschiedliche Personen können unterschiedliche Emotionen für dieselbe Musik annotieren, und eine Person kann unter verschiedenen Situationen unterschiedliche Emotionen empfinden. Daher würde die direkte Abbildung von Emotionslabels auf Musiksequenzen in einem End-to-End-Verfahren den Lernprozess verwirren und das Modell daran hindern, Musik mit allgemeinen Emotionen zu erzeugen. In diesem Artikel schlagen wir EmoGen vor, ein System zur emotionalen Musikgenerierung, das eine Reihe von emotionsbezogenen Musikattributen als Brücke zwischen Emotion und Musik nutzt und die Generierung in zwei Phasen unterteilt: die Abbildung von Emotionen auf Attribute mittels überwachter Clusterbildung und die Generierung von Musik aus Attributen mittels selbstüberwachtem Lernen. Beide Phasen sind vorteilhaft: In der ersten Phase repräsentieren die Attributwerte um das Clusterzentrum herum die allgemeinen Emotionen dieser Proben, was dazu beiträgt, die Auswirkungen der subjektiven Verzerrung der Emotionslabels zu eliminieren; in der zweiten Phase ist die Generierung vollständig von Emotionslabels entkoppelt und somit frei von subjektiven Verzerrungen. Sowohl subjektive als auch objektive Bewertungen zeigen, dass EmoGen frühere Methoden in Bezug auf die Genauigkeit der Emotionssteuerung und die Musikqualität übertrifft, was unsere Überlegenheit bei der Erzeugung emotionaler Musik demonstriert. Musikproben, die von EmoGen generiert wurden, sind über diesen Link verfügbar: https://ai-muzic.github.io/emogen/, und der Code ist über diesen Link verfügbar: https://github.com/microsoft/muzic/.