Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Synthese von visuellen Inhalten, die den Bedürfnissen der Nutzer entsprechen, erfordert oft eine flexible und präzise Steuerbarkeit von Pose, Form, Ausdruck und Anordnung der generierten Objekte. Bisherige Ansätze erlangen die Steuerbarkeit von generativen adversariellen Netzwerken (GANs) durch manuell annotierte Trainingsdaten oder ein vordefiniertes 3D-Modell, was häufig an Flexibilität, Präzision und Allgemeingültigkeit mangelt. In dieser Arbeit untersuchen wir eine leistungsstarke, jedoch weit weniger erforschte Methode zur Steuerung von GANs, nämlich das „Ziehen“ beliebiger Punkte eines Bildes, um diese auf präzise Weise zu Zielpunkten in einer nutzerinteraktiven Art zu bewegen, wie in Abb. 1 dargestellt. Um dies zu erreichen, schlagen wir DragGAN vor, das aus zwei Hauptkomponenten besteht: 1) einer feature-basierten Bewegungssteuerung, die den Handhabungspunkt dazu anregt, sich in Richtung der Zielposition zu bewegen, und 2) einem neuen Punktverfolgungsansatz, der die diskriminativen Generator-Features nutzt, um die Position der Handhabungspunkte kontinuierlich zu lokalisieren. Mit DragGAN kann jeder ein Bild mit präziser Kontrolle über die Bewegung der Pixel verformen und so die Pose, Form, den Ausdruck und die Anordnung verschiedener Kategorien wie Tiere, Autos, Menschen, Landschaften usw. manipulieren. Da diese Manipulationen auf der gelernten generativen Bildmannigfaltigkeit eines GANs durchgeführt werden, neigen sie dazu, realistische Ergebnisse zu erzeugen, selbst in anspruchsvollen Szenarien wie der Halluzination verdeckter Inhalte und der Verformung von Formen, die konsequent der Starrheit des Objekts folgen. Sowohl qualitative als auch quantitative Vergleiche zeigen den Vorteil von DragGAN gegenüber früheren Ansätzen bei den Aufgaben der Bildmanipulation und Punktverfolgung. Wir demonstrieren auch die Manipulation realer Bilder durch GAN-Inversion.
Sprachmodelle werden zunehmend für allgemeine Problemlösungen über eine breite Palette von Aufgaben eingesetzt, sind jedoch während der Inferenz immer noch auf tokenbasierte, von links nach rechts verlaufende Entscheidungsprozesse beschränkt. Dies bedeutet, dass sie bei Aufgaben, die Exploration, strategisches Vorausdenken oder eine entscheidende Rolle der anfänglichen Entscheidungen erfordern, an ihre Grenzen stoßen können. Um diese Herausforderungen zu bewältigen, führen wir ein neues Framework für die Inferenz von Sprachmodellen ein, den sogenannten Tree of Thoughts (ToT). Dieser verallgemeinert den populären Chain-of-Thought-Ansatz zur Prompting von Sprachmodellen und ermöglicht die Exploration über kohärente Texteinheiten (Gedanken), die als Zwischenschritte zur Problemlösung dienen. ToT ermöglicht es Sprachmodellen, bewusste Entscheidungen zu treffen, indem sie mehrere verschiedene Argumentationspfade in Betracht ziehen und ihre Wahlmöglichkeiten selbst bewerten, um den nächsten Schritt zu bestimmen. Zudem können sie bei Bedarf vorausschauen oder zurückgehen, um globale Entscheidungen zu treffen. Unsere Experimente zeigen, dass ToT die Problemlösungsfähigkeiten von Sprachmodellen bei drei neuartigen Aufgaben, die nicht-triviale Planung oder Suche erfordern, erheblich verbessert: Game of 24, Kreatives Schreiben und Mini-Kreuzworträtsel. Beispielsweise löste GPT-4 mit Chain-of-Thought-Prompting beim Game of 24 nur 4 % der Aufgaben, während unsere Methode eine Erfolgsquote von 74 % erreichte. Code-Repository mit allen Prompts: https://github.com/ysymyth/tree-of-thought-llm.
Dieses Forschungsarbeit stellt ein Latent Diffusion Model for 3D (LDM3D) vor, das sowohl Bild- als auch Tiefenkartendaten aus einem gegebenen Textprompt generiert, wodurch Benutzer RGBD-Bilder aus Textprompts erzeugen können. Das LDM3D-Modell wird auf einem Datensatz von Tupeln, die ein RGB-Bild, eine Tiefenkarte und eine Beschreibung enthalten, feinabgestimmt und durch umfangreiche Experimente validiert. Wir entwickeln außerdem eine Anwendung namens DepthFusion, die die generierten RGB-Bilder und Tiefenkarten verwendet, um immersive und interaktive 360-Grad-Ansichten mit TouchDesigner zu erstellen. Diese Technologie hat das Potenzial, eine Vielzahl von Branchen zu transformieren, von Unterhaltung und Gaming bis hin zu Architektur und Design. Insgesamt leistet diese Arbeit einen bedeutenden Beitrag zum Bereich der generativen KI und Computer Vision und zeigt das Potenzial von LDM3D und DepthFusion auf, die Inhaltserstellung und digitalen Erlebnisse zu revolutionieren. Ein kurzes Video, das den Ansatz zusammenfasst, ist unter https://t.ly/tdi2 zu finden.
Wir stellen OpenShape vor, eine Methode zum Lernen multimodaler gemeinsamer Repräsentationen von Text, Bildern und Punktwolken. Wir verwenden das häufig genutzte multimodale kontrastive Lernframework zur Repräsentationsausrichtung, jedoch mit einem speziellen Fokus auf die Skalierung von 3D-Repräsentationen, um das Verständnis von 3D-Formen in offenen Welten zu ermöglichen. Um dies zu erreichen, skalieren wir die Trainingsdaten durch die Zusammenführung mehrerer 3D-Datensätze und schlagen mehrere Strategien vor, um verrauschte Textbeschreibungen automatisch zu filtern und anzureichern. Wir untersuchen und vergleichen außerdem Strategien zur Skalierung von 3D-Backbone-Netzwerken und führen ein neuartiges Hard-Negative-Mining-Modul für ein effizienteres Training ein. Wir evaluieren OpenShape anhand von Zero-Shot-3D-Klassifikationsbenchmarks und demonstrieren seine überlegenen Fähigkeiten für die Erkennung in offenen Welten. Insbesondere erreicht OpenShape eine Zero-Shot-Genauigkeit von 46,8 % auf dem 1.156-Kategorien-Objaverse-LVIS-Benchmark, verglichen mit weniger als 10 % bei bestehenden Methoden. OpenShape erreicht außerdem eine Genauigkeit von 85,3 % auf ModelNet40, übertrifft damit frühere Zero-Shot-Baseline-Methoden um 20 % und liegt auf Augenhöhe mit einigen vollständig überwachten Methoden. Darüber hinaus zeigen wir, dass unsere gelernten Einbettungen eine breite Palette visueller und semantischer Konzepte (z. B. Unterkategorien, Farbe, Form, Stil) kodieren und fein abgestimmte Text-3D- und Bild-3D-Interaktionen ermöglichen. Aufgrund ihrer Ausrichtung mit CLIP-Einbettungen können unsere gelernten Formrepräsentationen auch in verfügbare CLIP-basierte Modelle für verschiedene Anwendungen integriert werden, wie z. B. Punktwolkenbeschriftung und punktwolkenbedingte Bildgenerierung.
Multimodale große Sprachmodelle werden als ein entscheidender Schritt auf dem Weg zur Künstlichen Allgemeinen Intelligenz (AGI) angesehen und haben mit dem Aufkommen von ChatGPT erhebliches Interesse geweckt. Allerdings verwenden aktuelle Sprachmodelle typischerweise das Kaskadenparadigma, was den Wissensaustausch zwischen den Modalitäten verhindert. In diesem Artikel schlagen wir SpeechGPT vor, ein großes Sprachmodell mit intrinsischen cross-modalen Konversationsfähigkeiten, das in der Lage ist, multimodale Inhalte wahrzunehmen und zu generieren. Mit diskreten Sprachrepräsentationen konstruieren wir zunächst SpeechInstruct, einen groß angelegten cross-modalen Sprachinstruktionsdatensatz. Zusätzlich setzen wir eine dreistufige Trainingsstrategie ein, die Modalanpassungs-Vortraining, cross-modales Instruktions-Feintuning und Chain-of-Modality-Instruktions-Feintuning umfasst. Die experimentellen Ergebnisse zeigen, dass SpeechGPT eine beeindruckende Fähigkeit besitzt, multimodale menschliche Anweisungen zu befolgen, und unterstreichen das Potenzial, mehrere Modalitäten mit einem Modell zu handhaben. Demos sind unter https://0nutation.github.io/SpeechGPT.github.io/ zu sehen.
Große Sprachmodelle (LLMs) haben den Fortschritt in Richtung künstlicher allgemeiner Intelligenz (AGI) deutlich beschleunigt, da sie durch ihre beeindruckende Zero-Shot-Fähigkeit für benutzerspezifische Aufgaben ein enormes Potenzial in einer Vielzahl von Anwendungen besitzen. Im Bereich der Computer Vision hingegen, trotz der Verfügbarkeit zahlreicher leistungsstarker Vision-Foundation-Modelle (VFMs), sind diese immer noch auf Aufgaben in einer vordefinierten Form beschränkt und haben Schwierigkeiten, die offenen Aufgabenfähigkeiten von LLMs zu erreichen. In dieser Arbeit stellen wir ein LLM-basiertes Framework für visionzentrierte Aufgaben vor, das als VisionLLM bezeichnet wird. Dieses Framework bietet eine einheitliche Perspektive für Vision- und Sprachaufgaben, indem Bilder als Fremdsprache behandelt und visionzentrierte Aufgaben mit Sprachaufgaben abgeglichen werden, die flexibel durch Sprachanweisungen definiert und verwaltet werden können. Ein LLM-basierter Decoder kann dann basierend auf diesen Anweisungen geeignete Vorhersagen für offene Aufgaben treffen. Umfangreiche Experimente zeigen, dass das vorgeschlagene VisionLLM durch Sprachanweisungen unterschiedliche Grade der Aufgabenanpassung erreichen kann, von feinkörniger Objektebene bis hin zu grobkörniger Aufgabenebene, alles mit guten Ergebnissen. Es ist bemerkenswert, dass unser Modell mit einem generalistischen LLM-basierten Framework über 60\% mAP auf COCO erreichen kann, was mit detektionsspezifischen Modellen vergleichbar ist. Wir hoffen, dass dieses Modell einen neuen Maßstab für generalistische Vision- und Sprachmodelle setzen kann. Die Demo wird auf https://github.com/OpenGVLab/InternGPT veröffentlicht. Der Code wird auf https://github.com/OpenGVLab/VisionLLM veröffentlicht.
Die Erreichung von Maschinenautonomie und menschlicher Kontrolle stellt oft divergierende Ziele im Design interaktiver KI-Systeme dar. Visuelle generative Basismodelle wie Stable Diffusion zeigen Potenzial bei der Bewältigung dieser Ziele, insbesondere wenn sie mit beliebigen Sprachen angeregt werden. Allerdings gelingt es ihnen häufig nicht, Bilder mit räumlichen, strukturellen oder geometrischen Steuerungen zu erzeugen. Die Integration solcher Steuerungen, die verschiedene visuelle Bedingungen in einem einzigen einheitlichen Modell berücksichtigen können, bleibt eine ungelöste Herausforderung. Als Antwort darauf stellen wir UniControl vor, ein neues generatives Basismodell, das eine Vielzahl von steuerbaren Bedingungs-zu-Bild (C2I)-Aufgaben in einem einzigen Framework konsolidiert, während es weiterhin beliebige Sprachprompts zulässt. UniControl ermöglicht eine pixelgenaue Bildgenerierung, bei der visuelle Bedingungen hauptsächlich die erzeugten Strukturen beeinflussen und Sprachprompts den Stil und Kontext lenken. Um UniControl mit der Fähigkeit auszustatten, diverse visuelle Bedingungen zu verarbeiten, erweitern wir vortrainierte Text-zu-Bild-Diffusionsmodelle und führen ein aufgabenbewusstes HyperNet ein, das die Diffusionsmodelle moduliert und die Anpassung an verschiedene C2I-Aufgaben gleichzeitig ermöglicht. Nach dem Training an neun einzigartigen C2I-Aufgaben demonstriert UniControl beeindruckende Zero-Shot-Generierungsfähigkeiten mit unbekannten visuellen Bedingungen. Experimentelle Ergebnisse zeigen, dass UniControl oft die Leistung von Einzelaufgaben-steuerbaren Methoden vergleichbarer Modellgrößen übertrifft. Diese Steuerungsvielfalt positioniert UniControl als einen bedeutenden Fortschritt im Bereich der steuerbaren visuellen Generierung.
Diffusionsmodelle haben aufgrund ihrer beeindruckenden Generierungsfähigkeiten zunehmend Aufmerksamkeit erregt, stehen jedoch derzeit vor der Herausforderung, präzisen und kohärenten Text darzustellen. Um dieses Problem zu adressieren, stellen wir TextDiffuser vor, das sich auf die Erzeugung von Bildern mit visuell ansprechendem Text konzentriert, der mit den Hintergründen harmonisiert. TextDiffuser besteht aus zwei Stufen: Zunächst generiert ein Transformer-Modell das Layout von Schlüsselwörtern, die aus Textprompts extrahiert werden, und anschließend erzeugen Diffusionsmodelle Bilder, die auf dem Textprompt und dem generierten Layout basieren. Zusätzlich stellen wir den ersten groß angelegten Datensatz von Textbildern mit OCR-Annotationen vor, MARIO-10M, der 10 Millionen Bild-Text-Paare mit Texterkennungs-, Detektions- und zeichenbasierten Segmentierungsannotationen enthält. Weiterhin haben wir den MARIO-Eval-Benchmark zusammengestellt, der als umfassendes Werkzeug zur Bewertung der Textdarstellungsqualität dient. Durch Experimente und Benutzerstudien zeigen wir, dass TextDiffuser flexibel und steuerbar ist, um hochwertige Textbilder allein mit Textprompts oder in Kombination mit Textvorlagenbildern zu erstellen, und führen Textinpainting durch, um unvollständige Bilder mit Text zu rekonstruieren. Der Code, das Modell und der Datensatz werden unter https://aka.ms/textdiffuser verfügbar sein.
Die Verbesserung der Textrepräsentation hat viel Aufmerksamkeit erregt, um eine ausdrucksstarke Text-zu-Sprache (TTS)-Synthese zu erreichen. Bisherige Ansätze lernen die Prosodie jedoch nur implizit durch Aufgaben zur Rekonstruktion maskierter Tokens, was zu einer geringen Trainingseffizienz und Schwierigkeiten bei der Prosodiemodellierung führt. Wir schlagen CLAPSpeech vor, ein cross-modales kontrastives Pre-Training-Framework, das explizit die Prosodievariation desselben Texttokens in verschiedenen Kontexten lernt. Konkret: 1) Wir fördern, dass das Modell den Textkontext mit dem entsprechenden Prosodiemuster im gemeinsamen multimodalen Raum verbindet, durch eine sorgfältige Gestaltung der Encoder-Eingaben und des kontrastiven Verlusts; 2) Wir führen eine mehrstufige Pre-Training-Pipeline ein, um Prosodiemuster auf mehreren Ebenen zu erfassen. Wir zeigen, wie CLAPSpeech in bestehende TTS-Modelle integriert werden kann, um die Prosodie zu verbessern. Experimente mit drei Datensätzen zeigen nicht nur, dass CLAPSpeech die Prosodievorhersage für bestehende TTS-Methoden verbessern kann, sondern demonstrieren auch seine Generalisierungsfähigkeit, sich an mehrere Sprachen und Mehrsprecher-TTS anzupassen. Wir analysieren zudem die Prinzipien hinter der Leistung von CLAPSpeech. Ablationsstudien belegen die Notwendigkeit jeder Komponente unserer Methode. Der Quellcode und Audiobeispiele sind unter https://clapspeech.github.io verfügbar.
Diffusionsmodelle wie Stable Diffusion haben eine beeindruckende Leistung bei der Text-zu-Bild-Generierung gezeigt. Da die Text-zu-Bild-Generierung oft erfordert, dass Modelle visuelle Konzepte mit fein abgestuften Details und Attributen, die in Textprompts spezifiziert sind, generieren, stellt sich die Frage, ob wir die leistungsstarken Repräsentationen, die von vortrainierten Diffusionsmodellen gelernt wurden, für diskriminative Aufgaben wie Bild-Text-Abgleich nutzen können. Um diese Frage zu beantworten, schlagen wir einen neuartigen Ansatz vor, Discriminative Stable Diffusion (DSD), der vortrainierte Text-zu-Bild-Diffusionsmodelle in Few-Shot-diskriminative Lerner umwandelt. Unser Ansatz verwendet den Cross-Attention-Score eines Stable Diffusion-Modells, um die gegenseitige Beeinflussung zwischen visuellen und textuellen Informationen zu erfassen, und feintunt das Modell durch aufmerksamkeitsbasiertes Prompt-Learning, um Bild-Text-Abgleich durchzuführen. Durch den Vergleich von DSD mit state-of-the-art Methoden auf mehreren Benchmark-Datensätzen zeigen wir das Potenzial der Verwendung vortrainierter Diffusionsmodelle für diskriminative Aufgaben mit überlegenen Ergebnissen beim Few-Shot-Bild-Text-Abgleich.
Die Objekterkennung wurde von einer begrenzten Anzahl von Kategorien auf offene Vokabulare erweitert. Für ein vollständig intelligentes Vision-System ist es nun erforderlich, feinere Objektbeschreibungen und Objektteile zu verstehen. In diesem Artikel schlagen wir einen Detektor vor, der sowohl offen-vokabular Objekte als auch deren Teilesegmentierung vorhersagen kann. Diese Fähigkeit ergibt sich aus zwei Designentscheidungen. Erstens trainieren wir den Detektor auf der Kombination von Teil-, Objekt- und Bildebenen-Daten, um die Mehrgranularitätsausrichtung zwischen Sprache und Bild zu erreichen. Zweitens zerlegen wir das neuartige Objekt in seine Teile durch seine dichte semantische Korrespondenz mit dem Basisobjekt. Diese beiden Designs ermöglichen es dem Detektor, stark von verschiedenen Datenquellen und Grundlagenmodellen zu profitieren. In Experimenten zur offen-vokabularen Teilesegmentierung übertrifft unsere Methode den Baseline-Wert um 3,3 bis 7,3 mAP bei der generalisierten Kreuzdatensatz-Auswertung auf PartImageNet und verbessert den Baseline-Wert um 7,3 novel AP_{50} bei der generalisierten Kreuzkategorie-Auswertung auf Pascal Part. Schließlich trainieren wir einen Detektor, der sich auf eine breite Palette von Teilesegmentierungsdatensätzen verallgemeinern lässt und dabei eine bessere Leistung erzielt als das datensatzspezifische Training.
Die Bewertung der faktischen Konsistenz wird häufig mithilfe von Natural Language Inference (NLI)-Modellen durchgeführt, doch diese Modelle zeigen nur begrenzten Erfolg bei der Bewertung von Zusammenfassungen. Frühere Arbeiten verbesserten solche Modelle durch synthetische Trainingsdaten. Diese Daten basieren jedoch typischerweise auf veränderten, von Menschen verfassten Zusammenfassungen, die sich oft in ihren Merkmalen von tatsächlich modellgenerierten Zusammenfassungen unterscheiden und nur eine begrenzte Abdeckung möglicher faktischer Fehler bieten. Alternativ haben große Sprachmodelle (LLMs) kürzlich vielversprechende Ergebnisse bei der direkten Bewertung generativer Aufgaben gezeigt, sind jedoch für den praktischen Einsatz zu rechenintensiv. Angesichts dieser Einschränkungen stellen wir TrueTeacher vor, eine Methode zur Erzeugung synthetischer Daten durch die Annotation verschiedener modellgenerierter Zusammenfassungen mithilfe eines LLMs. Im Gegensatz zu früheren Arbeiten verlässt sich TrueTeacher nicht auf von Menschen verfasste Zusammenfassungen und ist von Natur aus mehrsprachig. Experimente auf dem TRUE-Benchmark zeigen, dass ein mit unseren Daten trainiertes Schülermodell sowohl das state-of-the-art-Modell mit ähnlicher Kapazität als auch das LLM-Lehrermodell deutlich übertrifft. In einer systematischen Studie vergleichen wir TrueTeacher mit bestehenden Methoden zur Erzeugung synthetischer Daten und demonstrieren seine Überlegenheit und Robustheit gegenüber Domänenverschiebungen. Mithilfe des mFACE-Datensatzes zeigen wir außerdem, dass unsere Methode auf mehrsprachige Szenarien verallgemeinert werden kann. Schließlich veröffentlichen wir einen groß angelegten synthetischen Datensatz mit 1,4 Millionen Beispielen, die mit TrueTeacher generiert wurden.
Wir präsentieren unsere Arbeit zur Entwicklung eines multilingualen, effizienten Text-zu-Text-Transformers, der für die Verarbeitung langer Eingaben geeignet ist. Dieses Modell, genannt mLongT5, baut auf der Architektur von LongT5 auf und nutzt dabei die multilingualen Datensätze, die für das Pretraining von mT5 verwendet wurden, sowie die Pretraining-Aufgaben von UL2. Wir evaluieren dieses Modell anhand einer Vielzahl von multilingualen Zusammenfassungs- und Frage-Antwort-Aufgaben, und die Ergebnisse zeigen eine stärkere Leistung von mLongT5 im Vergleich zu bestehenden multilingualen Modellen wie mBART oder M-BERT.
Die symbolische Musikerzeugung zielt darauf ab, musikalische Noten zu generieren, die Nutzern dabei helfen können, Musik zu komponieren, beispielsweise durch die Erzeugung von Zielinstrumentalspuren von Grund auf oder basierend auf vom Nutzer bereitgestellten Quellspuren. Angesichts der vielfältigen und flexiblen Kombinationen zwischen Quell- und Zielspuren ist ein einheitliches Modell, das in der Lage ist, beliebige Spuren zu erzeugen, von entscheidender Bedeutung. Bisherige Arbeiten konnten diesen Bedarf aufgrund inhärenter Einschränkungen in den Musikrepräsentationen und Modellarchitekturen nicht erfüllen. Um diesen Bedarf zu adressieren, schlagen wir eine einheitliche Repräsentation und ein Diffusionsframework namens GETMusic vor („GET“ steht für GEnerate music Tracks), das eine neuartige Musikrepräsentation namens GETScore und ein Diffusionsmodell namens GETDiff umfasst. GETScore repräsentiert Noten als Token und organisiert sie in einer 2D-Struktur, wobei die Spuren vertikal gestapelt und horizontal über die Zeit fortschreitend angeordnet sind. Während des Trainings werden Spuren zufällig als Ziel- oder Quellspuren ausgewählt. Im Vorwärtsprozess werden Zielspuren durch das Maskieren ihrer Token verfälscht, während Quellspuren als Grundwahrheit beibehalten werden. Im Entrauschungsprozess lernt GETDiff, die maskierten Ziel-Token unter Berücksichtigung der Quellspuren vorherzusagen. Durch die separaten Spuren in GETScore und das nicht-autoregressive Verhalten des Modells kann GETMusic die Erzeugung beliebiger Zielspuren von Grund auf oder basierend auf Quellspuren explizit steuern. Wir führen Experimente zur Musikerzeugung mit sechs Instrumentalspuren durch, was insgesamt 665 Kombinationen ergibt. GETMusic liefert hochwertige Ergebnisse über diverse Kombinationen hinweg und übertrifft bisherige Arbeiten, die für bestimmte Kombinationen vorgeschlagen wurden.
Visueller Text ruft ein Bild im Geist einer Person hervor, während nicht-visueller Text dies nicht schafft. Eine Methode zur automatischen Erkennung von Visualität in Texten wird die Möglichkeit eröffnen, Texte mit relevanten Bildern zu ergänzen, da neuronale Text-zu-Bild-Generierungs- und Retrieval-Modelle auf der impliziten Annahme basieren, dass der Eingabetext visueller Natur ist. Wir haben einen Datensatz von 3.620 englischen Sätzen und deren Visualitätsbewertungen, die von mehreren menschlichen Annotatoren bereitgestellt wurden, zusammengestellt. Zusätzlich verwenden wir Dokumente, die Text und visuelle Elemente enthalten, um ein distanziell überwachtes Korpus aus Dokumenttexten und zugehörigen Bildern zu erstellen. Wir schlagen außerdem eine Feinabstimmungsstrategie vor, die große Vision-Language-Modelle wie CLIP, die eine Eins-zu-eins-Korrespondenz zwischen Text und Bild voraussetzen, an die Aufgabe anpasst, die Visualität von Texten allein aus dem Textinput zu bewerten. Unsere Strategie beinhaltet die Modifikation des kontrastiven Lernziels des Modells, um Text, der als nicht-visuell identifiziert wird, auf ein gemeinsames NULL-Bild abzubilden, während visueller Text den entsprechenden Bildern im Dokument zugeordnet wird. Wir bewerten den vorgeschlagenen Ansatz hinsichtlich seiner Fähigkeit, (i) visuellen und nicht-visuellen Text genau zu klassifizieren und (ii) Wörter zu berücksichtigen, die in psycholinguistischen Studien als visuell identifiziert wurden. Die empirische Auswertung zeigt, dass unser Ansatz für die vorgeschlagene Aufgabe besser abschneidet als mehrere Heuristiken und Baseline-Modelle. Darüber hinaus führen wir qualitative Analysen von Text-zu-Bild-Generierungssystemen wie DALL-E durch, um die Bedeutung der Modellierung der Visualität von Texten hervorzuheben.
Wir untersuchen die Verwendung von Transformer-Sequenzmodellen als Dynamikmodelle (TDMs) für die Steuerung. In einer Reihe von Experimenten in der DeepMind Control Suite stellen wir fest, dass TDMs erstens in einer Einzelumgebungslernumgebung im Vergleich zu Baseline-Modellen gut abschneiden. Zweitens zeigen TDMs starke Generalisierungsfähigkeiten auf unbekannte Umgebungen, sowohl in einem Few-Shot-Setting, bei dem ein Generalistenmodell mit kleinen Datenmengen aus der Zielumgebung feinabgestimmt wird, als auch in einem Zero-Shot-Setting, bei dem ein Generalistenmodell ohne weitere Anpassungen auf eine unbekannte Umgebung angewendet wird. Wir zeigen weiterhin, dass die Generalisierung von Systemdynamiken viel besser funktionieren kann als die direkte Generalisierung optimalen Verhaltens als Policy. Dies macht TDMs zu einer vielversprechenden Komponente für ein Foundation-Modell der Steuerung.
Wir präsentieren VideoFactory, ein innovatives Framework zur Erzeugung hochwertiger, offen-domain Videos. VideoFactory zeichnet sich durch die Produktion von hochauflösenden (1376x768), breitbildformatigen (16:9) Videos ohne Wasserzeichen aus, was ein ansprechendes Nutzererlebnis schafft. Die Erzeugung von Videos, die durch Textanweisungen gesteuert werden, stellt erhebliche Herausforderungen dar, wie die Modellierung der komplexen Beziehung zwischen Raum und Zeit sowie der Mangel an groß angelegten Text-Video-Paaren. Bisherige Ansätze erweitern vortrainierte Text-zu-Bild-Generierungsmodelle durch die Hinzufügung von temporalen 1D-Faltungs-/Aufmerksamkeitsmodulen für die Videogenerierung. Diese Ansätze vernachlässigen jedoch die Bedeutung der gemeinsamen Modellierung von Raum und Zeit, was unweigerlich zu zeitlichen Verzerrungen und Fehlausrichtungen zwischen Texten und Videos führt. In diesem Artikel schlagen wir einen neuartigen Ansatz vor, der die Interaktion zwischen räumlicher und zeitlicher Wahrnehmung stärkt. Insbesondere nutzen wir einen getauschten Cross-Attention-Mechanismus in 3D-Fenstern, der die „Query“-Rolle zwischen räumlichen und zeitlichen Blöcken abwechselt und so eine gegenseitige Verstärkung ermöglicht. Um die Modellfähigkeiten für die hochwertige Videogenerierung vollständig zu erschließen, haben wir einen groß angelegten Videodatensatz namens HD-VG-130M kuratiert. Dieser Datensatz umfasst 130 Millionen Text-Video-Paare aus der offenen Domain und gewährleistet hochauflösende, breitbildformatige und wasserzeichenfreie Eigenschaften. Objektive Metriken und Nutzerstudien demonstrieren die Überlegenheit unseres Ansatzes in Bezug auf die Qualität pro Frame, die zeitliche Korrelation und die Text-Video-Ausrichtung mit deutlichen Abständen.
Der Generative Pre-trained Transformer (GPT) hat großen Erfolg in der natürlichen Sprachverarbeitung gezeigt, und verwandte Techniken wurden in die molekulare Modellierung übernommen. Da Text die wichtigste Aufzeichnung für wissenschaftliche Entdeckungen ist, schlagen wir in diesem Artikel MolXPT vor, ein einheitliches Sprachmodell für Text und Moleküle, das auf SMILES (einer Sequenzdarstellung von Molekülen), die in Text eingebettet sind, vortrainiert wurde. Kurz gesagt, wir erkennen die Molekülnamen in jeder Sequenz und ersetzen sie durch die entsprechenden SMILES. Auf diese Weise können die SMILES Informationen aus dem umgebenden Text nutzen und umgekehrt. Die oben genannten eingebetteten Sequenzen, Textsequenzen aus PubMed und SMILES-Sequenzen aus PubChem werden alle in ein Sprachmodell für das Vortraining eingespeist. Experimentelle Ergebnisse zeigen, dass MolXPT starke Baselines der molekularen Eigenschaftsvorhersage auf MoleculeNet übertrifft, vergleichbar mit dem besten Modell in der Text-Molekül-Übersetzung abschneidet, während es weniger als die Hälfte seiner Parameter verwendet, und die Null-Shot-Molekülgenerierung ohne Feinabstimmung ermöglicht.
Trotz erheblicher Fortschritte bei der Erzeugung hochwertiger Bilder mithilfe von Diffusionsmodellen steht die Synthese einer Sequenz animierter Frames, die sowohl fotorealistisch als auch zeitlich kohärent sind, noch in den Kinderschuhen. Während umfangreiche Milliarden-große Datensätze für die Bildgenerierung verfügbar sind, ist die Sammlung ähnlich großer Videodaten nach wie vor eine Herausforderung. Zudem ist das Training eines Video-Diffusionsmodells rechenintensiver als das seines Bild-Gegenstücks. In dieser Arbeit untersuchen wir das Feinabstimmen eines vortrainierten Bild-Diffusionsmodells mit Videodaten als praktische Lösung für die Video-Synthese-Aufgabe. Wir stellen fest, dass eine naive Erweiterung des Bild-Rausch-Priors auf einen Video-Rausch-Prior in der Video-Diffusion zu suboptimalen Ergebnissen führt. Unser sorgfältig entworfener Video-Rausch-Prior führt hingegen zu deutlich besseren Leistungen. Umfangreiche experimentelle Validierungen zeigen, dass unser Modell, Preserve Your Own Correlation (PYoCo), state-of-the-art (SOTA) Zero-Shot-Text-zu-Video-Ergebnisse auf den Benchmarks UCF-101 und MSR-VTT erzielt. Es erreicht auch SOTA-Qualität bei der Videogenerierung auf dem kleinskaligen UCF-101-Benchmark mit einem 10-mal kleineren Modell und deutlich weniger Rechenaufwand als der bisherige Stand der Technik.