Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben zur Entwicklung intelligenter Agenten geführt, die in der Lage sind, komplexe Aufgaben auszuführen. Dieses Papier stellt ein neuartiges, auf LLMs basierendes multimodales Agenten-Framework vor, das für den Betrieb von Smartphone-Anwendungen konzipiert ist. Unser Framework ermöglicht es dem Agenten, Smartphone-Anwendungen über einen vereinfachten Aktionsraum zu bedienen, wobei menschliche Interaktionen wie Tippen und Wischen nachgeahmt werden. Dieser innovative Ansatz umgeht die Notwendigkeit eines Zugriffs auf das System-Backend und erweitert somit die Anwendbarkeit über verschiedene Apps hinweg. Kern der Funktionalität unseres Agenten ist seine innovative Lernmethode. Der Agent lernt, neue Apps zu navigieren und zu nutzen, entweder durch autonome Exploration oder durch die Beobachtung menschlicher Demonstrationen. Dieser Prozess generiert eine Wissensbasis, auf die der Agent zurückgreift, um komplexe Aufgaben in verschiedenen Anwendungen auszuführen. Um die Praxistauglichkeit unseres Agenten zu demonstrieren, haben wir umfangreiche Tests über 50 Aufgaben in 10 verschiedenen Anwendungen durchgeführt, darunter soziale Medien, E-Mail, Karten, Einkaufen und anspruchsvolle Bildbearbeitungstools. Die Ergebnisse bestätigen die Fähigkeit unseres Agenten, eine Vielzahl von hochrangigen Aufgaben zu bewältigen.
Dieses Paper stellt Paint3D vor, ein neuartiges grob-zu-fein generatives Framework, das in der Lage ist, hochauflösende, beleuchtungsfreie und vielfältige 2K UV-Texturkarten für untexturierte 3D-Meshes zu erzeugen, die auf Text- oder Bildinputs basieren. Die zentrale Herausforderung, die adressiert wird, ist die Erzeugung hochwertiger Texturen ohne eingebettete Beleuchtungsinformationen, was es ermöglicht, die Texturen in modernen Grafikpipelines neu zu beleuchten oder zu bearbeiten. Um dies zu erreichen, nutzt unsere Methode zunächst ein vortrainiertes, tiefenbewusstes 2D-Diffusionsmodell, um sichtabhängige Bilder zu generieren und eine Multi-View-Texturfusion durchzuführen, wodurch eine initiale grobe Texturkarte erzeugt wird. Da 2D-Modelle jedoch 3D-Formen nicht vollständig darstellen und Beleuchtungseffekte deaktivieren können, weist die grobe Texturkarte unvollständige Bereiche und Beleuchtungsartefakte auf. Um dies zu beheben, trainieren wir separate UV-Inpainting- und UVHD-Diffusionsmodelle, die speziell für die formbewusste Verfeinerung unvollständiger Bereiche und die Entfernung von Beleuchtungsartefakten entwickelt wurden. Durch diesen grob-zu-fein Prozess kann Paint3D hochwertige 2K UV-Texturen erzeugen, die semantische Konsistenz bewahren und gleichzeitig beleuchtungsfrei sind, was den Stand der Technik in der Texturierung von 3D-Objekten erheblich voranbringt.
Jüngste Fortschritte in personalisierten Text-zu-Bild (T2I)-Modellen haben die Inhaltserstellung revolutioniert und es Laien ermöglicht, beeindruckende Bilder mit einzigartigen Stilen zu generieren. Obwohl vielversprechend, stellt das Hinzufügen realistischer Bewegungen zu diesen personalisierten Bildern durch Text erhebliche Herausforderungen dar, insbesondere bei der Bewahrung des individuellen Stils, der hochauflösenden Details und der Erzielung von Bewegungssteuerbarkeit durch Text. In diesem Artikel stellen wir PIA vor, einen Personalisierten Bildanimator, der sich durch die präzise Ausrichtung an Bedingungsbildern, die Bewegungssteuerbarkeit durch Text und die Kompatibilität mit verschiedenen personalisierten T2I-Modellen ohne spezifische Anpassung auszeichnet. Um diese Ziele zu erreichen, baut PIA auf einem Basis-T2I-Modell mit gut trainierten temporalen Ausrichtungsschichten auf, wodurch nahtlos jedes personalisierte T2I-Modell in ein Bildanimationsmodell transformiert werden kann. Ein Schlüsselelement von PIA ist die Einführung des Bedingungsmoduls, das den Bedingungsrahmen und die Inter-Frame-Affinität als Eingabe nutzt, um Erscheinungsinformationen zu übertragen, die durch den Affinitätshinweis für die Synthese einzelner Frames im latenten Raum geleitet werden. Dieser Ansatz mildert die Herausforderungen der erscheinungsbezogenen Bildausrichtung und ermöglicht eine stärkere Konzentration auf die Ausrichtung an bewegungsbezogenen Anweisungen.
Semantische Bildsynthese, d.h. die Erzeugung von Bildern aus benutzerdefinierten semantischen Labelkarten, ist eine wichtige Aufgabe der bedingten Bildgenerierung, da sie die Kontrolle sowohl über den Inhalt als auch über die räumliche Anordnung der generierten Bilder ermöglicht. Obwohl Diffusionsmodelle den Stand der Technik in der generativen Bildmodellierung vorangetrieben haben, macht der iterative Charakter ihres Inferenzprozesses sie rechenintensiv. Andere Ansätze wie GANs sind effizienter, da sie nur einen einzigen Vorwärtsdurchlauf für die Generierung benötigen, aber die Bildqualität leidet tendenziell bei großen und diversen Datensätzen. In dieser Arbeit schlagen wir eine neue Klasse von GAN-Diskriminatoren für die semantische Bildsynthese vor, die hochrealistische Bilder erzeugt, indem sie Feature-Backbone-Netzwerke nutzt, die für Aufgaben wie Bildklassifizierung vortrainiert wurden. Wir führen auch eine neue Generatorarchitektur mit besserer Kontextmodellierung ein, die Cross-Attention verwendet, um Rauschen in latente Variablen einzubringen, was zu diverseren generierten Bildern führt. Unser Modell, das wir DP-SIMS nennen, erzielt state-of-the-art Ergebnisse in Bezug auf Bildqualität und Konsistenz mit den Eingabe-Labelkarten auf ADE-20K, COCO-Stuff und Cityscapes und übertrifft dabei aktuelle Diffusionsmodelle, während es zwei Größenordnungen weniger Rechenleistung für die Inferenz benötigt.
Die Videosynthese von Ansichten, die die Erstellung visuell ansprechender Bilder aus beliebigen Blickwinkeln und Zeiten ermöglicht, bietet immersive Betrachtungserlebnisse. Neuronale Strahlungsfelder, insbesondere NeRF, die ursprünglich für statische Szenen entwickelt wurden, haben die Entwicklung verschiedener Methoden für die Videosynthese von Ansichten vorangetrieben. Die Herausforderung bei der Videosynthese von Ansichten ergibt sich jedoch aus der Bewegungsunschärfe, die durch die Bewegung von Objekten oder der Kamera während der Belichtung entsteht und die präzise Synthese scharfer räumlich-zeitlicher Ansichten behindert. Als Antwort darauf schlagen wir ein neuartiges dynamisches Entschärfungs-NeRF-Framework für unscharfe monokulare Videos vor, genannt DyBluRF, das aus einer Interleave Ray Refinement (IRR)-Phase und einer Motion Decomposition-based Deblurring (MDD)-Phase besteht. Unser DyBluRF ist das erste Modell, das die Synthese neuer Ansichten für unscharfe monokulare Videos adressiert und bewältigt. Die IRR-Phase rekonstruiert gemeinsam dynamische 3D-Szenen und verfeinert die ungenaue Kameraposeninformation, um der unpräzisen Poseninformation entgegenzuwirken, die aus den gegebenen unscharfen Bildern extrahiert wird. Die MDD-Phase ist ein neuartiger inkrementeller Ansatz zur Vorhersage latenter scharfer Strahlen (ILSP) für die unscharfen monokularen Videobilder, indem die latenten scharfen Strahlen in globale Kamerabewegungen und lokale Objektbewegungskomponenten zerlegt werden. Umfangreiche experimentelle Ergebnisse zeigen, dass unser DyBluRF qualitativ und quantitativ die neuesten State-of-the-Art-Methoden übertrifft. Unsere Projektseite, einschließlich der Quellcodes und des vortrainierten Modells, ist öffentlich unter https://kaist-viclab.github.io/dyblurf-site/ verfügbar.