Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben zur Entwicklung intelligenter Agenten geführt, die in der Lage sind, komplexe Aufgaben auszuführen. Dieses Papier stellt ein neuartiges, auf LLMs basierendes multimodales Agenten-Framework vor, das für den Betrieb von Smartphone-Anwendungen konzipiert ist. Unser Framework ermöglicht es dem Agenten, Smartphone-Anwendungen über einen vereinfachten Aktionsraum zu bedienen, wobei menschliche Interaktionen wie Tippen und Wischen nachgeahmt werden. Dieser innovative Ansatz umgeht die Notwendigkeit eines Zugriffs auf das System-Backend und erweitert somit die Anwendbarkeit über verschiedene Apps hinweg. Kern der Funktionalität unseres Agenten ist seine innovative Lernmethode. Der Agent lernt, neue Apps zu navigieren und zu nutzen, entweder durch autonome Exploration oder durch die Beobachtung menschlicher Demonstrationen. Dieser Prozess generiert eine Wissensbasis, auf die der Agent zurückgreift, um komplexe Aufgaben in verschiedenen Anwendungen auszuführen. Um die Praxistauglichkeit unseres Agenten zu demonstrieren, haben wir umfangreiche Tests über 50 Aufgaben in 10 verschiedenen Anwendungen durchgeführt, darunter soziale Medien, E-Mail, Karten, Einkaufen und anspruchsvolle Bildbearbeitungstools. Die Ergebnisse bestätigen die Fähigkeit unseres Agenten, eine Vielzahl von hochrangigen Aufgaben zu bewältigen.
Dieses Paper stellt Paint3D vor, ein neuartiges grob-zu-fein generatives Framework, das in der Lage ist, hochauflösende, beleuchtungsfreie und vielfältige 2K UV-Texturkarten für untexturierte 3D-Meshes zu erzeugen, die auf Text- oder Bildinputs basieren. Die zentrale Herausforderung, die adressiert wird, ist die Erzeugung hochwertiger Texturen ohne eingebettete Beleuchtungsinformationen, was es ermöglicht, die Texturen in modernen Grafikpipelines neu zu beleuchten oder zu bearbeiten. Um dies zu erreichen, nutzt unsere Methode zunächst ein vortrainiertes, tiefenbewusstes 2D-Diffusionsmodell, um sichtabhängige Bilder zu generieren und eine Multi-View-Texturfusion durchzuführen, wodurch eine initiale grobe Texturkarte erzeugt wird. Da 2D-Modelle jedoch 3D-Formen nicht vollständig darstellen und Beleuchtungseffekte deaktivieren können, weist die grobe Texturkarte unvollständige Bereiche und Beleuchtungsartefakte auf. Um dies zu beheben, trainieren wir separate UV-Inpainting- und UVHD-Diffusionsmodelle, die speziell für die formbewusste Verfeinerung unvollständiger Bereiche und die Entfernung von Beleuchtungsartefakten entwickelt wurden. Durch diesen grob-zu-fein Prozess kann Paint3D hochwertige 2K UV-Texturen erzeugen, die semantische Konsistenz bewahren und gleichzeitig beleuchtungsfrei sind, was den Stand der Technik in der Texturierung von 3D-Objekten erheblich voranbringt.
Wir stellen Zeitvektoren vor, ein einfaches Werkzeug, um Sprachmodelle an neue Zeiträume anzupassen. Zeitvektoren werden erstellt, indem ein Sprachmodell auf Daten aus einem einzelnen Zeitraum (z. B. ein Jahr oder ein Monat) feinabgestimmt wird und anschließend die Gewichte des ursprünglich vortrainierten Modells subtrahiert werden. Dieser Vektor gibt eine Richtung im Gewichtsraum an, die, wie unsere Experimente zeigen, die Leistung bei Texten aus diesem Zeitraum verbessert. Zeitvektoren, die auf benachbarte Zeiträume spezialisiert sind, scheinen in einer Mannigfaltigkeit näher beieinander positioniert zu sein. Unter Nutzung dieser Struktur interpolieren wir zwischen Zeitvektoren, um neue Modelle zu erzeugen, die ohne zusätzliches Training besser auf dazwischenliegende und zukünftige Zeiträume abschneiden. Wir demonstrieren die Konsistenz unserer Ergebnisse über verschiedene Aufgaben, Domänen, Modellgrößen und Zeitskalen hinweg. Unsere Ergebnisse deuten darauf hin, dass Zeit im Gewichtsraum feinabgestimmter Modelle kodiert ist.
Jüngste Fortschritte in personalisierten Text-zu-Bild (T2I)-Modellen haben die Inhaltserstellung revolutioniert und es Laien ermöglicht, beeindruckende Bilder mit einzigartigen Stilen zu generieren. Obwohl vielversprechend, stellt das Hinzufügen realistischer Bewegungen zu diesen personalisierten Bildern durch Text erhebliche Herausforderungen dar, insbesondere bei der Bewahrung des individuellen Stils, der hochauflösenden Details und der Erzielung von Bewegungssteuerbarkeit durch Text. In diesem Artikel stellen wir PIA vor, einen Personalisierten Bildanimator, der sich durch die präzise Ausrichtung an Bedingungsbildern, die Bewegungssteuerbarkeit durch Text und die Kompatibilität mit verschiedenen personalisierten T2I-Modellen ohne spezifische Anpassung auszeichnet. Um diese Ziele zu erreichen, baut PIA auf einem Basis-T2I-Modell mit gut trainierten temporalen Ausrichtungsschichten auf, wodurch nahtlos jedes personalisierte T2I-Modell in ein Bildanimationsmodell transformiert werden kann. Ein Schlüsselelement von PIA ist die Einführung des Bedingungsmoduls, das den Bedingungsrahmen und die Inter-Frame-Affinität als Eingabe nutzt, um Erscheinungsinformationen zu übertragen, die durch den Affinitätshinweis für die Synthese einzelner Frames im latenten Raum geleitet werden. Dieser Ansatz mildert die Herausforderungen der erscheinungsbezogenen Bildausrichtung und ermöglicht eine stärkere Konzentration auf die Ausrichtung an bewegungsbezogenen Anweisungen.
Jüngste Fortschritte im Bereich der textgesteuerten Bildinpainting, basierend auf dem beispiellosen Erfolg von Text-zu-Bild-Diffusionsmodellen, haben zu außergewöhnlich realistischen und visuell plausiblen Ergebnissen geführt. Dennoch besteht in den derzeitigen Text-zu-Bild-Inpainting-Modellen noch erhebliches Verbesserungspotenzial, insbesondere bei der besseren Ausrichtung der inpainting-Bereiche auf Benutzeranweisungen und der Durchführung von Hochauflösungs-Inpainting. Daher stellen wir in diesem Artikel HD-Painter vor, einen vollständig trainingsfreien Ansatz, der präzise auf Anweisungen reagiert und sich nahtlos auf hochauflösendes Bildinpainting skalieren lässt. Zu diesem Zweck entwickeln wir die Prompt-Aware Introverted Attention (PAIntA)-Schicht, die Selbstaufmerksamkeitswerte durch Prompt-Informationen verbessert und zu einer besseren Textausrichtung bei der Generierung führt. Um die Prompt-Kohärenz weiter zu verbessern, führen wir den Reweighting Attention Score Guidance (RASG)-Mechanismus ein, der eine nachträgliche Sampling-Strategie nahtlos in die allgemeine Form von DDIM integriert, um latente Verschiebungen außerhalb der Verteilung zu verhindern. Darüber hinaus ermöglicht HD-Painter die Erweiterung auf größere Skalen durch die Einführung einer spezialisierten Super-Resolution-Technik, die für Inpainting maßgeschneidert ist und die Vervollständigung fehlender Regionen in Bildern mit einer Auflösung von bis zu 2K ermöglicht. Unsere Experimente zeigen, dass HD-Painter bestehende state-of-the-art-Ansätze qualitativ und quantitativ übertrifft und eine beeindruckende Verbesserung der Generierungsgenauigkeit von 61,4 % gegenüber 51,9 % erreicht. Wir werden die Codes öffentlich verfügbar machen unter: https://github.com/Picsart-AI-Research/HD-Painter
Jüngste Fortschritte in der Text-zu-3D-Aufgabe nutzen feinabgestimmte Text-zu-Bild-Diffusionsmodelle, um Multi-View-Bilder zu generieren, gefolgt von einer NeRF-Rekonstruktion. Dennoch leiden bestehende, überwachte feinabgestimmte (SFT) Diffusionsmodelle weiterhin unter Inkonsistenzen in der Multi-View-Darstellung und den daraus resultierenden NeRF-Artefakten. Obwohl ein längeres Training mit SFT die Konsistenz verbessert, führt es auch zu einer Verschiebung der Verteilung, was die Vielfalt und realistische Details reduziert. Wir argumentieren, dass die SFT von Multi-View-Diffusionsmodellen der Instruktionsfeinabstimmung in der LLM-Alignment-Pipeline ähnelt und von Methoden der RL-Feinabstimmung (RLFT) profitieren kann. Im Wesentlichen optimieren RLFT-Methoden Modelle über ihre SFT-Datenverteilung hinaus, indem sie ihre eigenen Ausgaben verwenden, wodurch die Verteilungsverschiebung effektiv gemildert wird. Zu diesem Zweck führen wir Carve3D ein, eine RLFT-Methode, die mit der Multi-View-Rekonstruktionskonsistenz (MRC) Metrik gekoppelt ist, um die Konsistenz von Multi-View-Diffusionsmodellen zu verbessern. Um MRC für eine Reihe von Multi-View-Bildern zu berechnen, vergleichen wir sie mit den entsprechenden Renderings der rekonstruierten NeRF aus denselben Blickwinkeln. Wir validieren die Robustheit von MRC durch umfangreiche Experimente, die unter kontrollierten Inkonsistenzniveaus durchgeführt wurden. Wir verbessern den Basis-RLFT-Algorithmus, um den Trainingsprozess zu stabilisieren, die Verteilungsverschiebung zu reduzieren und Skalierungsgesetze zu identifizieren. Durch qualitative und quantitative Experimente sowie eine Benutzerstudie demonstrieren wir die verbesserte Multi-View-Konsistenz von Carve3D, die daraus resultierende überlegene NeRF-Rekonstruktionsqualität und die minimale Verteilungsverschiebung im Vergleich zu einem längeren SFT. Projektwebseite: https://desaixie.github.io/carve-3d.
Wir stellen ShowRoom3D vor, einen dreistufigen Ansatz zur Erzeugung hochwertiger 3D-Raumszenen aus Texten. Bisherige Methoden, die 2D-Diffusions-Priors zur Optimierung von Neural Radiance Fields (NeRF) für die Generierung von Raumszenen verwenden, haben unbefriedigende Qualität gezeigt. Dies ist hauptsächlich auf die Einschränkungen von 2D-Priors zurückzuführen, denen das 3D-Bewusstsein fehlt, sowie auf Beschränkungen in der Trainingsmethodik. In diesem Artikel nutzen wir einen 3D-Diffusions-Prior, MVDiffusion, um die 3D-Raumszene zu optimieren. Unsere Beiträge liegen in zwei Aspekten. Erstens schlagen wir einen progressiven Ansatz zur Auswahl von Ansichten vor, um NeRF zu optimieren. Dabei wird der Trainingsprozess in drei Stufen unterteilt, wobei der Bereich der Kamerastichproben schrittweise erweitert wird. Zweitens schlagen wir eine Pose-Transformationsmethode in der zweiten Stufe vor. Diese stellt sicher, dass MVDiffusion präzise Ansichtsanleitungen liefert. Als Ergebnis ermöglicht ShowRoom3D die Erzeugung von Räumen mit verbesserter struktureller Integrität, gesteigerter Klarheit aus jeder Perspektive, reduzierter Inhaltswiederholung und höherer Konsistenz über verschiedene Blickwinkel hinweg. Umfangreiche Experimente zeigen, dass unsere Methode in Bezug auf Benutzerstudien die aktuellsten Ansätze deutlich übertrifft.
Semantische Bildsynthese, d.h. die Erzeugung von Bildern aus benutzerdefinierten semantischen Labelkarten, ist eine wichtige Aufgabe der bedingten Bildgenerierung, da sie die Kontrolle sowohl über den Inhalt als auch über die räumliche Anordnung der generierten Bilder ermöglicht. Obwohl Diffusionsmodelle den Stand der Technik in der generativen Bildmodellierung vorangetrieben haben, macht der iterative Charakter ihres Inferenzprozesses sie rechenintensiv. Andere Ansätze wie GANs sind effizienter, da sie nur einen einzigen Vorwärtsdurchlauf für die Generierung benötigen, aber die Bildqualität leidet tendenziell bei großen und diversen Datensätzen. In dieser Arbeit schlagen wir eine neue Klasse von GAN-Diskriminatoren für die semantische Bildsynthese vor, die hochrealistische Bilder erzeugt, indem sie Feature-Backbone-Netzwerke nutzt, die für Aufgaben wie Bildklassifizierung vortrainiert wurden. Wir führen auch eine neue Generatorarchitektur mit besserer Kontextmodellierung ein, die Cross-Attention verwendet, um Rauschen in latente Variablen einzubringen, was zu diverseren generierten Bildern führt. Unser Modell, das wir DP-SIMS nennen, erzielt state-of-the-art Ergebnisse in Bezug auf Bildqualität und Konsistenz mit den Eingabe-Labelkarten auf ADE-20K, COCO-Stuff und Cityscapes und übertrifft dabei aktuelle Diffusionsmodelle, während es zwei Größenordnungen weniger Rechenleistung für die Inferenz benötigt.
Aktuelle Fortschritte in der Modellierung des menschlichen Kopfes ermöglichen die Erzeugung plausibler 3D-Kopfmodelle mittels neuronaler Repräsentationen. Dennoch bleibt die Konstruktion vollständiger, hochdetaillierter Kopfmodelle mit explizit kontrollierbarer Animation eine Herausforderung. Darüber hinaus ist die Vervollständigung der Kopfgeometrie basierend auf einer partiellen Beobachtung, z. B. von einem Tiefensensor, bei gleichzeitiger Beibehaltung von Details für bestehende Methoden oft problematisch. Wir stellen ein generatives Modell für detaillierte 3D-Kopfnetze vor, das auf einem artikulierten 3DMM (3D Morphable Model) aufbaut und gleichzeitig explizite Animation und die Bewahrung hoher Detailgenauigkeit ermöglicht. Unsere Methode wird in zwei Stufen trainiert. Zunächst registrieren wir ein parametrisches Kopfmodell mit Vertex-Verschiebungen für jedes Netz des kürzlich eingeführten NPHM-Datensatzes präziser 3D-Kopfscans. Die geschätzten Verschiebungen werden in ein manuell erstelltes UV-Layout übertragen. Anschließend trainieren wir ein StyleGAN-Modell, um die UV-Karten der Verschiebungen zu generalisieren. Die Zerlegung des parametrischen Modells und die hochwertigen Vertex-Verschiebungen ermöglichen es uns, das Modell zu animieren und es semantisch zu modifizieren. Wir präsentieren die Ergebnisse der bedingungslosen Generierung sowie der Anpassung an vollständige oder partielle Beobachtungen. Die Projektseite ist unter https://seva100.github.io/headcraft verfügbar.
Die Videosynthese von Ansichten, die die Erstellung visuell ansprechender Bilder aus beliebigen Blickwinkeln und Zeiten ermöglicht, bietet immersive Betrachtungserlebnisse. Neuronale Strahlungsfelder, insbesondere NeRF, die ursprünglich für statische Szenen entwickelt wurden, haben die Entwicklung verschiedener Methoden für die Videosynthese von Ansichten vorangetrieben. Die Herausforderung bei der Videosynthese von Ansichten ergibt sich jedoch aus der Bewegungsunschärfe, die durch die Bewegung von Objekten oder der Kamera während der Belichtung entsteht und die präzise Synthese scharfer räumlich-zeitlicher Ansichten behindert. Als Antwort darauf schlagen wir ein neuartiges dynamisches Entschärfungs-NeRF-Framework für unscharfe monokulare Videos vor, genannt DyBluRF, das aus einer Interleave Ray Refinement (IRR)-Phase und einer Motion Decomposition-based Deblurring (MDD)-Phase besteht. Unser DyBluRF ist das erste Modell, das die Synthese neuer Ansichten für unscharfe monokulare Videos adressiert und bewältigt. Die IRR-Phase rekonstruiert gemeinsam dynamische 3D-Szenen und verfeinert die ungenaue Kameraposeninformation, um der unpräzisen Poseninformation entgegenzuwirken, die aus den gegebenen unscharfen Bildern extrahiert wird. Die MDD-Phase ist ein neuartiger inkrementeller Ansatz zur Vorhersage latenter scharfer Strahlen (ILSP) für die unscharfen monokularen Videobilder, indem die latenten scharfen Strahlen in globale Kamerabewegungen und lokale Objektbewegungskomponenten zerlegt werden. Umfangreiche experimentelle Ergebnisse zeigen, dass unser DyBluRF qualitativ und quantitativ die neuesten State-of-the-Art-Methoden übertrifft. Unsere Projektseite, einschließlich der Quellcodes und des vortrainierten Modells, ist öffentlich unter https://kaist-viclab.github.io/dyblurf-site/ verfügbar.