papers.description
Wir stellen Zeitvektoren vor, ein einfaches Werkzeug, um Sprachmodelle an neue Zeiträume anzupassen. Zeitvektoren werden erstellt, indem ein Sprachmodell auf Daten aus einem einzelnen Zeitraum (z. B. ein Jahr oder ein Monat) feinabgestimmt wird und anschließend die Gewichte des ursprünglich vortrainierten Modells subtrahiert werden. Dieser Vektor gibt eine Richtung im Gewichtsraum an, die, wie unsere Experimente zeigen, die Leistung bei Texten aus diesem Zeitraum verbessert. Zeitvektoren, die auf benachbarte Zeiträume spezialisiert sind, scheinen in einer Mannigfaltigkeit näher beieinander positioniert zu sein. Unter Nutzung dieser Struktur interpolieren wir zwischen Zeitvektoren, um neue Modelle zu erzeugen, die ohne zusätzliches Training besser auf dazwischenliegende und zukünftige Zeiträume abschneiden. Wir demonstrieren die Konsistenz unserer Ergebnisse über verschiedene Aufgaben, Domänen, Modellgrößen und Zeitskalen hinweg. Unsere Ergebnisse deuten darauf hin, dass Zeit im Gewichtsraum feinabgestimmter Modelle kodiert ist.
Jüngste Fortschritte im Bereich der textgesteuerten Bildinpainting, basierend auf dem beispiellosen Erfolg von Text-zu-Bild-Diffusionsmodellen, haben zu außergewöhnlich realistischen und visuell plausiblen Ergebnissen geführt. Dennoch besteht in den derzeitigen Text-zu-Bild-Inpainting-Modellen noch erhebliches Verbesserungspotenzial, insbesondere bei der besseren Ausrichtung der inpainting-Bereiche auf Benutzeranweisungen und der Durchführung von Hochauflösungs-Inpainting. Daher stellen wir in diesem Artikel HD-Painter vor, einen vollständig trainingsfreien Ansatz, der präzise auf Anweisungen reagiert und sich nahtlos auf hochauflösendes Bildinpainting skalieren lässt. Zu diesem Zweck entwickeln wir die Prompt-Aware Introverted Attention (PAIntA)-Schicht, die Selbstaufmerksamkeitswerte durch Prompt-Informationen verbessert und zu einer besseren Textausrichtung bei der Generierung führt. Um die Prompt-Kohärenz weiter zu verbessern, führen wir den Reweighting Attention Score Guidance (RASG)-Mechanismus ein, der eine nachträgliche Sampling-Strategie nahtlos in die allgemeine Form von DDIM integriert, um latente Verschiebungen außerhalb der Verteilung zu verhindern. Darüber hinaus ermöglicht HD-Painter die Erweiterung auf größere Skalen durch die Einführung einer spezialisierten Super-Resolution-Technik, die für Inpainting maßgeschneidert ist und die Vervollständigung fehlender Regionen in Bildern mit einer Auflösung von bis zu 2K ermöglicht. Unsere Experimente zeigen, dass HD-Painter bestehende state-of-the-art-Ansätze qualitativ und quantitativ übertrifft und eine beeindruckende Verbesserung der Generierungsgenauigkeit von 61,4 % gegenüber 51,9 % erreicht. Wir werden die Codes öffentlich verfügbar machen unter: https://github.com/Picsart-AI-Research/HD-Painter
Jüngste Fortschritte in der Text-zu-3D-Aufgabe nutzen feinabgestimmte Text-zu-Bild-Diffusionsmodelle, um Multi-View-Bilder zu generieren, gefolgt von einer NeRF-Rekonstruktion. Dennoch leiden bestehende, überwachte feinabgestimmte (SFT) Diffusionsmodelle weiterhin unter Inkonsistenzen in der Multi-View-Darstellung und den daraus resultierenden NeRF-Artefakten. Obwohl ein längeres Training mit SFT die Konsistenz verbessert, führt es auch zu einer Verschiebung der Verteilung, was die Vielfalt und realistische Details reduziert. Wir argumentieren, dass die SFT von Multi-View-Diffusionsmodellen der Instruktionsfeinabstimmung in der LLM-Alignment-Pipeline ähnelt und von Methoden der RL-Feinabstimmung (RLFT) profitieren kann. Im Wesentlichen optimieren RLFT-Methoden Modelle über ihre SFT-Datenverteilung hinaus, indem sie ihre eigenen Ausgaben verwenden, wodurch die Verteilungsverschiebung effektiv gemildert wird. Zu diesem Zweck führen wir Carve3D ein, eine RLFT-Methode, die mit der Multi-View-Rekonstruktionskonsistenz (MRC) Metrik gekoppelt ist, um die Konsistenz von Multi-View-Diffusionsmodellen zu verbessern. Um MRC für eine Reihe von Multi-View-Bildern zu berechnen, vergleichen wir sie mit den entsprechenden Renderings der rekonstruierten NeRF aus denselben Blickwinkeln. Wir validieren die Robustheit von MRC durch umfangreiche Experimente, die unter kontrollierten Inkonsistenzniveaus durchgeführt wurden. Wir verbessern den Basis-RLFT-Algorithmus, um den Trainingsprozess zu stabilisieren, die Verteilungsverschiebung zu reduzieren und Skalierungsgesetze zu identifizieren. Durch qualitative und quantitative Experimente sowie eine Benutzerstudie demonstrieren wir die verbesserte Multi-View-Konsistenz von Carve3D, die daraus resultierende überlegene NeRF-Rekonstruktionsqualität und die minimale Verteilungsverschiebung im Vergleich zu einem längeren SFT. Projektwebseite: https://desaixie.github.io/carve-3d.
Wir stellen ShowRoom3D vor, einen dreistufigen Ansatz zur Erzeugung hochwertiger 3D-Raumszenen aus Texten. Bisherige Methoden, die 2D-Diffusions-Priors zur Optimierung von Neural Radiance Fields (NeRF) für die Generierung von Raumszenen verwenden, haben unbefriedigende Qualität gezeigt. Dies ist hauptsächlich auf die Einschränkungen von 2D-Priors zurückzuführen, denen das 3D-Bewusstsein fehlt, sowie auf Beschränkungen in der Trainingsmethodik. In diesem Artikel nutzen wir einen 3D-Diffusions-Prior, MVDiffusion, um die 3D-Raumszene zu optimieren. Unsere Beiträge liegen in zwei Aspekten. Erstens schlagen wir einen progressiven Ansatz zur Auswahl von Ansichten vor, um NeRF zu optimieren. Dabei wird der Trainingsprozess in drei Stufen unterteilt, wobei der Bereich der Kamerastichproben schrittweise erweitert wird. Zweitens schlagen wir eine Pose-Transformationsmethode in der zweiten Stufe vor. Diese stellt sicher, dass MVDiffusion präzise Ansichtsanleitungen liefert. Als Ergebnis ermöglicht ShowRoom3D die Erzeugung von Räumen mit verbesserter struktureller Integrität, gesteigerter Klarheit aus jeder Perspektive, reduzierter Inhaltswiederholung und höherer Konsistenz über verschiedene Blickwinkel hinweg. Umfangreiche Experimente zeigen, dass unsere Methode in Bezug auf Benutzerstudien die aktuellsten Ansätze deutlich übertrifft.
Aktuelle Fortschritte in der Modellierung des menschlichen Kopfes ermöglichen die Erzeugung plausibler 3D-Kopfmodelle mittels neuronaler Repräsentationen. Dennoch bleibt die Konstruktion vollständiger, hochdetaillierter Kopfmodelle mit explizit kontrollierbarer Animation eine Herausforderung. Darüber hinaus ist die Vervollständigung der Kopfgeometrie basierend auf einer partiellen Beobachtung, z. B. von einem Tiefensensor, bei gleichzeitiger Beibehaltung von Details für bestehende Methoden oft problematisch. Wir stellen ein generatives Modell für detaillierte 3D-Kopfnetze vor, das auf einem artikulierten 3DMM (3D Morphable Model) aufbaut und gleichzeitig explizite Animation und die Bewahrung hoher Detailgenauigkeit ermöglicht. Unsere Methode wird in zwei Stufen trainiert. Zunächst registrieren wir ein parametrisches Kopfmodell mit Vertex-Verschiebungen für jedes Netz des kürzlich eingeführten NPHM-Datensatzes präziser 3D-Kopfscans. Die geschätzten Verschiebungen werden in ein manuell erstelltes UV-Layout übertragen. Anschließend trainieren wir ein StyleGAN-Modell, um die UV-Karten der Verschiebungen zu generalisieren. Die Zerlegung des parametrischen Modells und die hochwertigen Vertex-Verschiebungen ermöglichen es uns, das Modell zu animieren und es semantisch zu modifizieren. Wir präsentieren die Ergebnisse der bedingungslosen Generierung sowie der Anpassung an vollständige oder partielle Beobachtungen. Die Projektseite ist unter https://seva100.github.io/headcraft verfügbar.