Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz jüngster Fortschritte in der Forschung zur Rekonstruktion bekleideter Menschen aus einem einzelnen Bild bleibt die präzise Wiederherstellung der „unsichtbaren Bereiche“ mit hochdetaillierten Merkmalen eine ungelöste Herausforderung, die bisher wenig Beachtung gefunden hat. Bestehende Methoden erzeugen oft übermäßig glatte Rückseitenflächen mit unscharfen Texturen. Doch wie kann man effektiv alle visuellen Attribute einer Person aus einem einzigen Bild erfassen, die ausreichen, um unsichtbare Bereiche (z. B. die Rückansicht) zu rekonstruieren? Angeregt durch die Leistungsfähigkeit von Foundation-Modellen rekonstruiert TeCH den 3D-Menschen durch die Nutzung von 1) beschreibenden Textprompts (z. B. Kleidung, Farben, Frisuren), die automatisch über ein Kleidungssegmentierungsmodell und Visual Question Answering (VQA) generiert werden, und 2) einem personalisierten, feinabgestimmten Text-zu-Bild-Diffusionsmodell (T2I), das das „unbeschreibliche“ Aussehen erlernt. Um hochauflösende 3D-bekleidete Menschen kostengünstig darzustellen, schlagen wir eine hybride 3D-Darstellung basierend auf DMTet vor, die aus einem expliziten Körperformgitter und einem impliziten Distanzfeld besteht. Geleitet durch die beschreibenden Prompts und das personalisierte T2I-Diffusionsmodell werden die Geometrie und Textur der 3D-Menschen durch Multi-View-Score-Distillation-Sampling (SDS) und Rekonstruktionsverluste basierend auf der ursprünglichen Beobachtung optimiert. TeCH erzeugt hochfidele 3D-bekleidete Menschen mit konsistenter und feiner Textur sowie detaillierter Ganzkörpergeometrie. Quantitative und qualitative Experimente zeigen, dass TeCH die state-of-the-art-Methoden in Bezug auf Rekonstruktionsgenauigkeit und Renderqualität übertrifft. Der Code wird zu Forschungszwecken öffentlich verfügbar sein unter https://huangyangyi.github.io/tech.
Personalisierte Textgenerierung ist ein aufstrebendes Forschungsgebiet, das in den letzten Jahren viel Aufmerksamkeit auf sich gezogen hat. Die meisten Studien in diesem Bereich konzentrieren sich auf ein bestimmtes Domänen, indem sie maßgeschneiderte Merkmale oder Modelle entwickeln. In dieser Arbeit schlagen wir einen allgemeinen Ansatz für die personalisierte Textgenerierung unter Verwendung von großen Sprachmodellen (LLMs) vor. Inspiriert von der Praxis der Schreiberziehung entwickeln wir ein mehrstufiges und multitask-fähiges Framework, um LLMs für die personalisierte Generierung zu trainieren. In der Schreibdidaktik wird die Aufgabe, Texte aus Quellen zu verfassen, oft in mehrere Schritte zerlegt, die das Finden, Bewerten, Zusammenfassen, Synthetisieren und Integrieren von Informationen umfassen. Analog besteht unser Ansatz zur personalisierten Textgenerierung aus mehreren Stufen: Retrieval, Ranking, Zusammenfassung, Synthese und Generierung. Darüber hinaus führen wir eine Multitask-Einstellung ein, die dem Modell hilft, seine Generierungsfähigkeit weiter zu verbessern. Dies ist inspiriert von der Beobachtung in der Bildung, dass die Lesekompetenz und Schreibfähigkeit eines Schülers oft korreliert sind. Wir evaluieren unseren Ansatz anhand von drei öffentlichen Datensätzen, die jeweils eine andere und repräsentative Domäne abdecken. Unsere Ergebnisse zeigen signifikante Verbesserungen gegenüber einer Vielzahl von Baseline-Modellen.
Mit den aufkommenden Diffusionsmodellen hat die Text-zu-Video-Generierung in letzter Zeit zunehmend Aufmerksamkeit erregt. Ein wichtiger Engpass dabei ist jedoch, dass generierte Videos oft Flackern und Artefakte aufweisen. In dieser Arbeit schlagen wir ein Dual-Stream-Diffusionsnetzwerk (DSDN) vor, um die Konsistenz von Inhaltsvariationen bei der Videogenerierung zu verbessern. Insbesondere können die beiden entworfenen Diffusionsströme, die Videoinhalts- und Bewegungszweige, nicht nur separat in ihren eigenen Räumen laufen, um personalisierte Videovariationen sowie Inhalte zu erzeugen, sondern auch durch die Nutzung unseres entworfenen Cross-Transformer-Interaktionsmoduls gut zwischen den Inhalts- und Bewegungsdomänen abgestimmt werden, was die Glätte der generierten Videos fördert. Darüber hinaus führen wir auch einen Bewegungszerleger und -kombinierer ein, um die Bearbeitung von Videobewegungen zu erleichtern. Qualitative und quantitative Experimente zeigen, dass unsere Methode erstaunlich kontinuierliche Videos mit weniger Flackern erzeugen kann.
Die kontrollierbare Videogenerierung hat in den letzten Jahren erheblich an Aufmerksamkeit gewonnen. Dennoch bestehen zwei Hauptbeschränkungen fort: Erstens konzentrieren sich die meisten bestehenden Arbeiten entweder auf text-, bild- oder trajektorienbasierte Steuerung, was zu einer Unfähigkeit führt, eine feinkörnige Steuerung in Videos zu erreichen. Zweitens befindet sich die Forschung zur Trajektoriensteuerung noch in einem frühen Stadium, wobei die meisten Experimente auf einfachen Datensätzen wie Human3.6M durchgeführt werden. Diese Einschränkung begrenzt die Fähigkeit der Modelle, offenbereichsbezogene Bilder zu verarbeiten und komplexe gekrümmte Trajektorien effektiv zu handhaben. In diesem Artikel schlagen wir DragNUWA vor, ein offenbereichsbasiertes, diffusionsgestütztes Videogenerierungsmodell. Um das Problem der unzureichenden Kontrollgranularität in bestehenden Arbeiten zu lösen, führen wir gleichzeitig Text-, Bild- und Trajektorieninformationen ein, um eine feinkörnige Steuerung des Videoinhalts aus semantischer, räumlicher und zeitlicher Perspektive zu ermöglichen. Um das Problem der begrenzten offenbereichsbasierten Trajektoriensteuerung in der aktuellen Forschung zu beheben, schlagen wir eine Trajektorienmodellierung mit drei Aspekten vor: einen Trajektorien-Sampler (TS), um die offenbereichsbasierte Steuerung beliebiger Trajektorien zu ermöglichen, eine Multiskalen-Fusion (MF), um Trajektorien in verschiedenen Granularitäten zu steuern, und eine Adaptive Trainingsstrategie (AT), um konsistente Videos entlang von Trajektorien zu generieren. Unsere Experimente validieren die Wirksamkeit von DragNUWA und demonstrieren seine überlegene Leistung bei der feinkörnigen Steuerung in der Videogenerierung. Der Link zur Homepage lautet https://www.microsoft.com/en-us/research/project/dragnuwa/.
Selbstüberwachte und sprachüberwachte Bildmodelle enthalten umfangreiches Wissen über die Welt, das für die Generalisierung entscheidend ist. Viele robotische Aufgaben erfordern jedoch ein detailliertes Verständnis der 3D-Geometrie, das in 2D-Bildmerkmalen oft fehlt. Diese Arbeit überbrückt diese 2D-zu-3D-Lücke für die robotische Manipulation, indem sie destillierte Merkmalsfelder nutzt, um präzise 3D-Geometrie mit reicher Semantik aus 2D-Foundation-Modellen zu kombinieren. Wir präsentieren eine Few-Shot-Lernmethode für 6-DOF-Greifen und Platzieren, die diese starken räumlichen und semantischen Vorinformationen nutzt, um eine Generalisierung auf unbekannte Objekte in realen Umgebungen zu erreichen. Unter Verwendung von Merkmalen, die aus einem Vision-Language-Modell, CLIP, destilliert wurden, zeigen wir eine Methode zur Bezeichnung neuer Objekte für die Manipulation mittels Freitext-Natursprache und demonstrieren deren Fähigkeit, auf unbekannte Ausdrücke und neue Objektkategorien zu generalisieren.
Bestehende Methoden für die 4D-Rekonstruktion von allgemeinen, nicht starr deformierenden Objekten konzentrieren sich auf die Synthese neuer Ansichten und vernachlässigen Korrespondenzen. Zeitliche Konsistenz ermöglicht jedoch fortgeschrittene nachgelagerte Aufgaben wie 3D-Bearbeitung, Bewegungsanalyse oder die Erstellung virtueller Assets. Wir schlagen SceNeRFlow vor, um eine allgemeine, nicht starre Szene in einer zeitlich konsistenten Weise zu rekonstruieren. Unsere dynamische-NeRF-Methode nimmt Multi-View-RGB-Videos und Hintergrundbilder von statischen Kameras mit bekannten Kameraparametern als Eingabe. Sie rekonstruiert dann die Deformationen eines geschätzten kanonischen Modells der Geometrie und des Erscheinungsbilds in Echtzeit. Da dieses kanonische Modell zeitinvariant ist, erhalten wir Korrespondenzen auch für langfristige, weitreichende Bewegungen. Wir verwenden neuronale Szenendarstellungen, um die Komponenten unserer Methode zu parametrisieren. Wie bei früheren dynamischen-NeRF-Methoden verwenden wir ein rückwärtsgerichtetes Deformationsmodell. Wir stellen fest, dass nicht-triviale Anpassungen dieses Modells notwendig sind, um größere Bewegungen zu handhaben: Wir zerlegen die Deformationen in eine stark regularisierte grobe Komponente und eine schwach regularisierte feine Komponente, wobei die grobe Komponente das Deformationsfeld auch in den Raum um das Objekt herum erweitert, was die Verfolgung über die Zeit ermöglicht. Wir zeigen experimentell, dass unsere Methode im Gegensatz zu früheren Arbeiten, die nur kleine Bewegungen handhaben, die Rekonstruktion von Studio-skaligen Bewegungen ermöglicht.