Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große visuell-sprachliche Modelle (VLMs) haben erhebliche Fortschritte in der multimodalen Wahrnehmung und dem logischen Denken erzielt. Darüber hinaus bedeutet ihre nahtlose Integration in einen verkörperten Agenten einen entscheidenden Schritt hin zur Schaffung autonomer und kontextbewusster Systeme, die in der Lage sind, Pläne zu erstellen und Befehle präzise auszuführen. In diesem Artikel stellen wir Octopus vor, ein neuartiges VLM, das darauf ausgelegt ist, die visuellen und textuellen Aufgabenziele eines Agenten kompetent zu entschlüsseln sowie komplexe Aktionssequenzen zu formulieren und ausführbaren Code zu generieren. Unser Design ermöglicht es dem Agenten, ein breites Spektrum von Aufgaben geschickt zu bewältigen, das von alltäglichen Routineaufgaben in Simulatoren bis hin zu anspruchsvollen Interaktionen in komplexen Videospielen reicht. Octopus wird trainiert, indem GPT-4 genutzt wird, um einen explorativen Agenten zu steuern, der Trainingsdaten – d. h. Aktionspläne und den entsprechenden ausführbaren Code – in unserer experimentellen Umgebung namens OctoVerse generiert. Wir sammeln auch Feedback, das das verbesserte Trainingsschema des Reinforcement Learning mit Umweltfeedback (RLEF) ermöglicht. Durch eine Reihe von Experimenten beleuchten wir die Funktionalität von Octopus und präsentieren überzeugende Ergebnisse, wobei sich das vorgeschlagene RLEF als effektiv erweist, um die Entscheidungsfindung des Agenten zu verfeinern. Durch die Open-Source-Bereitstellung unserer Modellarchitektur, unseres Simulators und unseres Datensatzes streben wir an, weitere Innovationen anzuregen und kollaborative Anwendungen innerhalb der breiteren verkörperten KI-Community zu fördern.
Wir stellen Lemur und Lemur-Chat vor, offen zugängliche Sprachmodelle, die sowohl für natürliche Sprache als auch für Programmierfähigkeiten optimiert sind, um als Rückgrat vielseitiger Sprachagenten zu dienen. Die Entwicklung von Sprach-Chat-Modellen hin zu funktionalen Sprachagenten erfordert, dass Modelle nicht nur menschliche Interaktion, logisches Denken und Planung beherrschen, sondern auch eine Verankerung in den relevanten Umgebungen sicherstellen. Dies erfordert eine harmonische Verbindung von Sprach- und Programmierfähigkeiten in den Modellen. Lemur und Lemur-Chat wurden entwickelt, um dieser Notwendigkeit gerecht zu werden, und zeigen ausgewogene Fähigkeiten in beiden Bereichen, im Gegensatz zu bestehenden Open-Source-Modellen, die tendenziell auf einen der beiden Bereiche spezialisiert sind. Durch sorgfältiges Vor-Training mit einem codeintensiven Korpus und Feinabstimmung durch Instruktionen auf Text- und Code-Daten erreichen unsere Modelle eine state-of-the-art durchschnittliche Leistung über diverse Text- und Programmier-Benchmarks unter den Open-Source-Modellen. Umfassende Experimente demonstrieren die Überlegenheit von Lemur gegenüber bestehenden Open-Source-Modellen und seine Kompetenz in verschiedenen Agentenaufgaben, die menschliche Kommunikation, Werkzeugnutzung und Interaktion in vollständig und teilweise beobachtbaren Umgebungen beinhalten. Die Harmonisierung zwischen natürlicher und Programmiersprache ermöglicht es Lemur-Chat, die Lücke zu proprietären Modellen in Bezug auf Agentenfähigkeiten erheblich zu verringern, und liefert wichtige Einblicke in die Entwicklung fortschrittlicher Open-Source-Agenten, die in der Lage sind, nahtlos über Umgebungen hinweg zu denken, zu planen und zu operieren. https://github.com/OpenLemur/Lemur
Wir stellen „Idea to Image“ vor, ein System, das multimodale iterative Selbstverfeinerung mit GPT-4V(ision) für die automatische Bildgestaltung und -generierung ermöglicht. Menschen können schnell die Eigenschaften verschiedener Text-zu-Bild (T2I)-Modelle durch iterative Erkundungen identifizieren. Dies ermöglicht es ihnen, ihre hochrangigen Generierungsideen effizient in effektive T2I-Prompts umzuwandeln, die gute Bilder erzeugen können. Wir untersuchen, ob Systeme, die auf großen multimodalen Modellen (LMMs) basieren, analoge multimodale Selbstverfeinerungsfähigkeiten entwickeln können, die es ermöglichen, unbekannte Modelle oder Umgebungen durch selbstverfeinernde Versuche zu erkunden. Idea2Img generiert zyklisch überarbeitete T2I-Prompts, um Entwurfsbilder zu synthetisieren, und liefert gerichtetes Feedback für die Prompt-Überarbeitung, beides basierend auf seinem Gedächtnis der charakteristischen Eigenschaften des untersuchten T2I-Modells. Die iterative Selbstverfeinerung bringt Idea2Img verschiedene Vorteile gegenüber herkömmlichen T2I-Modellen. Insbesondere kann Idea2Img Eingabeideen mit verschachtelten Bild-Text-Sequenzen verarbeiten, Ideen mit Gestaltungsanweisungen folgen und Bilder mit besserer semantischer und visueller Qualität erzeugen. Die Benutzerpräferenzstudie bestätigt die Wirksamkeit der multimodalen iterativen Selbstverfeinerung bei der automatischen Bildgestaltung und -generierung.
In jüngster Zeit hat die Erzeugung von 3D-Assets aus Textprompts beeindruckende Ergebnisse gezeigt. Sowohl 2D- als auch 3D-Diffusionsmodelle können anständige 3D-Objekte basierend auf Prompts generieren. 3D-Diffusionsmodelle weisen eine gute 3D-Konsistenz auf, aber ihre Qualität und Generalisierungsfähigkeit sind begrenzt, da trainierbare 3D-Daten teuer und schwer zu beschaffen sind. 2D-Diffusionsmodelle verfügen über starke Fähigkeiten in Bezug auf Generalisierung und feine Erzeugung, aber die 3D-Konsistenz ist schwer zu gewährleisten. Dieser Artikel versucht, die Stärken der beiden Arten von Diffusionsmodellen durch die neuartige explizite und effiziente 3D-Gaußsche Splatting-Darstellung zu verbinden. Ein schnelles 3D-Generierungsframework, genannt \name, wird vorgeschlagen, bei dem das 3D-Diffusionsmodell Punktwolken-Priors für die Initialisierung liefert und das 2D-Diffusionsmodell die Geometrie und das Aussehen bereichert. Operationen des verrauschten Punktwachstums und der Farbstörung werden eingeführt, um die initialisierten Gaußschen zu verbessern. Unser \name kann eine hochwertige 3D-Instanz innerhalb von 25 Minuten auf einer GPU erzeugen, was deutlich schneller ist als bisherige Methoden, während die generierten Instanzen direkt in Echtzeit gerendert werden können. Demos und Code sind verfügbar unter https://taoranyi.com/gaussiandreamer/.
Trotz bedeutender Fortschritte bei groß angelegten Text-zu-Bild-Modellen bleibt die Erzeugung hyperrealistischer menschlicher Bilder eine wünschenswerte, aber noch ungelöste Aufgabe. Bestehende Modelle wie Stable Diffusion und DALL-E 2 neigen dazu, menschliche Bilder mit inkohärenten Teilen oder unnatürlichen Posen zu generieren. Um diese Herausforderungen zu bewältigen, liegt unsere zentrale Erkenntnis darin, dass menschliche Bilder inhärent strukturell über mehrere Granularitäten hinweg sind, von der groben Körperskelett-Ebene bis hin zur fein abgestuften räumlichen Geometrie. Daher ist es entscheidend, diese Korrelationen zwischen dem expliziten Erscheinungsbild und der latenten Struktur in einem Modell zu erfassen, um kohärente und natürliche menschliche Bilder zu erzeugen. Zu diesem Zweck schlagen wir ein einheitliches Framework, HyperHuman, vor, das menschliche Bilder in natürlichen Umgebungen mit hohem Realismus und vielfältigen Layouts generiert. Konkret: 1) Zunächst erstellen wir einen groß angelegten, menschenzentrierten Datensatz namens HumanVerse, der 340 Millionen Bilder mit umfassenden Annotationen wie menschlicher Pose, Tiefe und Oberflächennormalen umfasst. 2) Anschließend schlagen wir ein Latent Structural Diffusion Model vor, das gleichzeitig die Tiefe und Oberflächennormalen zusammen mit dem synthetisierten RGB-Bild denoisiert. Unser Modell fördert das gemeinsame Lernen von Bilderscheinung, räumlichen Beziehungen und Geometrie in einem einheitlichen Netzwerk, wobei jeder Zweig des Modells sich gegenseitig mit strukturellem Bewusstsein und texturierter Reichhaltigkeit ergänzt. 3) Schließlich schlagen wir einen Structure-Guided Refiner vor, um die vorhergesagten Bedingungen für eine detailliertere Generierung höherer Auflösung zu kombinieren und so die visuelle Qualität weiter zu steigern. Umfangreiche Experimente zeigen, dass unser Framework Spitzenleistungen erzielt und hyperrealistische menschliche Bilder in diversen Szenarien generiert. Projektseite: https://snap-research.github.io/HyperHuman/
Große vortrainierte Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Erzeugung verschiedener Videos gezeigt. Gegeben eine Reihe von Videoclips mit demselben Bewegungskonzept, besteht die Aufgabe der Bewegungsanpassung darin, bestehende Text-zu-Video-Diffusionsmodelle so anzupassen, dass sie Videos mit dieser Bewegung erzeugen. Zum Beispiel die Erstellung eines Videos, in dem ein Auto auf eine bestimmte Weise unter spezifischen Kamerabewegungen fährt, um einen Film zu machen, oder ein Video, das zeigt, wie ein Bär Gewichte hebt, um Kreative zu inspirieren. Anpassungsmethoden wurden für die Individualisierung von Erscheinungsbildern wie Subjekten oder Stilen entwickelt, jedoch noch nicht für Bewegungen. Es ist naheliegend, gängige Anpassungsmethoden für die Bewegungsanpassung zu erweitern, einschließlich des vollständigen Modelltunings, des parameter-effizienten Tunings zusätzlicher Schichten und der Low-Rank-Adaptionen (LoRAs). Das von diesen Methoden erlernte Bewegungskonzept ist jedoch oft mit den begrenzten Erscheinungsbildern in den Trainingsvideos gekoppelt, was es schwierig macht, die angepasste Bewegung auf andere Erscheinungsbilder zu verallgemeinern. Um diese Herausforderung zu bewältigen, schlagen wir MotionDirector vor, mit einer Dual-Path-LoRAs-Architektur, um das Lernen von Erscheinungsbild und Bewegung zu entkoppeln. Darüber hinaus entwerfen wir einen neuartigen erscheinungsbild-entzerrten temporalen Verlust, um den Einfluss des Erscheinungsbildes auf das zeitliche Trainingsziel zu mildern. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode Videos mit verschiedenen Erscheinungsbildern für die angepassten Bewegungen erzeugen kann. Unsere Methode unterstützt auch verschiedene Downstream-Anwendungen, wie das Mischen verschiedener Videos mit ihren jeweiligen Erscheinungsbildern und Bewegungen sowie das Animieren eines einzelnen Bildes mit angepassten Bewegungen. Unser Code und unsere Modellgewichte werden veröffentlicht.