Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Lumiere vor – ein Text-zu-Video-Diffusionsmodell, das entwickelt wurde, um Videos mit realistischer, vielfältiger und kohärenter Bewegung zu synthetisieren – eine zentrale Herausforderung in der Videosynthese. Zu diesem Zweck führen wir eine Space-Time-U-Net-Architektur ein, die die gesamte zeitliche Dauer des Videos in einem einzigen Durchlauf durch das Modell erzeugt. Dies steht im Gegensatz zu bestehenden Videomodellen, die entfernte Keyframes synthetisieren, gefolgt von temporaler Super-Resolution – ein Ansatz, der die globale zeitliche Konsistenz von Natur aus schwer zu erreichen macht. Durch den Einsatz von sowohl räumlichem als auch (insbesondere) zeitlichem Down- und Up-Sampling sowie die Nutzung eines vortrainierten Text-zu-Bild-Diffusionsmodells lernt unser Modell, direkt ein Video mit voller Bildrate und niedriger Auflösung zu erzeugen, indem es dieses in mehreren Raum-Zeit-Skalen verarbeitet. Wir demonstrieren state-of-the-art Ergebnisse in der Text-zu-Video-Generierung und zeigen, dass unser Entwurf eine breite Palette von Content-Erstellungstasks und Video-Bearbeitungsanwendungen leicht ermöglicht, einschließlich Bild-zu-Video, Video-Inpainting und stilisierten Generierungen.
Das Spielen mit großen visuellen Sprachmodellen (Large Vision Language Models, LVLMs) ist 2023 in der KI-Community sehr angesagt. Die relativ hohe Anzahl von Parametern (mehr als 7 Milliarden) bei populären LVLMs macht es jedoch schwierig, diese auf Consumer-GPUs zu trainieren und bereitzustellen, was viele Forscher mit begrenzten Ressourcen abschreckt. Stellen Sie sich vor, wie cool es wäre, alle Funktionen aktueller LVLMs auf einer alten GTX 1080 Ti (unserer einzigen Grafikkarte) zu erleben. Dementsprechend präsentieren wir in diesem Bericht Vary-toy, eine kompakte Version von Vary, zusammen mit Qwen-1.8B als Basismodell für das „große“ Sprachmodell. In Vary-toy führen wir ein verbessertes visuelles Vokabular ein, das es dem Modell ermöglicht, nicht nur alle Funktionen von Vary zu besitzen, sondern auch mehr Allgemeingültigkeit zu erlangen. Konkret ersetzen wir negative Beispiele natürlicher Bilder durch positive Beispieldaten, die durch Objekterkennung gesteuert werden, im Prozess der Generierung des visuellen Vokabulars. Dadurch wird die Kapazität des Vokabelnetzwerks besser genutzt, und es kann visuelle Informationen, die natürlichen Objekten entsprechen, effizient kodieren. In Experimenten erreicht Vary-toy 65,6 % ANLS auf DocVQA, 59,1 % Genauigkeit auf ChartQA, 88,1 % Genauigkeit auf RefCOCO und 29 % auf MMVet. Der Code wird auf der Homepage öffentlich verfügbar sein.
Foundation Models, die Sprache, Vision und in jüngster Zeit auch Aktionen integrieren, haben die Fähigkeit revolutioniert, internetgroße Datenmengen zu nutzen, um nützliche Aufgaben zu bewältigen. Eine der größten Herausforderungen beim Training verkörperter Foundation Models ist jedoch der Mangel an Daten, die in der physischen Welt verankert sind. In diesem Artikel stellen wir AutoRT vor, ein System, das bestehende Foundation Models nutzt, um den Einsatz von operativen Robotern in völlig unbekannten Szenarien mit minimaler menschlicher Aufsicht zu skalieren. AutoRT nutzt Vision-Language-Models (VLMs) zur Szenenverständnis und Verankerung und verwendet darüber hinaus Large Language Models (LLMs), um vielfältige und neuartige Anweisungen für eine Flotte von Robotern zu generieren. Die Steuerung der Datensammlung durch das Anzapfen des Wissens von Foundation Models ermöglicht es AutoRT, effektiv über Autonomieabwägungen und Sicherheit nachzudenken, während gleichzeitig die Datensammlung für das Robotik-Lernen erheblich skaliert wird. Wir demonstrieren, dass AutoRT Anweisungen für über 20 Roboter in mehreren Gebäuden vorschlägt und 77.000 reale Roboterepisoden sowohl durch Teleoperation als auch durch autonome Robotikrichtlinien sammelt. Experimentell zeigen wir, dass solche „in-the-wild“-Daten, die von AutoRT gesammelt werden, deutlich vielfältiger sind und dass die Nutzung von LLMs durch AutoRT die Datensammlung durch anweisungsfolgende Roboter ermöglicht, die sich an menschliche Präferenzen anpassen können.
Große Sprachmodelle (LLMs) verwenden häufig autoregressive Generierung während der Inferenz, was zu einer hohen Speicherbandbreitennachfrage und folglich zu einer verlängerten Latenz führt. Um diese Ineffizienz zu mindern, präsentieren wir Bi-directional Tuning for Lossless Acceleration (BiTA), eine innovative Methode zur Beschleunigung von LLMs durch optimierte semi-autoregressive Generierung und Entwurfsüberprüfung. Inspiriert durch das Konzept des Prompt Tunings, erweitern wir LLMs mit einem parameter-effizienten Design namens bi-direktionales Tuning für die Fähigkeit zur semi-autoregressiven Generierung. Durch den Einsatz effizienter baumbasierter Dekodierung führen die Modelle die Generierung von Entwurfskandidaten und deren Überprüfung parallel durch, wodurch Ausgaben gewährleistet werden, die unter Greedy-Sampling identisch zu ihren autoregressiven Gegenstücken sind. BiTA fungiert als leichtgewichtiges Plug-in-Modul, das nahtlos die Inferenzeffizienz bestehender LLMs steigert, ohne zusätzliche Hilfsmodelle zu benötigen oder signifikante zusätzliche Speicherkosten zu verursachen. Durch die Anwendung des vorgeschlagenen BiTA erreicht LLaMA-2-70B-Chat eine 2,7-fache Beschleunigung auf dem MT-Bench-Benchmark. Umfangreiche Experimente bestätigen, dass unsere Methode state-of-the-art Beschleunigungstechniken übertrifft.
Wir stellen GALA vor, ein Framework, das als Eingabe ein einlagiges, bekleidetes 3D-Menschmodell nimmt und es in vollständige, mehrlagige 3D-Assets zerlegt. Die Ausgaben können dann mit anderen Assets kombiniert werden, um neuartige, bekleidete menschliche Avatare mit beliebigen Posen zu erstellen. Bestehende Rekonstruktionsansätze behandeln bekleidete Menschen oft als einlagige Geometrie und übersehen die inhärente Kompositionalität von Menschen mit Frisuren, Kleidung und Accessoires, wodurch die Nützlichkeit der Modelle für nachgelagerte Anwendungen eingeschränkt wird. Die Zerlegung eines einlagigen Modells in separate Schichten ist eine anspruchsvolle Aufgabe, da sie die Synthese plausibler Geometrie und Textur für stark verdeckte Regionen erfordert. Darüber hinaus sind Modelle selbst bei erfolgreicher Zerlegung nicht in Bezug auf Posen und Körperformen normalisiert, was eine kohärente Komposition mit neuen Identitäten und Posen verhindert. Um diese Herausforderungen zu bewältigen, schlagen wir vor, das allgemeine Wissen eines vortrainierten 2D-Diffusionsmodells als Geometrie- und Erscheinungs-Prior für Menschen und andere Assets zu nutzen. Wir trennen zunächst das Eingabemodell mithilfe der 3D-Oberflächensegmentierung, die aus multiview 2D-Segmentierungen extrahiert wird. Anschließend synthetisieren wir die fehlende Geometrie der verschiedenen Schichten sowohl im posierten als auch im kanonischen Raum unter Verwendung eines neuartigen pose-geführten Score Distillation Sampling (SDS)-Verlusts. Nachdem wir die hochauflösende 3D-Geometrie vervollständigt haben, wenden wir denselben SDS-Verlust auch auf die Textur an, um das vollständige Erscheinungsbild einschließlich der ursprünglich verdeckten Regionen zu erhalten. Durch eine Reihe von Zerlegungsschritten erhalten wir mehrere Schichten von 3D-Assets in einem gemeinsamen kanonischen Raum, der in Bezug auf Posen und menschliche Formen normalisiert ist, wodurch eine mühelose Komposition zu neuen Identitäten und die Reanimation mit neuen Posen unterstützt wird. Unsere Experimente demonstrieren die Effektivität unseres Ansatzes für Zerlegungs-, Kanonisierungs- und Kompositionsaufgaben im Vergleich zu bestehenden Lösungen.
Im Zeitalter großer Modelle stellt die autoregressive Natur des Decodierens oft eine erhebliche Latenz dar, die als Engpass fungiert. Wir schlagen ein nicht-autoregressives, mit einem Sprachmodell fusioniertes ASR-System vor, das die Parallelisierungsfähigkeiten von Beschleuniger-Hardware effektiv nutzt. Unser Ansatz kombiniert das Universal Speech Model (USM) und das PaLM 2-Sprachmodell im Per-Segment-Scoring-Modus und erreicht eine durchschnittliche relative WER-Verbesserung über alle Sprachen hinweg von 10,8 % auf FLEURS und 3,6 % auf YouTube-Untertiteln. Darüber hinaus analysiert unsere umfassende Ablationsstudie Schlüsselparameter wie die Größe des LLM, die Kontextlänge, die Vokabulargröße und die Fusionsmethodik. Beispielsweise untersuchen wir den Einfluss der LLM-Größe, die von 128M bis 340B Parametern reicht, auf die ASR-Leistung. Diese Studie bietet wertvolle Einblicke in die Faktoren, die die Effektivität praktischer, großflächig mit Sprachmodellen fusionierter Spracherkennungssysteme beeinflussen.