Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diese Arbeit präsentiert Depth Anything, eine hochpraktische Lösung für robuste monokulare Tiefenschätzung. Ohne neuartige technische Module zu verfolgen, streben wir an, ein einfaches, aber leistungsstarkes Basismodell zu entwickeln, das mit beliebigen Bildern unter allen Umständen umgehen kann. Zu diesem Zweck skalieren wir den Datensatz durch die Entwicklung einer Datenengine, die groß angelegte unmarkierte Daten (~62M) sammelt und automatisch annotiert, was die Datenabdeckung erheblich erweitert und somit den Generalisierungsfehler reduzieren kann. Wir untersuchen zwei einfache, aber effektive Strategien, die eine Datenhochskalierung vielversprechend machen. Erstens wird ein anspruchsvolleres Optimierungsziel durch den Einsatz von Datenaugmentierungswerkzeugen geschaffen. Dies zwingt das Modell, aktiv zusätzliches visuelles Wissen zu suchen und robuste Repräsentationen zu erwerben. Zweitens wird eine zusätzliche Überwachung entwickelt, um das Modell dazu zu bringen, reiche semantische Prioritäten von vortrainierten Encodern zu übernehmen. Wir bewerten seine Zero-Shot-Fähigkeiten umfassend, einschließlich sechs öffentlicher Datensätze und zufällig aufgenommener Fotos. Es zeigt eine beeindruckende Generalisierungsfähigkeit. Darüber hinaus werden durch Feinabstimmung mit metrischen Tiefeninformationen von NYUv2 und KITTI neue SOTAs erreicht. Unser besseres Tiefenmodell führt auch zu einem besseren tiefenabhängigen ControlNet. Unsere Modelle sind unter https://github.com/LiheYoung/Depth-Anything veröffentlicht.
Pipeline-Parallelismus ist eine der Schlüsselkomponenten für das groß angelegte verteilte Training, doch seine Effizienz leidet unter Pipeline-Blasen, die bisher als unvermeidbar galten. In dieser Arbeit stellen wir eine Scheduling-Strategie vor, die unseres Wissens nach die erste ist, die erfolgreich null Pipeline-Blasen unter synchronen Trainingssemantiken erreicht. Die zentrale Idee hinter dieser Verbesserung besteht darin, die Rückwärtsberechnung in zwei Teile zu unterteilen: einen, der den Gradienten für die Eingabe berechnet, und einen anderen, der den Gradienten für die Parameter berechnet. Basierend auf dieser Idee haben wir neuartige Pipeline-Schedules entwickelt, die die Baseline-Methoden deutlich übertreffen. Darüber hinaus entwickeln wir einen Algorithmus, der automatisch einen optimalen Schedule basierend auf der spezifischen Modellkonfiguration und der Speicherbegrenzung findet. Zusätzlich führen wir eine neuartige Technik ein, um Synchronisationen während des Optimierungsschritts zu umgehen und so wirklich null Blasen zu erreichen. Experimentelle Auswertungen zeigen, dass unsere Methode den 1F1B-Schedule bei einem ähnlichen Speicherlimit um bis zu 23% im Durchsatz übertrifft. Diese Zahl kann auf 31% gesteigert werden, wenn die Speicherbeschränkung gelockert wird. Wir glauben, dass unsere Ergebnisse einen bedeutenden Schritt nach vorne darstellen, um das wahre Potenzial des Pipeline-Parallelismus auszuschöpfen. Wir haben unsere Implementierung basierend auf dem beliebten Megatron-LM-Repository auf https://github.com/sail-sg/zero-bubble-pipeline-parallelism quelloffen veröffentlicht.
Die Erzeugung von Videohintergründen, die sich an die Bewegung des Vordergrundsubjekts anpassen, ist ein wichtiges Problem für die Filmindustrie und die Community für visuelle Effekte. Diese Aufgabe umfasst die Synthese von Hintergründen, die mit der Bewegung und dem Erscheinungsbild des Vordergrundsubjekts übereinstimmen und gleichzeitig der kreativen Absicht des Künstlers entsprechen. Wir stellen ActAnywhere vor, ein generatives Modell, das diesen Prozess automatisiert, der traditionell mühsame manuelle Arbeit erfordert. Unser Modell nutzt die Leistungsfähigkeit groß angelegter Video-Diffusionsmodelle und ist speziell für diese Aufgabe zugeschnitten. ActAnywhere nimmt eine Sequenz von Vordergrundsubjekt-Segmentierungen als Eingabe und ein Bild, das die gewünschte Szene beschreibt, als Bedingung, um ein kohärentes Video mit realistischen Vordergrund-Hintergrund-Interaktionen zu erzeugen, das gleichzeitig dem Bedingungsrahmen entspricht. Wir trainieren unser Modell auf einem groß angelegten Datensatz von Videos zur Mensch-Szene-Interaktion. Umfangreiche Auswertungen demonstrieren die überlegene Leistung unseres Modells, das die Vergleichsbaselines deutlich übertrifft. Darüber hinaus zeigen wir, dass ActAnywhere auf diverse Out-of-Distribution-Proben verallgemeinert, einschließlich nicht-menschlicher Subjekte. Bitte besuchen Sie unsere Projektwebseite unter https://actanywhere.github.io.
In diesem Artikel präsentieren wir ein auf Diffusionsmodellen basierendes Framework zur Animation von Personen aus einem einzelnen Bild für eine gegebene Ziel-3D-Bewegungssequenz. Unser Ansatz besteht aus zwei Kernkomponenten: a) dem Erlernen von Priori über unsichtbare Teile des menschlichen Körpers und der Kleidung und b) dem Rendern neuer Körperposen mit korrekter Kleidung und Textur. Für den ersten Teil lernen wir ein In-Filling-Diffusionsmodell, um unsichtbare Teile einer Person basierend auf einem einzelnen Bild zu halluzinieren. Wir trainieren dieses Modell im Texturkartenraum, was es aufgrund der Invarianz gegenüber Pose und Blickwinkel effizienter macht. Zweitens entwickeln wir ein diffusionsbasiertes Rendering-Pipeline, das durch 3D-Menschposen gesteuert wird. Dies erzeugt realistische Darstellungen neuer Posen der Person, einschließlich Kleidung, Haare und plausibler Auffüllung unsichtbarer Bereiche. Dieser entkoppelte Ansatz ermöglicht es unserer Methode, eine Sequenz von Bildern zu generieren, die sowohl der Zielbewegung in der 3D-Pose als auch dem Eingabebild in Bezug auf visuelle Ähnlichkeit treu sind. Darüber hinaus ermöglicht die 3D-Steuerung verschiedene synthetische Kameratrajektorien, um eine Person darzustellen. Unsere Experimente zeigen, dass unsere Methode im Vergleich zu früheren Methoden widerstandsfähig bei der Erzeugung längerer Bewegungen und verschiedener herausfordernder und komplexer Posen ist. Weitere Details finden Sie auf unserer Website: https://boyiliee.github.io/3DHM.github.io/.
Diktate ermöglichen eine effiziente Texteingabe auf mobilen Geräten. Das Schreiben mit Sprache kann jedoch unflüssige, weitschweifige und inkohärente Texte erzeugen und erfordert daher eine umfangreiche Nachbearbeitung. Dieses Papier stellt Rambler vor, eine grafische Benutzeroberfläche, die von einem großen Sprachmodell (LLM) unterstützt wird und die manipulation von diktiertem Text auf einer inhaltlichen Ebene mit zwei Hauptfunktionsgruppen ermöglicht: Inhaltsextraktion und Makrorevision. Die Inhaltsextraktion generiert Schlüsselwörter und Zusammenfassungen als Ankerpunkte, um die Überprüfung und Interaktion mit gesprochenem Text zu unterstützen. LLM-gestützte Makrorevisionen ermöglichen es Benutzern, diktierten Text neu zu sprechen, zu teilen, zusammenzuführen und zu transformieren, ohne präzise Bearbeitungsstellen angeben zu müssen. Zusammen ebnen sie den Weg für interaktives Diktieren und Überarbeiten, das dabei hilft, die Lücke zwischen spontan gesprochenen Worten und gut strukturiertem Schreiben zu schließen. In einer vergleichenden Studie mit 12 Teilnehmern, die verbale Kompositionsaufgaben durchführten, übertraf Rambler die Baseline eines Spracherkennungseditors + ChatGPT, da es iterative Überarbeitungen besser unterstützt, indem es eine verbesserte Benutzerkontrolle über den Inhalt bietet und gleichzeitig überraschend vielfältige Benutzerstrategien ermöglicht.
Diese Arbeit untersucht das Problem der konzeptbasierten Interpretierbarkeit von Transformer-Repräsentationen für Videos. Konkret streben wir an, den Entscheidungsprozess von Video-Transformatoren anhand von hochrangigen, räumlich-zeitlichen Konzepten zu erklären, die automatisch entdeckt werden. Bisherige Forschung zur konzeptbasierten Interpretierbarkeit konzentrierte sich ausschließlich auf Aufgaben auf Bildebene. Im Vergleich dazu müssen Video-Modelle die zusätzliche zeitliche Dimension bewältigen, was die Komplexität erhöht und Herausforderungen bei der Identifizierung dynamischer Konzepte über die Zeit hinweg mit sich bringt. In dieser Arbeit gehen wir systematisch auf diese Herausforderungen ein, indem wir den ersten Video Transformer Concept Discovery (VTCD)-Algorithmus einführen. Hierfür schlagen wir einen effizienten Ansatz zur unüberwachten Identifizierung von Einheiten der Video-Transformer-Repräsentationen – Konzepten – und zur Bewertung ihrer Bedeutung für die Ausgabe eines Modells vor. Die resultierenden Konzepte sind hochgradig interpretierbar und enthüllen räumlich-zeitliche Denkmechanismen sowie objektzentrierte Repräsentationen in unstrukturierten Video-Modellen. Durch die gemeinsame Analyse einer vielfältigen Gruppe von überwachten und selbstüberwachten Repräsentationen entdecken wir, dass einige dieser Mechanismen universell in Video-Transformatoren sind. Schließlich zeigen wir, dass VTCD verwendet werden kann, um die Modellleistung für feingranulare Aufgaben zu verbessern.