papers.title

papers.description

CAT4D: Erschaffen Sie alles in 4D mit Multi-View Video Diffusionsmodellen
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27

ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

Wir präsentieren CAT4D, eine Methode zur Erstellung von 4D (dynamischen 3D) Szenen aus monokularen Videos. CAT4D nutzt ein Multi-View Video-Diffusionsmodell, das auf einer vielfältigen Kombination von Datensätzen trainiert ist, um eine neuartige Ansichtssynthese bei beliebigen Kamerapositionen und Zeitstempeln zu ermöglichen. In Kombination mit einem innovativen Sampling-Ansatz kann dieses Modell ein einzelnes monokulares Video in ein Multi-View Video umwandeln, was eine robuste 4D-Rekonstruktion durch Optimierung einer verformbaren 3D-Gaußschen Darstellung ermöglicht. Wir zeigen eine wettbewerbsfähige Leistung bei der Ansichtssynthese und der Rekonstruktion dynamischer Szenen und heben die kreativen Fähigkeiten zur Generierung von 4D-Szenen aus realen oder generierten Videos hervor. Besuchen Sie unsere Projektseite für Ergebnisse und interaktive Demos: cat-4d.github.io.

Große Sprachmodell-basierte GUI-Agenten: Eine Übersicht
Large Language Model-Brained GUI Agents: A Survey

Nov 27

ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

GUIs sind schon lange zentral für die Mensch-Computer-Interaktion, da sie einen intuitiven und visuell gesteuerten Weg bieten, um auf digitale Systeme zuzugreifen und mit ihnen zu interagieren. Das Aufkommen von LLMs, insbesondere multimodalen Modellen, hat eine neue Ära der GUI-Automatisierung eingeläutet. Sie haben außergewöhnliche Fähigkeiten in der natürlichen Sprachverarbeitung, der Codegenerierung und der visuellen Verarbeitung gezeigt. Dies hat den Weg für eine neue Generation von LLM-gesteuerten GUI-Agenten geebnet, die in der Lage sind, komplexe GUI-Elemente zu interpretieren und autonom Aktionen auf der Grundlage von natürlichsprachlichen Anweisungen auszuführen. Diese Agenten stellen einen Paradigmenwechsel dar, der es Benutzern ermöglicht, komplexe, mehrstufige Aufgaben durch einfache Gesprächsbefehle auszuführen. Ihre Anwendungen erstrecken sich über die Webnavigation, die Interaktion mit mobilen Apps und die Desktop-Automatisierung und bieten ein transformierendes Benutzererlebnis, das verändert, wie Personen mit Software interagieren. Dieses aufstrebende Feld entwickelt sich schnell weiter, mit signifikanten Fortschritten sowohl in der Forschung als auch in der Industrie. Um ein strukturiertes Verständnis dieses Trends zu bieten, präsentiert dieser Artikel eine umfassende Untersuchung von LLM-gesteuerten GUI-Agenten, die ihre historische Entwicklung, Kernkomponenten und fortgeschrittenen Techniken erforscht. Wir behandeln Forschungsfragen wie bestehende GUI-Agenten-Frameworks, die Sammlung und Verwendung von Daten zur Schulung spezialisierter GUI-Agenten, die Entwicklung großer Aktionsmodelle, die auf GUI-Aufgaben zugeschnitten sind, und die Evaluierungsmetriken und Benchmarks, die erforderlich sind, um ihre Effektivität zu bewerten. Darüber hinaus untersuchen wir aufkommende Anwendungen, die von diesen Agenten unterstützt werden. Durch eine detaillierte Analyse identifiziert diese Untersuchung wesentliche Forschungslücken und skizziert einen Fahrplan für zukünftige Fortschritte auf diesem Gebiet. Indem grundlegendes Wissen und die neuesten Entwicklungen zusammengeführt werden, zielt diese Arbeit darauf ab, sowohl Forscher als auch Praktiker dabei zu unterstützen, Herausforderungen zu bewältigen und das volle Potenzial von LLM-gesteuerten GUI-Agenten zu erschließen.

MARVEL-40M+: Mehrstufige visuelle Ausarbeitung für hochwertige Text-zu-3D-Inhalteerstellung
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26

BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

Die Generierung hochwertiger 3D-Inhalte aus Texteingaben bleibt aufgrund der begrenzten Größe, Vielfalt und Annotierungstiefe der vorhandenen Datensätze eine bedeutende Herausforderung in der Computer Vision. Um dem entgegenzuwirken, stellen wir MARVEL-40M+ vor, einen umfangreichen Datensatz mit 40 Millionen Textannotationen für über 8,9 Millionen 3D-Objekte, die aus sieben großen 3D-Datensätzen aggregiert wurden. Unser Beitrag ist eine neuartige mehrstufige Annotationspipeline, die Open-Source-vorabtrainierte Multi-View-VLMs und LLMs integriert, um automatisch mehrstufige Beschreibungen zu erstellen, die von detaillierten (150-200 Wörter) bis zu prägnanten semantischen Tags (10-20 Wörter) reichen. Diese Struktur unterstützt sowohl feinkörnige 3D-Rekonstruktion als auch schnelles Prototyping. Darüber hinaus integrieren wir Metadaten von Menschen aus den Ausgangsdatensätzen in unsere Annotationspipeline, um domänenspezifische Informationen hinzuzufügen und VLM-Halluzinationen zu reduzieren. Zusätzlich entwickeln wir MARVEL-FX3D, eine zweistufige Text-zu-3D-Pipeline. Wir feinabstimmen Stable Diffusion mit unseren Annotationen und verwenden ein vorab trainiertes Bild-zu-3D-Netzwerk, um 3D-texturierte Meshes innerhalb von 15 Sekunden zu generieren. Umfangreiche Bewertungen zeigen, dass MARVEL-40M+ in Annotierungsqualität und sprachlicher Vielfalt signifikant besser abschneidet als vorhandene Datensätze und Gewinnraten von 72,41 % durch GPT-4 und 73,40 % durch menschliche Evaluatoren erreicht.

Diffusions-Selbstdestillation zur individuellen Bildgenerierung ohne vorheriges Training
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27

ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

Text-zu-Bild-Diffusionsmodelle liefern beeindruckende Ergebnisse, sind jedoch frustrierende Werkzeuge für Künstler, die fein abgestimmte Kontrolle wünschen. Ein häufiges Anwendungsszenario besteht darin, Bilder einer bestimmten Instanz in neuen Kontexten zu erstellen, d.h. "identitätserhaltende Generierung". Diese Einstellung, zusammen mit vielen anderen Aufgaben (z.B. Neubeleuchtung), passt natürlich zu Bild+Text-bedingten generativen Modellen. Es fehlt jedoch an hochwertigen gepaarten Daten, um ein solches Modell direkt zu trainieren. Wir schlagen die Diffusion Self-Distillation vor, eine Methode zur Verwendung eines vorab trainierten Text-zu-Bild-Modells, um seinen eigenen Datensatz für textkonditionierte Bild-zu-Bild-Aufgaben zu generieren. Zunächst nutzen wir die Fähigkeit eines Text-zu-Bild-Diffusionsmodells zur kontextbezogenen Generierung, um Raster von Bildern zu erstellen und einen großen gepaarten Datensatz mit Hilfe eines Visual-Language-Modells zu kuratieren. Anschließend feinabstimmen wir das Text-zu-Bild-Modell zu einem Text+Bild-zu-Bild-Modell unter Verwendung des kuratierten gepaarten Datensatzes. Wir zeigen, dass die Diffusion Self-Distillation bestehende Zero-Shot-Methoden übertrifft und auf einer Vielzahl von Aufgaben zur Identitätserhaltungsgenerierung wettbewerbsfähig mit Techniken zur individuellen Abstimmung ist, ohne eine Optimierung zur Testzeit zu erfordern.

3D Konvexes Splatting: Strahlungsfeld-Rendering mit 3D-glättenden Konvexen
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22

ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

In jüngster Zeit erzielten Fortschritte bei der Rekonstruktion von Strahlungsfeldern, wie z.B. 3D-Gauß-Splatting (3DGS), hochwertige Neuansichtssynthese und schnelles Rendern, indem Szenen mit Zusammensetzungen von Gauß'schen Primitiven dargestellt werden. Allerdings weisen 3D-Gauß'sche Funktionen mehrere Einschränkungen für die Szenenrekonstruktion auf. Das genaue Erfassen harter Kanten ist herausfordernd, ohne die Anzahl der Gauß'schen Funktionen signifikant zu erhöhen, was zu einem großen Speicherbedarf führt. Zudem haben sie Schwierigkeiten, flache Oberflächen darzustellen, da sie im Raum diffundieren. Ohne handgefertigte Regularisierer neigen sie dazu, unregelmäßig um die tatsächliche Oberfläche herum zu zerstreuen. Um diese Probleme zu umgehen, stellen wir eine neue Methode namens 3D-Konvex-Splatting (3DCS) vor, die 3D-glatte Konvexe als Primitive nutzt, um geometrisch sinnvolle Strahlungsfelder aus Multi-View-Bildern zu modellieren. Glatte konvexe Formen bieten eine größere Flexibilität als Gauß'sche Funktionen und ermöglichen eine bessere Darstellung von 3D-Szenen mit harten Kanten und dichten Volumina unter Verwendung weniger Primitive. Unterstützt durch unseren effizienten CUDA-basierten Rasterizer erzielt 3DCS eine überlegene Leistung gegenüber 3DGS in Benchmarks wie Mip-NeRF360, Tanks and Temples und Deep Blending. Speziell erreicht unsere Methode eine Verbesserung von bis zu 0,81 im PSNR und 0,026 im LPIPS im Vergleich zu 3DGS, während sie hohe Rendegeschwindigkeiten beibehält und die Anzahl der benötigten Primitive reduziert. Unsere Ergebnisse unterstreichen das Potenzial von 3D-Konvex-Splatting, zum neuen Standard für hochwertige Szenenrekonstruktion und Neuansichtssynthese zu werden. Projektseite: convexsplatting.github.io.

DiffusionDrive: Trunkiertes Diffusionsmodell für autonomes Fahren von Anfang bis Ende
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22

ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

In letzter Zeit hat sich das Diffusionsmodell als leistungsstarke generative Technik für das Lernen von Roboterstrategien etabliert, das in der Lage ist, Mehrmodus-Aktionsverteilungen zu modellieren. Die Nutzung seiner Fähigkeit für autonomes Fahren von Ende zu Ende ist eine vielversprechende Richtung. Die zahlreichen Rauschunterdrückungsschritte in der robotischen Diffusionsstrategie und die dynamischere, offene Natur von Verkehrsszenen stellen jedoch erhebliche Herausforderungen für die Generierung verschiedener Fahraktionen in Echtzeitgeschwindigkeit dar. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige abgeschnittene Diffusionsstrategie vor, die vorherige Mehrmodus-Anker einbezieht und den Diffusionszeitplan abschneidet, um dem Modell das Lernen der Rauschunterdrückung von verankerten Gaußverteilungen zur Mehrmodus-Fahraktionsverteilung zu ermöglichen. Darüber hinaus entwerfen wir einen effizienten Kaskaden-Diffusionsdecoder für eine verbesserte Interaktion mit bedingtem Szenenkontext. Das vorgeschlagene Modell, DiffusionDrive, zeigt eine 10-fache Reduzierung der Rauschunterdrückungsschritte im Vergleich zur Standard-Diffusionsstrategie und liefert überlegene Vielfalt und Qualität in nur 2 Schritten. Auf dem planungsorientierten NAVSIM-Datensatz, mit dem ausgerichteten ResNet-34-Backbone, erreicht DiffusionDrive 88,1 PDMS ohne Schnickschnack und setzt damit einen neuen Rekord, während es mit einer Echtzeitgeschwindigkeit von 45 FPS auf einer NVIDIA 4090 läuft. Qualitative Ergebnisse in herausfordernden Szenarien bestätigen weiterhin, dass DiffusionDrive robust verschiedene plausible Fahraktionen generieren kann. Der Code und das Modell sind unter https://github.com/hustvl/DiffusionDrive verfügbar.

Make-It-Animatable: Ein effizientes Framework zur Erstellung von animationsbereiten 3D-Charakteren.
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27

ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

3D-Charaktere sind für moderne kreative Industrien unerlässlich, aber ihre Animierbarkeit erfordert oft umfangreiche manuelle Arbeit bei Aufgaben wie Rigging und Skinning. Bestehende automatische Rigging-Tools stoßen auf mehrere Einschränkungen, darunter die Notwendigkeit manueller Annotationen, starre Skeletttopologien und begrenzte Verallgemeinerung über verschiedene Formen und Posen hinweg. Ein alternativer Ansatz besteht darin, animierbare Avatare zu generieren, die bereits an ein vorgefertigtes Template-Mesh gebunden sind. Diese Methode mangelt jedoch oft an Flexibilität und ist in der Regel auf realistische menschliche Formen beschränkt. Um diese Probleme anzugehen, präsentieren wir Make-It-Animatable, eine neuartige datengesteuerte Methode, um jedes 3D-Humanoidenmodell unabhängig von seinen Formen und Posen in weniger als einer Sekunde für die Charakteranimation vorzubereiten. Unser einheitlicher Rahmen generiert hochwertige Mischungsverhältnisse, Knochen und Posen-Transformationen. Durch die Integration eines partikelbasierten Formautoencoders unterstützt unser Ansatz verschiedene 3D-Repräsentationen, einschließlich Meshes und 3D-Gauß'scher Flecken. Darüber hinaus verwenden wir eine grob-zu-fein-Repräsentation und eine strukturbewusste Modellierungsstrategie, um sowohl Genauigkeit als auch Robustheit sicherzustellen, selbst bei Charakteren mit nicht standardmäßigen Skelettstrukturen. Wir führten umfangreiche Experimente durch, um die Wirksamkeit unseres Rahmens zu validieren. Im Vergleich zu bestehenden Methoden zeigt unser Ansatz signifikante Verbesserungen sowohl in Qualität als auch Geschwindigkeit.

UniPose: Ein vereinheitlichtes multimodales Framework für das Verständnis, die Generierung und Bearbeitung menschlicher Körperhaltungen.
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25

ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

Die menschliche Pose spielt eine entscheidende Rolle im digitalen Zeitalter. Während in jüngsten Arbeiten beeindruckende Fortschritte bei der Erfassung und Generierung menschlicher Posen erzielt wurden, unterstützen sie oft nur eine einzige Modalität von Steuersignalen und arbeiten isoliert, was ihre Anwendung in realen Szenarien einschränkt. Dieser Artikel stellt UniPose vor, ein Framework, das Large Language Models (LLMs) einsetzt, um menschliche Posen über verschiedene Modalitäten hinweg zu erfassen, zu generieren und zu bearbeiten, einschließlich Bilder, Text und 3D SMPL-Posen. Konkret wenden wir einen Pose-Tokenizer an, um 3D-Posen in diskrete Pose-Token umzuwandeln, was eine nahtlose Integration in das LLM innerhalb eines einheitlichen Vokabulars ermöglicht. Um die feinkörnigen Pose-Wahrnehmungsfähigkeiten weiter zu verbessern, erleichtern wir UniPose mit einer Mischung von visuellen Encodern, darunter ein pose-spezifischer visueller Encoder. Durch eine vereinheitlichte Lernstrategie kann UniPose Wissen effektiv über verschiedene pose-relevante Aufgaben übertragen, sich an unbekannte Aufgaben anpassen und erweiterte Fähigkeiten zeigen. Diese Arbeit stellt den ersten Versuch dar, ein universelles Framework für die Erfassung, Generierung und Bearbeitung von Posen aufzubauen. Umfangreiche Experimente heben die wettbewerbsfähige und sogar überlegene Leistung von UniPose bei verschiedenen pose-relevanten Aufgaben hervor.

Kollaboratives Decodieren macht visuelle autoregressive Modellierung effizient.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

Im schnell voranschreitenden Bereich der Bildgenerierung hat das Visual Auto-Regressive (VAR) Modell erhebliche Aufmerksamkeit für seinen innovativen Ansatz zur Vorhersage auf der nächsten Skalenebene erhalten. Dieses Paradigma bietet wesentliche Verbesserungen in Effizienz, Skalierbarkeit und Zero-Shot-Generalisierung. Dennoch führt die von Natur aus grob-zu-fein strukturierte VAR-Natur zu einer verlängerten Token-Sequenz, die zu prohibitivem Speicherverbrauch und Rechenüberfluss führt. Um diese Engpässe zu bewältigen, schlagen wir Collaborative Decoding (CoDe) vor, eine neuartige effiziente Dekodierstrategie, die speziell für das VAR-Framework entwickelt wurde. CoDe nutzt zwei entscheidende Beobachtungen: die wesentlich reduzierten Parameteranforderungen bei größeren Skalen und die exklusiven Generierungsmuster über verschiedene Skalen hinweg. Basierend auf diesen Erkenntnissen unterteilen wir den Multi-Skalen-Inferenzprozess in eine nahtlose Zusammenarbeit zwischen einem großen Modell und einem kleinen Modell. Das große Modell fungiert als 'Entwurfsmodell', das sich auf die Generierung von Inhalten mit niedriger Frequenz in kleineren Skalen spezialisiert, während das kleinere Modell als 'Verfeinerungsmodell' dient und sich ausschließlich auf die Vorhersage von Details mit hoher Frequenz in größeren Skalen konzentriert. Diese Zusammenarbeit führt zu bemerkenswerter Effizienz bei minimalem Qualitätsverlust: CoDe erreicht eine Beschleunigung um das 1,7-fache, reduziert den Speicherverbrauch um etwa 50% und bewahrt die Bildqualität mit nur einer vernachlässigbaren FID-Erhöhung von 1,95 auf 1,98. Durch weitere Verringerung der Entwurfschritte kann CoDe ein beeindruckendes Beschleunigungsverhältnis von 2,9 erreichen, was 41 Bilder/s bei einer Auflösung von 256x256 auf einer einzelnen NVIDIA 4090 GPU entspricht, während eine lobenswerte FID von 2,27 beibehalten wird. Der Code ist verfügbar unter https://github.com/czg1225/CoDe

Traumcache: Feinabstimmungsfreie, leichte personalisierte Bildgenerierung über Merkmalszwischenspeicherung
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26

ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

Die personalisierte Bildgenerierung erfordert textbasierte Bildgenerierungsmodelle, die die Kernmerkmale eines Referenzobjekts erfassen, um eine kontrollierte Generierung in verschiedenen Kontexten zu ermöglichen. Bestehende Methoden stehen vor Herausforderungen aufgrund komplexer Schulungsanforderungen, hoher Inferenzkosten, begrenzter Flexibilität oder einer Kombination dieser Probleme. In diesem Artikel stellen wir DreamCache vor, einen skalierbaren Ansatz für effiziente und hochwertige personalisierte Bildgenerierung. Durch Zwischenspeichern einer kleinen Anzahl von Referenzbildmerkmalen aus einem Teil der Schichten und einem einzelnen Zeitschritt des vortrainierten Diffusions-Denoisers ermöglicht DreamCache eine dynamische Modulation der generierten Bildmerkmale durch leichtgewichtige, trainierte Konditionierungsadapter. DreamCache erreicht eine Bild- und Textausrichtung auf dem neuesten Stand der Technik, nutzt eine Größenordnung weniger zusätzliche Parameter und ist sowohl rechnerisch effektiver als auch vielseitiger als bestehende Modelle.

ChatRex: Bändigung des Multimodalen LLM für Gemeinsame Wahrnehmung und Verständnis
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27

ByQing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

Wahrnehmung und Verständnis sind zwei Grundpfeiler der Computer Vision. Während multimodale große Sprachmodelle (MLLM) bemerkenswerte visuelle Verständnisfähigkeiten gezeigt haben, fehlt es ihnen möglicherweise an genauen Wahrnehmungsfähigkeiten, z.B. erreicht das modernste Modell Qwen2-VL nur eine Rückrufrate von 43,9 auf dem COCO-Datensatz, was viele Aufgaben einschränkt, die die Kombination von Wahrnehmung und Verständnis erfordern. In dieser Arbeit zielen wir darauf ab, diese Wahrnehmungslücke aus Modellierungs- und Datenentwicklungsperspektiven zu überbrücken. Zunächst stellen wir ChatRex vor, ein MLLM mit einem entkoppelten Wahrnehmungsdesign. Anstatt dass das LLM direkt Box-Koordinaten vorhersagt, speisen wir die Ausgabeboxen eines universellen Vorschlagsnetzwerks in das LLM ein, sodass es die entsprechenden Boxindizes ausgibt, um seine Detektionsergebnisse darzustellen, wodurch die Regressionsaufgabe in eine abrufbasierte Aufgabe umgewandelt wird, die das LLM effizienter handhabt. Aus der Datenperspektive heraus bauen wir eine vollautomatisierte Datenengine auf und erstellen den Rexverse-2M-Datensatz, der mehrere Granularitäten aufweist, um das gemeinsame Training von Wahrnehmung und Verständnis zu unterstützen. Nach dem standardmäßigen zweistufigen Training zeigt ChatRex starke Wahrnehmungsfähigkeiten, während es die multimodale Verständnisleistung beibehält. Die Kombination dieser beiden Fähigkeiten schaltet gleichzeitig viele attraktive Anwendungen frei und zeigt die ergänzenden Rollen von Wahrnehmung und Verständnis in MLLM. Der Code ist verfügbar unter https://github.com/IDEA-Research/ChatRex.

Video-gesteuerte Foley-Sound-Erzeugung mit multimodalen Steuerelementen.
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26

ByZiyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

Die Erzeugung von Soundeffekten für Videos erfordert oft die Schaffung künstlerischer Soundeffekte, die sich deutlich von realen Quellen unterscheiden und eine flexible Kontrolle im Sounddesign ermöglichen. Um dieses Problem zu lösen, stellen wir MultiFoley vor, ein Modell, das für die videogestützte Soundgenerierung konzipiert ist und multimodale Konditionierung durch Text, Audio und Video unterstützt. Anhand eines stummen Videos und einer Textvorgabe ermöglicht es MultiFoley den Benutzern, saubere Klänge zu erzeugen (z. B. Skateboardräder, die ohne Windgeräusche drehen) oder auch fantasievollere Klänge (z. B. das Brüllen eines Löwen wie das Miauen einer Katze klingen zu lassen). MultiFoley ermöglicht es den Benutzern auch, Referenzaudio aus Soundeffekt (SFX)-Bibliotheken oder Teilen von Videos für die Konditionierung auszuwählen. Eine wichtige Neuheit unseres Modells liegt in seinem gemeinsamen Training sowohl auf Internetvideodatensätzen mit Audio von geringer Qualität als auch auf professionellen SFX-Aufnahmen, was eine hochwertige, vollbandbreitige (48kHz) Audioerzeugung ermöglicht. Durch automatisierte Bewertungen und Studien mit menschlichen Teilnehmern zeigen wir, dass MultiFoley erfolgreich hochwertige, synchronisierte Klänge über verschiedene bedingte Eingaben hinweg erzeugt und bestehende Methoden übertrifft. Bitte besuchen Sie unsere Projektseite für Videobeispiele: https://ificl.github.io/MultiFoley/

Omeganz: Ein einzelner Parameter für verschiedene Feinheitsgrade in der diffusionsbasierten Synthese
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26

ByXinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

In dieser Arbeit führen wir einen einzigen Parameter Omega ein, um die Granularität in der diffusionsbasierten Synthese effektiv zu steuern. Dieser Parameter wird während der Entrauschungsschritte des Umkehrprozesses des Diffusionsmodells integriert. Unser Ansatz erfordert kein erneutes Training des Modells, keine architektonischen Änderungen oder zusätzlichen Rechenaufwand während der Inferenz, ermöglicht jedoch eine präzise Steuerung des Detaillierungsgrads in den generierten Ausgaben. Darüber hinaus können räumliche Masken oder Entrauschungspläne mit verschiedenen Omega-Werten angewendet werden, um eine regions- oder zeitspezifische Granularitätssteuerung zu erreichen. Vorwissen über die Bildzusammensetzung aus Steuersignalen oder Referenzbildern erleichtert die Erstellung präziser Omega-Masken zur Granularitätssteuerung auf bestimmten Objekten. Um die Rolle des Parameters bei der Steuerung subtiler Detailvariationen hervorzuheben, wird die Technik Omegance genannt, indem "Omega" und "Nuance" kombiniert werden. Unsere Methode zeigt beeindruckende Leistungen bei verschiedenen Bild- und Videosynthesetätigkeiten und ist an fortschrittliche Diffusionsmodelle anpassbar. Der Code ist unter https://github.com/itsmag11/Omegance verfügbar.

Entwurfmodell weiß, wann es aufhören soll: Eine Selbstverifizierungslängenrichtlinie für spekulative Decodierung.
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27

ByZiyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

Spekulatives Dekodieren (SD) ist zu einer wichtigen Technik geworden, um die Inferenzgeschwindigkeit großer Sprachmodelle zu beschleunigen. Herkömmliche SD-Methoden verwenden eine feste Entwurflänge, die die Schwierigkeit der Token-Generierung über verschiedene Aufgaben hinweg ignoriert. In diesem Paper behandeln wir daher ein solches Problem und stellen SVIP vor - eine schwierigkeitsbewusste dynamische Entwurflängenstrategie für spekulative Dekodiersysteme. Basierend auf einer theoretischen unteren Grenze der Akzeptanzrate von Entwurfstoken und ihrer Näherung zur Inferenzzeit bestimmt SVIP adaptiv die Längen von Entwurfssequenzen basierend auf der Entropie der Verteilung jedes Entwurfstokens. Experimentelle Ergebnisse an gängigen SD-Benchmarks und -Frameworks zeigen die überlegene Leistung von SVIP, die eine bis zu 20\%ige Beschleunigung der Wandzeit bei SpecBench im Vergleich zu herkömmlichen SD-Methoden und eine 60\%ige Beschleunigung bei MT-Bench für die Generierung von Langformen von bis zu 8K Token erreicht. Darüber hinaus ist SVIP vollständig trainingsfrei und kompatibel mit allen bestehenden SD-Methoden, die Entwurfstoken autoregressiv generieren. Experimentelle Ergebnisse zeigen auch, dass SVIP eine konsistente Verbesserung der Wandzeit zusätzlich zu GliDe & CaPE und EAGLE-2 liefert.

Optimierung der Hirntumor-Segmentierung mit MedNeXt: BraTS 2024 SSA und Pädiatrie
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24

BySarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

Die Identifizierung wichtiger pathologischer Merkmale in Hirn-MRTs ist entscheidend für das langfristige Überleben von Gliom-Patienten. Die manuelle Segmentierung ist jedoch zeitaufwändig, erfordert Experteneingriffe und ist anfällig für menschliche Fehler. Daher wurde erhebliche Forschung betrieben, um Machine-Learning-Methoden zu entwickeln, die Tumore in 3D-multimodalen Hirn-MRT-Scans präzise segmentieren können. Trotz des Fortschritts sind modernste Modelle oft durch die Daten begrenzt, auf denen sie trainiert wurden, was Bedenken hinsichtlich ihrer Zuverlässigkeit bei der Anwendung auf verschiedene Populationen aufwirft, die Verteilungsverschiebungen verursachen können. Solche Verschiebungen können auf eine niedrigere Qualität der MRT-Technologie (z. B. in Subsahara-Afrika) oder Variationen in den Patientendemografien (z. B. Kinder) zurückzuführen sein. Die BraTS-2024-Herausforderung bietet eine Plattform, um diese Probleme anzugehen. Diese Studie präsentiert unsere Methodik zur Segmentierung von Tumoren in den BraTS-2024-SSA- und Pädiatrischen Tumoraufgaben unter Verwendung von MedNeXt, umfassendem Modell-Ensembling und gründlicher Nachverarbeitung. Unser Ansatz zeigte eine starke Leistung auf dem nicht gesehenen Validierungsset und erzielte einen durchschnittlichen Dice-Ähnlichkeitskoeffizienten (DSC) von 0,896 auf dem BraTS-2024-SSA-Datensatz und einen durchschnittlichen DSC von 0,830 auf dem BraTS-Pädiatrischen Tumor-Datensatz. Darüber hinaus erreichte unsere Methode einen durchschnittlichen Hausdorff-Abstand (HD95) von 14,682 auf dem BraTS-2024-SSA-Datensatz und einen durchschnittlichen HD95 von 37,508 auf dem BraTS-Pädiatrischen Datensatz. Unser GitHub-Repository ist hier verfügbar: Projekt-Repository: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics

VideoLLM weiß, wann es sprechen soll: Verbesserung der zeitkritischen Videoverständnis mit dem Video-Text-Duett-Interaktionsformat.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

Die jüngsten Forschungen zu Video Large Language Models (VideoLLM) konzentrieren sich hauptsächlich auf Modellarchitekturen und Trainingsdatensätze, wobei das Interaktionsformat zwischen Benutzer und Modell nur oberflächlich untersucht wird. In bestehenden Arbeiten interagieren Benutzer häufig mit VideoLLMs, indem sie das gesamte Video und eine Abfrage als Eingabe verwenden, woraufhin das Modell eine Antwort generiert. Dieses Interaktionsformat beschränkt die Anwendung von VideoLLMs in Szenarien wie dem Verständnis von Live-Streams, in denen Videos nicht enden und Antworten in Echtzeit erforderlich sind, und führt auch zu unbefriedigender Leistung bei zeitkritischen Aufgaben, die die Lokalisierung von Videosegmenten erfordern. In diesem Artikel konzentrieren wir uns auf ein Video-Text-Duett-Interaktionsformat. Dieses Interaktionsformat zeichnet sich durch die kontinuierliche Wiedergabe des Videos aus, und sowohl der Benutzer als auch das Modell können ihre Textnachrichten an beliebiger Stelle während der Videowiedergabe einfügen. Wenn eine Textnachricht endet, wird das Video weiter abgespielt, ähnlich wie bei zwei Künstlern in einem Duett. Wir erstellen MMDuetIT, einen Video-Text-Trainingsdatensatz, der darauf abzielt, VideoLLMs an das Video-Text-Duett-Interaktionsformat anzupassen. Wir führen auch die Multi-Answer Grounded Video Question Answering (MAGQA) Aufgabe ein, um die Echtzeit-Antwortfähigkeit von VideoLLMs zu bewerten. Mit dem Training auf MMDuetIT zeigt MMDuet, dass die Übernahme des Video-Text-Duett-Interaktionsformats dem Modell signifikante Verbesserungen bei verschiedenen zeitkritischen Aufgaben ermöglicht (76% CIDEr bei der dichten Videobeschreibung von YouCook2, 90% mAP bei der Highlight-Erkennung von QVHighlights und 25% R@0.5 bei der zeitlichen Videoverankerung von Charades-STA) mit minimalem Schulungsaufwand und ermöglicht es VideoLLMs, in Echtzeit zu antworten, während das Video abgespielt wird. Code, Daten und Demo sind verfügbar unter: https://github.com/yellow-binary-tree/MMDuet.

Adaptive Blind All-in-One Bildwiederherstellung
Adaptive Blind All-in-One Image Restoration

Nov 27

ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

Blind All-in-One-Modelle zur Bildrestaurierung zielen darauf ab, ein qualitativ hochwertiges Bild aus einem Eingang wiederherzustellen, das mit unbekannten Verzerrungen beeinträchtigt ist. Diese Modelle erfordern jedoch, dass alle möglichen Arten von Verzerrungen während der Trainingsphase definiert werden, zeigen jedoch eine begrenzte Verallgemeinerung auf nicht gesehene Verzerrungen, was ihre praktische Anwendung in komplexen Fällen einschränkt. In diesem Artikel schlagen wir ein einfaches, aber effektives adaptives Blind All-in-One-Restaurierungsmodell (ABAIR) vor, das mehrere Verzerrungen bewältigen kann, gut auf nicht gesehene Verzerrungen verallgemeinert und effizient neue Verzerrungen durch das Training eines kleinen Teils der Parameter integrieren kann. Zuerst trainieren wir unser Basismodell auf einem großen Datensatz natürlicher Bilder mit mehreren synthetischen Verzerrungen, ergänzt um einen Segmentierungskopf zur Schätzung von Verzerrungstypen pro Pixel, was zu einem leistungsstarken Rückgrat führt, das sich auf eine breite Palette von Verzerrungen verallgemeinern kann. Zweitens passen wir unser Basismodell an verschiedene Bildwiederherstellungsaufgaben an, indem wir unabhängige Low-Rank-Adapter verwenden. Drittens lernen wir, Adapter adaptiv zu kombinieren, um vielseitige Bilder über einen flexiblen und leichten Verzerrungsschätzer anzupassen. Unser Modell ist sowohl leistungsstark im Umgang mit spezifischen Verzerrungen als auch flexibel bei der Anpassung an komplexe Aufgaben. Es übertrifft nicht nur den Stand der Technik bei Fünf- und Drei-Aufgaben-IR-Setups bei weitem, sondern zeigt auch eine verbesserte Verallgemeinerung auf nicht gesehene Verzerrungen und auch zusammengesetzte Verzerrungen.

Training und Evaluierung von Sprachmodellen mit datenbasiertem Vorlagen-Generierungssystem
Training and Evaluating Language Models with Template-based Data Generation

Nov 27

ByYifan Zhang

Der rasante Fortschritt großer Sprachmodelle (LLMs) wie GPT-3, PaLM und Llama hat die natürliche Sprachverarbeitung erheblich verändert und zeigt bemerkenswerte Fähigkeiten im Verstehen und Generieren von Sprache. Diese Modelle haben jedoch oft Schwierigkeiten bei Aufgaben, die komplexe Schlussfolgerungen erfordern, insbesondere bei der Lösung mathematischer Probleme, teilweise aufgrund des Mangels an groß angelegten, hochwertigen, domänenspezifischen Datensätzen, die für das Training anspruchsvoller Schlussfolgerungsfähigkeiten erforderlich sind. Um diese Einschränkung zu überwinden, stellen wir Template-basierte Datengenerierung (TDG) vor, einen neuartigen Ansatz, der LLMs (GPT-4) nutzt, um automatisch parameterisierte Metavorlagen zu generieren, die dann verwendet werden, um eine Vielzahl hochwertiger Probleme und Lösungen zu synthetisieren. Durch die Nutzung von TDG erstellen wir TemplateMath Teil I: TemplateGSM, einen Datensatz, der über 7 Millionen synthetisch generierte Mathematikaufgaben umfasst - jede begleitet von codebasierten und natürlichsprachlichen Lösungen - mit dem Potenzial, eine praktisch unbegrenzte Anzahl weiterer Aufgaben zu generieren. Dieser Datensatz lindert den Mangel an groß angelegten mathematischen Datensätzen und dient als wertvolle Ressource für das Vor-Training, Feinabstimmung und die Evaluation von LLMs im mathematischen Schlussfolgern. Unsere Methode ermöglicht nicht nur die Generierung von praktisch unendlichen Daten, sondern hebt auch die Datenanreicherung auf ein neues Niveau, indem GPT-4 für die Metavorlagengenerierung verwendet wird, um vielfältige und hochwertige Problemstrukturen sicherzustellen. Der TemplateMath Teil I: TemplateGSM Datensatz ist öffentlich unter https://huggingface.co/datasets/math-ai/TemplateGSM verfügbar. Der Code ist unter https://github.com/iiis-ai/TemplateMath verfügbar.

Bearbeite weg und mein Gesicht wird nicht bleiben: Persönliche biometrische Verteidigung gegen bösartige generative Bearbeitung
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25

ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu

In den letzten Fortschritten bei Diffusionsmodellen haben generative Bildbearbeitungen zugänglicher gemacht, was kreative Bearbeitungen ermöglicht, aber ethische Bedenken aufwirft, insbesondere hinsichtlich bösartiger Bearbeitungen von Porträts, die die Privatsphäre und Identitätssicherheit bedrohen. Bestehende Schutzmethoden stützen sich hauptsächlich auf adversarielle Störungen, um Bearbeitungen zu neutralisieren, scheitern jedoch oft bei verschiedenen Bearbeitungsanfragen. Wir schlagen FaceLock vor, einen neuartigen Ansatz zum Schutz von Porträts, der adversarielle Störungen optimiert, um biometrische Informationen zu zerstören oder signifikant zu verändern, wodurch die bearbeiteten Ausgaben biometrisch unkenntlich werden. FaceLock integriert Gesichtserkennung und visuelle Wahrnehmung in die Störungsoptimierung, um robusten Schutz gegen verschiedene Bearbeitungsversuche zu bieten. Wir weisen auch auf Schwachstellen bei häufig verwendeten Bewertungsmetriken hin und zeigen auf, wie sie manipuliert werden können, wodurch die Notwendigkeit zuverlässiger Bewertungen des Schutzes betont wird. Experimente zeigen, dass FaceLock Baselines bei der Abwehr bösartiger Bearbeitungen übertrifft und robust gegen Reinigungstechniken ist. Ablationsstudien bestätigen seine Stabilität und breite Anwendbarkeit über diffusionsbasierte Bearbeitungsalgorithmen hinweg. Unsere Arbeit fördert die biometrische Verteidigung und legt den Grundstein für datenschutzfreundliche Praktiken in der Bildbearbeitung. Der Code ist verfügbar unter: https://github.com/taco-group/FaceLock.

papers.title

papers.description

CAT4D: Erschaffen Sie alles in 4D mit Multi-View Video Diffusionsmodellen
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27

ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

Große Sprachmodell-basierte GUI-Agenten: Eine Übersicht
Large Language Model-Brained GUI Agents: A Survey

Nov 27

ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

MARVEL-40M+: Mehrstufige visuelle Ausarbeitung für hochwertige Text-zu-3D-Inhalteerstellung
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26

BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

Diffusions-Selbstdestillation zur individuellen Bildgenerierung ohne vorheriges Training
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27

ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

3D Konvexes Splatting: Strahlungsfeld-Rendering mit 3D-glättenden Konvexen
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22

ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

DiffusionDrive: Trunkiertes Diffusionsmodell für autonomes Fahren von Anfang bis Ende
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22

ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

Make-It-Animatable: Ein effizientes Framework zur Erstellung von animationsbereiten 3D-Charakteren.
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27

ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

UniPose: Ein vereinheitlichtes multimodales Framework für das Verständnis, die Generierung und Bearbeitung menschlicher Körperhaltungen.
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25

ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

Kollaboratives Decodieren macht visuelle autoregressive Modellierung effizient.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

Traumcache: Feinabstimmungsfreie, leichte personalisierte Bildgenerierung über Merkmalszwischenspeicherung
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26

ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

ChatRex: Bändigung des Multimodalen LLM für Gemeinsame Wahrnehmung und Verständnis
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27

ByQing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

Video-gesteuerte Foley-Sound-Erzeugung mit multimodalen Steuerelementen.
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26

ByZiyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

Omeganz: Ein einzelner Parameter für verschiedene Feinheitsgrade in der diffusionsbasierten Synthese
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26

ByXinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

Entwurfmodell weiß, wann es aufhören soll: Eine Selbstverifizierungslängenrichtlinie für spekulative Decodierung.
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27

ByZiyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

Optimierung der Hirntumor-Segmentierung mit MedNeXt: BraTS 2024 SSA und Pädiatrie
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24

BySarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

VideoLLM weiß, wann es sprechen soll: Verbesserung der zeitkritischen Videoverständnis mit dem Video-Text-Duett-Interaktionsformat.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

Adaptive Blind All-in-One Bildwiederherstellung
Adaptive Blind All-in-One Image Restoration

Nov 27

ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

Training und Evaluierung von Sprachmodellen mit datenbasiertem Vorlagen-Generierungssystem
Training and Evaluating Language Models with Template-based Data Generation

Nov 27

ByYifan Zhang

Bearbeite weg und mein Gesicht wird nicht bleiben: Persönliche biometrische Verteidigung gegen bösartige generative Bearbeitung
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25

ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu