HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

22 papers found

StreamDiffusion: Eine Pipeline-basierte Lösung für die Echtzeit-Interaktive Generierung
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

Dec 19

ByAkio Kodaira, Chenfeng Xu, Toshiki Hazama, Takanori Yoshimoto, Kohei Ohno, Shogo Mitsuhori, Soichi Sugano, Hanying Cho, Zhijian Liu, Kurt Keutzer

Wir stellen StreamDiffusion vor, eine Echtzeit-Diffusionspipeline, die für die interaktive Bildgenerierung entwickelt wurde. Bestehende Diffusionsmodelle sind zwar geschickt darin, Bilder aus Text- oder Bildvorgaben zu erzeugen, doch sie scheitern oft an der Echtzeitinteraktion. Diese Einschränkung wird besonders in Szenarien mit kontinuierlichem Input deutlich, wie etwa im Metaverse, bei Live-Videostreaming und -Übertragungen, wo ein hoher Durchsatz unerlässlich ist. Um dies zu beheben, präsentieren wir einen neuartigen Ansatz, der den ursprünglichen sequenziellen Entrauschungsprozess in einen Batch-Entrauschungsprozess umwandelt. Stream Batch eliminiert den konventionellen Warte-und-Interagiere-Ansatz und ermöglicht flüssige und hochdurchsatzfähige Streams. Um die Frequenzdiskrepanz zwischen Dateneingabe und Modell-Durchsatz zu bewältigen, entwerfen wir eine neuartige Eingabe-Ausgabe-Warteschlange zur Parallelisierung des Streaming-Prozesses. Darüber hinaus verwendet die bestehende Diffusionspipeline eine klassifikatorfreie Führung (CFG), die zusätzliche U-Net-Berechnungen erfordert. Um redundante Berechnungen zu reduzieren, schlagen wir einen neuartigen Algorithmus für residuale klassifikatorfreie Führung (RCFG) vor, der die Anzahl der negativen bedingten Entrauschungsschritte auf nur einen oder sogar null reduziert. Zusätzlich führen wir einen stochastischen Ähnlichkeitsfilter (SSF) ein, um den Energieverbrauch zu optimieren. Unser Stream Batch erreicht im Vergleich zur sequenziellen Entrauschungsmethode eine Beschleunigung von etwa 1,5x auf verschiedenen Entrauschungsstufen. Der vorgeschlagene RCFG führt zu Geschwindigkeiten, die bis zu 2,05x höher sind als die konventionelle CFG. Durch die Kombination der vorgeschlagenen Strategien und bestehender ausgereifter Beschleunigungswerkzeuge erreicht die Bild-zu-Bild-Generierung bis zu 91,07 fps auf einer RTX4090, was den Durchsatz der von Diffusers entwickelten AutoPipeline um mehr als 59,56x verbessert. Darüber hinaus reduziert unser vorgeschlagenes StreamDiffusion den Energieverbrauch erheblich, und zwar um das 2,39-fache auf einer RTX3060 und das 1,99-fache auf einer RTX4090.

VideoPoet: Ein großes Sprachmodell für die Null-Shot-Videogenerierung
VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dec 21

ByDan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, Yong Cheng, Ming-Chang Chiu, Josh Dillon, Irfan Essa, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, David Ross, Grant Schindler, Mikhail Sirotenko, Kihyuk Sohn, Krishna Somandepalli, Huisheng Wang, Jimmy Yan, Ming-Hsuan Yang, Xuan Yang, Bryan Seybold, Lu Jiang

Wir präsentieren VideoPoet, ein Sprachmodell, das in der Lage ist, hochwertige Videos mit passendem Audio aus einer Vielzahl von Konditionierungssignalen zu synthetisieren. VideoPoet verwendet eine reine Decoder-Transformer-Architektur, die multimodale Eingaben verarbeitet – einschließlich Bilder, Videos, Text und Audio. Das Trainingsprotokoll folgt dem von Large Language Models (LLMs) und besteht aus zwei Phasen: Pretraining und aufgaben spezifische Anpassung. Während des Pretrainings integriert VideoPoet eine Mischung multimodaler generativer Ziele innerhalb eines autoregressiven Transformer-Frameworks. Das vortrainierte LLM dient als Grundlage, die für eine Reihe von Videoerzeugungsaufgaben angepasst werden kann. Wir präsentieren empirische Ergebnisse, die die state-of-the-art Fähigkeiten des Modells in der Zero-Shot-Videoerzeugung demonstrieren, wobei insbesondere die Fähigkeit von VideoPoet hervorgehoben wird, hochauflösende Bewegungen zu erzeugen. Projektseite: http://sites.research.google/videopoet/

PowerInfer: Schnelle Bereitstellung großer Sprachmodelle mit einer Consumer-GPU
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

Dec 16

ByYixin Song, Zeyu Mi, Haotong Xie, Haibo Chen

Dieses Papier stellt PowerInfer vor, einen Hochgeschwindigkeits-Inferenzmotor für Large Language Models (LLMs) auf einem Personal Computer (PC) mit einer einzigen Consumer-GPU. Der Kern des PowerInfer-Designs liegt in der Nutzung der hohen Lokalität, die der LLM-Inferenz innewohnt und durch eine Potenzgesetzverteilung in der Neuronaktivierung charakterisiert ist. Diese Verteilung zeigt, dass eine kleine Teilmenge von Neuronen, sogenannte heiße Neuronen, konsistent über verschiedene Eingaben hinweg aktiviert werden, während die Mehrheit, kalte Neuronen, abhängig von spezifischen Eingaben variieren. PowerInfer nutzt diese Erkenntnis, um einen GPU-CPU-Hybrid-Inferenzmotor zu entwerfen: heiß aktivierte Neuronen werden vorab auf die GPU geladen, um schnellen Zugriff zu ermöglichen, während kalt aktivierte Neuronen auf der CPU berechnet werden, wodurch der GPU-Speicherbedarf und die CPU-GPU-Datenübertragungen erheblich reduziert werden. PowerInfer integriert zudem adaptive Prädiktoren und neuronensensitive spärliche Operatoren, um die Effizienz der Neuronaktivierung und der rechnerischen Sparsamkeit zu optimieren. Die Evaluierung zeigt, dass PowerInfer eine durchschnittliche Token-Generierungsrate von 13,20 Token/s erreicht, mit einem Spitzenwert von 29,08 Token/s, über verschiedene LLMs (einschließlich OPT-175B) auf einer einzigen NVIDIA RTX 4090 GPU, was nur 18 % unter dem Wert liegt, der mit einer erstklassigen Server-GPU vom Typ A100 erreicht wird. Dies übertrifft llama.cpp um bis zu 11,69x, während die Modellgenauigkeit erhalten bleibt.

Generative multimodale Modelle sind In-Context-Lerner.
Generative Multimodal Models are In-Context Learners

Dec 20

ByQuan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang

Die menschliche Fähigkeit, multimodale Aufgaben im Kontext (d. h. mit nur wenigen Demonstrationen oder einfachen Anweisungen) mühelos zu lösen, ist etwas, was aktuelle multimodale Systeme bisher weitgehend nicht nachahmen konnten. In dieser Arbeit zeigen wir, dass die aufgabenunabhängigen Fähigkeiten zum Lernen im Kontext bei großen multimodalen Modellen durch effektives Skalieren erheblich verbessert werden können. Wir stellen Emu2 vor, ein generatives multimodales Modell mit 37 Milliarden Parametern, das auf groß angelegten multimodalen Sequenzen mit einem einheitlichen autoregressiven Ziel trainiert wurde. Emu2 zeigt starke Fähigkeiten zum multimodalen Lernen im Kontext und kann sogar Aufgaben lösen, die spontanes Schlussfolgern erfordern, wie visuelle Prompting und objektbezogene Generierung. Das Modell setzt neue Maßstäbe bei mehreren multimodalen Verständnisaufgaben in Few-Shot-Szenarien. Wenn es angewiesen wird, spezifische Anweisungen zu befolgen, erreicht Emu2 zudem neue Bestwerte bei anspruchsvollen Aufgaben wie Frage-Antwort-Benchmarks für große multimodale Modelle und offener, subjektgesteuerter Generierung. Diese Erfolge zeigen, dass Emu2 als Basismodell und allgemeine Schnittstelle für eine Vielzahl multimodaler Aufgaben dienen kann. Code und Modelle sind öffentlich verfügbar, um zukünftige Forschung zu erleichtern.

DREAM-Talk: Diffusionsbasierte realistische emotionale audio-gesteuerte Methode zur Generierung von sprechenden Gesichtern aus Einzelbildern
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

Dec 21

ByChenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng

Die Erzeugung emotionaler sprechender Gesichter aus einem einzigen Porträtbild bleibt eine erhebliche Herausforderung. Die gleichzeitige Erreichung von ausdrucksstarkem emotionalem Sprechen und präziser Lippensynchronisation ist besonders schwierig, da die Ausdruckskraft oft zugunsten der Genauigkeit der Lippensynchronisation beeinträchtigt wird. Wie in vielen früheren Arbeiten weit verbreitet, gelingt es dem LSTM-Netzwerk oft nicht, die Feinheiten und Variationen emotionaler Ausdrücke zu erfassen. Um diese Herausforderungen zu bewältigen, stellen wir DREAM-Talk vor, ein zweistufiges, diffusionsbasiertes, audio-gesteuertes Framework, das speziell für die gleichzeitige Erzeugung vielfältiger Ausdrücke und präziser Lippensynchronisation entwickelt wurde. In der ersten Stufe schlagen wir EmoDiff vor, ein neuartiges Diffusionsmodul, das vielfältige, hochdynamische emotionale Ausdrücke und Kopfhaltungen in Übereinstimmung mit dem Audio und dem referenzierten Emotionsstil erzeugt. Angesichts der starken Korrelation zwischen Lippenbewegung und Audio verfeinern wir dann die Dynamik mit verbesserter Lippensynchronisationsgenauigkeit unter Verwendung von Audiofeatures und Emotionsstil. Zu diesem Zweck setzen wir ein Video-zu-Video-Rendering-Modul ein, um die Ausdrücke und Lippenbewegungen von unserem Proxy-3D-Avatar auf ein beliebiges Porträt zu übertragen. Sowohl quantitativ als auch qualitativ übertrifft DREAM-Talk die derzeit besten Methoden in Bezug auf Ausdruckskraft, Lippensynchronisationsgenauigkeit und perzeptive Qualität.

DreamTuner: Ein einzelnes Bild genügt für die subjektgesteuerte Generierung
DreamTuner: Single Image is Enough for Subject-Driven Generation

Dec 21

ByMiao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He

Diffusionsbasierte Modelle haben beeindruckende Fähigkeiten bei der Text-zu-Bild-Generierung gezeigt und werden für personalisierte Anwendungen der subjektgesteuerten Generierung erwartet, bei denen die Erzeugung von maßgeschneiderten Konzepten mit einem oder wenigen Referenzbildern erforderlich ist. Allerdings schaffen es bestehende Methoden, die auf Feinabstimmung basieren, nicht, den Kompromiss zwischen Subjektlernen und der Beibehaltung der Generierungsfähigkeiten vortrainierter Modelle auszubalancieren. Darüber hinaus neigen andere Methoden, die zusätzliche Bildkodierer verwenden, dazu, wichtige Details des Subjekts aufgrund von Kodierungskompression zu verlieren. Um diese Herausforderungen zu bewältigen, schlagen wir DreamTurner vor, eine neuartige Methode, die Referenzinformationen von grob bis fein einfügt, um subjektgesteuerte Bildgenerierung effektiver zu erreichen. DreamTurner führt einen Subjekt-Kodierer zur groben Erhaltung der Subjektidentität ein, wobei die komprimierten allgemeinen Subjektmerkmale über eine Aufmerksamkeitsschicht vor der visuell-textuellen Kreuzaufmerksamkeit eingeführt werden. Anschließend modifizieren wir die Selbstaufmerksamkeitsschichten innerhalb vortrainierter Text-zu-Bild-Modelle zu Selbst-Subjekt-Aufmerksamkeitsschichten, um die Details des Zielsubjekts zu verfeinern. Das generierte Bild fragt detaillierte Merkmale sowohl vom Referenzbild als auch von sich selbst in der Selbst-Subjekt-Aufmerksamkeit ab. Es ist hervorzuheben, dass die Selbst-Subjekt-Aufmerksamkeit eine effektive, elegante und trainingsfreie Methode zur Beibehaltung der detaillierten Merkmale von personalisierten Subjekten ist und als Plug-and-Play-Lösung während der Inferenz dienen kann. Schließlich erreicht DreamTurner mit zusätzlicher subjektgesteuerter Feinabstimmung eine bemerkenswerte Leistung bei der subjektgesteuerten Bildgenerierung, die durch Text oder andere Bedingungen wie Pose gesteuert werden kann. Weitere Details finden Sie auf der Projektseite unter https://dreamtuner-diffusion.github.io/.

Zero-Shot Metrische Tiefenschätzung mit einem auf das Sichtfeld konditionierten Diffusionsmodell
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

Dec 20

BySaurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet

Während Methoden zur monokularen Tiefenschätzung auf Standard-Benchmarks erhebliche Fortschritte gemacht haben, bleibt die null-Shot metrische Tiefenschätzung ungelöst. Zu den Herausforderungen gehören die gemeinsame Modellierung von Innen- und Außenszenen, die oft deutlich unterschiedliche Verteilungen von RGB und Tiefe aufweisen, sowie die Tiefenskalen-Ambiguïtät aufgrund unbekannter Kameraintrinsiken. Neuere Arbeiten haben spezialisierte Multi-Head-Architekturen für die gemeinsame Modellierung von Innen- und Außenszenen vorgeschlagen. Im Gegensatz dazu befürworten wir ein generisches, aufgabenunabhängiges Diffusionsmodell mit mehreren Verbesserungen, wie der Log-Skalen-Tiefenparametrisierung, um die gemeinsame Modellierung von Innen- und Außenszenen zu ermöglichen, der Konditionierung auf das Sichtfeld (FOV), um die Skalenambiguität zu behandeln, und der synthetischen Erweiterung des FOV während des Trainings, um über die begrenzten Kameraintrinsiken in den Trainingsdatensätzen hinaus zu generalisieren. Darüber hinaus erreicht unsere Methode, DMD (Diffusion for Metric Depth), durch den Einsatz einer vielfältigeren Trainingsmischung als üblich und einer effizienten Diffusionsparametrisierung eine Reduzierung des relativen Fehlers (REL) um 25 % bei null-Shot Innenraum- und 33 % bei null-Shot Außenraumdatensätzen gegenüber dem aktuellen State-of-the-Art (SOTA) unter Verwendung nur einer geringen Anzahl von Denoising-Schritten. Eine Übersicht finden Sie unter https://diffusion-vision.github.io/dmd.

Fairy: Schnelle parallelisierte instruktionsgesteuerte Video-zu-Video-Synthese
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

Dec 20

ByBichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda

In diesem Artikel stellen wir Fairy vor, eine minimalistische, aber robuste Anpassung von Bildbearbeitungs-Diffusionsmodellen, die für Videoanwendungen optimiert wurde. Unser Ansatz konzentriert sich auf das Konzept der ankerbasierten rahmenübergreifenden Aufmerksamkeit, ein Mechanismus, der Diffusionsmerkmale implizit über Frames hinweg propagiert und so eine überlegene zeitliche Kohärenz und hochwertige Synthese gewährleistet. Fairy adressiert nicht nur die Einschränkungen früherer Modelle, wie Speicherbedarf und Verarbeitungsgeschwindigkeit, sondern verbessert auch die zeitliche Konsistenz durch eine einzigartige Datenaugmentationsstrategie. Diese Strategie macht das Modell äquivariant gegenüber affinen Transformationen in sowohl Quell- als auch Zielbildern. Bemerkenswert effizient erzeugt Fairy 120-Frame-Videos mit einer Auflösung von 512x384 (4 Sekunden bei 30 FPS) in nur 14 Sekunden und übertrifft damit frühere Arbeiten um mindestens das 44-fache. Eine umfassende Nutzerstudie mit 1000 generierten Proben bestätigt, dass unser Ansatz eine überlegene Qualität liefert und etablierte Methoden deutlich übertrifft.

InstructVideo: Anleitung von Video-Diffusionsmodellen mit menschlichem Feedback
InstructVideo: Instructing Video Diffusion Models with Human Feedback

Dec 19

ByHangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni

Diffusionsmodelle haben sich als de-facto-Paradigma für die Videogenerierung etabliert. Ihre Abhängigkeit von web-skaligen Daten unterschiedlicher Qualität führt jedoch oft zu visuell unattraktiven Ergebnissen, die nicht mit den textuellen Eingabeaufforderungen übereinstimmen. Um dieses Problem zu lösen, schlagen wir InstructVideo vor, um text-zu-video Diffusionsmodelle durch menschliches Feedback mittels Belohnungs-Finetuning zu instruieren. InstructVideo basiert auf zwei Schlüsselkomponenten: 1) Um die Kosten des Belohnungs-Finetunings, die durch die Generierung über die vollständige DDIM-Sampling-Kette entstehen, zu verringern, formulieren wir Belohnungs-Finetuning als Bearbeitungsprozess um. Indem wir den Diffusionsprozess nutzen, um ein gesampeltes Video zu korrumpieren, erfordert InstructVideo nur eine partielle Inferenz der DDIM-Sampling-Kette, was die Finetuning-Kosten reduziert und die Effizienz verbessert. 2) Um das Fehlen eines dedizierten Video-Belohnungsmodells für menschliche Präferenzen zu beheben, verwenden wir etablierte Bild-Belohnungsmodelle, z.B. HPSv2, um. Zu diesem Zweck schlagen wir das Segmental Video Reward vor, einen Mechanismus, der Belohnungssignale basierend auf segmentalem sparsamen Sampling liefert, sowie das Temporally Attenuated Reward, eine Methode, die die Verschlechterung der zeitlichen Modellierung während des Finetunings mildert. Umfangreiche Experimente, sowohl qualitativ als auch quantitativ, bestätigen die Praktikabilität und Wirksamkeit der Verwendung von Bild-Belohnungsmodellen in InstructVideo, wodurch die visuelle Qualität der generierten Videos erheblich verbessert wird, ohne die Generalisierungsfähigkeit zu beeinträchtigen. Code und Modelle werden öffentlich zugänglich gemacht.

Splatter Image: Ultra-schnelle 3D-Rekonstruktion aus Einzelansicht
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Dec 20

ByStanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi

Wir stellen das Splatter Image vor, einen ultraschnellen Ansatz für die monokulare 3D-Objektrekonstruktion, der mit 38 Bildern pro Sekunde (FPS) arbeitet. Das Splatter Image basiert auf Gaussian Splatting, das kürzlich Echtzeit-Rendering, schnelles Training und hervorragende Skalierbarkeit für die Multi-View-Rekonstruktion ermöglicht hat. Zum ersten Mal wenden wir Gaussian Splatting in einem monokularen Rekonstruktionsszenario an. Unser Ansatz ist lernbasiert, und zur Testzeit erfordert die Rekonstruktion lediglich die Vorwärtsauswertung eines neuronalen Netzwerks. Die Hauptinnovation des Splatter Image liegt in seinem überraschend einfachen Design: Es verwendet ein 2D-Bild-zu-Bild-Netzwerk, um das Eingabebild auf einen 3D-Gauß pro Pixel abzubilden. Die resultierenden Gaußverteilungen haben somit die Form eines Bildes, des Splatter Image. Wir erweitern die Methode weiter, um mehr als ein Bild als Eingabe zu berücksichtigen, was wir durch die Hinzufügung von Cross-View-Attention erreichen. Dank der Geschwindigkeit des Renderers (588 FPS) können wir ein einzelnes GPU für das Training verwenden, während wir in jeder Iteration vollständige Bilder erzeugen, um wahrnehmungsbasierte Metriken wie LPIPS zu optimieren. Auf Standard-Benchmarks zeigen wir nicht nur eine schnelle Rekonstruktion, sondern auch bessere Ergebnisse als neuere und wesentlich rechenintensivere Baselines in Bezug auf PSNR, LPIPS und andere Metriken.

TinySAM: Die Grenzen effizienter Segment-Anything-Modelle erweitern
TinySAM: Pushing the Envelope for Efficient Segment Anything Model

Dec 21

ByHan Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li, Yunhe Wang, Xinghao Chen

Kürzlich hat das Segment Anything Model (SAM) eine leistungsstarke Segmentierungsfähigkeit gezeigt und große Aufmerksamkeit in den Bereichen der Computer Vision auf sich gezogen. Zahlreiche Folgearbeiten haben verschiedene Anwendungen auf Basis des vortrainierten SAM entwickelt und beeindruckende Leistungen bei nachgelagerten Vision-Aufgaben erzielt. Allerdings besteht SAM aus schwergewichtigen Architekturen und erfordert massive Rechenkapazität, was die weitere Anwendung von SAM auf rechenbeschränkten Edge-Geräten behindert. Aus diesem Grund schlagen wir in diesem Artikel ein Framework vor, um ein kleines Segment Anything Model (TinySAM) zu erhalten, das die starke Zero-Shot-Leistung beibehält. Zunächst schlagen wir eine Full-Stage-Wissensdistillationsmethode mit einer Online-Hard-Prompt-Sampling-Strategie vor, um ein leichtgewichtiges Studentenmodell zu destillieren. Wir passen auch die Post-Training-Quantisierung an die promptbare Segmentierungsaufgabe an und reduzieren weiter die Rechenkosten. Darüber hinaus wird eine hierarchische Segmenting-Everything-Strategie vorgeschlagen, um die Everything-Inferenz um das Zweifache zu beschleunigen, bei nahezu keinem Leistungsverlust. Mit all diesen vorgeschlagenen Methoden führt unser TinySAM zu einer Reduzierung der Rechenleistung um Größenordnungen und setzt neue Maßstäbe für die effiziente Segment Anything-Aufgabe. Umfangreiche Experimente zu verschiedenen Zero-Shot-Transfer-Aufgaben demonstrieren die signifikant vorteilhafte Leistung unseres TinySAM im Vergleich zu Gegenstückmethoden. Vortrainierte Modelle und Codes werden unter https://github.com/xinghaochen/TinySAM und https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM verfügbar sein.

Cached Transformers: Verbesserung von Transformern durch differenzierbaren Speicher-Cache
Cached Transformers: Improving Transformers with Differentiable Memory Cache

Dec 20

ByZhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo

Diese Arbeit stellt ein neues Transformer-Modell namens Cached Transformer vor, das Gated Recurrent Cached (GRC) Attention verwendet, um den Selbstaufmerksamkeitsmechanismus durch einen differenzierbaren Speichercache von Tokens zu erweitern. GRC Attention ermöglicht es, sowohl vergangene als auch aktuelle Tokens zu berücksichtigen, wodurch das rezeptive Feld der Aufmerksamkeit vergrößert und die Erforschung von langreichweitigen Abhängigkeiten ermöglicht wird. Durch die Verwendung einer rekurrenten Gating-Einheit zur kontinuierlichen Aktualisierung des Caches erzielt unser Modell signifikante Fortschritte in sechs Sprach- und Vision-Aufgaben, darunter Sprachmodellierung, maschinelle Übersetzung, ListOPs, Bildklassifizierung, Objekterkennung und Instanzsegmentierung. Darüber hinaus übertrifft unser Ansatz bisherige speicherbasierte Techniken in Aufgaben wie der Sprachmodellierung und zeigt die Fähigkeit, auf ein breiteres Anwendungsspektrum übertragen zu werden.

Neuronale Empfindungen mit neuronalen Feldern: Visuell-taktile Wahrnehmung für die Manipulation in der Hand
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation

Dec 20

BySudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam

Um menschenähnliche Geschicklichkeit zu erreichen, müssen Roboter räumliches Bewusstsein aus multimodaler Sensorik ableiten, um Kontaktinteraktionen zu analysieren. Bei der In-Hand-Manipulation neuartiger Objekte umfasst dieses räumliche Bewusstsein die Schätzung der Pose und Form des Objekts. Der aktuelle Stand der In-Hand-Wahrnehmung setzt hauptsächlich auf visuelle Informationen und beschränkt sich auf die Verfolgung von a priori bekannten Objekten. Darüber hinaus ist die visuelle Okklusion von Objekten in der Hand während der Manipulation unvermeidlich, was verhindert, dass aktuelle Systeme Aufgaben ohne Okklusion bewältigen können. Wir kombinieren visuelle und taktile Sensorik an einer mehrfingrigen Hand, um die Pose und Form eines Objekts während der In-Hand-Manipulation zu schätzen. Unsere Methode, NeuralFeels, kodiert die Objektgeometrie durch das Online-Lernen eines neuronalen Feldes und verfolgt sie gemeinsam durch die Optimierung eines Pose-Graph-Problems. Wir untersuchen multimodale In-Hand-Wahrnehmung in Simulation und der realen Welt, indem wir mit verschiedenen Objekten über eine propriozeptionsgesteuerte Policy interagieren. Unsere Experimente zeigen finale Rekonstruktions-F-Scores von 81 % und durchschnittliche Pose-Abweichungen von 4,7 mm, die auf 2,3 mm mit bekannten CAD-Modellen reduziert werden. Zusätzlich beobachten wir, dass wir bei starker visueller Okklusion bis zu 94 % Verbesserungen in der Verfolgung im Vergleich zu rein visuellen Methoden erzielen können. Unsere Ergebnisse zeigen, dass taktile Informationen die visuellen Schätzungen während der In-Hand-Manipulation zumindest verfeinern und im besten Fall eindeutig machen. Wir veröffentlichen unseren Evaluationsdatensatz von 70 Experimenten, FeelSight, als einen Schritt zur Benchmarking in diesem Bereich. Unsere neuronale Darstellung, die durch multimodale Sensorik angetrieben wird, kann als Wahrnehmungsgrundlage für die Weiterentwicklung der Robotergeschicklichkeit dienen. Videos finden Sie auf unserer Projektwebsite https://suddhu.github.io/neural-feels/.

MaskINT: Videobearbeitung durch interpolative nicht-autoregressive maskierte Transformer
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

Dec 19

ByHaoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie

Jüngste Fortschritte in der generativen KI haben die Bild- und Videobearbeitung erheblich verbessert, insbesondere im Kontext der Textprompt-Steuerung. State-of-the-Art-Ansätze stützen sich überwiegend auf Diffusionsmodelle, um diese Aufgaben zu bewältigen. Die rechenintensiven Anforderungen diffusionsbasierter Methoden sind jedoch erheblich und erfordern oft umfangreiche gepaarte Datensätze für das Training, was die praktische Anwendung erschwert. Diese Studie geht diese Herausforderung an, indem sie den textbasierten Videobearbeitungsprozess in zwei separate Phasen unterteilt. In der ersten Phase nutzen wir ein bestehendes Text-zu-Bild-Diffusionsmodell, um gleichzeitig einige Schlüsselbilder ohne zusätzliches Fine-Tuning zu bearbeiten. In der zweiten Phase führen wir ein effizientes Modell namens MaskINT ein, das auf nicht-autoregressiven maskierten generativen Transformatoren basiert und sich auf die Interpolation von Bildern zwischen den Schlüsselbildern spezialisiert, wobei es von der strukturellen Führung durch Zwischenbilder profitiert. Unsere umfassenden Experimente zeigen die Wirksamkeit und Effizienz von MaskINT im Vergleich zu anderen diffusionsbasierten Methoden. Diese Forschung bietet eine praktische Lösung für die textbasierte Videobearbeitung und demonstriert das Potenzial nicht-autoregressiver maskierter generativer Transformatoren in diesem Bereich.

Richten Sie Ihre Gaußverteilungen aus: Text-zu-4D mit dynamischen 3D-Gaußverteilungen und kombinierten Diffusionsmodellen
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Dec 21

ByHuan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis

Textgesteuerte Diffusionsmodelle haben die Bild- und Videogenerierung revolutioniert und wurden auch erfolgreich für optimierungsbasierte 3D-Objektsynthese eingesetzt. Hier konzentrieren wir uns stattdessen auf das bisher wenig erforschte Text-zu-4D-Setting und synthetisieren dynamische, animierte 3D-Objekte mithilfe von Score-Distillation-Methoden mit einer zusätzlichen zeitlichen Dimension. Im Vergleich zu früheren Arbeiten verfolgen wir einen neuartigen, kompositionellen generierungsbasierten Ansatz und kombinieren Text-zu-Bild-, Text-zu-Video- und 3D-bewusste Multiview-Diffusionsmodelle, um während der 4D-Objektoptimierung Feedback zu liefern, wodurch gleichzeitig zeitliche Konsistenz, hochwertiges visuelles Erscheinungsbild und realistische Geometrie sichergestellt werden. Unsere Methode, genannt Align Your Gaussians (AYG), nutzt dynamisches 3D-Gaussian-Splatting mit Deformationsfeldern als 4D-Repräsentation. Entscheidend für AYG ist eine neuartige Methode zur Regularisierung der Verteilung der beweglichen 3D-Gaussians, um dadurch die Optimierung zu stabilisieren und Bewegung zu induzieren. Wir schlagen außerdem einen Bewegungsverstärkungsmechanismus sowie ein neues autoregressives Syntheseschema vor, um mehrere 4D-Sequenzen für längere Generierung zu erzeugen und zu kombinieren. Diese Techniken ermöglichen es uns, lebendige dynamische Szenen zu synthetisieren, frühere Arbeiten qualitativ und quantitativ zu übertreffen und state-of-the-art Text-zu-4D-Leistung zu erreichen. Aufgrund der Gaussian-4D-Repräsentation können verschiedene 4D-Animationen nahtlos kombiniert werden, wie wir demonstrieren. AYG eröffnet vielversprechende Möglichkeiten für Animation, Simulation und digitale Inhaltserstellung sowie synthetische Datengenerierung.

Mini-GPTs: Effiziente große Sprachmodelle durch kontextbezogenes Pruning
Mini-GPTs: Efficient Large Language Models through Contextual Pruning

Dec 20

ByTim Valicenti, Justice Vidal, Ritik Patnaik

In der KI-Forschung bleibt die Optimierung von Large Language Models (LLMs) eine bedeutende Herausforderung, die entscheidend für die Weiterentwicklung praktischer Anwendungen und die Nachhaltigkeit des Feldes ist. Aufbauend auf den grundlegenden Arbeiten des Labors von Professor Song Han am MIT stellt dieses Papier einen neuartigen Ansatz zur Entwicklung von Mini-GPTs durch kontextbezogenes Pruning vor. Unsere Methodik beschneidet strategisch die Rechenarchitektur traditioneller LLMs wie Phi-1.5, wobei der Fokus darauf liegt, Kernfunktionen beizubehalten und gleichzeitig die Modellgrößen drastisch zu reduzieren. Wir wenden diese Technik auf vielfältige und komplexe Datensätze an, darunter US-Recht, medizinische Fragen und Antworten, Skyrim-Dialoge, Englisch-Taiwanesische Übersetzungen und Wirtschaftsartikel. Die Ergebnisse unterstreichen die Effizienz und Wirksamkeit des kontextbezogenen Prunings, nicht nur als theoretisches Konzept, sondern auch als praktisches Werkzeug zur Entwicklung domänenspezifischer, ressourceneffizienter LLMs. Kontextbezogenes Pruning ist eine vielversprechende Methode zur Erstellung domänenspezifischer LLMs, und diese Forschung ist ein Baustein für zukünftige Entwicklungen mit mehr Hardware-Rechenleistung, verfeinertem Fine-Tuning und Quantisierung.

Adaptive Guidance: Trainingsfreie Beschleunigung konditionaler Diffusionsmodelle
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

Dec 19

ByAngela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet

Diese Arbeit präsentiert eine umfassende Studie zur Rolle von Classifier-Free Guidance (CFG) in textbedingten Diffusionsmodellen aus der Perspektive der Inferenzeffizienz. Insbesondere lockern wir die Standardwahl, CFG in allen Diffusionsschritten anzuwenden, und suchen stattdessen nach effizienten Guidance-Strategien. Wir formulieren die Entdeckung solcher Strategien im Rahmen des differenzierbaren Neural Architecture Search. Unsere Ergebnisse deuten darauf hin, dass die von CFG vorgeschlagenen Denoising-Schritte zunehmend mit einfachen bedingten Schritten übereinstimmen, was die zusätzliche neuronale Netzwerkevaluation von CFG überflüssig macht, insbesondere in der zweiten Hälfte des Denoising-Prozesses. Aufbauend auf dieser Erkenntnis schlagen wir „Adaptive Guidance“ (AG) vor, eine effiziente Variante von CFG, die Netzwerkevaluationen adaptiv auslässt, wenn der Denoising-Prozess Konvergenz zeigt. Unsere Experimente zeigen, dass AG die Bildqualität von CFG bewahrt, während die Berechnung um 25 % reduziert wird. Somit stellt AG eine Plug-and-Play-Alternative zu Guidance Distillation dar, die 50 % der Beschleunigungen der letzteren erreicht, während sie trainingsfrei ist und die Fähigkeit behält, negative Prompts zu verarbeiten. Schließlich decken wir weitere Redundanzen von CFG in der ersten Hälfte des Diffusionsprozesses auf und zeigen, dass gesamte neuronale Funktionsevaluationen durch einfache affine Transformationen vergangener Score-Schätzungen ersetzt werden können. Diese Methode, genannt LinearAG, bietet noch kostengünstigere Inferenz auf Kosten einer Abweichung vom Basismodell. Unsere Erkenntnisse liefern Einblicke in die Effizienz des bedingten Denoising-Prozesses, die zu einer praktischeren und schnelleren Bereitstellung textbedingter Diffusionsmodelle beitragen.

Repaint123: Schnelle und hochwertige 3D-Generierung aus einem Bild mit progressiv kontrollierbarem 2D-Neubemalen
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting

Dec 20

ByJunwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan

Aktuelle Methoden zur 3D-Generierung aus einem einzelnen Bild verwenden häufig Score Distillation Sampling (SDS). Trotz der beeindruckenden Ergebnisse gibt es mehrere Mängel, darunter Inkonsistenz in der Mehransichtigkeit, übermäßig gesättigte und geglättete Texturen sowie eine langsame Generierungsgeschwindigkeit. Um diese Mängel zu beheben, präsentieren wir Repaint123, um die Mehransicht-Voreingenommenheit und die Texturverschlechterung zu verringern und den Generierungsprozess zu beschleunigen. Die Kernidee besteht darin, die leistungsstarke Bildgenerierungsfähigkeit des 2D-Diffusionsmodells mit der Texturausrichtungsfähigkeit der Repainting-Strategie zu kombinieren, um hochwertige, konsistente Mehransichtsbilder zu erzeugen. Wir schlagen weiterhin eine sichtbarkeitsabhängige adaptive Repainting-Stärke für Überlappungsbereiche vor, um die Qualität der generierten Bilder im Repainting-Prozess zu verbessern. Die erzeugten hochwertigen und mehransichtskonsistenten Bilder ermöglichen die Verwendung eines einfachen Mean Square Error (MSE)-Verlusts für die schnelle 3D-Inhaltsgenerierung. Wir führen umfangreiche Experimente durch und zeigen, dass unsere Methode in der Lage ist, hochwertige 3D-Inhalte mit Mehransichtskonsistenz und feinen Texturen in 2 Minuten von Grund auf zu generieren. Der Code ist unter https://github.com/junwuzhang19/repaint123 verfügbar.

UniSDF: Vereinheitlichte neuronale Repräsentationen für hochauflösende 3D-Rekonstruktion komplexer Szenen mit Reflexionen
UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections

Dec 20

ByFangjinhua Wang, Marie-Julie Rakotosaona, Michael Niemeyer, Richard Szeliski, Marc Pollefeys, Federico Tombari

Neuronale 3D-Szenendarstellungen haben großes Potenzial für die 3D-Rekonstruktion aus 2D-Bildern gezeigt. Die Rekonstruktion realer Aufnahmen komplexer Szenen bleibt jedoch nach wie vor eine Herausforderung. Bestehende generische 3D-Rekonstruktionsmethoden haben oft Schwierigkeiten, feine geometrische Details darzustellen, und modellieren reflektierende Oberflächen in großflächigen Szenen nicht angemessen. Techniken, die sich explizit auf reflektierende Oberflächen konzentrieren, können komplexe und detaillierte Reflexionen durch bessere Reflexionsparametrisierungen modellieren. Wir beobachten jedoch, dass diese Methoden in realen, unbeschränkten Szenarien, in denen sowohl nicht-reflektierende als auch reflektierende Komponenten vorhanden sind, oft nicht robust sind. In dieser Arbeit schlagen wir UniSDF vor, eine allgemeine 3D-Rekonstruktionsmethode, die große, komplexe Szenen mit Reflexionen rekonstruieren kann. Wir untersuchen sowohl sichtbasierte als auch reflexionsbasierte Farbvorhersage-Parametrisierungstechniken und stellen fest, dass die explizite Kombination dieser Darstellungen im 3D-Raum die Rekonstruktion von Oberflächen ermöglicht, die geometrisch genauer sind, insbesondere bei reflektierenden Oberflächen. Wir kombinieren diese Darstellung weiterhin mit einem Multi-Resolution-Grid-Backbone, der in einem grob-zu-fein-Verfahren trainiert wird, was schnellere Rekonstruktionen als bei bisherigen Methoden ermöglicht. Umfangreiche Experimente auf Objektebene mit den Datensätzen DTU und Shiny Blender sowie mit unbeschränkten Datensätzen wie Mip-NeRF 360 und Ref-NeRF real zeigen, dass unsere Methode in der Lage ist, komplexe, großflächige Szenen mit feinen Details und reflektierenden Oberflächen robust zu rekonstruieren. Weitere Informationen finden Sie auf unserer Projektseite unter https://fangjinhuawang.github.io/UniSDF.

SpecNeRF: Gaußsche Richtungskodierung für spiegelnde Reflexionen
SpecNeRF: Gaussian Directional Encoding for Specular Reflections

Dec 20

ByLi Ma, Vasu Agrawal, Haithem Turki, Changil Kim, Chen Gao, Pedro Sander, Michael Zollhöfer, Christian Richardt

Neurale Strahlungsfelder haben bemerkenswerte Leistungen bei der Modellierung des Erscheinungsbilds von 3D-Szenen erzielt. Bestehende Ansätze haben jedoch nach wie vor Schwierigkeiten mit dem sichtwinkelabhängigen Erscheinungsbild glänzender Oberflächen, insbesondere unter komplexen Lichtverhältnissen in Innenräumen. Im Gegensatz zu bestehenden Methoden, die typischerweise eine entfernte Lichtquelle wie eine Umgebungslichtkarte annehmen, schlagen wir eine lernbare Gaußsche Richtungskodierung vor, um die sichtwinkelabhängigen Effekte unter Nahfeldbeleuchtungsbedingungen besser zu modellieren. Wichtig ist, dass unsere neue Richtungskodierung die räumlich variierende Natur der Nahfeldbeleuchtung erfasst und das Verhalten vorgefilterter Umgebungslichtkarten nachahmt. Dadurch ermöglicht sie die effiziente Berechnung der vorgefalteten spekularen Farbe an jedem 3D-Ort mit variierenden Rauhigkeitskoeffizienten. Darüber hinaus führen wir ein datengetriebenes Geometrie-Prior ein, das dazu beiträgt, die Form-Strahlungs-Ambivalenz bei der Reflexionsmodellierung zu verringern. Wir zeigen, dass unsere Gaußsche Richtungskodierung und das Geometrie-Prior die Modellierung anspruchsvoller spekularer Reflexionen in neuralen Strahlungsfeldern erheblich verbessern, was dazu beiträgt, das Erscheinungsbild in physikalisch sinnvollere Komponenten zu zerlegen.

Modellbasierte Steuerung mit spärlicher neuronaler Dynamik
Model-Based Control with Sparse Neural Dynamics

Dec 20

ByZiang Liu, Genggeng Zhou, Jeff He, Tobia Marcucci, Li Fei-Fei, Jiajun Wu, Yunzhu Li

Das Lernen prädiktiver Modelle aus Beobachtungen mithilfe tiefer neuronaler Netze (DNNs) ist ein vielversprechender neuer Ansatz für viele reale Planungs- und Steuerungsprobleme. Allerdings sind gängige DNNs zu unstrukturiert für eine effektive Planung, und aktuelle Steuerungsmethoden stützen sich typischerweise auf umfangreiche Stichproben oder lokalen Gradientenabstieg. In diesem Artikel schlagen wir ein neues Framework für integriertes Modelllernen und prädiktive Steuerung vor, das sich für effiziente Optimierungsalgorithmen eignet. Konkret beginnen wir mit einem ReLU-Neuronalmodell der Systemdynamik und sparsifizieren es schrittweise durch das Entfernen redundanter Neuronen, wobei die Vorhersagegenauigkeit nur minimal beeinträchtigt wird. Dieser diskrete Sparsifizierungsprozess wird als kontinuierliches Problem approximiert, was eine end-to-end-Optimierung sowohl der Modellarchitektur als auch der Gewichtsparameter ermöglicht. Das sparsifizierte Modell wird anschließend von einem gemischt-ganzzahligen prädiktiven Regler verwendet, der die Neuronaktivierungen als binäre Variablen darstellt und effiziente Branch-and-Bound-Algorithmen einsetzt. Unser Framework ist auf eine Vielzahl von DNNs anwendbar, von einfachen mehrschichtigen Perzeptronen bis hin zu komplexen graphbasierten neuronalen Dynamiken. Es kann Aufgaben mit komplizierten Kontaktdynamiken effizient bewältigen, wie beispielsweise das Schieben von Objekten, das sortieren von zusammengesetzten Objekten und die Manipulation von deformierbaren Objekten. Numerische und Hardware-Experimente zeigen, dass unser Framework trotz der aggressiven Sparsifizierung eine bessere Regelkreisperformance liefern kann als bestehende state-of-the-art Methoden.

RadEdit: Belastungstests für biomedizinische Bildverarbeitungsmodelle durch Diffusion-basierte Bildbearbeitung
RadEdit: stress-testing biomedical vision models via diffusion image editing

Dec 20

ByFernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse

Biomedische Bilddatensätze sind oft klein und verzerrt, was bedeutet, dass die reale Leistung von Vorhersagemodellen erheblich geringer ausfallen kann als bei internen Tests erwartet. Diese Arbeit schlägt vor, generative Bildbearbeitung zu verwenden, um Datensatzverschiebungen zu simulieren und Fehlermodi biomedizinischer Bildverarbeitungsmodelle zu diagnostizieren; dies kann vor der Bereitstellung genutzt werden, um die Einsatzbereitschaft zu bewerten und potenziell Kosten und Patientenschäden zu reduzieren. Bestehende Bearbeitungsmethoden können unerwünschte Veränderungen hervorrufen, wobei aufgrund des gemeinsamen Auftretens von Krankheit und Behandlungsmaßnahmen falsche Korrelationen gelernt werden, was die praktische Anwendbarkeit einschränkt. Um dies zu adressieren, trainieren wir ein Text-zu-Bild-Diffusionsmodell auf mehreren Thorax-Röntgendatensätzen und führen eine neue Bearbeitungsmethode namens RadEdit ein, die, falls vorhanden, mehrere Masken verwendet, um Änderungen einzuschränken und die Konsistenz der bearbeiteten Bilder sicherzustellen. Wir betrachten drei Arten von Datensatzverschiebungen: Erfassungsverschiebung, Manifestationsverschiebung und Bevölkerungsverschiebung, und zeigen, dass unser Ansatz Fehler diagnostizieren und die Robustheit des Modells quantifizieren kann, ohne zusätzliche Datenerfassung, und somit qualitative Werkzeuge für erklärbare KI ergänzt.