Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen StreamDiffusion vor, eine Echtzeit-Diffusionspipeline, die für die interaktive Bildgenerierung entwickelt wurde. Bestehende Diffusionsmodelle sind zwar geschickt darin, Bilder aus Text- oder Bildvorgaben zu erzeugen, doch sie scheitern oft an der Echtzeitinteraktion. Diese Einschränkung wird besonders in Szenarien mit kontinuierlichem Input deutlich, wie etwa im Metaverse, bei Live-Videostreaming und -Übertragungen, wo ein hoher Durchsatz unerlässlich ist. Um dies zu beheben, präsentieren wir einen neuartigen Ansatz, der den ursprünglichen sequenziellen Entrauschungsprozess in einen Batch-Entrauschungsprozess umwandelt. Stream Batch eliminiert den konventionellen Warte-und-Interagiere-Ansatz und ermöglicht flüssige und hochdurchsatzfähige Streams. Um die Frequenzdiskrepanz zwischen Dateneingabe und Modell-Durchsatz zu bewältigen, entwerfen wir eine neuartige Eingabe-Ausgabe-Warteschlange zur Parallelisierung des Streaming-Prozesses. Darüber hinaus verwendet die bestehende Diffusionspipeline eine klassifikatorfreie Führung (CFG), die zusätzliche U-Net-Berechnungen erfordert. Um redundante Berechnungen zu reduzieren, schlagen wir einen neuartigen Algorithmus für residuale klassifikatorfreie Führung (RCFG) vor, der die Anzahl der negativen bedingten Entrauschungsschritte auf nur einen oder sogar null reduziert. Zusätzlich führen wir einen stochastischen Ähnlichkeitsfilter (SSF) ein, um den Energieverbrauch zu optimieren. Unser Stream Batch erreicht im Vergleich zur sequenziellen Entrauschungsmethode eine Beschleunigung von etwa 1,5x auf verschiedenen Entrauschungsstufen. Der vorgeschlagene RCFG führt zu Geschwindigkeiten, die bis zu 2,05x höher sind als die konventionelle CFG. Durch die Kombination der vorgeschlagenen Strategien und bestehender ausgereifter Beschleunigungswerkzeuge erreicht die Bild-zu-Bild-Generierung bis zu 91,07 fps auf einer RTX4090, was den Durchsatz der von Diffusers entwickelten AutoPipeline um mehr als 59,56x verbessert. Darüber hinaus reduziert unser vorgeschlagenes StreamDiffusion den Energieverbrauch erheblich, und zwar um das 2,39-fache auf einer RTX3060 und das 1,99-fache auf einer RTX4090.
Wir präsentieren VideoPoet, ein Sprachmodell, das in der Lage ist, hochwertige Videos mit passendem Audio aus einer Vielzahl von Konditionierungssignalen zu synthetisieren. VideoPoet verwendet eine reine Decoder-Transformer-Architektur, die multimodale Eingaben verarbeitet – einschließlich Bilder, Videos, Text und Audio. Das Trainingsprotokoll folgt dem von Large Language Models (LLMs) und besteht aus zwei Phasen: Pretraining und aufgaben spezifische Anpassung. Während des Pretrainings integriert VideoPoet eine Mischung multimodaler generativer Ziele innerhalb eines autoregressiven Transformer-Frameworks. Das vortrainierte LLM dient als Grundlage, die für eine Reihe von Videoerzeugungsaufgaben angepasst werden kann. Wir präsentieren empirische Ergebnisse, die die state-of-the-art Fähigkeiten des Modells in der Zero-Shot-Videoerzeugung demonstrieren, wobei insbesondere die Fähigkeit von VideoPoet hervorgehoben wird, hochauflösende Bewegungen zu erzeugen. Projektseite: http://sites.research.google/videopoet/
Dieses Papier stellt PowerInfer vor, einen Hochgeschwindigkeits-Inferenzmotor für Large Language Models (LLMs) auf einem Personal Computer (PC) mit einer einzigen Consumer-GPU. Der Kern des PowerInfer-Designs liegt in der Nutzung der hohen Lokalität, die der LLM-Inferenz innewohnt und durch eine Potenzgesetzverteilung in der Neuronaktivierung charakterisiert ist. Diese Verteilung zeigt, dass eine kleine Teilmenge von Neuronen, sogenannte heiße Neuronen, konsistent über verschiedene Eingaben hinweg aktiviert werden, während die Mehrheit, kalte Neuronen, abhängig von spezifischen Eingaben variieren. PowerInfer nutzt diese Erkenntnis, um einen GPU-CPU-Hybrid-Inferenzmotor zu entwerfen: heiß aktivierte Neuronen werden vorab auf die GPU geladen, um schnellen Zugriff zu ermöglichen, während kalt aktivierte Neuronen auf der CPU berechnet werden, wodurch der GPU-Speicherbedarf und die CPU-GPU-Datenübertragungen erheblich reduziert werden. PowerInfer integriert zudem adaptive Prädiktoren und neuronensensitive spärliche Operatoren, um die Effizienz der Neuronaktivierung und der rechnerischen Sparsamkeit zu optimieren. Die Evaluierung zeigt, dass PowerInfer eine durchschnittliche Token-Generierungsrate von 13,20 Token/s erreicht, mit einem Spitzenwert von 29,08 Token/s, über verschiedene LLMs (einschließlich OPT-175B) auf einer einzigen NVIDIA RTX 4090 GPU, was nur 18 % unter dem Wert liegt, der mit einer erstklassigen Server-GPU vom Typ A100 erreicht wird. Dies übertrifft llama.cpp um bis zu 11,69x, während die Modellgenauigkeit erhalten bleibt.
Die menschliche Fähigkeit, multimodale Aufgaben im Kontext (d. h. mit nur wenigen Demonstrationen oder einfachen Anweisungen) mühelos zu lösen, ist etwas, was aktuelle multimodale Systeme bisher weitgehend nicht nachahmen konnten. In dieser Arbeit zeigen wir, dass die aufgabenunabhängigen Fähigkeiten zum Lernen im Kontext bei großen multimodalen Modellen durch effektives Skalieren erheblich verbessert werden können. Wir stellen Emu2 vor, ein generatives multimodales Modell mit 37 Milliarden Parametern, das auf groß angelegten multimodalen Sequenzen mit einem einheitlichen autoregressiven Ziel trainiert wurde. Emu2 zeigt starke Fähigkeiten zum multimodalen Lernen im Kontext und kann sogar Aufgaben lösen, die spontanes Schlussfolgern erfordern, wie visuelle Prompting und objektbezogene Generierung. Das Modell setzt neue Maßstäbe bei mehreren multimodalen Verständnisaufgaben in Few-Shot-Szenarien. Wenn es angewiesen wird, spezifische Anweisungen zu befolgen, erreicht Emu2 zudem neue Bestwerte bei anspruchsvollen Aufgaben wie Frage-Antwort-Benchmarks für große multimodale Modelle und offener, subjektgesteuerter Generierung. Diese Erfolge zeigen, dass Emu2 als Basismodell und allgemeine Schnittstelle für eine Vielzahl multimodaler Aufgaben dienen kann. Code und Modelle sind öffentlich verfügbar, um zukünftige Forschung zu erleichtern.
Die Erzeugung emotionaler sprechender Gesichter aus einem einzigen Porträtbild bleibt eine erhebliche Herausforderung. Die gleichzeitige Erreichung von ausdrucksstarkem emotionalem Sprechen und präziser Lippensynchronisation ist besonders schwierig, da die Ausdruckskraft oft zugunsten der Genauigkeit der Lippensynchronisation beeinträchtigt wird. Wie in vielen früheren Arbeiten weit verbreitet, gelingt es dem LSTM-Netzwerk oft nicht, die Feinheiten und Variationen emotionaler Ausdrücke zu erfassen. Um diese Herausforderungen zu bewältigen, stellen wir DREAM-Talk vor, ein zweistufiges, diffusionsbasiertes, audio-gesteuertes Framework, das speziell für die gleichzeitige Erzeugung vielfältiger Ausdrücke und präziser Lippensynchronisation entwickelt wurde. In der ersten Stufe schlagen wir EmoDiff vor, ein neuartiges Diffusionsmodul, das vielfältige, hochdynamische emotionale Ausdrücke und Kopfhaltungen in Übereinstimmung mit dem Audio und dem referenzierten Emotionsstil erzeugt. Angesichts der starken Korrelation zwischen Lippenbewegung und Audio verfeinern wir dann die Dynamik mit verbesserter Lippensynchronisationsgenauigkeit unter Verwendung von Audiofeatures und Emotionsstil. Zu diesem Zweck setzen wir ein Video-zu-Video-Rendering-Modul ein, um die Ausdrücke und Lippenbewegungen von unserem Proxy-3D-Avatar auf ein beliebiges Porträt zu übertragen. Sowohl quantitativ als auch qualitativ übertrifft DREAM-Talk die derzeit besten Methoden in Bezug auf Ausdruckskraft, Lippensynchronisationsgenauigkeit und perzeptive Qualität.
Diffusionsbasierte Modelle haben beeindruckende Fähigkeiten bei der Text-zu-Bild-Generierung gezeigt und werden für personalisierte Anwendungen der subjektgesteuerten Generierung erwartet, bei denen die Erzeugung von maßgeschneiderten Konzepten mit einem oder wenigen Referenzbildern erforderlich ist. Allerdings schaffen es bestehende Methoden, die auf Feinabstimmung basieren, nicht, den Kompromiss zwischen Subjektlernen und der Beibehaltung der Generierungsfähigkeiten vortrainierter Modelle auszubalancieren. Darüber hinaus neigen andere Methoden, die zusätzliche Bildkodierer verwenden, dazu, wichtige Details des Subjekts aufgrund von Kodierungskompression zu verlieren. Um diese Herausforderungen zu bewältigen, schlagen wir DreamTurner vor, eine neuartige Methode, die Referenzinformationen von grob bis fein einfügt, um subjektgesteuerte Bildgenerierung effektiver zu erreichen. DreamTurner führt einen Subjekt-Kodierer zur groben Erhaltung der Subjektidentität ein, wobei die komprimierten allgemeinen Subjektmerkmale über eine Aufmerksamkeitsschicht vor der visuell-textuellen Kreuzaufmerksamkeit eingeführt werden. Anschließend modifizieren wir die Selbstaufmerksamkeitsschichten innerhalb vortrainierter Text-zu-Bild-Modelle zu Selbst-Subjekt-Aufmerksamkeitsschichten, um die Details des Zielsubjekts zu verfeinern. Das generierte Bild fragt detaillierte Merkmale sowohl vom Referenzbild als auch von sich selbst in der Selbst-Subjekt-Aufmerksamkeit ab. Es ist hervorzuheben, dass die Selbst-Subjekt-Aufmerksamkeit eine effektive, elegante und trainingsfreie Methode zur Beibehaltung der detaillierten Merkmale von personalisierten Subjekten ist und als Plug-and-Play-Lösung während der Inferenz dienen kann. Schließlich erreicht DreamTurner mit zusätzlicher subjektgesteuerter Feinabstimmung eine bemerkenswerte Leistung bei der subjektgesteuerten Bildgenerierung, die durch Text oder andere Bedingungen wie Pose gesteuert werden kann. Weitere Details finden Sie auf der Projektseite unter https://dreamtuner-diffusion.github.io/.
Während Methoden zur monokularen Tiefenschätzung auf Standard-Benchmarks erhebliche Fortschritte gemacht haben, bleibt die null-Shot metrische Tiefenschätzung ungelöst. Zu den Herausforderungen gehören die gemeinsame Modellierung von Innen- und Außenszenen, die oft deutlich unterschiedliche Verteilungen von RGB und Tiefe aufweisen, sowie die Tiefenskalen-Ambiguïtät aufgrund unbekannter Kameraintrinsiken. Neuere Arbeiten haben spezialisierte Multi-Head-Architekturen für die gemeinsame Modellierung von Innen- und Außenszenen vorgeschlagen. Im Gegensatz dazu befürworten wir ein generisches, aufgabenunabhängiges Diffusionsmodell mit mehreren Verbesserungen, wie der Log-Skalen-Tiefenparametrisierung, um die gemeinsame Modellierung von Innen- und Außenszenen zu ermöglichen, der Konditionierung auf das Sichtfeld (FOV), um die Skalenambiguität zu behandeln, und der synthetischen Erweiterung des FOV während des Trainings, um über die begrenzten Kameraintrinsiken in den Trainingsdatensätzen hinaus zu generalisieren. Darüber hinaus erreicht unsere Methode, DMD (Diffusion for Metric Depth), durch den Einsatz einer vielfältigeren Trainingsmischung als üblich und einer effizienten Diffusionsparametrisierung eine Reduzierung des relativen Fehlers (REL) um 25 % bei null-Shot Innenraum- und 33 % bei null-Shot Außenraumdatensätzen gegenüber dem aktuellen State-of-the-Art (SOTA) unter Verwendung nur einer geringen Anzahl von Denoising-Schritten. Eine Übersicht finden Sie unter https://diffusion-vision.github.io/dmd.
In diesem Artikel stellen wir Fairy vor, eine minimalistische, aber robuste Anpassung von Bildbearbeitungs-Diffusionsmodellen, die für Videoanwendungen optimiert wurde. Unser Ansatz konzentriert sich auf das Konzept der ankerbasierten rahmenübergreifenden Aufmerksamkeit, ein Mechanismus, der Diffusionsmerkmale implizit über Frames hinweg propagiert und so eine überlegene zeitliche Kohärenz und hochwertige Synthese gewährleistet. Fairy adressiert nicht nur die Einschränkungen früherer Modelle, wie Speicherbedarf und Verarbeitungsgeschwindigkeit, sondern verbessert auch die zeitliche Konsistenz durch eine einzigartige Datenaugmentationsstrategie. Diese Strategie macht das Modell äquivariant gegenüber affinen Transformationen in sowohl Quell- als auch Zielbildern. Bemerkenswert effizient erzeugt Fairy 120-Frame-Videos mit einer Auflösung von 512x384 (4 Sekunden bei 30 FPS) in nur 14 Sekunden und übertrifft damit frühere Arbeiten um mindestens das 44-fache. Eine umfassende Nutzerstudie mit 1000 generierten Proben bestätigt, dass unser Ansatz eine überlegene Qualität liefert und etablierte Methoden deutlich übertrifft.
Diffusionsmodelle haben sich als de-facto-Paradigma für die Videogenerierung etabliert. Ihre Abhängigkeit von web-skaligen Daten unterschiedlicher Qualität führt jedoch oft zu visuell unattraktiven Ergebnissen, die nicht mit den textuellen Eingabeaufforderungen übereinstimmen. Um dieses Problem zu lösen, schlagen wir InstructVideo vor, um text-zu-video Diffusionsmodelle durch menschliches Feedback mittels Belohnungs-Finetuning zu instruieren. InstructVideo basiert auf zwei Schlüsselkomponenten: 1) Um die Kosten des Belohnungs-Finetunings, die durch die Generierung über die vollständige DDIM-Sampling-Kette entstehen, zu verringern, formulieren wir Belohnungs-Finetuning als Bearbeitungsprozess um. Indem wir den Diffusionsprozess nutzen, um ein gesampeltes Video zu korrumpieren, erfordert InstructVideo nur eine partielle Inferenz der DDIM-Sampling-Kette, was die Finetuning-Kosten reduziert und die Effizienz verbessert. 2) Um das Fehlen eines dedizierten Video-Belohnungsmodells für menschliche Präferenzen zu beheben, verwenden wir etablierte Bild-Belohnungsmodelle, z.B. HPSv2, um. Zu diesem Zweck schlagen wir das Segmental Video Reward vor, einen Mechanismus, der Belohnungssignale basierend auf segmentalem sparsamen Sampling liefert, sowie das Temporally Attenuated Reward, eine Methode, die die Verschlechterung der zeitlichen Modellierung während des Finetunings mildert. Umfangreiche Experimente, sowohl qualitativ als auch quantitativ, bestätigen die Praktikabilität und Wirksamkeit der Verwendung von Bild-Belohnungsmodellen in InstructVideo, wodurch die visuelle Qualität der generierten Videos erheblich verbessert wird, ohne die Generalisierungsfähigkeit zu beeinträchtigen. Code und Modelle werden öffentlich zugänglich gemacht.
Wir stellen das Splatter Image vor, einen ultraschnellen Ansatz für die monokulare 3D-Objektrekonstruktion, der mit 38 Bildern pro Sekunde (FPS) arbeitet. Das Splatter Image basiert auf Gaussian Splatting, das kürzlich Echtzeit-Rendering, schnelles Training und hervorragende Skalierbarkeit für die Multi-View-Rekonstruktion ermöglicht hat. Zum ersten Mal wenden wir Gaussian Splatting in einem monokularen Rekonstruktionsszenario an. Unser Ansatz ist lernbasiert, und zur Testzeit erfordert die Rekonstruktion lediglich die Vorwärtsauswertung eines neuronalen Netzwerks. Die Hauptinnovation des Splatter Image liegt in seinem überraschend einfachen Design: Es verwendet ein 2D-Bild-zu-Bild-Netzwerk, um das Eingabebild auf einen 3D-Gauß pro Pixel abzubilden. Die resultierenden Gaußverteilungen haben somit die Form eines Bildes, des Splatter Image. Wir erweitern die Methode weiter, um mehr als ein Bild als Eingabe zu berücksichtigen, was wir durch die Hinzufügung von Cross-View-Attention erreichen. Dank der Geschwindigkeit des Renderers (588 FPS) können wir ein einzelnes GPU für das Training verwenden, während wir in jeder Iteration vollständige Bilder erzeugen, um wahrnehmungsbasierte Metriken wie LPIPS zu optimieren. Auf Standard-Benchmarks zeigen wir nicht nur eine schnelle Rekonstruktion, sondern auch bessere Ergebnisse als neuere und wesentlich rechenintensivere Baselines in Bezug auf PSNR, LPIPS und andere Metriken.
Kürzlich hat das Segment Anything Model (SAM) eine leistungsstarke Segmentierungsfähigkeit gezeigt und große Aufmerksamkeit in den Bereichen der Computer Vision auf sich gezogen. Zahlreiche Folgearbeiten haben verschiedene Anwendungen auf Basis des vortrainierten SAM entwickelt und beeindruckende Leistungen bei nachgelagerten Vision-Aufgaben erzielt. Allerdings besteht SAM aus schwergewichtigen Architekturen und erfordert massive Rechenkapazität, was die weitere Anwendung von SAM auf rechenbeschränkten Edge-Geräten behindert. Aus diesem Grund schlagen wir in diesem Artikel ein Framework vor, um ein kleines Segment Anything Model (TinySAM) zu erhalten, das die starke Zero-Shot-Leistung beibehält. Zunächst schlagen wir eine Full-Stage-Wissensdistillationsmethode mit einer Online-Hard-Prompt-Sampling-Strategie vor, um ein leichtgewichtiges Studentenmodell zu destillieren. Wir passen auch die Post-Training-Quantisierung an die promptbare Segmentierungsaufgabe an und reduzieren weiter die Rechenkosten. Darüber hinaus wird eine hierarchische Segmenting-Everything-Strategie vorgeschlagen, um die Everything-Inferenz um das Zweifache zu beschleunigen, bei nahezu keinem Leistungsverlust. Mit all diesen vorgeschlagenen Methoden führt unser TinySAM zu einer Reduzierung der Rechenleistung um Größenordnungen und setzt neue Maßstäbe für die effiziente Segment Anything-Aufgabe. Umfangreiche Experimente zu verschiedenen Zero-Shot-Transfer-Aufgaben demonstrieren die signifikant vorteilhafte Leistung unseres TinySAM im Vergleich zu Gegenstückmethoden. Vortrainierte Modelle und Codes werden unter https://github.com/xinghaochen/TinySAM und https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM verfügbar sein.
Diese Arbeit stellt ein neues Transformer-Modell namens Cached Transformer vor, das Gated Recurrent Cached (GRC) Attention verwendet, um den Selbstaufmerksamkeitsmechanismus durch einen differenzierbaren Speichercache von Tokens zu erweitern. GRC Attention ermöglicht es, sowohl vergangene als auch aktuelle Tokens zu berücksichtigen, wodurch das rezeptive Feld der Aufmerksamkeit vergrößert und die Erforschung von langreichweitigen Abhängigkeiten ermöglicht wird. Durch die Verwendung einer rekurrenten Gating-Einheit zur kontinuierlichen Aktualisierung des Caches erzielt unser Modell signifikante Fortschritte in sechs Sprach- und Vision-Aufgaben, darunter Sprachmodellierung, maschinelle Übersetzung, ListOPs, Bildklassifizierung, Objekterkennung und Instanzsegmentierung. Darüber hinaus übertrifft unser Ansatz bisherige speicherbasierte Techniken in Aufgaben wie der Sprachmodellierung und zeigt die Fähigkeit, auf ein breiteres Anwendungsspektrum übertragen zu werden.
Um menschenähnliche Geschicklichkeit zu erreichen, müssen Roboter räumliches Bewusstsein aus multimodaler Sensorik ableiten, um Kontaktinteraktionen zu analysieren. Bei der In-Hand-Manipulation neuartiger Objekte umfasst dieses räumliche Bewusstsein die Schätzung der Pose und Form des Objekts. Der aktuelle Stand der In-Hand-Wahrnehmung setzt hauptsächlich auf visuelle Informationen und beschränkt sich auf die Verfolgung von a priori bekannten Objekten. Darüber hinaus ist die visuelle Okklusion von Objekten in der Hand während der Manipulation unvermeidlich, was verhindert, dass aktuelle Systeme Aufgaben ohne Okklusion bewältigen können. Wir kombinieren visuelle und taktile Sensorik an einer mehrfingrigen Hand, um die Pose und Form eines Objekts während der In-Hand-Manipulation zu schätzen. Unsere Methode, NeuralFeels, kodiert die Objektgeometrie durch das Online-Lernen eines neuronalen Feldes und verfolgt sie gemeinsam durch die Optimierung eines Pose-Graph-Problems. Wir untersuchen multimodale In-Hand-Wahrnehmung in Simulation und der realen Welt, indem wir mit verschiedenen Objekten über eine propriozeptionsgesteuerte Policy interagieren. Unsere Experimente zeigen finale Rekonstruktions-F-Scores von 81 % und durchschnittliche Pose-Abweichungen von 4,7 mm, die auf 2,3 mm mit bekannten CAD-Modellen reduziert werden. Zusätzlich beobachten wir, dass wir bei starker visueller Okklusion bis zu 94 % Verbesserungen in der Verfolgung im Vergleich zu rein visuellen Methoden erzielen können. Unsere Ergebnisse zeigen, dass taktile Informationen die visuellen Schätzungen während der In-Hand-Manipulation zumindest verfeinern und im besten Fall eindeutig machen. Wir veröffentlichen unseren Evaluationsdatensatz von 70 Experimenten, FeelSight, als einen Schritt zur Benchmarking in diesem Bereich. Unsere neuronale Darstellung, die durch multimodale Sensorik angetrieben wird, kann als Wahrnehmungsgrundlage für die Weiterentwicklung der Robotergeschicklichkeit dienen. Videos finden Sie auf unserer Projektwebsite https://suddhu.github.io/neural-feels/.
Textgesteuerte Diffusionsmodelle haben die Bild- und Videogenerierung revolutioniert und wurden auch erfolgreich für optimierungsbasierte 3D-Objektsynthese eingesetzt. Hier konzentrieren wir uns stattdessen auf das bisher wenig erforschte Text-zu-4D-Setting und synthetisieren dynamische, animierte 3D-Objekte mithilfe von Score-Distillation-Methoden mit einer zusätzlichen zeitlichen Dimension. Im Vergleich zu früheren Arbeiten verfolgen wir einen neuartigen, kompositionellen generierungsbasierten Ansatz und kombinieren Text-zu-Bild-, Text-zu-Video- und 3D-bewusste Multiview-Diffusionsmodelle, um während der 4D-Objektoptimierung Feedback zu liefern, wodurch gleichzeitig zeitliche Konsistenz, hochwertiges visuelles Erscheinungsbild und realistische Geometrie sichergestellt werden. Unsere Methode, genannt Align Your Gaussians (AYG), nutzt dynamisches 3D-Gaussian-Splatting mit Deformationsfeldern als 4D-Repräsentation. Entscheidend für AYG ist eine neuartige Methode zur Regularisierung der Verteilung der beweglichen 3D-Gaussians, um dadurch die Optimierung zu stabilisieren und Bewegung zu induzieren. Wir schlagen außerdem einen Bewegungsverstärkungsmechanismus sowie ein neues autoregressives Syntheseschema vor, um mehrere 4D-Sequenzen für längere Generierung zu erzeugen und zu kombinieren. Diese Techniken ermöglichen es uns, lebendige dynamische Szenen zu synthetisieren, frühere Arbeiten qualitativ und quantitativ zu übertreffen und state-of-the-art Text-zu-4D-Leistung zu erreichen. Aufgrund der Gaussian-4D-Repräsentation können verschiedene 4D-Animationen nahtlos kombiniert werden, wie wir demonstrieren. AYG eröffnet vielversprechende Möglichkeiten für Animation, Simulation und digitale Inhaltserstellung sowie synthetische Datengenerierung.
Jüngste Fortschritte in der generativen KI haben die Bild- und Videobearbeitung erheblich verbessert, insbesondere im Kontext der Textprompt-Steuerung. State-of-the-Art-Ansätze stützen sich überwiegend auf Diffusionsmodelle, um diese Aufgaben zu bewältigen. Die rechenintensiven Anforderungen diffusionsbasierter Methoden sind jedoch erheblich und erfordern oft umfangreiche gepaarte Datensätze für das Training, was die praktische Anwendung erschwert. Diese Studie geht diese Herausforderung an, indem sie den textbasierten Videobearbeitungsprozess in zwei separate Phasen unterteilt. In der ersten Phase nutzen wir ein bestehendes Text-zu-Bild-Diffusionsmodell, um gleichzeitig einige Schlüsselbilder ohne zusätzliches Fine-Tuning zu bearbeiten. In der zweiten Phase führen wir ein effizientes Modell namens MaskINT ein, das auf nicht-autoregressiven maskierten generativen Transformatoren basiert und sich auf die Interpolation von Bildern zwischen den Schlüsselbildern spezialisiert, wobei es von der strukturellen Führung durch Zwischenbilder profitiert. Unsere umfassenden Experimente zeigen die Wirksamkeit und Effizienz von MaskINT im Vergleich zu anderen diffusionsbasierten Methoden. Diese Forschung bietet eine praktische Lösung für die textbasierte Videobearbeitung und demonstriert das Potenzial nicht-autoregressiver maskierter generativer Transformatoren in diesem Bereich.
In der KI-Forschung bleibt die Optimierung von Large Language Models (LLMs) eine bedeutende Herausforderung, die entscheidend für die Weiterentwicklung praktischer Anwendungen und die Nachhaltigkeit des Feldes ist. Aufbauend auf den grundlegenden Arbeiten des Labors von Professor Song Han am MIT stellt dieses Papier einen neuartigen Ansatz zur Entwicklung von Mini-GPTs durch kontextbezogenes Pruning vor. Unsere Methodik beschneidet strategisch die Rechenarchitektur traditioneller LLMs wie Phi-1.5, wobei der Fokus darauf liegt, Kernfunktionen beizubehalten und gleichzeitig die Modellgrößen drastisch zu reduzieren. Wir wenden diese Technik auf vielfältige und komplexe Datensätze an, darunter US-Recht, medizinische Fragen und Antworten, Skyrim-Dialoge, Englisch-Taiwanesische Übersetzungen und Wirtschaftsartikel. Die Ergebnisse unterstreichen die Effizienz und Wirksamkeit des kontextbezogenen Prunings, nicht nur als theoretisches Konzept, sondern auch als praktisches Werkzeug zur Entwicklung domänenspezifischer, ressourceneffizienter LLMs. Kontextbezogenes Pruning ist eine vielversprechende Methode zur Erstellung domänenspezifischer LLMs, und diese Forschung ist ein Baustein für zukünftige Entwicklungen mit mehr Hardware-Rechenleistung, verfeinertem Fine-Tuning und Quantisierung.
Diese Arbeit präsentiert eine umfassende Studie zur Rolle von Classifier-Free Guidance (CFG) in textbedingten Diffusionsmodellen aus der Perspektive der Inferenzeffizienz. Insbesondere lockern wir die Standardwahl, CFG in allen Diffusionsschritten anzuwenden, und suchen stattdessen nach effizienten Guidance-Strategien. Wir formulieren die Entdeckung solcher Strategien im Rahmen des differenzierbaren Neural Architecture Search. Unsere Ergebnisse deuten darauf hin, dass die von CFG vorgeschlagenen Denoising-Schritte zunehmend mit einfachen bedingten Schritten übereinstimmen, was die zusätzliche neuronale Netzwerkevaluation von CFG überflüssig macht, insbesondere in der zweiten Hälfte des Denoising-Prozesses. Aufbauend auf dieser Erkenntnis schlagen wir „Adaptive Guidance“ (AG) vor, eine effiziente Variante von CFG, die Netzwerkevaluationen adaptiv auslässt, wenn der Denoising-Prozess Konvergenz zeigt. Unsere Experimente zeigen, dass AG die Bildqualität von CFG bewahrt, während die Berechnung um 25 % reduziert wird. Somit stellt AG eine Plug-and-Play-Alternative zu Guidance Distillation dar, die 50 % der Beschleunigungen der letzteren erreicht, während sie trainingsfrei ist und die Fähigkeit behält, negative Prompts zu verarbeiten. Schließlich decken wir weitere Redundanzen von CFG in der ersten Hälfte des Diffusionsprozesses auf und zeigen, dass gesamte neuronale Funktionsevaluationen durch einfache affine Transformationen vergangener Score-Schätzungen ersetzt werden können. Diese Methode, genannt LinearAG, bietet noch kostengünstigere Inferenz auf Kosten einer Abweichung vom Basismodell. Unsere Erkenntnisse liefern Einblicke in die Effizienz des bedingten Denoising-Prozesses, die zu einer praktischeren und schnelleren Bereitstellung textbedingter Diffusionsmodelle beitragen.
Neuronale 3D-Szenendarstellungen haben großes Potenzial für die 3D-Rekonstruktion aus 2D-Bildern gezeigt. Die Rekonstruktion realer Aufnahmen komplexer Szenen bleibt jedoch nach wie vor eine Herausforderung. Bestehende generische 3D-Rekonstruktionsmethoden haben oft Schwierigkeiten, feine geometrische Details darzustellen, und modellieren reflektierende Oberflächen in großflächigen Szenen nicht angemessen. Techniken, die sich explizit auf reflektierende Oberflächen konzentrieren, können komplexe und detaillierte Reflexionen durch bessere Reflexionsparametrisierungen modellieren. Wir beobachten jedoch, dass diese Methoden in realen, unbeschränkten Szenarien, in denen sowohl nicht-reflektierende als auch reflektierende Komponenten vorhanden sind, oft nicht robust sind. In dieser Arbeit schlagen wir UniSDF vor, eine allgemeine 3D-Rekonstruktionsmethode, die große, komplexe Szenen mit Reflexionen rekonstruieren kann. Wir untersuchen sowohl sichtbasierte als auch reflexionsbasierte Farbvorhersage-Parametrisierungstechniken und stellen fest, dass die explizite Kombination dieser Darstellungen im 3D-Raum die Rekonstruktion von Oberflächen ermöglicht, die geometrisch genauer sind, insbesondere bei reflektierenden Oberflächen. Wir kombinieren diese Darstellung weiterhin mit einem Multi-Resolution-Grid-Backbone, der in einem grob-zu-fein-Verfahren trainiert wird, was schnellere Rekonstruktionen als bei bisherigen Methoden ermöglicht. Umfangreiche Experimente auf Objektebene mit den Datensätzen DTU und Shiny Blender sowie mit unbeschränkten Datensätzen wie Mip-NeRF 360 und Ref-NeRF real zeigen, dass unsere Methode in der Lage ist, komplexe, großflächige Szenen mit feinen Details und reflektierenden Oberflächen robust zu rekonstruieren. Weitere Informationen finden Sie auf unserer Projektseite unter https://fangjinhuawang.github.io/UniSDF.
Neurale Strahlungsfelder haben bemerkenswerte Leistungen bei der Modellierung des Erscheinungsbilds von 3D-Szenen erzielt. Bestehende Ansätze haben jedoch nach wie vor Schwierigkeiten mit dem sichtwinkelabhängigen Erscheinungsbild glänzender Oberflächen, insbesondere unter komplexen Lichtverhältnissen in Innenräumen. Im Gegensatz zu bestehenden Methoden, die typischerweise eine entfernte Lichtquelle wie eine Umgebungslichtkarte annehmen, schlagen wir eine lernbare Gaußsche Richtungskodierung vor, um die sichtwinkelabhängigen Effekte unter Nahfeldbeleuchtungsbedingungen besser zu modellieren. Wichtig ist, dass unsere neue Richtungskodierung die räumlich variierende Natur der Nahfeldbeleuchtung erfasst und das Verhalten vorgefilterter Umgebungslichtkarten nachahmt. Dadurch ermöglicht sie die effiziente Berechnung der vorgefalteten spekularen Farbe an jedem 3D-Ort mit variierenden Rauhigkeitskoeffizienten. Darüber hinaus führen wir ein datengetriebenes Geometrie-Prior ein, das dazu beiträgt, die Form-Strahlungs-Ambivalenz bei der Reflexionsmodellierung zu verringern. Wir zeigen, dass unsere Gaußsche Richtungskodierung und das Geometrie-Prior die Modellierung anspruchsvoller spekularer Reflexionen in neuralen Strahlungsfeldern erheblich verbessern, was dazu beiträgt, das Erscheinungsbild in physikalisch sinnvollere Komponenten zu zerlegen.
Das Lernen prädiktiver Modelle aus Beobachtungen mithilfe tiefer neuronaler Netze (DNNs) ist ein vielversprechender neuer Ansatz für viele reale Planungs- und Steuerungsprobleme. Allerdings sind gängige DNNs zu unstrukturiert für eine effektive Planung, und aktuelle Steuerungsmethoden stützen sich typischerweise auf umfangreiche Stichproben oder lokalen Gradientenabstieg. In diesem Artikel schlagen wir ein neues Framework für integriertes Modelllernen und prädiktive Steuerung vor, das sich für effiziente Optimierungsalgorithmen eignet. Konkret beginnen wir mit einem ReLU-Neuronalmodell der Systemdynamik und sparsifizieren es schrittweise durch das Entfernen redundanter Neuronen, wobei die Vorhersagegenauigkeit nur minimal beeinträchtigt wird. Dieser diskrete Sparsifizierungsprozess wird als kontinuierliches Problem approximiert, was eine end-to-end-Optimierung sowohl der Modellarchitektur als auch der Gewichtsparameter ermöglicht. Das sparsifizierte Modell wird anschließend von einem gemischt-ganzzahligen prädiktiven Regler verwendet, der die Neuronaktivierungen als binäre Variablen darstellt und effiziente Branch-and-Bound-Algorithmen einsetzt. Unser Framework ist auf eine Vielzahl von DNNs anwendbar, von einfachen mehrschichtigen Perzeptronen bis hin zu komplexen graphbasierten neuronalen Dynamiken. Es kann Aufgaben mit komplizierten Kontaktdynamiken effizient bewältigen, wie beispielsweise das Schieben von Objekten, das sortieren von zusammengesetzten Objekten und die Manipulation von deformierbaren Objekten. Numerische und Hardware-Experimente zeigen, dass unser Framework trotz der aggressiven Sparsifizierung eine bessere Regelkreisperformance liefern kann als bestehende state-of-the-art Methoden.
Aktuelle Methoden zur 3D-Generierung aus einem einzelnen Bild verwenden häufig Score Distillation Sampling (SDS). Trotz der beeindruckenden Ergebnisse gibt es mehrere Mängel, darunter Inkonsistenz in der Mehransichtigkeit, übermäßig gesättigte und geglättete Texturen sowie eine langsame Generierungsgeschwindigkeit. Um diese Mängel zu beheben, präsentieren wir Repaint123, um die Mehransicht-Voreingenommenheit und die Texturverschlechterung zu verringern und den Generierungsprozess zu beschleunigen. Die Kernidee besteht darin, die leistungsstarke Bildgenerierungsfähigkeit des 2D-Diffusionsmodells mit der Texturausrichtungsfähigkeit der Repainting-Strategie zu kombinieren, um hochwertige, konsistente Mehransichtsbilder zu erzeugen. Wir schlagen weiterhin eine sichtbarkeitsabhängige adaptive Repainting-Stärke für Überlappungsbereiche vor, um die Qualität der generierten Bilder im Repainting-Prozess zu verbessern. Die erzeugten hochwertigen und mehransichtskonsistenten Bilder ermöglichen die Verwendung eines einfachen Mean Square Error (MSE)-Verlusts für die schnelle 3D-Inhaltsgenerierung. Wir führen umfangreiche Experimente durch und zeigen, dass unsere Methode in der Lage ist, hochwertige 3D-Inhalte mit Mehransichtskonsistenz und feinen Texturen in 2 Minuten von Grund auf zu generieren. Der Code ist unter https://github.com/junwuzhang19/repaint123 verfügbar.
Biomedische Bilddatensätze sind oft klein und verzerrt, was bedeutet, dass die reale Leistung von Vorhersagemodellen erheblich geringer ausfallen kann als bei internen Tests erwartet. Diese Arbeit schlägt vor, generative Bildbearbeitung zu verwenden, um Datensatzverschiebungen zu simulieren und Fehlermodi biomedizinischer Bildverarbeitungsmodelle zu diagnostizieren; dies kann vor der Bereitstellung genutzt werden, um die Einsatzbereitschaft zu bewerten und potenziell Kosten und Patientenschäden zu reduzieren. Bestehende Bearbeitungsmethoden können unerwünschte Veränderungen hervorrufen, wobei aufgrund des gemeinsamen Auftretens von Krankheit und Behandlungsmaßnahmen falsche Korrelationen gelernt werden, was die praktische Anwendbarkeit einschränkt. Um dies zu adressieren, trainieren wir ein Text-zu-Bild-Diffusionsmodell auf mehreren Thorax-Röntgendatensätzen und führen eine neue Bearbeitungsmethode namens RadEdit ein, die, falls vorhanden, mehrere Masken verwendet, um Änderungen einzuschränken und die Konsistenz der bearbeiteten Bilder sicherzustellen. Wir betrachten drei Arten von Datensatzverschiebungen: Erfassungsverschiebung, Manifestationsverschiebung und Bevölkerungsverschiebung, und zeigen, dass unser Ansatz Fehler diagnostizieren und die Robustheit des Modells quantifizieren kann, ohne zusätzliche Datenerfassung, und somit qualitative Werkzeuge für erklärbare KI ergänzt.