Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die natürliche Sprache hat oft Schwierigkeiten, Positionsinformationen und Attributinformationen genau mit mehreren Instanzen zu verknüpfen, was die aktuellen textbasierten visuellen Generierungsmodelle auf einfachere Kompositionen mit nur wenigen dominanten Instanzen beschränkt. Um diese Einschränkung zu überwinden, erweitert diese Arbeit Diffusionsmodelle durch die Einführung einer regionalen Instanzsteuerung, bei der jede Instanz von einer Bounding Box zusammen mit einer Freiformbeschreibung gesteuert wird. Frühere Methoden in diesem Bereich verlassen sich in der Regel auf implizite Positionsencodierung oder explizite Aufmerksamkeitsmasken zur Trennung von Regions of Interest (ROIs), was entweder zu ungenauen Koordinateneinspritzungen oder zu hohen Rechenkosten führt. Inspiriert von ROI-Align in der Objekterkennung führen wir eine ergänzende Operation namens ROI-Unpool ein. Zusammen ermöglichen ROI-Align und ROI-Unpool eine explizite, effiziente und genaue ROI-Manipulation auf hochauflösenden Merkmalskarten für die visuelle Generierung. Aufbauend auf ROI-Unpool schlagen wir ROICtrl vor, einen Adapter für vortrainierte Diffusionsmodelle, der eine präzise regionale Instanzsteuerung ermöglicht. ROICtrl ist kompatibel mit community-feinabgestimmten Diffusionsmodellen sowie mit vorhandenen spatialen Add-ons (z.B. ControlNet, T2I-Adapter) und embedding-basierten Add-ons (z.B. IP-Adapter, ED-LoRA), wodurch ihre Anwendungen auf die Mehrinstanzgenerierung erweitert werden. Experimente zeigen, dass ROICtrl eine überlegene Leistung bei der regionalen Instanzsteuerung erzielt und gleichzeitig die Rechenkosten erheblich reduziert.
Viele Benutzeranfragen aus der realen Welt (z. B. "Wie macht man gebratenen Reis mit Ei?") könnten von Systemen profitieren, die in der Lage sind, Antworten mit sowohl textuellen Schritten als auch begleitenden Bildern zu generieren, ähnlich einem Kochbuch. Modelle, die entworfen wurden, um interleaved Text und Bilder zu generieren, stehen vor Herausforderungen bei der Sicherstellung von Konsistenz innerhalb und zwischen diesen Modalitäten. Um diesen Herausforderungen zu begegnen, präsentieren wir ISG, ein umfassendes Bewertungsframework für die Generierung von interleaved Text und Bildern. ISG nutzt eine Szenengraphenstruktur, um Beziehungen zwischen Text- und Bildblöcken zu erfassen, und bewertet Antworten auf vier Ebenen der Granularität: ganzheitlich, strukturell, blockweise und bildspezifisch. Diese mehrschichtige Bewertung ermöglicht eine differenzierte Bewertung von Konsistenz, Kohärenz und Genauigkeit und liefert interpretierbares Frage-Antwort-Feedback. Zusammen mit ISG führen wir einen Benchmark ein, ISG-Bench, der 1.150 Beispiele in 8 Kategorien und 21 Unterkategorien umfasst. Dieser Benchmark-Datensatz enthält komplexe Sprach-Bild-Abhängigkeiten und goldene Antworten, um Modelle effektiv bei visionszentrierten Aufgaben wie Stiltransfer zu bewerten, einem herausfordernden Bereich für aktuelle Modelle. Unter Verwendung von ISG-Bench zeigen wir, dass aktuelle vereinheitlichte Vision-Sprach-Modelle schlecht darin sind, interleaved Inhalte zu generieren. Während zusammengesetzte Ansätze, die separate Sprach- und Bildmodelle kombinieren, eine 111%ige Verbesserung gegenüber vereinheitlichten Modellen auf ganzheitlicher Ebene aufweisen, bleibt ihre Leistung sowohl auf Block- als auch auf Bildebene suboptimal. Um zukünftige Arbeiten zu erleichtern, entwickeln wir ISG-Agent, einen Grundlinien-Agenten, der einen "Plan-Ausführen-Verfeinern"-Pipeline verwendet, um Werkzeuge aufzurufen und eine Leistungsverbesserung von 122% zu erzielen.
Die Generierung von Identität erhaltenden Text-zu-Video (IPT2V) zielt darauf ab, hochwertige Videos mit konsistenter menschlicher Identität zu erstellen. Es handelt sich um eine wichtige Aufgabe in der Videogenerierung, die jedoch ein offenes Problem für generative Modelle darstellt. Dieser Artikel erweitert die technische Grenze von IPT2V in zwei Richtungen, die in der Literatur noch nicht gelöst wurden: (1) Ein abstimmungsfreier Prozess ohne mühsame feinabgestimmte Fall-für-Fall-Anpassung und (2) Ein frequenzbewusstes heuristisches Identität-erhaltendes DiT-basiertes Steuerschema. Wir schlagen ConsisID vor, ein abstimmungsfreies DiT-basiertes steuerbares IPT2V-Modell, um die menschliche Identität im generierten Video konsistent zu halten. Inspiriert von früheren Erkenntnissen in der Frequenzanalyse von Diffusions-Transformern verwendet es Identitätssteuersignale im Frequenzbereich, in dem Gesichtsmerkmale in niederfrequente globale Merkmale und hochfrequente intrinsische Merkmale zerlegt werden können. Erstens, aus einer niederfrequenten Perspektive, führen wir einen globalen Gesichtsextraktor ein, der Referenzbilder und Gesichtsschlüsselpunkte in einen latenten Raum kodiert, um Merkmale zu generieren, die mit niederfrequenten Informationen angereichert sind. Diese Merkmale werden dann in flache Schichten des Netzwerks integriert, um die mit DiT verbundenen Schulungsherausforderungen zu mildern. Zweitens, aus einer hochfrequenten Perspektive, entwerfen wir einen lokalen Gesichtsextraktor, um hochfrequente Details zu erfassen und sie in Transformer-Blöcke einzuspeisen, um die Fähigkeit des Modells zur Erhaltung feingranularer Merkmale zu verbessern. Wir schlagen eine hierarchische Schulungsstrategie vor, um Frequenzinformationen für die Identitätserhaltung zu nutzen und ein einfaches vorab trainiertes Videogenerierungsmodell in ein IPT2V-Modell zu transformieren. Umfangreiche Experimente zeigen, dass unser frequenzbewusstes heuristisches Schema eine optimale Steuerlösung für DiT-basierte Modelle bietet. Dank dieses Schemas generiert unser ConsisID hochwertige, identitätserhaltende Videos und macht Fortschritte in Richtung einer effektiveren IPT2V.
Die Generierung hochwertiger 3D-Inhalte aus Texteingaben bleibt aufgrund der begrenzten Größe, Vielfalt und Annotierungstiefe der vorhandenen Datensätze eine bedeutende Herausforderung in der Computer Vision. Um dem entgegenzuwirken, stellen wir MARVEL-40M+ vor, einen umfangreichen Datensatz mit 40 Millionen Textannotationen für über 8,9 Millionen 3D-Objekte, die aus sieben großen 3D-Datensätzen aggregiert wurden. Unser Beitrag ist eine neuartige mehrstufige Annotationspipeline, die Open-Source-vorabtrainierte Multi-View-VLMs und LLMs integriert, um automatisch mehrstufige Beschreibungen zu erstellen, die von detaillierten (150-200 Wörter) bis zu prägnanten semantischen Tags (10-20 Wörter) reichen. Diese Struktur unterstützt sowohl feinkörnige 3D-Rekonstruktion als auch schnelles Prototyping. Darüber hinaus integrieren wir Metadaten von Menschen aus den Ausgangsdatensätzen in unsere Annotationspipeline, um domänenspezifische Informationen hinzuzufügen und VLM-Halluzinationen zu reduzieren. Zusätzlich entwickeln wir MARVEL-FX3D, eine zweistufige Text-zu-3D-Pipeline. Wir feinabstimmen Stable Diffusion mit unseren Annotationen und verwenden ein vorab trainiertes Bild-zu-3D-Netzwerk, um 3D-texturierte Meshes innerhalb von 15 Sekunden zu generieren. Umfangreiche Bewertungen zeigen, dass MARVEL-40M+ in Annotierungsqualität und sprachlicher Vielfalt signifikant besser abschneidet als vorhandene Datensätze und Gewinnraten von 72,41 % durch GPT-4 und 73,40 % durch menschliche Evaluatoren erreicht.
Wir präsentieren CAT4D, eine Methode zur Erstellung von 4D (dynamischen 3D) Szenen aus monokularen Videos. CAT4D nutzt ein Multi-View Video-Diffusionsmodell, das auf einer vielfältigen Kombination von Datensätzen trainiert ist, um eine neuartige Ansichtssynthese bei beliebigen Kamerapositionen und Zeitstempeln zu ermöglichen. In Kombination mit einem innovativen Sampling-Ansatz kann dieses Modell ein einzelnes monokulares Video in ein Multi-View Video umwandeln, was eine robuste 4D-Rekonstruktion durch Optimierung einer verformbaren 3D-Gaußschen Darstellung ermöglicht. Wir zeigen eine wettbewerbsfähige Leistung bei der Ansichtssynthese und der Rekonstruktion dynamischer Szenen und heben die kreativen Fähigkeiten zur Generierung von 4D-Szenen aus realen oder generierten Videos hervor. Besuchen Sie unsere Projektseite für Ergebnisse und interaktive Demos: cat-4d.github.io.
GUIs sind schon lange zentral für die Mensch-Computer-Interaktion, da sie einen intuitiven und visuell gesteuerten Weg bieten, um auf digitale Systeme zuzugreifen und mit ihnen zu interagieren. Das Aufkommen von LLMs, insbesondere multimodalen Modellen, hat eine neue Ära der GUI-Automatisierung eingeläutet. Sie haben außergewöhnliche Fähigkeiten in der natürlichen Sprachverarbeitung, der Codegenerierung und der visuellen Verarbeitung gezeigt. Dies hat den Weg für eine neue Generation von LLM-gesteuerten GUI-Agenten geebnet, die in der Lage sind, komplexe GUI-Elemente zu interpretieren und autonom Aktionen auf der Grundlage von natürlichsprachlichen Anweisungen auszuführen. Diese Agenten stellen einen Paradigmenwechsel dar, der es Benutzern ermöglicht, komplexe, mehrstufige Aufgaben durch einfache Gesprächsbefehle auszuführen. Ihre Anwendungen erstrecken sich über die Webnavigation, die Interaktion mit mobilen Apps und die Desktop-Automatisierung und bieten ein transformierendes Benutzererlebnis, das verändert, wie Personen mit Software interagieren. Dieses aufstrebende Feld entwickelt sich schnell weiter, mit signifikanten Fortschritten sowohl in der Forschung als auch in der Industrie. Um ein strukturiertes Verständnis dieses Trends zu bieten, präsentiert dieser Artikel eine umfassende Untersuchung von LLM-gesteuerten GUI-Agenten, die ihre historische Entwicklung, Kernkomponenten und fortgeschrittenen Techniken erforscht. Wir behandeln Forschungsfragen wie bestehende GUI-Agenten-Frameworks, die Sammlung und Verwendung von Daten zur Schulung spezialisierter GUI-Agenten, die Entwicklung großer Aktionsmodelle, die auf GUI-Aufgaben zugeschnitten sind, und die Evaluierungsmetriken und Benchmarks, die erforderlich sind, um ihre Effektivität zu bewerten. Darüber hinaus untersuchen wir aufkommende Anwendungen, die von diesen Agenten unterstützt werden. Durch eine detaillierte Analyse identifiziert diese Untersuchung wesentliche Forschungslücken und skizziert einen Fahrplan für zukünftige Fortschritte auf diesem Gebiet. Indem grundlegendes Wissen und die neuesten Entwicklungen zusammengeführt werden, zielt diese Arbeit darauf ab, sowohl Forscher als auch Praktiker dabei zu unterstützen, Herausforderungen zu bewältigen und das volle Potenzial von LLM-gesteuerten GUI-Agenten zu erschließen.
In jüngster Zeit erzielten Fortschritte bei der Rekonstruktion von Strahlungsfeldern, wie z.B. 3D-Gauß-Splatting (3DGS), hochwertige Neuansichtssynthese und schnelles Rendern, indem Szenen mit Zusammensetzungen von Gauß'schen Primitiven dargestellt werden. Allerdings weisen 3D-Gauß'sche Funktionen mehrere Einschränkungen für die Szenenrekonstruktion auf. Das genaue Erfassen harter Kanten ist herausfordernd, ohne die Anzahl der Gauß'schen Funktionen signifikant zu erhöhen, was zu einem großen Speicherbedarf führt. Zudem haben sie Schwierigkeiten, flache Oberflächen darzustellen, da sie im Raum diffundieren. Ohne handgefertigte Regularisierer neigen sie dazu, unregelmäßig um die tatsächliche Oberfläche herum zu zerstreuen. Um diese Probleme zu umgehen, stellen wir eine neue Methode namens 3D-Konvex-Splatting (3DCS) vor, die 3D-glatte Konvexe als Primitive nutzt, um geometrisch sinnvolle Strahlungsfelder aus Multi-View-Bildern zu modellieren. Glatte konvexe Formen bieten eine größere Flexibilität als Gauß'sche Funktionen und ermöglichen eine bessere Darstellung von 3D-Szenen mit harten Kanten und dichten Volumina unter Verwendung weniger Primitive. Unterstützt durch unseren effizienten CUDA-basierten Rasterizer erzielt 3DCS eine überlegene Leistung gegenüber 3DGS in Benchmarks wie Mip-NeRF360, Tanks and Temples und Deep Blending. Speziell erreicht unsere Methode eine Verbesserung von bis zu 0,81 im PSNR und 0,026 im LPIPS im Vergleich zu 3DGS, während sie hohe Rendegeschwindigkeiten beibehält und die Anzahl der benötigten Primitive reduziert. Unsere Ergebnisse unterstreichen das Potenzial von 3D-Konvex-Splatting, zum neuen Standard für hochwertige Szenenrekonstruktion und Neuansichtssynthese zu werden. Projektseite: convexsplatting.github.io.
Text-zu-Bild-Diffusionsmodelle liefern beeindruckende Ergebnisse, sind jedoch frustrierende Werkzeuge für Künstler, die fein abgestimmte Kontrolle wünschen. Ein häufiges Anwendungsszenario besteht darin, Bilder einer bestimmten Instanz in neuen Kontexten zu erstellen, d.h. "identitätserhaltende Generierung". Diese Einstellung, zusammen mit vielen anderen Aufgaben (z.B. Neubeleuchtung), passt natürlich zu Bild+Text-bedingten generativen Modellen. Es fehlt jedoch an hochwertigen gepaarten Daten, um ein solches Modell direkt zu trainieren. Wir schlagen die Diffusion Self-Distillation vor, eine Methode zur Verwendung eines vorab trainierten Text-zu-Bild-Modells, um seinen eigenen Datensatz für textkonditionierte Bild-zu-Bild-Aufgaben zu generieren. Zunächst nutzen wir die Fähigkeit eines Text-zu-Bild-Diffusionsmodells zur kontextbezogenen Generierung, um Raster von Bildern zu erstellen und einen großen gepaarten Datensatz mit Hilfe eines Visual-Language-Modells zu kuratieren. Anschließend feinabstimmen wir das Text-zu-Bild-Modell zu einem Text+Bild-zu-Bild-Modell unter Verwendung des kuratierten gepaarten Datensatzes. Wir zeigen, dass die Diffusion Self-Distillation bestehende Zero-Shot-Methoden übertrifft und auf einer Vielzahl von Aufgaben zur Identitätserhaltungsgenerierung wettbewerbsfähig mit Techniken zur individuellen Abstimmung ist, ohne eine Optimierung zur Testzeit zu erfordern.
In letzter Zeit hat sich das Diffusionsmodell als leistungsstarke generative Technik für das Lernen von Roboterstrategien etabliert, das in der Lage ist, Mehrmodus-Aktionsverteilungen zu modellieren. Die Nutzung seiner Fähigkeit für autonomes Fahren von Ende zu Ende ist eine vielversprechende Richtung. Die zahlreichen Rauschunterdrückungsschritte in der robotischen Diffusionsstrategie und die dynamischere, offene Natur von Verkehrsszenen stellen jedoch erhebliche Herausforderungen für die Generierung verschiedener Fahraktionen in Echtzeitgeschwindigkeit dar. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige abgeschnittene Diffusionsstrategie vor, die vorherige Mehrmodus-Anker einbezieht und den Diffusionszeitplan abschneidet, um dem Modell das Lernen der Rauschunterdrückung von verankerten Gaußverteilungen zur Mehrmodus-Fahraktionsverteilung zu ermöglichen. Darüber hinaus entwerfen wir einen effizienten Kaskaden-Diffusionsdecoder für eine verbesserte Interaktion mit bedingtem Szenenkontext. Das vorgeschlagene Modell, DiffusionDrive, zeigt eine 10-fache Reduzierung der Rauschunterdrückungsschritte im Vergleich zur Standard-Diffusionsstrategie und liefert überlegene Vielfalt und Qualität in nur 2 Schritten. Auf dem planungsorientierten NAVSIM-Datensatz, mit dem ausgerichteten ResNet-34-Backbone, erreicht DiffusionDrive 88,1 PDMS ohne Schnickschnack und setzt damit einen neuen Rekord, während es mit einer Echtzeitgeschwindigkeit von 45 FPS auf einer NVIDIA 4090 läuft. Qualitative Ergebnisse in herausfordernden Szenarien bestätigen weiterhin, dass DiffusionDrive robust verschiedene plausible Fahraktionen generieren kann. Der Code und das Modell sind unter https://github.com/hustvl/DiffusionDrive verfügbar.
3D-Charaktere sind für moderne kreative Industrien unerlässlich, aber ihre Animierbarkeit erfordert oft umfangreiche manuelle Arbeit bei Aufgaben wie Rigging und Skinning. Bestehende automatische Rigging-Tools stoßen auf mehrere Einschränkungen, darunter die Notwendigkeit manueller Annotationen, starre Skeletttopologien und begrenzte Verallgemeinerung über verschiedene Formen und Posen hinweg. Ein alternativer Ansatz besteht darin, animierbare Avatare zu generieren, die bereits an ein vorgefertigtes Template-Mesh gebunden sind. Diese Methode mangelt jedoch oft an Flexibilität und ist in der Regel auf realistische menschliche Formen beschränkt. Um diese Probleme anzugehen, präsentieren wir Make-It-Animatable, eine neuartige datengesteuerte Methode, um jedes 3D-Humanoidenmodell unabhängig von seinen Formen und Posen in weniger als einer Sekunde für die Charakteranimation vorzubereiten. Unser einheitlicher Rahmen generiert hochwertige Mischungsverhältnisse, Knochen und Posen-Transformationen. Durch die Integration eines partikelbasierten Formautoencoders unterstützt unser Ansatz verschiedene 3D-Repräsentationen, einschließlich Meshes und 3D-Gauß'scher Flecken. Darüber hinaus verwenden wir eine grob-zu-fein-Repräsentation und eine strukturbewusste Modellierungsstrategie, um sowohl Genauigkeit als auch Robustheit sicherzustellen, selbst bei Charakteren mit nicht standardmäßigen Skelettstrukturen. Wir führten umfangreiche Experimente durch, um die Wirksamkeit unseres Rahmens zu validieren. Im Vergleich zu bestehenden Methoden zeigt unser Ansatz signifikante Verbesserungen sowohl in Qualität als auch Geschwindigkeit.
Im schnell voranschreitenden Bereich der Bildgenerierung hat das Visual Auto-Regressive (VAR) Modell erhebliche Aufmerksamkeit für seinen innovativen Ansatz zur Vorhersage auf der nächsten Skalenebene erhalten. Dieses Paradigma bietet wesentliche Verbesserungen in Effizienz, Skalierbarkeit und Zero-Shot-Generalisierung. Dennoch führt die von Natur aus grob-zu-fein strukturierte VAR-Natur zu einer verlängerten Token-Sequenz, die zu prohibitivem Speicherverbrauch und Rechenüberfluss führt. Um diese Engpässe zu bewältigen, schlagen wir Collaborative Decoding (CoDe) vor, eine neuartige effiziente Dekodierstrategie, die speziell für das VAR-Framework entwickelt wurde. CoDe nutzt zwei entscheidende Beobachtungen: die wesentlich reduzierten Parameteranforderungen bei größeren Skalen und die exklusiven Generierungsmuster über verschiedene Skalen hinweg. Basierend auf diesen Erkenntnissen unterteilen wir den Multi-Skalen-Inferenzprozess in eine nahtlose Zusammenarbeit zwischen einem großen Modell und einem kleinen Modell. Das große Modell fungiert als 'Entwurfsmodell', das sich auf die Generierung von Inhalten mit niedriger Frequenz in kleineren Skalen spezialisiert, während das kleinere Modell als 'Verfeinerungsmodell' dient und sich ausschließlich auf die Vorhersage von Details mit hoher Frequenz in größeren Skalen konzentriert. Diese Zusammenarbeit führt zu bemerkenswerter Effizienz bei minimalem Qualitätsverlust: CoDe erreicht eine Beschleunigung um das 1,7-fache, reduziert den Speicherverbrauch um etwa 50% und bewahrt die Bildqualität mit nur einer vernachlässigbaren FID-Erhöhung von 1,95 auf 1,98. Durch weitere Verringerung der Entwurfschritte kann CoDe ein beeindruckendes Beschleunigungsverhältnis von 2,9 erreichen, was 41 Bilder/s bei einer Auflösung von 256x256 auf einer einzelnen NVIDIA 4090 GPU entspricht, während eine lobenswerte FID von 2,27 beibehalten wird. Der Code ist verfügbar unter https://github.com/czg1225/CoDe
Die personalisierte Bildgenerierung erfordert textbasierte Bildgenerierungsmodelle, die die Kernmerkmale eines Referenzobjekts erfassen, um eine kontrollierte Generierung in verschiedenen Kontexten zu ermöglichen. Bestehende Methoden stehen vor Herausforderungen aufgrund komplexer Schulungsanforderungen, hoher Inferenzkosten, begrenzter Flexibilität oder einer Kombination dieser Probleme. In diesem Artikel stellen wir DreamCache vor, einen skalierbaren Ansatz für effiziente und hochwertige personalisierte Bildgenerierung. Durch Zwischenspeichern einer kleinen Anzahl von Referenzbildmerkmalen aus einem Teil der Schichten und einem einzelnen Zeitschritt des vortrainierten Diffusions-Denoisers ermöglicht DreamCache eine dynamische Modulation der generierten Bildmerkmale durch leichtgewichtige, trainierte Konditionierungsadapter. DreamCache erreicht eine Bild- und Textausrichtung auf dem neuesten Stand der Technik, nutzt eine Größenordnung weniger zusätzliche Parameter und ist sowohl rechnerisch effektiver als auch vielseitiger als bestehende Modelle.
Die menschliche Pose spielt eine entscheidende Rolle im digitalen Zeitalter. Während in jüngsten Arbeiten beeindruckende Fortschritte bei der Erfassung und Generierung menschlicher Posen erzielt wurden, unterstützen sie oft nur eine einzige Modalität von Steuersignalen und arbeiten isoliert, was ihre Anwendung in realen Szenarien einschränkt. Dieser Artikel stellt UniPose vor, ein Framework, das Large Language Models (LLMs) einsetzt, um menschliche Posen über verschiedene Modalitäten hinweg zu erfassen, zu generieren und zu bearbeiten, einschließlich Bilder, Text und 3D SMPL-Posen. Konkret wenden wir einen Pose-Tokenizer an, um 3D-Posen in diskrete Pose-Token umzuwandeln, was eine nahtlose Integration in das LLM innerhalb eines einheitlichen Vokabulars ermöglicht. Um die feinkörnigen Pose-Wahrnehmungsfähigkeiten weiter zu verbessern, erleichtern wir UniPose mit einer Mischung von visuellen Encodern, darunter ein pose-spezifischer visueller Encoder. Durch eine vereinheitlichte Lernstrategie kann UniPose Wissen effektiv über verschiedene pose-relevante Aufgaben übertragen, sich an unbekannte Aufgaben anpassen und erweiterte Fähigkeiten zeigen. Diese Arbeit stellt den ersten Versuch dar, ein universelles Framework für die Erfassung, Generierung und Bearbeitung von Posen aufzubauen. Umfangreiche Experimente heben die wettbewerbsfähige und sogar überlegene Leistung von UniPose bei verschiedenen pose-relevanten Aufgaben hervor.
Wahrnehmung und Verständnis sind zwei Grundpfeiler der Computer Vision. Während multimodale große Sprachmodelle (MLLM) bemerkenswerte visuelle Verständnisfähigkeiten gezeigt haben, fehlt es ihnen möglicherweise an genauen Wahrnehmungsfähigkeiten, z.B. erreicht das modernste Modell Qwen2-VL nur eine Rückrufrate von 43,9 auf dem COCO-Datensatz, was viele Aufgaben einschränkt, die die Kombination von Wahrnehmung und Verständnis erfordern. In dieser Arbeit zielen wir darauf ab, diese Wahrnehmungslücke aus Modellierungs- und Datenentwicklungsperspektiven zu überbrücken. Zunächst stellen wir ChatRex vor, ein MLLM mit einem entkoppelten Wahrnehmungsdesign. Anstatt dass das LLM direkt Box-Koordinaten vorhersagt, speisen wir die Ausgabeboxen eines universellen Vorschlagsnetzwerks in das LLM ein, sodass es die entsprechenden Boxindizes ausgibt, um seine Detektionsergebnisse darzustellen, wodurch die Regressionsaufgabe in eine abrufbasierte Aufgabe umgewandelt wird, die das LLM effizienter handhabt. Aus der Datenperspektive heraus bauen wir eine vollautomatisierte Datenengine auf und erstellen den Rexverse-2M-Datensatz, der mehrere Granularitäten aufweist, um das gemeinsame Training von Wahrnehmung und Verständnis zu unterstützen. Nach dem standardmäßigen zweistufigen Training zeigt ChatRex starke Wahrnehmungsfähigkeiten, während es die multimodale Verständnisleistung beibehält. Die Kombination dieser beiden Fähigkeiten schaltet gleichzeitig viele attraktive Anwendungen frei und zeigt die ergänzenden Rollen von Wahrnehmung und Verständnis in MLLM. Der Code ist verfügbar unter https://github.com/IDEA-Research/ChatRex.
Die Erzeugung von Soundeffekten für Videos erfordert oft die Schaffung künstlerischer Soundeffekte, die sich deutlich von realen Quellen unterscheiden und eine flexible Kontrolle im Sounddesign ermöglichen. Um dieses Problem zu lösen, stellen wir MultiFoley vor, ein Modell, das für die videogestützte Soundgenerierung konzipiert ist und multimodale Konditionierung durch Text, Audio und Video unterstützt. Anhand eines stummen Videos und einer Textvorgabe ermöglicht es MultiFoley den Benutzern, saubere Klänge zu erzeugen (z. B. Skateboardräder, die ohne Windgeräusche drehen) oder auch fantasievollere Klänge (z. B. das Brüllen eines Löwen wie das Miauen einer Katze klingen zu lassen). MultiFoley ermöglicht es den Benutzern auch, Referenzaudio aus Soundeffekt (SFX)-Bibliotheken oder Teilen von Videos für die Konditionierung auszuwählen. Eine wichtige Neuheit unseres Modells liegt in seinem gemeinsamen Training sowohl auf Internetvideodatensätzen mit Audio von geringer Qualität als auch auf professionellen SFX-Aufnahmen, was eine hochwertige, vollbandbreitige (48kHz) Audioerzeugung ermöglicht. Durch automatisierte Bewertungen und Studien mit menschlichen Teilnehmern zeigen wir, dass MultiFoley erfolgreich hochwertige, synchronisierte Klänge über verschiedene bedingte Eingaben hinweg erzeugt und bestehende Methoden übertrifft. Bitte besuchen Sie unsere Projektseite für Videobeispiele: https://ificl.github.io/MultiFoley/
In dieser Arbeit führen wir einen einzigen Parameter Omega ein, um die Granularität in der diffusionsbasierten Synthese effektiv zu steuern. Dieser Parameter wird während der Entrauschungsschritte des Umkehrprozesses des Diffusionsmodells integriert. Unser Ansatz erfordert kein erneutes Training des Modells, keine architektonischen Änderungen oder zusätzlichen Rechenaufwand während der Inferenz, ermöglicht jedoch eine präzise Steuerung des Detaillierungsgrads in den generierten Ausgaben. Darüber hinaus können räumliche Masken oder Entrauschungspläne mit verschiedenen Omega-Werten angewendet werden, um eine regions- oder zeitspezifische Granularitätssteuerung zu erreichen. Vorwissen über die Bildzusammensetzung aus Steuersignalen oder Referenzbildern erleichtert die Erstellung präziser Omega-Masken zur Granularitätssteuerung auf bestimmten Objekten. Um die Rolle des Parameters bei der Steuerung subtiler Detailvariationen hervorzuheben, wird die Technik Omegance genannt, indem "Omega" und "Nuance" kombiniert werden. Unsere Methode zeigt beeindruckende Leistungen bei verschiedenen Bild- und Videosynthesetätigkeiten und ist an fortschrittliche Diffusionsmodelle anpassbar. Der Code ist unter https://github.com/itsmag11/Omegance verfügbar.
Spekulatives Dekodieren (SD) ist zu einer wichtigen Technik geworden, um die Inferenzgeschwindigkeit großer Sprachmodelle zu beschleunigen. Herkömmliche SD-Methoden verwenden eine feste Entwurflänge, die die Schwierigkeit der Token-Generierung über verschiedene Aufgaben hinweg ignoriert. In diesem Paper behandeln wir daher ein solches Problem und stellen SVIP vor - eine schwierigkeitsbewusste dynamische Entwurflängenstrategie für spekulative Dekodiersysteme. Basierend auf einer theoretischen unteren Grenze der Akzeptanzrate von Entwurfstoken und ihrer Näherung zur Inferenzzeit bestimmt SVIP adaptiv die Längen von Entwurfssequenzen basierend auf der Entropie der Verteilung jedes Entwurfstokens. Experimentelle Ergebnisse an gängigen SD-Benchmarks und -Frameworks zeigen die überlegene Leistung von SVIP, die eine bis zu 20\%ige Beschleunigung der Wandzeit bei SpecBench im Vergleich zu herkömmlichen SD-Methoden und eine 60\%ige Beschleunigung bei MT-Bench für die Generierung von Langformen von bis zu 8K Token erreicht. Darüber hinaus ist SVIP vollständig trainingsfrei und kompatibel mit allen bestehenden SD-Methoden, die Entwurfstoken autoregressiv generieren. Experimentelle Ergebnisse zeigen auch, dass SVIP eine konsistente Verbesserung der Wandzeit zusätzlich zu GliDe & CaPE und EAGLE-2 liefert.
Die jüngsten Forschungen zu Video Large Language Models (VideoLLM) konzentrieren sich hauptsächlich auf Modellarchitekturen und Trainingsdatensätze, wobei das Interaktionsformat zwischen Benutzer und Modell nur oberflächlich untersucht wird. In bestehenden Arbeiten interagieren Benutzer häufig mit VideoLLMs, indem sie das gesamte Video und eine Abfrage als Eingabe verwenden, woraufhin das Modell eine Antwort generiert. Dieses Interaktionsformat beschränkt die Anwendung von VideoLLMs in Szenarien wie dem Verständnis von Live-Streams, in denen Videos nicht enden und Antworten in Echtzeit erforderlich sind, und führt auch zu unbefriedigender Leistung bei zeitkritischen Aufgaben, die die Lokalisierung von Videosegmenten erfordern. In diesem Artikel konzentrieren wir uns auf ein Video-Text-Duett-Interaktionsformat. Dieses Interaktionsformat zeichnet sich durch die kontinuierliche Wiedergabe des Videos aus, und sowohl der Benutzer als auch das Modell können ihre Textnachrichten an beliebiger Stelle während der Videowiedergabe einfügen. Wenn eine Textnachricht endet, wird das Video weiter abgespielt, ähnlich wie bei zwei Künstlern in einem Duett. Wir erstellen MMDuetIT, einen Video-Text-Trainingsdatensatz, der darauf abzielt, VideoLLMs an das Video-Text-Duett-Interaktionsformat anzupassen. Wir führen auch die Multi-Answer Grounded Video Question Answering (MAGQA) Aufgabe ein, um die Echtzeit-Antwortfähigkeit von VideoLLMs zu bewerten. Mit dem Training auf MMDuetIT zeigt MMDuet, dass die Übernahme des Video-Text-Duett-Interaktionsformats dem Modell signifikante Verbesserungen bei verschiedenen zeitkritischen Aufgaben ermöglicht (76% CIDEr bei der dichten Videobeschreibung von YouCook2, 90% mAP bei der Highlight-Erkennung von QVHighlights und 25% [email protected] bei der zeitlichen Videoverankerung von Charades-STA) mit minimalem Schulungsaufwand und ermöglicht es VideoLLMs, in Echtzeit zu antworten, während das Video abgespielt wird. Code, Daten und Demo sind verfügbar unter: https://github.com/yellow-binary-tree/MMDuet.
Die Identifizierung wichtiger pathologischer Merkmale in Hirn-MRTs ist entscheidend für das langfristige Überleben von Gliom-Patienten. Die manuelle Segmentierung ist jedoch zeitaufwändig, erfordert Experteneingriffe und ist anfällig für menschliche Fehler. Daher wurde erhebliche Forschung betrieben, um Machine-Learning-Methoden zu entwickeln, die Tumore in 3D-multimodalen Hirn-MRT-Scans präzise segmentieren können. Trotz des Fortschritts sind modernste Modelle oft durch die Daten begrenzt, auf denen sie trainiert wurden, was Bedenken hinsichtlich ihrer Zuverlässigkeit bei der Anwendung auf verschiedene Populationen aufwirft, die Verteilungsverschiebungen verursachen können. Solche Verschiebungen können auf eine niedrigere Qualität der MRT-Technologie (z. B. in Subsahara-Afrika) oder Variationen in den Patientendemografien (z. B. Kinder) zurückzuführen sein. Die BraTS-2024-Herausforderung bietet eine Plattform, um diese Probleme anzugehen. Diese Studie präsentiert unsere Methodik zur Segmentierung von Tumoren in den BraTS-2024-SSA- und Pädiatrischen Tumoraufgaben unter Verwendung von MedNeXt, umfassendem Modell-Ensembling und gründlicher Nachverarbeitung. Unser Ansatz zeigte eine starke Leistung auf dem nicht gesehenen Validierungsset und erzielte einen durchschnittlichen Dice-Ähnlichkeitskoeffizienten (DSC) von 0,896 auf dem BraTS-2024-SSA-Datensatz und einen durchschnittlichen DSC von 0,830 auf dem BraTS-Pädiatrischen Tumor-Datensatz. Darüber hinaus erreichte unsere Methode einen durchschnittlichen Hausdorff-Abstand (HD95) von 14,682 auf dem BraTS-2024-SSA-Datensatz und einen durchschnittlichen HD95 von 37,508 auf dem BraTS-Pädiatrischen Datensatz. Unser GitHub-Repository ist hier verfügbar: Projekt-Repository: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics
Blind All-in-One-Modelle zur Bildrestaurierung zielen darauf ab, ein qualitativ hochwertiges Bild aus einem Eingang wiederherzustellen, das mit unbekannten Verzerrungen beeinträchtigt ist. Diese Modelle erfordern jedoch, dass alle möglichen Arten von Verzerrungen während der Trainingsphase definiert werden, zeigen jedoch eine begrenzte Verallgemeinerung auf nicht gesehene Verzerrungen, was ihre praktische Anwendung in komplexen Fällen einschränkt. In diesem Artikel schlagen wir ein einfaches, aber effektives adaptives Blind All-in-One-Restaurierungsmodell (ABAIR) vor, das mehrere Verzerrungen bewältigen kann, gut auf nicht gesehene Verzerrungen verallgemeinert und effizient neue Verzerrungen durch das Training eines kleinen Teils der Parameter integrieren kann. Zuerst trainieren wir unser Basismodell auf einem großen Datensatz natürlicher Bilder mit mehreren synthetischen Verzerrungen, ergänzt um einen Segmentierungskopf zur Schätzung von Verzerrungstypen pro Pixel, was zu einem leistungsstarken Rückgrat führt, das sich auf eine breite Palette von Verzerrungen verallgemeinern kann. Zweitens passen wir unser Basismodell an verschiedene Bildwiederherstellungsaufgaben an, indem wir unabhängige Low-Rank-Adapter verwenden. Drittens lernen wir, Adapter adaptiv zu kombinieren, um vielseitige Bilder über einen flexiblen und leichten Verzerrungsschätzer anzupassen. Unser Modell ist sowohl leistungsstark im Umgang mit spezifischen Verzerrungen als auch flexibel bei der Anpassung an komplexe Aufgaben. Es übertrifft nicht nur den Stand der Technik bei Fünf- und Drei-Aufgaben-IR-Setups bei weitem, sondern zeigt auch eine verbesserte Verallgemeinerung auf nicht gesehene Verzerrungen und auch zusammengesetzte Verzerrungen.
Der rasante Fortschritt großer Sprachmodelle (LLMs) wie GPT-3, PaLM und Llama hat die natürliche Sprachverarbeitung erheblich verändert und zeigt bemerkenswerte Fähigkeiten im Verstehen und Generieren von Sprache. Diese Modelle haben jedoch oft Schwierigkeiten bei Aufgaben, die komplexe Schlussfolgerungen erfordern, insbesondere bei der Lösung mathematischer Probleme, teilweise aufgrund des Mangels an groß angelegten, hochwertigen, domänenspezifischen Datensätzen, die für das Training anspruchsvoller Schlussfolgerungsfähigkeiten erforderlich sind. Um diese Einschränkung zu überwinden, stellen wir Template-basierte Datengenerierung (TDG) vor, einen neuartigen Ansatz, der LLMs (GPT-4) nutzt, um automatisch parameterisierte Metavorlagen zu generieren, die dann verwendet werden, um eine Vielzahl hochwertiger Probleme und Lösungen zu synthetisieren. Durch die Nutzung von TDG erstellen wir TemplateMath Teil I: TemplateGSM, einen Datensatz, der über 7 Millionen synthetisch generierte Mathematikaufgaben umfasst - jede begleitet von codebasierten und natürlichsprachlichen Lösungen - mit dem Potenzial, eine praktisch unbegrenzte Anzahl weiterer Aufgaben zu generieren. Dieser Datensatz lindert den Mangel an groß angelegten mathematischen Datensätzen und dient als wertvolle Ressource für das Vor-Training, Feinabstimmung und die Evaluation von LLMs im mathematischen Schlussfolgern. Unsere Methode ermöglicht nicht nur die Generierung von praktisch unendlichen Daten, sondern hebt auch die Datenanreicherung auf ein neues Niveau, indem GPT-4 für die Metavorlagengenerierung verwendet wird, um vielfältige und hochwertige Problemstrukturen sicherzustellen. Der TemplateMath Teil I: TemplateGSM Datensatz ist öffentlich unter https://huggingface.co/datasets/math-ai/TemplateGSM verfügbar. Der Code ist unter https://github.com/iiis-ai/TemplateMath verfügbar.
In den letzten Fortschritten bei Diffusionsmodellen haben generative Bildbearbeitungen zugänglicher gemacht, was kreative Bearbeitungen ermöglicht, aber ethische Bedenken aufwirft, insbesondere hinsichtlich bösartiger Bearbeitungen von Porträts, die die Privatsphäre und Identitätssicherheit bedrohen. Bestehende Schutzmethoden stützen sich hauptsächlich auf adversarielle Störungen, um Bearbeitungen zu neutralisieren, scheitern jedoch oft bei verschiedenen Bearbeitungsanfragen. Wir schlagen FaceLock vor, einen neuartigen Ansatz zum Schutz von Porträts, der adversarielle Störungen optimiert, um biometrische Informationen zu zerstören oder signifikant zu verändern, wodurch die bearbeiteten Ausgaben biometrisch unkenntlich werden. FaceLock integriert Gesichtserkennung und visuelle Wahrnehmung in die Störungsoptimierung, um robusten Schutz gegen verschiedene Bearbeitungsversuche zu bieten. Wir weisen auch auf Schwachstellen bei häufig verwendeten Bewertungsmetriken hin und zeigen auf, wie sie manipuliert werden können, wodurch die Notwendigkeit zuverlässiger Bewertungen des Schutzes betont wird. Experimente zeigen, dass FaceLock Baselines bei der Abwehr bösartiger Bearbeitungen übertrifft und robust gegen Reinigungstechniken ist. Ablationsstudien bestätigen seine Stabilität und breite Anwendbarkeit über diffusionsbasierte Bearbeitungsalgorithmen hinweg. Unsere Arbeit fördert die biometrische Verteidigung und legt den Grundstein für datenschutzfreundliche Praktiken in der Bildbearbeitung. Der Code ist verfügbar unter: https://github.com/taco-group/FaceLock.