Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Masked Image Modeling (MIM) mit Vector Quantization (VQ) hat sowohl beim selbstüberwachten Vortraining als auch bei der Bildgenerierung große Erfolge erzielt. Die meisten bestehenden Methoden haben jedoch Schwierigkeiten, den Kompromiss im gemeinsamen latenten Raum zwischen Generierungsqualität, Repräsentationslernen und Effizienz zu bewältigen. Um die Grenzen dieses Paradigmas zu erweitern, schlagen wir MergeVQ vor, das Token-Merging-Techniken in VQ-basierte generative Modelle integriert, um die Lücke zwischen Bildgenerierung und visuellem Repräsentationslernen in einer einheitlichen Architektur zu schließen. Während des Vortrainings entkoppelt MergeVQ Top-k-Semantik vom latenten Raum mithilfe des Token-Merge-Moduls nach Self-Attention-Blöcken im Encoder für die anschließende Look-up Free Quantization (LFQ) und globale Ausrichtung und stellt deren feinkörnige Details durch Cross-Attention im Decoder für die Rekonstruktion wieder her. Für die zweistufige Generation führen wir MergeAR ein, das eine KV-Cache-Komprimierung für effiziente Rasterreihenfolge-Vorhersage durchführt. Umfangreiche Experimente auf ImageNet bestätigen, dass MergeVQ als AR-generatives Modell sowohl beim visuellen Repräsentationslernen als auch bei Bildgenerierungsaufgaben wettbewerbsfähige Leistungen erzielt und dabei eine günstige Token-Effizienz und Inferenzgeschwindigkeit beibehält. Der Code und das Modell werden unter https://apexgen-x.github.io/MergeVQ verfügbar sein.
Jüngste Fortschritte in der Bild- und Videosynthese haben neue Möglichkeiten in generativen Spielen eröffnet. Eine besonders faszinierende Anwendung ist die Transformation von Charakteren aus Anime-Filmen in interaktive, spielbare Entitäten. Dies ermöglicht es Spielern, sich in die dynamische Anime-Welt als ihre Lieblingscharaktere zu vertiefen und Lebenssimulationen durch Sprachbefehle zu erleben. Solche Spiele werden als unendliche Spiele definiert, da sie vorgegebene Grenzen und feste Spielregeln eliminieren, wodurch Spieler durch offene Sprache mit der Spielwelt interagieren und sich ständig weiterentwickelnde Handlungsstränge und Umgebungen erleben können. Kürzlich wurde ein bahnbrechender Ansatz für unendliche Anime-Lebenssimulationen vorgestellt, der große Sprachmodelle (LLMs) verwendet, um mehrstufige Textdialoge in Sprachbefehle für die Bildgenerierung zu übersetzen. Dieser Ansatz vernachlässigt jedoch den historischen visuellen Kontext, was zu inkonsistentem Spielverhalten führt. Darüber hinaus werden nur statische Bilder generiert, wodurch die Dynamik, die für ein fesselndes Spielerlebnis notwendig ist, fehlt. In dieser Arbeit schlagen wir AnimeGamer vor, das auf Multimodalen Großen Sprachmodellen (MLLMs) basiert, um jeden Spielzustand zu generieren, einschließlich dynamischer Animationssequenzen, die Charakterbewegungen und Aktualisierungen des Charakterzustands darstellen, wie in Abbildung 1 dargestellt. Wir führen neuartige aktionsbewusste multimodale Repräsentationen ein, um Animationssequenzen darzustellen, die mit einem Video-Diffusionsmodell in hochwertige Videoclips decodiert werden können. Indem AnimeGamer historische Animationssequenz-Repräsentationen als Kontext verwendet und nachfolgende Repräsentationen vorhersagt, kann es Spiele mit kontextueller Konsistenz und zufriedenstellender Dynamik generieren. Umfangreiche Bewertungen sowohl mit automatisierten Metriken als auch mit menschlichen Bewertungen zeigen, dass AnimeGamer bestehende Methoden in verschiedenen Aspekten des Spielerlebnisses übertrifft. Codes und Checkpoints sind unter https://github.com/TencentARC/AnimeGamer verfügbar.
Während aktuelle bildbasierte Methoden zur menschlichen Animation realistische Körper- und Gesichtsbewegungen erzeugen, bestehen weiterhin kritische Lücken in der fein abgestimmten ganzheitlichen Steuerbarkeit, der Multi-Skalen-Anpassungsfähigkeit und der langfristigen zeitlichen Kohärenz, was zu einer geringeren Ausdruckskraft und Robustheit führt. Wir schlagen ein auf Diffusionstransformatoren (DiT) basierendes Framework, DreamActor-M1, mit hybridem Guidance vor, um diese Einschränkungen zu überwinden. Für die Bewegungssteuerung erreichen unsere hybriden Kontrollsignale, die implizite Gesichtsrepräsentationen, 3D-Kopfkugeln und 3D-Körperskelette integrieren, eine robuste Kontrolle von Gesichtsausdrücken und Körperbewegungen, während sie ausdrucksstarke und identitätsbewahrende Animationen erzeugen. Für die Skalenanpassung verwenden wir eine progressive Trainingsstrategie mit Daten unterschiedlicher Auflösungen und Skalen, um verschiedene Körperhaltungen und Bildskalen von Porträts bis hin zu Ganzkörperansichten zu bewältigen. Für die Erscheinungssteuerung integrieren wir Bewegungsmuster aus sequenziellen Bildern mit ergänzenden visuellen Referenzen, um langfristige zeitliche Kohärenz für nicht sichtbare Bereiche während komplexer Bewegungen sicherzustellen. Experimente zeigen, dass unsere Methode den Stand der Technik übertrifft und ausdrucksstarke Ergebnisse für Porträts, Oberkörper- und Ganzkörpergenerierung mit robuster langfristiger Konsistenz liefert. Projektseite: https://grisoon.github.io/DreamActor-M1/.
Immer mehr Aufmerksamkeit wird darauf gerichtet, die Fähigkeiten zur logischen Schlussfolgerung von multimodalen großen Sprachmodellen (MLLMs) zu verbessern. Als Grundlage für KI-Agenten, die in der physischen Welt agieren, erweist sich die videobasierte visuell-räumliche Intelligenz (VSI) als eine der entscheidendsten Fähigkeiten zur logischen Schlussfolgerung von MLLMs. Diese Arbeit führt eine erste, umfassende Studie zur Verbesserung der visuell-räumlichen Schlussfolgerungsfähigkeiten von MLLMs durch R1-Zero-ähnliches Training durch. Technisch gesehen stellen wir zunächst fest, dass die visuell-räumlichen Schlussfolgerungsfähigkeiten von kleinen bis mittelgroßen Qwen2-VL-Modellen nicht durch Chain of Thought (CoT)-Prompts aktiviert werden können. Anschließend integrieren wir GRPO-Training zur Verbesserung der visuell-räumlichen Schlussfolgerung, wobei wir den sorgfältig kuratierten VSI-100k-Datensatz verwenden, in Anlehnung an DeepSeek-R1-Zero. Während der Untersuchung erkennen wir die Notwendigkeit, die KL-Strafe (selbst mit einem kleinen Wert) in GRPO beizubehalten. Mit nur 120 GPU-Stunden kann unser vsGRPO-2B-Modell, das aus Qwen2-VL-2B feinabgestimmt wurde, das Basismodell um 12,1 % übertreffen und GPT-4o hinter sich lassen. Darüber hinaus erreicht unser vsGRPO-7B-Modell, das aus Qwen2-VL-7B feinabgestimmt wurde, eine Leistung, die mit der des besten Open-Source-Modells LLaVA-NeXT-Video-72B vergleichbar ist. Zusätzlich vergleichen wir vsGRPO mit überwachtem Feinabstimmungs- und Direct Preference Optimization-Baselines und beobachten eine deutliche Leistungsüberlegenheit. Der Code und der Datensatz werden in Kürze verfügbar sein.
DeepSeek-R1-Zero hat gezeigt, dass Reinforcement Learning (RL) im großen Maßstab die Fähigkeiten von LLMs zur logischen Schlussfolgerung direkt verbessern kann, ohne überwachtes Fein-Tuning. In dieser Arbeit untersuchen wir kritisch das R1-Zero-ähnliche Training, indem wir seine beiden Kernkomponenten analysieren: Basismodelle und RL. Wir untersuchen eine breite Palette von Basismodellen, einschließlich DeepSeek-V3-Base, um zu verstehen, wie die Eigenschaften des Vortrainings die RL-Leistung beeinflussen. Unsere Analyse zeigt, dass DeepSeek-V3-Base bereits einen „Aha-Moment“ aufweisen, während Qwen2.5-Basismodelle starke Fähigkeiten zur logischen Schlussfolgerung selbst ohne Prompt-Vorlagen demonstrieren, was auf potenzielle Vortrainingsverzerrungen hindeutet. Zusätzlich identifizieren wir eine Optimierungsverzerrung in der Group Relative Policy Optimization (GRPO), die die Antwortlänge (insbesondere bei falschen Ausgaben) während des Trainings künstlich erhöht. Um dies zu beheben, führen wir Dr. GRPO ein, eine unvoreingenommene Optimierungsmethode, die die Token-Effizienz verbessert und gleichzeitig die Leistung bei der logischen Schlussfolgerung beibehält. Mit diesen Erkenntnissen präsentieren wir ein minimalistisches R1-Zero-Rezept, das mit einem 7B-Basismodell eine Genauigkeit von 43,3 % auf AIME 2024 erreicht und damit einen neuen State-of-the-art etabliert. Unser Code ist verfügbar unter https://github.com/sail-sg/understand-r1-zero.
Akademisches Schreiben erfordert sowohl die Erstellung kohärenter Texte als auch die präzise Zitierung relevanter Literatur. Obwohl neuere Retrieval-Augmented Generation (RAG)-Systeme die faktische Genauigkeit bei der allgemeinen Textgenerierung erheblich verbessert haben, bleibt ihre Fähigkeit, professionelles akademisches Schreiben angemessen zu unterstützen, begrenzt. In dieser Arbeit stellen wir ScholarCopilot vor, ein einheitliches Framework, das darauf abzielt, bestehende große Sprachmodelle für die Generierung professioneller akademischer Artikel mit genauen und kontextuell relevanten Zitaten zu verbessern. ScholarCopilot bestimmt dynamisch, wann wissenschaftliche Referenzen abgerufen werden sollen, indem es ein Retrieval-Token [RET] generiert, und nutzt dessen Repräsentation, um relevante Zitate aus einer Datenbank nachzuschlagen. Die abgerufenen Referenzen werden in das Modell eingespeist, um den Generierungsprozess zu erweitern. Wir optimieren sowohl die Generierungs- als auch die Zitieraufgaben gemeinsam innerhalb eines einzigen Frameworks, um die Effizienz zu steigern. Unser Modell, das auf 500.000 Artikeln von arXiv trainiert wurde, erreicht eine Top-1-Retrieval-Genauigkeit von 40,1 % auf unserem Evaluierungsdatensatz und übertrifft damit Baselines wie E5-Mistral-7B-Instruct (15,0 %) und BM25 (9,8 %). Auf einem Datensatz von 1.000 akademischen Schreibproben erzielt ScholarCopilot eine Bewertung von 16,2/25 in der Generierungsqualität (gemessen an Relevanz, Kohärenz, akademischer Strenge, Vollständigkeit und Innovation) und übertrifft damit Modelle mit 10-fach mehr Parametern wie Qwen-2.5-72B-Instruct (15,8/25). Humanstudien bestätigen ebenfalls die überlegene Leistung von ScholarCopilot in Bezug auf Zitiererinnerung, Schreibeffizienz und Gesamtnutzererfahrung, was die Wirksamkeit unseres Ansatzes unterstreicht.
Die Rekonstruktion von 3D-Szenen aus spärlichen Ansichten ist aufgrund des inhärent schlecht gestellten Problems eine anspruchsvolle Aufgabe. Konventionelle Methoden haben spezialisierte Lösungen entwickelt (z. B. Geometrie-Regularisierung oder deterministische Feed-Forward-Modelle), um dieses Problem zu mildern. Dennoch leiden sie unter Leistungseinbußen bei minimaler Überlappung der Eingabeansichten mit unzureichenden visuellen Informationen. Glücklicherweise zeigen aktuelle Video-Generierungsmodelle Potenzial, diese Herausforderung zu bewältigen, da sie in der Lage sind, Videoclips mit plausiblen 3D-Strukturen zu erzeugen. Gestützt durch große vortrainierte Video-Diffusionsmodelle, beginnen einige wegweisende Forschungen, das Potenzial von Video-Generierungs-Priors zu erkunden und 3D-Szenen aus spärlichen Ansichten zu erstellen. Trotz beeindruckender Verbesserungen sind sie durch langsame Inferenzzeiten und das Fehlen von 3D-Beschränkungen eingeschränkt, was zu Ineffizienzen und Rekonstruktionsartefakten führt, die nicht mit der realen geometrischen Struktur übereinstimmen. In diesem Artikel schlagen wir VideoScene vor, um das Video-Diffusionsmodell zu destillieren und 3D-Szenen in einem Schritt zu generieren, mit dem Ziel, ein effizientes und effektives Werkzeug zu schaffen, das die Lücke zwischen Video und 3D schließt. Insbesondere entwerfen wir eine 3D-bewusste Leap-Flow-Destillationsstrategie, um zeitaufwändige redundante Informationen zu überspringen, und trainieren ein dynamisches Denoising-Policy-Netzwerk, um den optimalen Leap-Zeitschritt während der Inferenz adaptiv zu bestimmen. Umfangreiche Experimente zeigen, dass unser VideoScene schnellere und überlegene 3D-Szenengenerierungsergebnisse erzielt als bisherige Video-Diffusionsmodelle, was sein Potenzial als effizientes Werkzeug für zukünftige Video-zu-3D-Anwendungen unterstreicht. Projektseite: https://hanyang-21.github.io/VideoScene
Video-Diffusionsmodelle (VDMs) haben in den letzten Jahren erhebliche Fortschritte gemacht und ermöglichen die Erzeugung von hochrealistischen Videos, wodurch sie die Aufmerksamkeit der Community auf ihr Potenzial als Weltsimulatoren gelenkt haben. Trotz ihrer Fähigkeiten scheitern VDMs jedoch oft daran, physikalisch plausible Videos zu erzeugen, da ihnen ein grundlegendes Verständnis der Physik fehlt, was zu falschen Dynamiken und Ereignissequenzen führt. Um diese Einschränkung zu überwinden, schlagen wir ein neuartiges zweistufiges Bild-zu-Video-Generierungsframework vor, das explizit Physik einbezieht. In der ersten Stufe verwenden wir ein Vision-Language-Model (VLM) als grobkörnigen Bewegungsplaner, das Chain-of-Thought und physikbewusstes Denken integriert, um grobe Bewegungstrajektorien/-änderungen vorherzusagen, die die physikalische Dynamik der realen Welt annähern und gleichzeitig die Interframe-Konsistenz sicherstellen. In der zweiten Stufe nutzen wir die vorhergesagten Bewegungstrajektorien/-änderungen, um die Videogenerierung eines VDMs zu steuern. Da die vorhergesagten Bewegungstrajektorien/-änderungen grob sind, wird während der Inferenz Rauschen hinzugefügt, um dem VDM die Freiheit zu geben, Bewegungen mit feineren Details zu erzeugen. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Framework physikalisch plausible Bewegungen erzeugen kann, und vergleichende Bewertungen heben die bemerkenswerte Überlegenheit unseres Ansatzes gegenüber bestehenden Methoden hervor. Weitere Videoergebnisse sind auf unserer Projektseite verfügbar: https://madaoer.github.io/projects/physically_plausible_video_generation.
Wir stellen PaperBench vor, einen Benchmark, der die Fähigkeit von KI-Agenten bewertet, aktuelle KI-Forschung zu replizieren. Die Agenten müssen 20 ICML 2024 Spotlight- und Oral-Paper von Grund auf replizieren, einschließlich des Verständnisses der Beiträge der Paper, der Entwicklung einer Codebasis und der erfolgreichen Durchführung von Experimenten. Für eine objektive Bewertung entwickeln wir Bewertungsraster, die jede Replikationsaufgabe hierarchisch in kleinere Teilaufgaben mit klaren Bewertungskriterien zerlegen. Insgesamt enthält PaperBench 8.316 einzeln bewertbare Aufgaben. Die Bewertungsraster werden gemeinsam mit den Autoren der jeweiligen ICML-Paper entwickelt, um Genauigkeit und Realismus zu gewährleisten. Um eine skalierbare Bewertung zu ermöglichen, entwickeln wir auch einen LLM-basierten Bewerter, der Replikationsversuche automatisch anhand der Bewertungsraster bewertet, und bewerten die Leistung unseres Bewerters durch die Erstellung eines separaten Benchmarks für Bewerter. Wir evaluieren mehrere Spitzenmodelle auf PaperBench und stellen fest, dass der leistungsstärkste getestete Agent, Claude 3.5 Sonnet (New) mit Open-Source-Scaffolding, eine durchschnittliche Replikationspunktzahl von 21,0\% erreicht. Schließlich rekrutieren wir Top-ML-Promovierte, um eine Teilmenge von PaperBench zu bearbeiten, und stellen fest, dass die Modelle die menschliche Baseline noch nicht übertreffen. Wir https://github.com/openai/preparedness{veröffentlichen unseren Code}, um zukünftige Forschungen zum Verständnis der KI-Engineering-Fähigkeiten von KI-Agenten zu erleichtern.
Wir präsentieren Articulated Kinematics Distillation (AKD), ein Framework zur Erzeugung hochwertiger Charakteranimationen, das die Stärken skelettbasierter Animation und moderner generativer Modelle vereint. AKD verwendet eine skelettbasierte Darstellung für rigged 3D-Assets, wodurch die Freiheitsgrade (Degrees of Freedom, DoFs) drastisch reduziert werden, indem der Fokus auf die Gelenksteuerung gelegt wird. Dies ermöglicht eine effiziente und konsistente Bewegungssynthese. Durch Score Distillation Sampling (SDS) mit vortrainierten Video-Diffusionsmodellen destilliert AKD komplexe, artikulierte Bewegungen, während die strukturelle Integrität erhalten bleibt. Dadurch werden Herausforderungen überwunden, die 4D-neuronale Deformationsfelder bei der Wahrung der Formkonsistenz bewältigen müssen. Dieser Ansatz ist natürlich kompatibel mit physikbasierten Simulationen, wodurch physikalisch plausible Interaktionen sichergestellt werden. Experimente zeigen, dass AKD im Vergleich zu bestehenden Arbeiten zur Text-zu-4D-Generierung eine überlegene 3D-Konsistenz und Bewegungsqualität erreicht. Projektseite: https://research.nvidia.com/labs/dir/akd/
Wir präsentieren ILLUME+, das eine duale visuelle Tokenisierung und einen Diffusions-Decoder nutzt, um sowohl das tiefe semantische Verständnis als auch die hochwertige Bildgenerierung zu verbessern. Bestehende einheitliche Modelle hatten Schwierigkeiten, die drei grundlegenden Fähigkeiten in einem einzigen Modell gleichzeitig zu bewältigen: Verständnis, Generierung und Bearbeitung. Modelle wie Chameleon und EMU3 verwenden VQGAN für die Bilddiskretisierung, doch aufgrund des Mangels an tiefgreifender semantischer Interaktion bleiben sie in visuellen Verständnisaufgaben hinter spezialisierten Modellen wie LLaVA zurück. Um dies zu mildern, setzen LaViT und ILLUME semantische Encoder für die Tokenisierung ein, kämpfen jedoch mit der Bildbearbeitung aufgrund schlechter Texturerhaltung. Unterdessen entkoppelt die Janus-Serie die Eingabe- und Ausgabebilddarstellung, was ihre Fähigkeiten einschränkt, verschränktes Bild-Text-Verständnis und -Generierung nahtlos zu handhaben. Im Gegensatz dazu führt ILLUME+ einen einheitlichen dualen visuellen Tokenizer, DualViTok, ein, der sowohl fein abgestufte Texturen als auch textausgerichtete Semantik bewahrt und dabei eine grob-zu-fein Bilddarstellungsstrategie für multimodales Verständnis und Generierung ermöglicht. Zusätzlich verwenden wir ein Diffusionsmodell als Bild-Detokenizer, um die Generierungsqualität zu verbessern und effiziente Super-Resolution zu ermöglichen. ILLUME+ folgt einem kontinuierlichen Eingabe-, diskreten Ausgabeschema innerhalb des einheitlichen MLLM und übernimmt ein progressives Trainingsverfahren, das dynamische Auflösung über den Vision-Tokenizer, MLLM und Diffusions-Decoder hinweg unterstützt. Dieses Design ermöglicht flexible und effiziente kontextbewusste Bildbearbeitung und -generierung über diverse Aufgaben hinweg. ILLUME+ (3B) zeigt eine wettbewerbsfähige Leistung im Vergleich zu bestehenden einheitlichen MLLMs und spezialisierten Modellen in multimodalen Verständnis-, Generierungs- und Bearbeitungsbenchmarks. Mit seiner starken Leistung bietet ILLUME+ eine skalierbare und vielseitige Grundlage für zukünftige multimodale Anwendungen. Projektseite: https://illume-unified-mllm.github.io/.
Die Erzeugung hochwertiger menschlicher Bilder durch Text-zu-Bild (T2I)-Methoden ist eine bedeutende, aber herausfordernde Aufgabe. Im Gegensatz zur allgemeinen Bildgenerierung muss die Synthese menschlicher Bilder strenge Kriterien in Bezug auf menschliche Pose, Anatomie und Übereinstimmung mit textuellen Eingaben erfüllen, was die Erzielung realistischer Ergebnisse besonders schwierig macht. Jüngste Fortschritte in der T2I-Generierung basierend auf Diffusionsmodellen haben vielversprechende Ergebnisse gezeigt, doch bestehen weiterhin Herausforderungen bei der Erfüllung menschlicher spezifischer Präferenzen. In diesem Artikel stellen wir einen neuartigen Ansatz vor, der speziell für die Generierung menschlicher Bilder unter Verwendung von Direct Preference Optimization (DPO) entwickelt wurde. Insbesondere führen wir eine effiziente Methode zur Erstellung eines spezialisierten DPO-Datensatzes für das Training von Modellen zur menschlichen Bildgenerierung ein, ohne auf kostspieliges menschliches Feedback angewiesen zu sein. Wir schlagen außerdem eine modifizierte Verlustfunktion vor, die den DPO-Trainingsprozess verbessert, indem Artefakte minimiert und die Bildtreue erhöht wird. Unsere Methode zeigt ihre Vielseitigkeit und Effektivität bei der Generierung menschlicher Bilder, einschließlich personalisierter Text-zu-Bild-Generierung. Durch umfassende Evaluierungen zeigen wir, dass unser Ansatz den Stand der menschlichen Bildgenerierung erheblich vorantreibt und überlegene Ergebnisse in Bezug auf natürliche Anatomien, Posen und Text-Bild-Übereinstimmung erzielt.
Vision-Language Models (VLMs) erweitern die Fähigkeiten von Large Language Models (LLMs), indem sie visuelle Informationen einbeziehen, bleiben jedoch anfällig für Jailbreak-Angriffe, insbesondere bei der Verarbeitung von verrauschten oder beschädigten Bildern. Obwohl bestehende VLMs während des Trainings Sicherheitsmaßnahmen ergreifen, um solche Angriffe zu mindern, werden Schwachstellen im Zusammenhang mit rauschverstärkten visuellen Eingaben übersehen. In dieser Arbeit zeigen wir, dass das Fehlen von rauschverstärktem Training kritische Sicherheitslücken verursacht: Viele VLMs sind bereits gegenüber einfachen Störungen wie Gaußschem Rauschen anfällig. Um diese Herausforderung zu bewältigen, schlagen wir Robust-VLGuard vor, einen multimodalen Sicherheitsdatensatz mit ausgerichteten/nicht ausgerichteten Bild-Text-Paaren, kombiniert mit rauschverstärktem Fine-Tuning, das die Angriffserfolgsraten reduziert, während die Funktionalität der VLMs erhalten bleibt. Für stärkere optimierungsbasierte visuelle Störungsangriffe schlagen wir DiffPure-VLM vor, das Diffusionsmodelle nutzt, um adversariale Störungen in gaußähnliches Rauschen umzuwandeln, das von VLMs mit rauschverstärktem Sicherheits-Fine-Tuning abgewehrt werden kann. Experimentelle Ergebnisse zeigen, dass die verteilungsverschiebende Eigenschaft des Diffusionsmodells gut mit unseren feinabgestimmten VLMs übereinstimmt und adversariale Störungen über verschiedene Intensitäten hinweg signifikant mindert. Der Datensatz und der Code sind unter https://github.com/JarvisUSTC/DiffPure-RobustVLM verfügbar.
Während neuere Zero-Shot-Text-to-Speech (TTS)-Modelle die Sprachqualität und Ausdruckskraft erheblich verbessert haben, leiden Mainstream-Systeme weiterhin unter Problemen im Zusammenhang mit der Modellierung der Sprach-Text-Ausrichtung: 1) Modelle ohne explizite Sprach-Text-Ausrichtungsmodellierung zeigen weniger Robustheit, insbesondere bei schwierigen Sätzen in praktischen Anwendungen; 2) vordefinierte, auf Ausrichtung basierende Modelle leiden unter den Natürlichkeitsbeschränkungen von erzwungenen Ausrichtungen. Dieses Papier stellt MegaTTS 3 vor, ein TTS-System mit einem innovativen spärlichen Ausrichtungsalgorithmus, der den latenten Diffusionstransformer (DiT) steuert. Konkret liefern wir MegaTTS 3 spärliche Ausrichtungsgrenzen, um die Schwierigkeit der Ausrichtung zu verringern, ohne den Suchraum einzuschränken, und so eine hohe Natürlichkeit zu erreichen. Darüber hinaus verwenden wir eine Multi-Condition-Classifier-Free-Guidance-Strategie zur Anpassung der Akzentintensität und setzen die stückweise korrigierte Flusstechnik ein, um den Generierungsprozess zu beschleunigen. Experimente zeigen, dass MegaTTS 3 die state-of-the-art Zero-Shot-TTS-Sprachqualität erreicht und eine hochflexible Steuerung der Akzentintensität unterstützt. Bemerkenswerterweise kann unser System hochwertige einminütige Sprachaufnahmen mit nur 8 Sampling-Schritten erzeugen. Audiobeispiele sind unter https://sditdemo.github.io/sditdemo/ verfügbar.
Vision-Language-Modelle (VLMs) neigen zu Objekthalluzinationen, bei denen sie fälschlicherweise das Vorhandensein bestimmter Objekte in einem Bild angeben. Bestehende Benchmarks quantifizieren Halluzinationen mithilfe relativ kleiner, annotierter Datensätze. Dieser Ansatz ist jedoch i) unzureichend, um Halluzinationen zu bewerten, die in offenen Umgebungen auftreten, in denen VLMs weit verbreitet sind, und ii) ungeeignet, um systematische Fehler in VLMs zu erkennen. Wir schlagen DASH (Detection and Assessment of Systematic Hallucinations) vor, eine automatische, groß angelegte Pipeline, die darauf abzielt, systematische Halluzinationen von VLMs in realen Bildern in einer offenen Umgebung zu identifizieren. Eine Schlüsselkomponente ist DASH-OPT für die bildbasierte Suche, bei der wir über die „natürliche Bildmannigfaltigkeit“ optimieren, um Bilder zu generieren, die das VLM in die Irre führen. Die Ausgabe von DASH besteht aus Clustern von realen und semantisch ähnlichen Bildern, bei denen das VLM ein Objekt halluziniert. Wir wenden DASH auf PaliGemma und zwei LLaVA-NeXT-Modelle über 380 Objektklassen an und finden insgesamt mehr als 19k Cluster mit 950k Bildern. Wir untersuchen die Übertragung der identifizierten systematischen Halluzinationen auf andere VLMs und zeigen, dass das Fine-Tuning von PaliGemma mit den modellspezifischen Bildern, die mit DASH erhalten wurden, Objekthalluzinationen reduziert. Code und Daten sind verfügbar unter https://YanNeu.github.io/DASH.
Entwürfe von Vision-Netzwerken, einschließlich Convolutional Neural Networks und Vision Transformers, haben das Feld der Computer Vision erheblich vorangetrieben. Dennoch stellen ihre komplexen Berechnungen Herausforderungen für praktische Anwendungen dar, insbesondere in Echtzeitanwendungen. Um dieses Problem zu lösen, haben Forscher verschiedene leichte und effiziente Netzwerkdesigns untersucht. Allerdings nutzen bestehende leichte Modelle überwiegend Self-Attention-Mechanismen und Faltungen für das Token-Mixing. Diese Abhängigkeit bringt Einschränkungen in der Effektivität und Effizienz bei den Wahrnehmungs- und Aggregationsprozessen von leichten Netzwerken mit sich, was das Gleichgewicht zwischen Leistung und Effizienz bei begrenzten Rechenbudgets behindert. In diesem Papier lassen wir uns von der dynamischen heteroskaligen Sehfähigkeit des effizienten menschlichen Sehsystems inspirieren und schlagen eine „See Large, Focus Small“-Strategie für das Design von leichten Vision-Netzwerken vor. Wir führen die LS (Large-Small)-Faltung ein, die großkernige Wahrnehmung und kleinkernige Aggregation kombiniert. Sie kann effizient ein breites Spektrum an Wahrnehmungsinformationen erfassen und präzise Merkmalsaggregation für dynamische und komplexe visuelle Darstellungen erreichen, wodurch eine kompetente Verarbeitung visueller Informationen ermöglicht wird. Basierend auf der LS-Faltung präsentieren wir LSNet, eine neue Familie von leichten Modellen. Umfangreiche Experimente zeigen, dass LSNet in verschiedenen Vision-Aufgaben eine überlegene Leistung und Effizienz gegenüber bestehenden leichten Netzwerken erzielt. Codes und Modelle sind unter https://github.com/jameslahm/lsnet verfügbar.
State Space Models (SSMs) erweisen sich zunehmend als überzeugende Alternative zu Transformern aufgrund ihres konsistenten Speicherverbrauchs und ihrer hohen Leistungsfähigkeit. Dennoch ist die Skalierung von SSMs auf Cloud-Diensten oder ressourcenbeschränkten Geräten aufgrund ihrer Speicheranforderungen und Rechenleistung eine Herausforderung. Um dies zu bewältigen, kann die Quantisierung von SSMs mit Datenformaten niedriger Bitbreite die Modellgröße verringern und von Hardwarebeschleunigung profitieren. Da SSMs anfällig für Quantisierungsfehler sind, haben sich jüngste Bemühungen darauf konzentriert, ein bestimmtes Modell oder eine bestimmte Bitbreite für Effizienz zu optimieren, ohne die Leistung zu beeinträchtigen. Allerdings sind unterschiedliche Bitbreiten-Konfigurationen für verschiedene Szenarien entscheidend, wie beispielsweise W4A8 zur Steigerung der Decodiergeschwindigkeit bei großen Batches und W4A16 zur Verbesserung der Generierungsgeschwindigkeit bei kurzen Prompt-Anwendungen für einen einzelnen Benutzer. Zu diesem Zweck präsentieren wir Quamba2, das mit W8A8, W4A8 und W4A16 sowohl für Mamba1- als auch Mamba2-Backbones kompatibel ist und die wachsende Nachfrage nach SSM-Bereitstellung auf verschiedenen Plattformen adressiert. Basierend auf der kanalordnungsbewahrenden und aktivierungspersistenten Natur von SSMs schlagen wir einen Offline-Ansatz vor, um die Eingaben einer linearen Rekurrenz in 8-Bit zu quantisieren, indem die Eingabe x sortiert und geclustert wird, kombiniert mit einer pro-Zustandsgruppen-Quantisierung für die eingabeabhängigen Parameter B und C. Um die Recheninvarianz in der SSM-Ausgabe sicherzustellen, ordnen wir die Gewichte offline gemäß der Clustering-Sequenz neu an. Die Experimente zeigen, dass Quamba2-8B mehrere state-of-the-art SSM-Quantisierungsmethoden übertrifft und eine 1,3-fache bzw. 3-fache Beschleunigung in den Vorbereitungs- und Generierungsphasen bietet, während es eine 4-fache Speicherreduzierung bei nur einem durchschnittlichen Genauigkeitsverlust von 1,6 % ermöglicht. Die Auswertung auf MMLU zeigt die Generalisierbarkeit und Robustheit unseres Frameworks. Der Code und die quantisierten Modelle werden unter folgender Adresse veröffentlicht: https://github.com/enyac-group/Quamba.
Große Sprachmodelle zeigen bemerkenswerte Fähigkeiten im logischen Denken, liefern jedoch oft unzuverlässige oder falsche Antworten. Bestehende Verifizierungsmethoden sind in der Regel modellspezifisch oder auf bestimmte Domänen beschränkt, erfordern erhebliche Rechenressourcen und mangelt es an Skalierbarkeit über verschiedene Denkaufgaben hinweg. Um diese Einschränkungen zu überwinden, schlagen wir VerifiAgent vor, einen einheitlichen Verifizierungsagenten, der zwei Ebenen der Verifizierung integriert: Meta-Verifizierung, die Vollständigkeit und Konsistenz der Modellantworten bewertet, und werkzeugbasierte adaptive Verifizierung, bei der VerifiAgent autonom geeignete Verifizierungswerkzeuge basierend auf der Art des Denkens auswählt, einschließlich mathematischem, logischem oder gesundem Menschenverstand. Dieser adaptive Ansatz gewährleistet sowohl Effizienz als auch Robustheit in verschiedenen Verifizierungsszenarien. Experimentelle Ergebnisse zeigen, dass VerifiAgent alle Baseline-Verifizierungsmethoden (z. B. deduktiver Verifizierer, Rückwärtsverifizierer) bei allen Denkaufgaben übertrifft. Darüber hinaus kann es die Genauigkeit des Denkens weiter verbessern, indem es Feedback aus den Verifizierungsergebnissen nutzt. VerifiAgent kann auch effektiv auf die Skalierung von Inferenzen angewendet werden und erzielt im Vergleich zu bestehenden Prozessbelohnungsmodellen im Bereich des mathematischen Denkens bessere Ergebnisse mit weniger generierten Stichproben und geringeren Kosten. Der Code ist verfügbar unter https://github.com/Jiuzhouh/VerifiAgent.
Verschiedene Methoden zum Überspringen von Schichten wurden vorgeschlagen, um die Token-Generierung in großen Sprachmodellen (LLMs) zu beschleunigen. Dabei wurde jedoch eine grundlegende Frage übersehen: Wie variiert der Rechenaufwand bei der Generierung verschiedener Tokens? In dieser Arbeit stellen wir FlexiDepth vor, eine Methode, die die Anzahl der Transformer-Schichten bei der Textgenerierung dynamisch anpasst. Durch die Integration eines Plug-in-Routers und Adapters ermöglicht FlexiDepth ein adaptives Überspringen von Schichten in LLMs, ohne deren ursprüngliche Parameter zu verändern. Die Einführung von FlexiDepth in das Llama-3-8B-Modell erreicht ein Überspringen von 8 Schichten aus 32, während gleichzeitig die volle Benchmark-Leistung von 100 % erhalten bleibt. Experimentelle Ergebnisse mit FlexiDepth zeigen, dass der Rechenaufwand in LLMs erheblich vom Tokentyp abhängt. Insbesondere erfordert die Generierung repetitiver Tokens oder fester Phrasen weniger Schichten, während die Erzeugung von Tokens, die Berechnungen oder hohe Unsicherheit beinhalten, mehr Schichten benötigt. Interessanterweise entspricht dieses adaptive Zuweisungsmuster der menschlichen Intuition. Um die Forschung in diesem Bereich voranzutreiben, haben wir FlexiDepth sowie einen Datensatz, der die Schichtzuweisungsmuster von FlexiDepth dokumentiert, quelloffen zur Verfügung gestellt, um zukünftige Untersuchungen zu ermöglichen.
Wir präsentieren ein zielbewusstes Video-Diffusionsmodell, das Videos aus einem Eingabebild generiert, in dem ein Akteur mit einem spezifizierten Ziel interagiert, während er eine gewünschte Aktion ausführt. Das Ziel wird durch eine Segmentierungsmaske definiert, und die gewünschte Aktion wird über einen Textprompt beschrieben. Im Gegensatz zu bestehenden kontrollierbaren Bild-zu-Video-Diffusionsmodellen, die oft auf dichte strukturelle oder Bewegungsinformationen angewiesen sind, um die Bewegungen des Akteurs zum Ziel zu lenken, benötigt unser zielbewusstes Modell lediglich eine einfache Maske, um das Ziel anzugeben, und nutzt die Generalisierungsfähigkeiten vortrainierter Modelle, um plausible Aktionen zu erzeugen. Dies macht unsere Methode besonders effektiv für Szenarien der Mensch-Objekt-Interaktion (HOI), in denen die Bereitstellung präziser Aktionsanleitungen schwierig ist, und ermöglicht darüber hinaus den Einsatz von Video-Diffusionsmodellen für die hochrangige Aktionsplanung in Anwendungen wie der Robotik. Wir entwickeln unser zielbewusstes Modell, indem wir ein Basismodell erweitern, um die Zielmaske als zusätzliche Eingabe zu integrieren. Um die Zielbewusstheit zu gewährleisten, führen wir ein spezielles Token ein, das die räumlichen Informationen des Ziels innerhalb des Textprompts kodiert. Anschließend feintunen wir das Modell mit unserem kuratierten Datensatz unter Verwendung eines neuartigen Cross-Attention-Verlusts, der die Cross-Attention-Karten, die mit diesem Token verbunden sind, mit der Eingabe-Zielmaske ausrichtet. Um die Leistung weiter zu verbessern, wenden wir diesen Verlust selektiv auf die semantisch relevantesten Transformer-Blöcke und Aufmerksamkeitsregionen an. Experimentelle Ergebnisse zeigen, dass unser zielbewusstes Modell bestehende Lösungen bei der Generierung von Videos, in denen Akteure präzise mit den spezifizierten Zielen interagieren, übertrifft. Wir demonstrieren seine Wirksamkeit weiterhin in zwei nachgelagerten Anwendungen: der Erstellung von Videoinhalten und der Zero-Shot-3D-HOI-Bewegungssynthese.
Frühere Forschungen zur Erkennung von Out-of-Distribution-Daten (OoDD) konzentrierten sich hauptsächlich auf Einzelmodalitätsmodelle. In jüngster Zeit sind mit der Einführung großskaliger vortrainierter Vision-Sprache-Modelle wie CLIP OoDD-Methoden entstanden, die solche multimodalen Repräsentationen durch Zero-Shot- und Prompt-Learning-Strategien nutzen. Diese Methoden beinhalten jedoch typischerweise entweder das Einfrieren der vortrainierten Gewichte oder nur eine teilweise Anpassung, was für nachgelagerte Datensätze suboptimal sein kann. In diesem Artikel zeigen wir auf, dass multimodales Fine-Tuning (MMFT) eine bemerkenswerte OoDD-Leistung erzielen kann. Obwohl einige aktuelle Arbeiten die Auswirkungen von Fine-Tuning-Methoden auf OoDD demonstrieren, besteht weiterhin erhebliches Potenzial für Leistungsverbesserungen. Wir untersuchen die Grenzen naiver Fine-Tuning-Methoden und analysieren, warum sie das vortrainierte Wissen nicht vollständig nutzen. Unsere empirische Analyse legt nahe, dass dieses Problem aus der Modallitätslücke innerhalb der In-Distribution (ID)-Einbettungen resultieren könnte. Um dies zu adressieren, schlagen wir ein Trainingsziel vor, das die cross-modale Ausrichtung verbessert, indem die Abstände zwischen Bild- und Texteinbettungen von ID-Daten regularisiert werden. Diese Anpassung hilft dabei, vortrainierte textuelle Informationen besser zu nutzen, indem ähnliche Semantiken aus verschiedenen Modalitäten (d. h. Text und Bild) im hypersphärischen Repräsentationsraum enger ausgerichtet werden. Wir zeigen theoretisch, dass die vorgeschlagene Regularisierung der Maximum-Likelihood-Schätzung eines energiebasierten Modells auf einer Hypersphäre entspricht. Unter Verwendung von ImageNet-1k-OoD-Benchmark-Datensätzen demonstrieren wir, dass unsere Methode in Kombination mit post-hoc-OoDD-Ansätzen, die vortrainiertes Wissen nutzen (z. B. NegLabel), bestehende Methoden deutlich übertrifft und state-of-the-art OoDD-Leistung sowie führende ID-Genauigkeit erreicht.
Große Sprachmodelle (LLMs) haben das Potenzial, die Medizin zu transformieren, doch reale klinische Szenarien enthalten überflüssige Informationen, die die Leistung beeinträchtigen können. Der Aufstieg assistiver Technologien wie der Umgebungsdiktatur, die automatisch Entwürfe von Notizen aus Live-Patientenbegegnungen generiert, birgt das Risiko, zusätzliches Rauschen einzuführen, was es entscheidend macht, die Fähigkeit von LLMs zur Filterung relevanter Daten zu bewerten. Um dies zu untersuchen, entwickelten wir MedDistractQA, einen Benchmark, der USMLE-ähnliche Fragen verwendet, die mit simulierten realen Ablenkungen versehen sind. Unsere Ergebnisse zeigen, dass ablenkende Aussagen (polyseme Wörter mit klinischer Bedeutung, die in einem nicht-klinischen Kontext verwendet werden, oder Verweise auf unzusammenhängende Gesundheitszustände) die Genauigkeit von LLMs um bis zu 17,9 % reduzieren können. Häufig vorgeschlagene Lösungen zur Verbesserung der Modellleistung, wie retrieval-augmentierte Generierung (RAG) und medizinisches Fein-Tuning, änderten diesen Effekt nicht und führten in einigen Fällen sogar zu eigenen Störfaktoren und einer weiteren Verschlechterung der Leistung. Unsere Ergebnisse deuten darauf hin, dass LLMs von Natur aus die logischen Mechanismen fehlen, die notwendig sind, um relevante von irrelevanten klinischen Informationen zu unterscheiden, was Herausforderungen für reale Anwendungen darstellt. MedDistractQA und unsere Ergebnisse unterstreichen die Notwendigkeit robuster Minderungsstrategien, um die Widerstandsfähigkeit von LLMs gegenüber überflüssigen Informationen zu verbessern.