papers.description
Während Multimodale Große Sprachmodelle (MLLMs) bemerkenswerte Fähigkeiten bei der Verarbeitung statischer Bilder zeigen, sind sie oft weniger in der Lage, dynamische, informationsreiche Kurzvideos zu verstehen, ein dominierendes Medium in der heutigen digitalen Landschaft. Um diese Lücke zu schließen, stellen wir Kwai Keye-VL vor, ein multimodales Basismodell mit 8 Milliarden Parametern, das für Spitzenleistungen im Verständnis von Kurzvideos entwickelt wurde, während es gleichzeitig robuste allgemeine Bild-Sprach-Fähigkeiten beibehält. Die Entwicklung von Keye-VL basiert auf zwei zentralen Säulen: einem umfangreichen, hochwertigen Datensatz mit über 600 Milliarden Tokens, der einen starken Fokus auf Videos legt, und einem innovativen Trainingsrezept. Dieses Rezept umfasst einen vierstufigen Vor-Trainingsprozess für eine solide Ausrichtung von Bild und Sprache, gefolgt von einem sorgfältig ausgearbeiteten zweiphasigen Nach-Trainingsprozess. Die erste Phase des Nach-Trainings verbessert grundlegende Fähigkeiten wie die Befolgung von Anweisungen, während die zweite Phase darauf abzielt, fortgeschrittenes Denken zu fördern. In dieser zweiten Phase ist eine Schlüsselinnovation unsere fünfmodige „Kaltstart“-Datenmischung, die „Denken“, „Nicht-Denken“, „Auto-Denken“, „Denken mit Bild“ und hochwertige Videodaten umfasst. Diese Mischung lehrt das Modell, zu entscheiden, wann und wie es denken soll. Nachfolgende Verstärkungslernschritte (RL) und Ausrichtungsschritte verbessern diese Denkfähigkeiten weiter und korrigieren abnormales Modellverhalten, wie wiederholte Ausgaben. Um unseren Ansatz zu validieren, führen wir umfangreiche Evaluierungen durch, die zeigen, dass Keye-VL auf öffentlichen Video-Benchmarks state-of-the-art Ergebnisse erzielt und bei allgemeinen bildbasierten Aufgaben (Abbildung 1) hochgradig wettbewerbsfähig bleibt. Darüber hinaus entwickeln und veröffentlichen wir den KC-MMBench, einen neuen Benchmark, der speziell für reale Kurzvideo-Szenarien entwickelt wurde, in denen Keye-VL einen deutlichen Vorteil zeigt.
Die Kolorierung von Animationen ist ein entscheidender Bestandteil der Produktion in der realen Animationsindustrie. Die Kolorierung langer Animationen verursacht hohe Arbeitskosten. Daher hat die automatisierte Kolorierung langer Animationen basierend auf einem Videogenerierungsmodell einen erheblichen Forschungswert. Bisherige Studien beschränken sich auf die Kurzzeitkolorierung. Diese Studien verwenden ein lokales Paradigma, bei dem überlappende Merkmale fusioniert werden, um fließende Übergänge zwischen lokalen Segmenten zu erreichen. Das lokale Paradigma vernachlässigt jedoch globale Informationen und kann keine langfristige Farbkonsistenz aufrechterhalten. In dieser Studie argumentieren wir, dass eine ideale langfristige Farbkonsistenz durch ein dynamisches global-lokales Paradigma erreicht werden kann, d.h. durch die dynamische Extraktion globaler farbkonsistenter Merkmale, die für die aktuelle Generierung relevant sind. Konkret schlagen wir LongAnimation vor, ein neuartiges Framework, das hauptsächlich einen SketchDiT, ein Dynamic Global-Local Memory (DGLM) und eine Color Consistency Reward umfasst. Der SketchDiT erfasst hybride Referenzmerkmale, um das DGLM-Modul zu unterstützen. Das DGLM-Modul verwendet ein Modell zum Verständnis langer Videos, um globale historische Merkmale dynamisch zu komprimieren und sie adaptiv mit den aktuellen Generierungsmerkmalen zu fusionieren. Um die Farbkonsistenz zu verfeinern, führen wir eine Color Consistency Reward ein. Während der Inferenz schlagen wir eine Farbkonsistenzfusion vor, um den Übergang zwischen Videosegmenten zu glätten. Umfangreiche Experimente sowohl mit kurzen (14 Frames) als auch mit langen (durchschnittlich 500 Frames) Animationen zeigen die Wirksamkeit von LongAnimation bei der Aufrechterhaltung der Kurzzeit- und Langzeitfarbkonsistenz für die Aufgabe der Kolorierung von Animationen in offenen Domänen. Der Code ist unter https://cn-makers.github.io/long_animation_web/ verfügbar.
Wir präsentieren Depth Anything at Any Condition (DepthAnything-AC), ein Foundation-Modell zur monokularen Tiefenschätzung (MDE), das in der Lage ist, diverse Umweltbedingungen zu bewältigen. Bisherige Foundation-MDE-Modelle erzielen beeindruckende Leistungen in allgemeinen Szenen, schneiden jedoch in komplexen, offenen Umgebungen mit herausfordernden Bedingungen wie Beleuchtungsvariationen, widrigem Wetter und sensorinduzierten Verzerrungen nicht gut ab. Um die Herausforderungen der Datenknappheit und der Unfähigkeit, hochwertige Pseudolabels aus beschädigten Bildern zu generieren, zu überwinden, schlagen wir ein unüberwachtes Konsistenzregularisierungs-Finetuning-Paradigma vor, das nur eine relativ geringe Menge an unmarkierten Daten erfordert. Darüber hinaus führen wir die Spatial Distance Constraint ein, um das Modell explizit dazu zu bringen, patch-basierte relative Beziehungen zu lernen, was zu klareren semantischen Grenzen und genaueren Details führt. Experimentelle Ergebnisse demonstrieren die Zero-Shot-Fähigkeiten von DepthAnything-AC über diverse Benchmarks hinweg, einschließlich realer Benchmarks für widriges Wetter, synthetischer Korruptions-Benchmarks und allgemeiner Benchmarks. Projektseite: https://ghost233lism.github.io/depthanything-AC-page Code: https://github.com/HVision-NKU/DepthAnythingAC
Die bemerkenswerten Fortschritte von Vision- und Sprach-Foundation-Modellen im Bereich des multimodalen Verstehens, Schlussfolgerns und Generierens haben zunehmende Bemühungen ausgelöst, diese Intelligenz auf die physische Welt auszudehnen, was die Blüte von Vision-Language-Action (VLA)-Modellen vorantreibt. Trotz scheinbar unterschiedlicher Ansätze stellen wir fest, dass aktuelle VLA-Modelle unter einem einheitlichen Rahmen vereint werden können: Visuelle und sprachliche Eingaben werden durch eine Reihe von VLA-Modulen verarbeitet, die eine Kette von Aktions-Tokens erzeugen, die zunehmend fundierte und umsetzbare Informationen kodieren und schließlich ausführbare Aktionen generieren. Wir stellen weiterhin fest, dass die primäre Designentscheidung, die VLA-Modelle unterscheidet, in der Formulierung der Aktions-Tokens liegt, die in Sprachbeschreibung, Code, Affordance, Trajektorie, Zielzustand, latente Repräsentation, Rohaktion und Schlussfolgerung kategorisiert werden können. Dennoch besteht ein Mangel an umfassendem Verständnis bezüglich Aktions-Tokens, was die effektive Entwicklung von VLA-Modellen erheblich behindert und zukünftige Richtungen verschleiert. Daher zielt dieser Überblick darauf ab, bestehende VLA-Forschung durch die Linse der Aktions-Tokenisierung zu kategorisieren und zu interpretieren, die Stärken und Grenzen jedes Token-Typs herauszustellen und Verbesserungsbereiche zu identifizieren. Durch diese systematische Überprüfung und Analyse bieten wir einen zusammengefassten Ausblick auf die breitere Entwicklung von VLA-Modellen, heben unerforschte, aber vielversprechende Richtungen hervor und leisten einen Beitrag zur zukünftigen Forschung, in der Hoffnung, das Feld der allgemeinen Intelligenz näherzubringen.
Wir stellen Locality-aware Parallel Decoding (LPD) vor, um die autoregressive Bildgenerierung zu beschleunigen. Traditionelle autoregressive Bildgenerierung basiert auf der Vorhersage des nächsten Patches, einem speichergebundenen Prozess, der zu hoher Latenz führt. Bestehende Arbeiten haben versucht, die Vorhersage des nächsten Patches durch den Wechsel zur Multi-Patch-Vorhersage zu parallelisieren, um den Prozess zu beschleunigen, erreichten jedoch nur eine begrenzte Parallelisierung. Um eine hohe Parallelisierung bei gleichbleibender Generierungsqualität zu erreichen, führen wir zwei Schlüsseltechniken ein: (1) Flexible Parallelized Autoregressive Modeling, eine neuartige Architektur, die beliebige Generierungsreihenfolgen und Parallelisierungsgrade ermöglicht. Sie verwendet lernbare Positionsabfrage-Tokens, um die Generierung an Zielpositionen zu steuern und gleichzeitig die gegenseitige Sichtbarkeit zwischen gleichzeitig generierten Tokens für eine konsistente parallele Dekodierung sicherzustellen. (2) Locality-aware Generation Ordering, ein neuartiger Zeitplan, der Gruppen bildet, um Abhängigkeiten innerhalb der Gruppe zu minimieren und die kontextuelle Unterstützung zu maximieren, wodurch die Generierungsqualität verbessert wird. Mit diesen Entwürfen reduzieren wir die Generierungsschritte von 256 auf 20 (256×256 Auflösung) und von 1024 auf 48 (512×512 Auflösung), ohne die Qualität bei der klassenbedingten Generierung auf ImageNet zu beeinträchtigen, und erreichen dabei eine mindestens 3,4-fach geringere Latenz als bisherige parallelisierte autoregressive Modelle.
Wir präsentieren FreeMorph, die erste abstimmungsfreie Methode für Bildmorphing, die Eingaben mit unterschiedlicher Semantik oder Anordnung verarbeiten kann. Im Gegensatz zu bestehenden Methoden, die auf das Feinabstimmen vortrainierter Diffusionsmodelle angewiesen sind und durch Zeitbeschränkungen sowie semantische/layoutbezogene Diskrepanzen eingeschränkt werden, liefert FreeMorph hochwertiges Bildmorphing ohne instanzspezifisches Training. Trotz ihrer Effizienz und ihres Potenzials stehen abstimmungsfreie Methoden vor Herausforderungen, qualitativ hochwertige Ergebnisse zu erzielen, bedingt durch die nichtlineare Natur des mehrstufigen Entrauschungsprozesses und durch Verzerrungen, die von den vortrainierten Diffusionsmodellen übernommen werden. In diesem Artikel stellen wir FreeMorph vor, um diese Herausforderungen durch die Integration zweier Schlüsselinnovationen zu bewältigen. 1) Wir schlagen zunächst ein führungsbewusstes sphärisches Interpolationsdesign vor, das explizite Führung durch die Eingabebilder einbezieht, indem die Selbstaufmerksamkeitsmodule modifiziert werden, wodurch Identitätsverlust vermieden und gerichtete Übergänge in der generierten Sequenz sichergestellt werden. 2) Des Weiteren führen wir einen schrittorientierten Variationstrend ein, der Selbstaufmerksamkeitsmodule, die von jedem Eingabebild abgeleitet werden, miteinander kombiniert, um kontrollierte und konsistente Übergänge zu erreichen, die beide Eingaben berücksichtigen. Unsere umfangreichen Auswertungen zeigen, dass FreeMorph bestehende Methoden übertrifft, indem es 10x bis 50x schneller ist und einen neuen Stand der Technik für Bildmorphing etabliert.
Die automatisierte Generierung von Radiologieberichten (RRG) zielt darauf ab, detaillierte textuelle Berichte aus klinischen Bildgebungsdaten, wie beispielsweise Computertomographie (CT)-Scans, zu erstellen, um die Genauigkeit und Effizienz der Diagnose sowie die Bereitstellung von Managementempfehlungen zu verbessern. RRG wird durch zwei zentrale Herausforderungen erschwert: (1) die inhärente Komplexität bei der Extraktion relevanter Informationen aus Bildgebungsdaten unter Ressourcenbeschränkungen und (2) die Schwierigkeit, Diskrepanzen zwischen modellgenerierten und von Experten verfassten Berichten objektiv zu bewerten. Um diese Herausforderungen zu bewältigen, schlagen wir mu^2LLM vor, ein **mu**ltiskaliges und **mu**ltimodales großes Sprachmodell für RRG-Aufgaben. Der neuartige {mu}^2Tokenizer fungiert als Zwischenschicht und integriert multimodale Merkmale aus dem multiskalalen visuellen Tokenizer und dem Text-Tokenizer, um anschließend die Qualität der Berichtsgenerierung durch Direct Preference Optimization (DPO) zu verbessern, geleitet von GREEN-RedLlama. Experimentelle Ergebnisse auf vier großen medizinischen Datensätzen mit CT-Bildern und Berichten zeigen, dass unsere Methode bestehende Ansätze übertrifft und das Potenzial unserer feinabgestimmten mu^2LLMs auf begrenzten Daten für RRG-Aufgaben unterstreicht.
Wissenschaftliche Anwendungen des maschinellen Lernens basieren oft auf kleinen, spezialisierten Modellen, die auf bestimmte Domänen abgestimmt sind. Solche Modelle erzielen häufig hervorragende Leistungen, mangelt es ihnen jedoch an Flexibilität. Foundation-Modelle bieten Vielseitigkeit, liegen aber typischerweise in der Leistung hinter spezialisierten Ansätzen zurück, insbesondere bei nicht-traditionellen Modalitäten und Long-Tail-Domänen. Wir schlagen MARVIS (Modality Adaptive Reasoning over VISualizations) vor, eine trainingsfreie Methode, die selbst kleinen Vision-Language-Modellen ermöglicht, jede Datenmodalität mit hoher Genauigkeit vorherzusagen. MARVIS transformiert latente Einbettungsräume in visuelle Darstellungen und nutzt dann die räumlichen und fein abgestimmten Fähigkeiten von VLMs, um diese erfolgreich zu interpretieren und zu verwenden. MARVIS erzielt wettbewerbsfähige Leistungen in den Bereichen Vision, Audio, Biologie und Tabellendaten mit einem einzigen 3-Milliarden-Parameter-Modell und erreicht Ergebnisse, die Gemini im Durchschnitt um 16\% übertreffen und sich spezialisierten Methoden annähern, ohne persönlich identifizierbare Informationen (P.I.I.) preiszugeben oder domänenspezifisches Training zu erfordern. Wir stellen unseren Code und unsere Datensätze unter https://github.com/penfever/marvis als Open Source zur Verfügung.
Die face-to-face-Kommunikation, als eine alltägliche menschliche Aktivität, motiviert die Forschung zur interaktiven Kopfgenerierung. Ein virtueller Agent kann Bewegungsantworten mit sowohl Hör- als auch Sprechfähigkeiten basierend auf den Audio- oder Bewegungssignalen des anderen Benutzers und seiner selbst generieren. Bisherige Ansätze, wie die clip-basierte Generierung oder explizite Methoden zum Wechsel zwischen Zuhörer- und Sprechergeneratoren, weisen jedoch Einschränkungen in der zukünftigen Signalakquisition, dem kontextuellen Verständnis von Verhalten und der Wechselglätte auf, was die Echtzeitfähigkeit und Realismus erschwert. In diesem Artikel schlagen wir ein autoregressives (AR) frame-basiertes Framework namens ARIG vor, um die Echtzeitgenerierung mit besserer Interaktionsrealität zu ermöglichen. Um die Echtzeitgenerierung zu erreichen, modellieren wir die Bewegungsvorhersage als einen nicht-vektorquantisierten AR-Prozess. Im Gegensatz zur diskreten Codebuch-Index-Vorhersage repräsentieren wir die Bewegungsverteilung mithilfe eines Diffusionsverfahrens, wodurch genauere Vorhersagen im kontinuierlichen Raum erreicht werden. Um den Interaktionsrealismus zu verbessern, legen wir besonderen Wert auf das Verständnis interaktiven Verhaltens (Interactive Behavior Understanding, IBU) und das detaillierte Verständnis des Gesprächszustands (Conversational State Understanding, CSU). Im IBU fassen wir kurzfristige Verhaltensweisen durch bidirektional integriertes Lernen basierend auf dual-track dual-modalen Signalen zusammen und führen ein kontextuelles Verständnis über lange Zeiträume durch. Im CSU nutzen wir Sprachaktivitätssignale und Kontextmerkmale des IBU, um die verschiedenen Zustände (Unterbrechung, Feedback, Pause usw.), die in tatsächlichen Gesprächen auftreten, zu verstehen. Diese dienen als Bedingungen für die finale progressive Bewegungsvorhersage. Umfangreiche Experimente haben die Wirksamkeit unseres Modells bestätigt.
Die intrinsische Verbindung zwischen Gesichtsbewegungen und Sprache wird in der generativen Modellierung oft übersehen, wo die Synthese von sprechenden Köpfen und Text-zu-Sprache (TTS) typischerweise als separate Aufgaben behandelt werden. Dieses Paper stellt JAM-Flow vor, ein einheitliches Framework, das gleichzeitig Gesichtsbewegungen und Sprache synthetisiert und darauf konditioniert. Unser Ansatz nutzt Flow Matching und eine neuartige Multi-Modale Diffusions-Transformer-Architektur (MM-DiT), die spezialisierte Motion-DiT- und Audio-DiT-Module integriert. Diese sind über selektive Joint-Attention-Schichten gekoppelt und beinhalten wichtige architektonische Entscheidungen, wie zeitlich ausgerichtete Positions-Einbettungen und lokalisierte Joint-Attention-Maskierung, um eine effektive cross-modale Interaktion zu ermöglichen, während die modalspezifischen Stärken erhalten bleiben. Mit einem Inpainting-ähnlichen Ziel trainiert, unterstützt JAM-Flow eine Vielzahl von Konditionierungs-Eingaben – einschließlich Text, Referenz-Audio und Referenz-Bewegung – und ermöglicht Aufgaben wie die synchronisierte Generierung von sprechenden Köpfen aus Text, audio-gesteuerte Animation und vieles mehr, alles innerhalb eines einzigen, kohärenten Modells. JAM-Flow leistet einen bedeutenden Fortschritt in der multi-modalen generativen Modellierung, indem es eine praktische Lösung für ganzheitliche audio-visuelle Synthese bietet. Projektseite: https://joonghyuk.com/jamflow-web
Multiple-Choice-Benchmarks waren lange Zeit das Rückgrat der Bewertung von Sprachmodellen, da die Bewertung von Multiple-Choice-Fragen objektiv und einfach zu automatisieren ist. Wir zeigen jedoch, dass Multiple-Choice-Fragen aus beliebten Benchmarks oft beantwortet werden können, ohne die Frage überhaupt zu sehen. Diese Abkürzungen ergeben sich aus einer grundlegenden Einschränkung der diskriminativen Bewertung, die bei der Bewertung der freien, generativen Antworten des Modells nicht vorhanden ist. Bis vor kurzem schien es keine praktikable, skalierbare Alternative zu Multiple-Choice zu geben – doch wir zeigen, dass sich dies geändert hat. Wir betrachten die generative Bewertung durch das, was wir als Antwortabgleich bezeichnen: Geben Sie dem Kandidatenmodell die Frage ohne die Optionen, lassen Sie es eine freie Antwort generieren und verwenden Sie dann ein modernes Sprachmodell mit der Referenzantwort, um festzustellen, ob die Antwort mit der Referenz übereinstimmt. Um die Validität verschiedener Bewertungsstrategien zu vergleichen, annotieren wir MMLU-Pro und GPQA-Diamond, um menschliche Bewertungsdaten zu erhalten, und messen die Übereinstimmung jedes Bewertungsansatzes. Wir stellen fest, dass der Antwortabgleich mit aktuellen Modellen – selbst kleinen – eine nahezu perfekte Übereinstimmung erreicht, im Bereich der Inter-Annotator-Übereinstimmung. Im Gegensatz dazu stimmen sowohl die Multiple-Choice-Bewertung als auch die Verwendung von LLM-als-Richter ohne Referenzantworten schlecht mit der menschlichen Bewertung überein. Die Verbesserung der Bewertungen durch Antwortabgleich ist nicht nur ein konzeptionelles Anliegen: Die Rangfolge mehrerer Modelle ändert sich erheblich, wenn ihre freien Antworten mit Antwortabgleich bewertet werden. Angesichts dieser Erkenntnisse diskutieren wir, wie das Bewertungsökosystem von Multiple-Choice auf Antwortabgleich umgestellt werden kann.
Bisherige Methoden zur textgesteuerten Videobearbeitung leiden häufig unter zeitlicher Inkonsistenz, Bewegungsverzerrungen und – am auffälligsten – begrenzten Domänentransformationen. Wir führen diese Einschränkungen auf eine unzureichende Modellierung der spatiotemporalen Pixelrelevanz während des Bearbeitungsprozesses zurück. Um dies zu beheben, schlagen wir STR-Match vor, einen trainingsfreien Video-Bearbeitungsalgorithmus, der visuell ansprechende und spatiotemporalkohärente Videos durch latente Optimierung erzeugt, die durch unseren neuartigen STR-Score gesteuert wird. Der Score erfasst die spatiotemporale Pixelrelevanz über benachbarte Frames hinweg, indem er 2D-räumliche Aufmerksamkeit und 1D-zeitliche Module in Text-zu-Video (T2V)-Diffusionsmodellen nutzt, ohne den Overhead rechenintensiver 3D-Aufmerksamkeitsmechanismen. In ein latentes Optimierungsframework mit einer latenten Maske integriert, erzeugt STR-Match zeitlich konsistente und visuell treue Videos, die selbst bei signifikanten Domänentransformationen eine starke Leistung beibehalten und dabei die wesentlichen visuellen Attribute der Quelle bewahren. Umfangreiche Experimente zeigen, dass STR-Match bestehende Methoden sowohl in der visuellen Qualität als auch in der spatiotemporalen Konsistenz konsequent übertrifft.