papers.description
Die autoregressive Modellierung mit langem Kontext hat die Sprachgenerierung erheblich vorangetrieben, doch bei der Videogenerierung bleibt die vollständige Nutzung erweiterter zeitlicher Kontexte eine Herausforderung. Um die Modellierung von langem Kontext in Videos zu untersuchen, führen wir Frame AutoRegressive (FAR) ein, eine robuste Baseline für die autoregressive Modellierung von Videos. Ähnlich wie Sprachmodelle kausale Abhängigkeiten zwischen Tokens lernen (d.h., Token AR), modelliert FAR zeitliche kausale Abhängigkeiten zwischen kontinuierlichen Frames und erreicht eine bessere Konvergenz als Token AR und Video-Diffusionstransformer. Aufbauend auf FAR stellen wir fest, dass die Modellierung von langem Kontext in der Bildverarbeitung aufgrund visueller Redundanz Schwierigkeiten bereitet. Das bestehende RoPE verfügt nicht über einen effektiven zeitlichen Abfall für entfernte Kontexte und extrapoliert schlecht auf lange Videosequenzen. Zudem ist das Training auf langen Videos rechenintensiv, da Vision-Tokens viel schneller wachsen als Sprach-Tokens. Um diese Probleme zu lösen, schlagen wir vor, Lokalität und langreichweitige Abhängigkeiten auszubalancieren. Wir führen FlexRoPE ein, eine Technik zur Laufzeit, die RoPE einen flexiblen zeitlichen Abfall hinzufügt und die Extrapolation auf 16x längere Vision-Kontexte ermöglicht. Darüber hinaus schlagen wir die Modellierung von kurz- und langfristigem Kontext vor, bei der ein hochauflösendes kurzfristiges Kontextfenster eine feinkörnige zeitliche Konsistenz gewährleistet, während ein unbegrenztes langfristiges Kontextfenster langreichweitige Informationen mit weniger Tokens kodiert. Mit diesem Ansatz können wir lange Videosequenzen mit einer handhabbaren Token-Kontextlänge trainieren. Wir zeigen, dass FAR sowohl bei der kurzen als auch bei der langen Videogenerierung Spitzenleistungen erzielt und eine einfache, aber effektive Baseline für die autoregressive Modellierung von Videos bietet.
Die hochauflösende Wahrnehmung visueller Details ist entscheidend für alltägliche Aufgaben. Die derzeitige Vorverarbeitung von Bilddaten ist jedoch aufgrund der quadratischen Kosten bei der Verarbeitung größerer Bilder noch auf niedrige Auflösungen (z. B. 378 x 378 Pixel) beschränkt. Wir stellen PS3 vor, das das CLIP-ähnliche Vorverarbeitungstraining für Vision auf 4K-Auflösung mit nahezu konstanten Kosten skaliert. Anstatt kontrastives Lernen auf globalen Bildrepräsentationen durchzuführen, wird PS3 durch die selektive Verarbeitung lokaler Regionen und deren Kontrastierung mit detaillierten lokalen Beschreibungen vorverarbeitet, wodurch das Lernen hochauflösender Repräsentationen mit deutlich reduziertem Rechenaufwand ermöglicht wird. Das vorverarbeitete PS3 kann sowohl das globale Bild in niedriger Auflösung kodieren als auch selektiv lokale hochauflösende Regionen basierend auf deren Salienz oder Relevanz für einen Textprompt verarbeiten. Bei der Anwendung von PS3 auf ein multimodales LLM (MLLM) verbessert das resultierende Modell, genannt VILA-HD, die hochauflösende visuelle Wahrnehmung im Vergleich zu Baselines ohne hochauflösendes Vision-Training wie AnyRes und S^2 deutlich, wobei bis zu 4,3-mal weniger Tokens verwendet werden. PS3 ermöglicht auch attraktive Skalierungseigenschaften von VILA-HD, einschließlich der kostenlosen Skalierung der Auflösung und der Skalierung der Rechenleistung zur Testzeit für eine bessere Leistung. Im Vergleich zum Stand der Technik übertrifft VILA-HD frühere MLLMs wie NVILA und Qwen2-VL in mehreren Benchmarks und erreicht eine bessere Effizienz als die neuesten Token-Pruning-Ansätze. Schließlich stellen wir fest, dass aktuelle Benchmarks keine 4K-Auflösungswahrnehmung erfordern, was uns dazu motiviert, 4KPro vorzuschlagen, einen neuen Benchmark für Bild-Fragen bei 4K-Auflösung, bei dem VILA-HD alle bisherigen MLLMs übertrifft, einschließlich einer Verbesserung von 14,5 % gegenüber GPT-4o und einer Verbesserung von 3,2 % sowie einer 2,96-fachen Beschleunigung gegenüber Qwen2-VL.
Wir schlagen einen Inferenzzeit-Skalierungsansatz für vortrainierte Flow-Modelle vor. In jüngster Zeit hat die Inferenzzeit-Skalierung bei großen Sprachmodellen (LLMs) und Diffusionsmodellen erhebliche Aufmerksamkeit erlangt, da sie die Probenqualität verbessert oder die Ausgaben besser an Benutzerpräferenzen anpasst, indem zusätzliche Berechnungen genutzt werden. Bei Diffusionsmodellen hat das Partikel-Sampling eine effizientere Skalierung ermöglicht, dank der Stochastizität in den Zwischenschritten der Entrauschung. Im Gegensatz dazu, obwohl Flow-Modelle als Alternative zu Diffusionsmodellen an Popularität gewonnen haben – sie bieten schnellere Generierung und hochwertige Ausgaben in modernsten Bild- und Video-Generierungsmodellen – können die effizienten Inferenzzeit-Skalierungsmethoden, die für Diffusionsmodelle verwendet werden, aufgrund ihres deterministischen Generierungsprozesses nicht direkt angewendet werden. Um eine effiziente Inferenzzeit-Skalierung für Flow-Modelle zu ermöglichen, schlagen wir drei Schlüsselideen vor: 1) SDE-basierte Generierung, die Partikel-Sampling in Flow-Modellen ermöglicht, 2) Interpolant-Konvertierung, die den Suchraum erweitert und die Probenvielfalt verbessert, und 3) Rollover Budget Forcing (RBF), eine adaptive Zuweisung von Rechenressourcen über Zeitschritte hinweg, um die Budgetnutzung zu maximieren. Unsere Experimente zeigen, dass die SDE-basierte Generierung, insbesondere die varianzerhaltende (VP) Interpolant-basierte Generierung, die Leistung von Partikel-Sampling-Methoden für die Inferenzzeit-Skalierung in Flow-Modellen verbessert. Darüber hinaus demonstrieren wir, dass RBF mit VP-SDE die beste Leistung erzielt und alle bisherigen Inferenzzeit-Skalierungsansätze übertrifft.
Die Halluzinationen großer multimodaler Modelle (LMMs), die Antworten liefern, die korrekt erscheinen, tatsächlich jedoch falsch sind, schränken deren Zuverlässigkeit und Anwendbarkeit ein. Diese Arbeit zielt darauf ab, das Halluzinationsproblem von LMMs im Video-Modul zu untersuchen, das im Vergleich zu statischen Modulen wie Bildern und Text dynamischer und herausfordernder ist. Ausgehend von dieser Motivation stellen wir zunächst einen umfassenden Benchmark namens HAVEN vor, der zur Bewertung von Halluzinationen von LMMs in Video-Verständnisaufgaben dient. Er basiert auf drei Dimensionen, nämlich Halluzinationsursachen, Halluzinationsaspekte und Frageformate, was zu 6.000 Fragen führt. Anschließend untersuchen wir quantitativ 7 einflussreiche Faktoren auf Halluzinationen, wie z.B. die Dauer der Videos, die Modellgrößen und die Modelllogik, durch Experimente mit 16 LMMs auf dem vorgestellten Benchmark. Darüber hinaus schlagen wir, inspiriert von aktuellen Denkmodellen wie OpenAI o1, ein Video-Denkmodell vor, um die Halluzinationen von LMMs durch überwachtes Reasoning-Fine-Tuning (SRFT) und direkte Präferenzoptimierung (TDPO) zu reduzieren – wobei SRFT die logischen Fähigkeiten verbessert und TDPO Halluzinationen im Denkprozess verringert. Umfangreiche Experimente und Analysen demonstrieren die Wirksamkeit. Bemerkenswerterweise verbessert es die Baseline um 7,65 % in der Genauigkeit bei der Halluzinationsbewertung und reduziert den Bias-Score um 4,5 %. Der Code und die Daten sind öffentlich unter https://github.com/Hongcheng-Gao/HAVEN verfügbar.
Vortrainierte Vision Foundation Models (VFMs) bieten starke visuelle Repräsentationen für eine Vielzahl von Anwendungen. In diesem Artikel trainieren wir vorherrschende VFMs kontinuierlich auf multimodale Weise weiter, sodass sie visuelle Eingaben unterschiedlicher Größe mühelos verarbeiten und visuelle Repräsentationen erzeugen können, die stärker an Sprachrepräsentationen angepasst sind, unabhängig von ihrem ursprünglichen Vortrainingsprozess. Zu diesem Zweck führen wir CoMP ein, eine sorgfältig konzipierte multimodale Vortrainingspipeline. CoMP verwendet eine Continual Rotary Position Embedding, um natives Auflösungs-Continuierliches Vortraining zu unterstützen, sowie einen Alignment Loss zwischen visuellen und textuellen Merkmalen durch Sprachprototypen, um multimodale Repräsentationen auszurichten. Durch ein dreistufiges Training erzielen unsere VFMs bemerkenswerte Verbesserungen nicht nur im multimodalen Verständnis, sondern auch in anderen nachgelagerten Aufgaben wie Klassifikation und Segmentierung. Bemerkenswerterweise erreicht CoMP-SigLIP Werte von 66,7 auf ChartQA und 75,9 auf DocVQA mit einem 0,5B LLM, während es eine Genauigkeit von 87,4 % auf ImageNet-1K und ein mIoU von 49,5 auf ADE20K unter gefrorener Chunk-Evaluierung beibehält.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs), wie OpenAI-o1 und DeepSeek-R1, haben die Wirksamkeit von Test-Time-Scaling demonstriert, bei dem erweiterte Denkprozesse die Modellleistung erheblich verbessern. Trotz dieser Fortschritte sind aktuelle Modelle durch Einschränkungen bei der Verarbeitung langer Texte und der Effizienz des Reinforcement Learning (RL)-Trainings begrenzt. Um diese Probleme zu lösen, schlagen wir einen einfachen, aber effektiven Test-Time-Scaling-Ansatz namens Multi-round Thinking vor. Diese Methode verfeinert das Modell-Denken iterativ, indem sie vorherige Antworten als Eingabe für nachfolgende Runden nutzt. Umfangreiche Experimente mit mehreren Modellen, darunter QwQ-32B und DeepSeek-R1, zeigen durchweg Leistungsverbesserungen auf verschiedenen Benchmarks wie AIME 2024, MATH-500, GPQA-diamond und LiveCodeBench. Beispielsweise verbesserte sich die Genauigkeit von QwQ-32B auf dem AIME 2024-Datensatz von 80,3 % (Runde 1) auf 82,1 % (Runde 2), während DeepSeek-R1 einen ähnlichen Anstieg von 79,7 % auf 82,0 % zeigte. Diese Ergebnisse bestätigen, dass Multi-round Thinking ein breit anwendbarer, unkomplizierter Ansatz ist, um stabile Verbesserungen der Modellleistung zu erzielen, und unterstreichen sein Potenzial für zukünftige Entwicklungen in Test-Time-Scaling-Techniken. Der Schlüssel-Prompt: {Originale Frage-Eingabe} Die vorherige Antwort des Assistenten lautet: <Antwort> {letzte Runde Antwort} </Antwort>, bitte erneut antworten.
Mit dem rasanten Fortschritt der Technologien zur künstlich generierten Inhalte (Artificial Intelligence Generated Content, AIGC) sind synthetische Bilder im Alltag immer häufiger anzutreffen, was neue Herausforderungen für die Authentizitätsbewertung und Erkennung mit sich bringt. Obwohl bestehende Methoden effektiv bei der Bewertung der Bildauthentizität und der Lokalisierung von Fälschungen sind, fehlt diesen Ansätzen oft die menschliche Interpretierbarkeit, und sie bewältigen nicht vollständig die zunehmende Komplexität synthetischer Daten. Um diese Herausforderungen zu bewältigen, stellen wir FakeVLM vor, ein spezialisiertes großes multimodales Modell, das sowohl für allgemeine synthetische Bilderkennung als auch für DeepFake-Erkennungsaufgaben entwickelt wurde. FakeVLM zeichnet sich nicht nur durch die Unterscheidung von echten und gefälschten Bildern aus, sondern bietet auch klare, natürliche Sprachbeschreibungen für Bildartefakte, was die Interpretierbarkeit verbessert. Zusätzlich präsentieren wir FakeClue, einen umfassenden Datensatz mit über 100.000 Bildern in sieben Kategorien, die mit fein abgestuften Artefakthinweisen in natürlicher Sprache annotiert sind. FakeVLM zeigt eine Leistung, die mit Expertenmodellen vergleichbar ist, während es den Bedarf an zusätzlichen Klassifikatoren eliminiert, was es zu einer robusten Lösung für die Erkennung synthetischer Daten macht. Umfangreiche Bewertungen über mehrere Datensätze hinweg bestätigen die Überlegenheit von FakeVLM sowohl bei der Authentizitätsklassifizierung als auch bei der Erklärung von Artefakten und setzen damit einen neuen Maßstab für die Erkennung synthetischer Bilder. Der Datensatz und der Code werden unter folgender Adresse veröffentlicht: https://github.com/opendatalab/FakeVLM.
Dokumenten-Frage-Antwort (Document Question Answering, DocQA) ist eine sehr verbreitete Aufgabe. Bestehende Methoden, die auf großen Sprachmodellen (Large Language Models, LLMs), großen visuell-sprachlichen Modellen (Large Vision Language Models, LVLMs) und Retrieval Augmented Generation (RAG) basieren, priorisieren oft Informationen aus einer einzigen Modalität und scheitern daran, textuelle und visuelle Hinweise effektiv zu integrieren. Diese Ansätze haben Schwierigkeiten mit komplexer multimodaler Argumentation, was ihre Leistung bei realen Dokumenten einschränkt. Wir stellen MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding) vor, ein neuartiges RAG- und Multi-Agenten-Framework, das sowohl Text als auch Bilder nutzt. Unser System setzt fünf spezialisierte Agenten ein: einen allgemeinen Agenten, einen kritischen Agenten, einen Text-Agenten, einen Bild-Agenten und einen zusammenfassenden Agenten. Diese Agenten führen eine multimodale Kontextabfrage durch und kombinieren ihre individuellen Erkenntnisse, um ein umfassenderes Verständnis des Dokumentinhalts zu erreichen. Dieser kollaborative Ansatz ermöglicht es dem System, Informationen aus textuellen und visuellen Komponenten zu synthetisieren, was zu einer verbesserten Genauigkeit bei der Beantwortung von Fragen führt. Vorläufige Experimente auf fünf Benchmarks wie MMLongBench und LongDocURL demonstrieren die Effektivität unseres MDocAgent, der im Durchschnitt eine Verbesserung von 12,1 % im Vergleich zu aktuellen State-of-the-Art-Methoden erzielt. Diese Arbeit trägt zur Entwicklung robusterer und umfassenderer DocQA-Systeme bei, die in der Lage sind, die Komplexitäten realer Dokumente mit reichhaltigen textuellen und visuellen Informationen zu bewältigen. Unsere Daten und unser Code sind unter https://github.com/aiming-lab/MDocAgent verfügbar.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Bereich des logischen Denkens gezeigt, wie der Erfolg von OpenAI-o1 und DeepSeek-R1 verdeutlicht. Die Integration von logischem Denken mit externen Suchprozessen bleibt jedoch eine Herausforderung, insbesondere bei komplexen Multi-Hop-Fragen, die mehrere Abrufschritte erfordern. Wir stellen ReSearch vor, ein neuartiges Framework, das LLMs trainiert, mit Hilfe von Verstärkungslernen logisch zu denken und dabei Suchvorgänge zu nutzen, ohne dabei auf überwachte Daten zu Denkschritten zurückzugreifen. Unser Ansatz behandelt Suchoperationen als integrale Bestandteile der Denkkette, wobei wann und wie Suchvorgänge durchgeführt werden, durch textbasiertes Denken gesteuert wird und die Suchergebnisse wiederum das weitere Denken beeinflussen. Wir trainieren ReSearch auf den Modellen Qwen2.5-7B(-Instruct) und Qwen2.5-32B(-Instruct) und führen umfangreiche Experimente durch. Obwohl unsere Modelle nur auf einem einzigen Datensatz trainiert wurden, zeigen sie eine starke Generalisierbarkeit über verschiedene Benchmarks hinweg. Analysen zeigen, dass ReSearch während des Verstärkungslernprozesses fortgeschrittene Denkfähigkeiten wie Reflexion und Selbstkorrektion natürlich hervorruft.
Composed Image Retrieval (CIR) ist eine komplexe Aufgabe, die darauf abzielt, Bilder basierend auf einer multimodalen Abfrage zu finden. Typische Trainingsdaten bestehen aus Tripeln, die ein Referenzbild, eine textuelle Beschreibung der gewünschten Änderungen und das Zielbild enthalten, deren Erstellung jedoch kostspielig und zeitaufwendig ist. Die Knappheit von CIR-Datensätzen hat zu Zero-Shot-Ansätzen geführt, die synthetische Tripel nutzen oder Vision-Language-Modelle (VLMs) mit weit verbreiteten, aus dem Web extrahierten Bild-Beschriftungs-Paaren verwenden. Diese Methoden weisen jedoch erhebliche Einschränkungen auf: synthetische Tripel leiden unter begrenztem Umfang, mangelnder Diversität und unnatürlichem Änderungstext, während Bild-Beschriftungs-Paare das gemeinsame Einbettungslernen der multimodalen Abfrage aufgrund des Fehlens von Tripeldaten behindern. Darüber hinaus haben bestehende Ansätze Schwierigkeiten mit komplexen und nuancierten Änderungstexten, die eine anspruchsvolle Fusion und ein tiefes Verständnis der visuellen und sprachlichen Modalitäten erfordern. Wir stellen CoLLM vor, ein All-in-One-Framework, das diese Einschränkungen effektiv adressiert. Unser Ansatz generiert Tripel in Echtzeit aus Bild-Beschriftungs-Paaren und ermöglicht so ein überwachtes Training ohne manuelle Annotation. Wir nutzen Large Language Models (LLMs), um gemeinsame Einbettungen von Referenzbildern und Änderungstexten zu erzeugen, was eine tiefere multimodale Fusion fördert. Zusätzlich führen wir Multi-Text CIR (MTCIR) ein, einen groß angelegten Datensatz mit 3,4 Millionen Proben, und verfeinern bestehende CIR-Benchmarks (CIRR und Fashion-IQ), um die Zuverlässigkeit der Bewertung zu erhöhen. Experimentelle Ergebnisse zeigen, dass CoLLM in mehreren CIR-Benchmarks und -Einstellungen Spitzenleistungen erzielt. MTCIR liefert wettbewerbsfähige Ergebnisse mit einer Leistungssteigerung von bis zu 15 %. Unsere verfeinerten Benchmarks bieten zuverlässigere Bewertungsmetriken für CIR-Modelle und tragen so zur Weiterentwicklung dieses wichtigen Forschungsbereichs bei.
In diesem Artikel stellen wir LSRNA vor, ein neuartiges Framework für die Erzeugung von Bildern mit höherer Auflösung (über 1K) mithilfe von Diffusionsmodellen, indem Super-Resolution direkt im latenten Raum genutzt wird. Bestehende Diffusionsmodelle haben Schwierigkeiten, über ihre Trainingsauflösungen hinaus zu skalieren, was oft zu strukturellen Verzerrungen oder Inhaltswiederholungen führt. Referenzbasierte Methoden adressieren diese Probleme, indem sie eine niedrigauflösende Referenz hochskalieren, um die Erzeugung höherer Auflösungen zu steuern. Sie stehen jedoch vor erheblichen Herausforderungen: Hochskalierung im latenten Raum führt oft zu Abweichungen in der Mannigfaltigkeit, was die Ausgabequalität beeinträchtigt. Andererseits führt Hochskalierung im RGB-Raum tendenziell zu übermäßig geglätteten Ergebnissen. Um diese Einschränkungen zu überwinden, kombiniert LSRNA Latent Space Super-Resolution (LSR) für die Mannigfaltigkeitsausrichtung und Region-wise Noise Addition (RNA) zur Verbesserung hochfrequenter Details. Unsere umfangreichen Experimente zeigen, dass die Integration von LSRNA referenzbasierte Methoden des State-of-the-Art in verschiedenen Auflösungen und Metriken übertrifft, während die entscheidende Rolle der Hochskalierung im latenten Raum für die Erhaltung von Details und Schärfe deutlich wird. Der Code ist verfügbar unter https://github.com/3587jjh/LSRNA.
Wissensentdeckung und -sammlung sind intelligenzintensive Aufgaben, die traditionell erheblichen menschlichen Aufwand erfordern, um hochwertige Ergebnisse zu gewährleisten. Aktuelle Forschungen haben Multi-Agenten-Frameworks zur Automatisierung der Generierung von Wikipedia-ähnlichen Artikeln untersucht, indem Informationen aus dem Internet abgerufen und synthetisiert werden. Diese Methoden konzentrieren sich jedoch hauptsächlich auf die reine Textgenerierung und vernachlässigen die Bedeutung von multimodalem Inhalt zur Steigerung von Informationsgehalt und Ansprechkraft. In dieser Arbeit stellen wir WikiAutoGen vor, ein neuartiges System zur automatisierten Generierung von multimodalen Wikipedia-ähnlichen Artikeln. Im Gegensatz zu früheren Ansätzen ruft WikiAutoGen relevante Bilder neben Texten ab und integriert diese, wodurch sowohl die Tiefe als auch die visuelle Attraktivität der generierten Inhalte gesteigert werden. Um die faktische Genauigkeit und Vollständigkeit weiter zu verbessern, schlagen wir einen Multi-Perspektiven-Selbstreflexionsmechanismus vor, der abgerufene Inhalte aus verschiedenen Blickwinkeln kritisch bewertet, um Zuverlässigkeit, Breite und Kohärenz zu erhöhen. Zusätzlich führen wir WikiSeek ein, einen Benchmark, der Wikipedia-Artikel mit Themen umfasst, die sowohl textuell als auch bildlich repräsentiert sind und dazu dienen, die multimodale Wissensgenerierung anspruchsvollerer Themen zu bewerten. Experimentelle Ergebnisse zeigen, dass WikiAutoGen auf unserem WikiSeek-Benchmark frühere Methoden um 8%-29% übertrifft und präzisere, kohärentere und visuell ansprechendere Wikipedia-ähnliche Artikel erzeugt. Einige unserer generierten Beispiele zeigen wir unter https://wikiautogen.github.io/.
Aktuelle generative Basismodelle für Videos konzentrieren sich hauptsächlich auf Text-zu-Video-Aufgaben und bieten nur begrenzte Kontrolle für die fein abgestimmte Erstellung von Videoinhalten. Obwohl Adapter-basierte Ansätze (z. B. ControlNet) zusätzliche Steuerungsmöglichkeiten mit minimalem Fine-Tuning ermöglichen, stoßen sie auf Herausforderungen bei der Integration mehrerer Bedingungen, darunter: Konflikte zwischen unabhängig trainierten Adaptern, Parameterredundanz, die zu erhöhten Rechenkosten führt, und suboptimale Leistung im Vergleich zum vollständigen Fine-Tuning. Um diese Herausforderungen zu bewältigen, stellen wir FullDiT vor, ein einheitliches Basismodell für die Videogenerierung, das mehrere Bedingungen nahtlos über vereinheitlichte Full-Attention-Mechanismen integriert. Durch die Fusion von Multi-Task-Bedingungen in eine einheitliche Sequenzdarstellung und die Nutzung der Langzeitkontext-Lernfähigkeit der vollständigen Selbstaufmerksamkeit, um die Dynamik der Bedingungen zu erfassen, reduziert FullDiT den Parameter-Overhead, vermeidet Konflikte zwischen Bedingungen und zeigt Skalierbarkeit und emergente Fähigkeiten. Wir führen außerdem FullBench für die Bewertung der Multi-Task-Videogenerierung ein. Experimente zeigen, dass FullDiT state-of-the-art Ergebnisse erzielt und die Wirksamkeit der Full-Attention bei komplexer Multi-Task-Videogenerierung unterstreicht.
Die Erstellung eines physischen digitalen Zwillings eines realen Objekts birgt enormes Potenzial in den Bereichen Robotik, Inhaltserstellung und XR. In diesem Artikel stellen wir PhysTwin vor, ein neuartiges Framework, das spärliche Videos von dynamischen Objekten unter Interaktion nutzt, um eine fotorealistische und physikalisch realistische, in Echtzeit interaktive virtuelle Replik zu erzeugen. Unser Ansatz konzentriert sich auf zwei Schlüsselkomponenten: (1) eine physikinformierte Darstellung, die Feder-Masse-Modelle für realistische physikalische Simulationen, generative Formmodelle für die Geometrie und Gaußsche Splats für das Rendering kombiniert; und (2) ein neuartiges, optimierungsbasiertes inverses Modellierungsframework in mehreren Stufen, das die vollständige Geometrie rekonstruiert, dichte physikalische Eigenschaften ableitet und das realistische Erscheinungsbild aus Videos nachbildet. Unsere Methode integriert ein inverses Physikframework mit visuellen Wahrnehmungshinweisen, was eine hochauflösende Rekonstruktion selbst bei teilweise verdeckten und eingeschränkten Blickwinkeln ermöglicht. PhysTwin unterstützt die Modellierung verschiedener deformierbarer Objekte, darunter Seile, Stofftiere, Stoff und Lieferpakete. Experimente zeigen, dass PhysTwin konkurrierende Methoden in den Bereichen Rekonstruktion, Rendering, Zukunftsprognose und Simulation unter neuen Interaktionen übertrifft. Wir demonstrieren weiterhin seine Anwendungen in der interaktiven Echtzeitsimulation und der modellbasierten robotischen Bewegungsplanung.
Die Erzeugung hochwertiger 360-Grad-Ansichten von menschlichen Köpfen aus Einzelbildern ist entscheidend für die Entwicklung zugänglicher immersiver Telepräsenzanwendungen und skalierbarer personalisierter Inhaltserstellung. Während modernste Methoden zur vollständigen Kopfgenerierung auf die Modellierung realistischer menschlicher Köpfe beschränkt sind, können die neuesten diffusionsbasierten Ansätze zur stil-omniszienten Kopfsynthese lediglich Frontalansichten erzeugen und haben Schwierigkeiten mit der Ansichtskonsistenz, was ihre Umwandlung in echte 3D-Modelle für das Rendering aus beliebigen Blickwinkeln verhindert. Wir stellen einen neuartigen Ansatz vor, der vollständig konsistente 360-Grad-Kopfansichten erzeugt und dabei menschliche, stilisierte und anthropomorphe Formen sowie Accessoires wie Brillen und Hüte berücksichtigt. Unser Verfahren baut auf dem DiffPortrait3D-Framework auf, integriert ein spezielles ControlNet für die Detailgenerierung des Hinterkopfes und ein duales Erscheinungsmodul, um eine globale Konsistenz zwischen Vorder- und Rückseite zu gewährleisten. Durch das Training auf kontinuierlichen Ansichtssequenzen und die Integration eines Referenzbildes für die Rückseite erreicht unser Ansatz eine robuste, lokal kontinuierliche Ansichtssynthese. Unser Modell kann verwendet werden, um hochwertige neuronale Strahlungsfelder (NeRFs) für das Echtzeit-Rendering aus freier Perspektive zu erzeugen und übertrifft dabei state-of-the-art Methoden in der Objektsynthese und 360-Grad-Kopfgenerierung für sehr anspruchsvolle Eingangsporträts.
Die Szenengenerierung mit 3D-Assets stellt eine komplexe Herausforderung dar, die sowohl ein hochrangiges semantisches Verständnis als auch eine detaillierte geometrische Analyse erfordert. Während Multimodale Große Sprachmodelle (MLLMs) bei semantischen Aufgaben hervorragende Leistungen erbringen, wird ihre Anwendung auf die 3D-Szenengenerierung durch ihre begrenzte Verankerung in der 3D-Geometrie behindert. In diesem Artikel untersuchen wir, wie MLLMs am besten für eine Objektplatzierungsaufgabe eingesetzt werden können. Zu diesem Zweck stellen wir ein neuartiges Framework, FirePlace, vor, das bestehende MLLMs in (1) der 3D-geometrischen Analyse und der Extraktion relevanter geometrischer Details aus der 3D-Szene, (2) der Konstruktion und Lösung geometrischer Randbedingungen auf der extrahierten detaillierten Geometrie und (3) der Auswahl endgültiger Platzierungen, die dem gesunden Menschenverstand entsprechen, anwendet. Durch die Kombination von geometrischer Analyse mit dem realweltlichen Verständnis von MLLMs kann unsere Methode Objektplatzierungen vorschlagen, die sowohl geometrische Randbedingungen als auch hochrangige semantische Überlegungen des gesunden Menschenverstands erfüllen. Unsere Experimente zeigen, dass diese Fähigkeiten es unserer Methode ermöglichen, Objekte effektiver in komplexen Szenen mit anspruchsvoller Geometrie zu platzieren und dabei die Qualität bisheriger Arbeiten zu übertreffen.
Feintuning ermöglicht es großen Sprachmodellen (LLMs), sich an spezifische Domänen anzupassen, untergräbt jedoch oft deren zuvor etablierte Sicherheitsausrichtung. Um die Verschlechterung der Modellsicherheit während des Feintunings zu mildern, führen wir LookAhead Tuning ein, das zwei einfache, ressourcenschonende und effektive datengetriebene Methoden umfasst, die Trainingsdaten durch das Vorschauen von partiellen Antwortpräfixen modifizieren. Beide Methoden zielen darauf ab, die inhärenten Sicherheitsmechanismen des Modells zu bewahren, indem sie Störungen der anfänglichen Tokenverteilungen minimieren. Umfassende Experimente zeigen, dass LookAhead Tuning die Modellsicherheit effektiv aufrechterhält, ohne die robuste Leistung bei nachgelagerten Aufgaben zu beeinträchtigen. Unsere Ergebnisse positionieren LookAhead Tuning als eine zuverlässige und effiziente Lösung für die sichere und effektive Anpassung von LLMs. Der Code ist unter https://github.com/zjunlp/LookAheadTuning verfügbar.
Flow Matching im kontinuierlichen Simplex hat sich als vielversprechende Strategie für das Design von DNA-Sequenzen erwiesen, stößt jedoch bei der Skalierung auf höhere Simplex-Dimensionen, die für die Peptid- und Proteingenerierung erforderlich sind, an Grenzen. Wir stellen Gumbel-Softmax Flow und Score Matching vor, ein generatives Framework auf dem Simplex, das auf einem neuartigen Gumbel-Softmax-Interpolanten mit einer zeitabhängigen Temperatur basiert. Mit diesem Interpolanten führen wir Gumbel-Softmax Flow Matching ein, indem wir ein parametrisiertes Geschwindigkeitsfeld ableiten, das von glatten kategorialen Verteilungen zu Verteilungen transportiert, die an einem einzelnen Scheitelpunkt des Simplex konzentriert sind. Alternativ präsentieren wir Gumbel-Softmax Score Matching, das lernt, den Gradienten der Wahrscheinlichkeitsdichte zu regressieren. Unser Framework ermöglicht eine hochwertige, vielfältige Generierung und skaliert effizient auf höherdimensionale Simplizes. Um ein trainingsfreies Guidance zu ermöglichen, schlagen wir Straight-Through Guided Flows (STGFlow) vor, eine klassifikatorbasierte Guidance-Methode, die Straight-Through-Schätzer nutzt, um das unbedingte Geschwindigkeitsfeld in Richtung optimaler Scheitelpunkte des Simplex zu lenken. STGFlow ermöglicht eine effiziente Inferenzzeit-Guidance mit auf sauberen Sequenzen vortrainierten Klassifikatoren und kann mit jeder diskreten Flow-Methode verwendet werden. Zusammen bilden diese Komponenten ein robustes Framework für die kontrollierbare de novo Sequenzgenerierung. Wir demonstrieren state-of-the-art Leistungen im konditionalen Design von DNA-Promotoren, der sequenzbasierten Proteingenerierung und dem Design von zielbindenden Peptiden für die Behandlung seltener Krankheiten.
Moderne LLMs haben Schwierigkeiten mit effizienten Aktualisierungen, da jede neue Version eines vortrainierten Modells die Wiederholung kostspieliger Alignment-Prozesse erfordert. Diese Herausforderung gilt auch für domänen- oder sprachspezifische Modelle, bei denen das Fine-Tuning auf spezialisierten Daten für jede neue Basis-Modellversion erneut durchgeführt werden muss. In diesem Artikel untersuchen wir die Übertragung von Fine-Tuning-Aktualisierungen zwischen Modellversionen. Konkret leiten wir den Diff-Vektor aus einer Quellmodellversion ab, der die Gewichtsänderungen durch das Fine-Tuning darstellt, und wenden ihn auf das Basismodell einer anderen Zielversion an. Durch empirische Auswertungen verschiedener Open-Weight-Modellversionen zeigen wir, dass die Übertragung von Diff-Vektoren das Ziel-Basismodell erheblich verbessern kann, oft mit einer Leistung, die der des feinabgestimmten Gegenstücks entspricht. Beispielsweise führt die Wiederverwendung der Fine-Tuning-Aktualisierungen von Llama 3.0 8B zu einer absoluten Genauigkeitssteigerung von 10,7 % auf GPQA gegenüber dem Basis-Modell Llama 3.1 8B ohne zusätzliches Training, womit Llama 3.1 8B Instruct übertroffen wird. In einem mehrsprachigen Modellentwicklungssetting zeigen wir, dass dieser Ansatz die Leistung bei Aufgaben in der Zielsprache ohne erneutes Training erheblich steigern kann, mit absoluten Verbesserungen von 4,7 % und 15,5 % auf Global MMLU für Malagasy bzw. Türkisch im Vergleich zu Llama 3.1 8B Instruct. Unsere kontrollierten Experimente zeigen, dass die Fine-Tuning-Übertragung am effektivsten ist, wenn die Quell- und Zielmodelle im Parameterraum linear verbunden sind. Zudem demonstrieren wir, dass die Fine-Tuning-Übertragung einen stärkeren und recheneffizienteren Ausgangspunkt für weiteres Fine-Tuning bietet. Schließlich schlagen wir einen iterativen Ansatz des Recyclings gefolgt von Fine-Tuning für die kontinuierliche Modellentwicklung vor, der sowohl Effizienz als auch Effektivität verbessert. Unsere Ergebnisse deuten darauf hin, dass die Fine-Tuning-Übertragung eine praktikable Strategie ist, um Trainingskosten zu reduzieren und gleichzeitig die Modellleistung aufrechtzuerhalten.
Wir präsentieren eine neuartige Methode zur Rekonstruktion personalisierter 3D-Menschavatare mit realistischer Animation aus nur wenigen Bildern. Aufgrund der großen Variationen in Körperformen, Posen und Kleidungstypen benötigen bestehende Methoden meist Stunden der pro-Person-Optimierung während der Inferenz, was ihre praktische Anwendbarkeit einschränkt. Im Gegensatz dazu lernen wir ein universelles Prior aus über tausend bekleideten Menschen, um eine sofortige Feedforward-Generierung und Zero-Shot-Generalisierung zu erreichen. Konkret inferieren wir anstelle der Verwendung gemeinsamer Skinning-Gewichte für den Avatar gemeinsam die personalisierte Avatarform, Skinning-Gewichte und posenabhängige Deformationen, was die geometrische Treue insgesamt verbessert und Deformationsartefakte reduziert. Darüber hinaus entwerfen wir einen 3D-Kanonisierungsprozess, um Pose-Variationen zu normalisieren und die gekoppelte Unschärfe zwischen kanonischen Formen und Skinning-Gewichten aufzulösen, was pixelgenaue Ausgangsbedingungen erzeugt und die Rekonstruktion feiner geometrischer Details unterstützt. Anschließend schlagen wir eine Multi-Frame-Feature-Aggregation vor, um Artefakte, die während der Kanonisierung eingeführt werden, robust zu reduzieren und einen plausiblen Avatar zu fusionieren, der personenspezifische Identitäten bewahrt. Schließlich trainieren wir das Modell in einem End-to-End-Framework auf einem groß angelegten Aufnahmedatensatz, der diverse menschliche Probanden mit hochwertigen 3D-Scans kombiniert. Umfangreiche Experimente zeigen, dass unsere Methode authentischere Rekonstruktionen und Animationen erzeugt als der Stand der Technik und direkt auf Eingaben von zufällig aufgenommenen Handyfotos verallgemeinert werden kann. Projektseite und Code sind verfügbar unter https://github.com/rongakowang/FRESA.
Große Sprachmodelle (LLMs) mit langen Kontextfenstern ermöglichen leistungsstarke Anwendungen, gehen jedoch mit einem hohen Speicherverbrauch einher, um die Key- und Value-Zustände (KV-Cache) zu speichern. Aktuelle Studien haben versucht, den KV-Cache aus mehreren Schichten in gemeinsame Darstellungen zu integrieren, doch diese Ansätze erfordern entweder kostspieliges Vortraining oder basieren auf der Annahme einer hohen Kosinus-Ähnlichkeit pro Token über die Schichten hinweg, die in der Praxis im Allgemeinen nicht zutrifft. Wir stellen fest, dass die dominanten Singulärvektoren über mehrere Schichten des KV-Cache bemerkenswert gut ausgerichtet sind. Unter Ausnutzung dieser Erkenntnis schlagen wir xKV vor, eine einfache Methode nach dem Training, die die Singulärwertzerlegung (SVD) auf den KV-Cache gruppierter Schichten anwendet. xKV konsolidiert den KV-Cache mehrerer Schichten in einen gemeinsamen niedrigrangigen Unterraum und reduziert dadurch die Größe des KV-Cache erheblich. Durch umfangreiche Bewertungen auf dem RULER-Langkontext-Benchmark mit weit verbreiteten LLMs (z.B. Llama-3.1 und Qwen2.5) erreicht xKV bis zu 6,8x höhere Kompressionsraten als die modernste Inter-Schicht-Technik und verbessert gleichzeitig die Genauigkeit um 2,7%. Darüber hinaus ist xKV kompatibel mit der aufkommenden Multi-Head Latent Attention (MLA) (z.B. DeepSeek-Coder-V2) und erzielt eine bemerkenswerte 3x Kompressionsrate bei Codierungsaufgaben ohne Leistungseinbußen. Diese Ergebnisse unterstreichen die starke Fähigkeit und Vielseitigkeit von xKV bei der Bewältigung von Speicherengpässen für die Langkontext-Inferenz von LLMs. Unser Code ist öffentlich verfügbar unter: https://github.com/abdelfattah-lab/xKV.
Die Erkennung und Verfolgung mehrerer unbemannter Luftfahrzeuge (UAVs) in thermischen Infrarotvideos ist aufgrund von geringem Kontrast, Umgebungsrauschen und kleinen Zielgrößen von Natur aus eine Herausforderung. Dieser Artikel bietet einen direkten Ansatz zur Bewältigung der Multi-UAV-Verfolgung in thermischen Infrarotvideos, der aktuelle Fortschritte in der Erkennung und Verfolgung nutzt. Anstatt sich auf YOLOv5 mit der DeepSORT-Pipeline zu verlassen, präsentieren wir ein Verfolgungsframework, das auf YOLOv12 und BoT-SORT basiert und durch maßgeschneiderte Trainings- und Inferenzstrategien verbessert wird. Wir bewerten unseren Ansatz anhand der Metriken der 4. Anti-UAV-Challenge und demonstrieren wettbewerbsfähige Leistungen. Insbesondere erzielen wir starke Ergebnisse, ohne Kontrastverstärkung oder zeitliche Informationsfusion zur Anreicherung von UAV-Merkmalen zu verwenden, was unseren Ansatz als „starke Baseline“ für die Multi-UAV-Verfolgungsaufgabe hervorhebt. Wir liefern Implementierungsdetails, eine detaillierte experimentelle Analyse und eine Diskussion potenzieller Verbesserungen. Der Code ist verfügbar unter https://github.com/wish44165/YOLOv12-BoT-SORT-ReID.
Verankerte Entscheidungsfindung ist grundlegend für KI-Agenten, die in realen Umgebungen operieren. Obwohl visuelle Sprachmodelle (VLMs) diese Fähigkeit vorangetrieben haben, kämpfen sie immer noch mit komplexen Entscheidungen, insbesondere in menschenzentrierten Situationen, die ein tiefes Verständnis menschlicher Bedürfnisse und Werte erfordern. In dieser Studie evaluieren wir systematisch Open-Source-VLMs anhand multimodaler, menschenzentrierter Entscheidungsaufgaben. Wir stellen fest, dass große Sprachmodelle (LLMs), die nur textuelle Beschreibungen erhalten, unerwartet ihre VLM-Pendants ähnlicher Größe, die tatsächliche Bilder verarbeiten, übertreffen. Dies deutet darauf hin, dass visuelle Ausrichtung die Fähigkeiten von VLMs beeinträchtigen könnte. Um diese Herausforderung zu bewältigen, schlagen wir einen neuartigen textbasierten Trainingsansatz mit synthetisierten Textdaten vor. Diese Methode stärkt die Sprachkomponenten von VLMs und überträgt die erlernten Fähigkeiten auf multimodale Inferenz, wodurch der Bedarf an teuren Bild-Text-Paarungen entfällt. Darüber hinaus zeigen wir, dass VLMs durch Selbstverbesserung erhebliche Leistungssteigerungen erzielen können, indem sie Trainingsdaten verwenden, die von ihren LLM-Pendants generiert werden, anstatt sich auf größere Lehrermodelle wie GPT-4 zu verlassen. Unsere Ergebnisse etablieren einen effizienteren und skalierbaren Ansatz zur Verbesserung der menschenzentrierten Entscheidungsfähigkeiten von VLMs und eröffnen neue Wege zur Optimierung von VLMs durch Selbstverbesserungsmechanismen.
Fortschritte bei Foundation-Modellen für die Erdbeobachtung (EO) haben das Potenzial großer Satellitendaten freigesetzt, um generische Repräsentationen aus dem Weltraum zu lernen, was einer Vielzahl von nachgelagerten Anwendungen zugutekommt, die für unseren Planeten von entscheidender Bedeutung sind. Die meisten bestehenden Bemühungen beschränken sich jedoch auf feste Spektralsensoren, konzentrieren sich ausschließlich auf die Erdoberfläche und übersehen wertvolle Metadaten, die über die Bilddaten hinausgehen. In dieser Arbeit machen wir einen Schritt in Richtung der nächsten Generation von EO-Foundation-Modellen mit drei Schlüsselkomponenten: 1) Copernicus-Pretrain, ein umfangreicher Pretraining-Datensatz, der 18,7 Millionen ausgerichtete Bilder aller wichtigen Copernicus-Sentinel-Missionen integriert, die von der Erdoberfläche bis zur Atmosphäre reichen; 2) Copernicus-FM, ein einheitliches Foundation-Modell, das in der Lage ist, jede spektrale oder nicht-spektrale Sensormodalität mithilfe erweiterter dynamischer Hypernetzwerke und flexibler Metadatenkodierung zu verarbeiten; und 3) Copernicus-Bench, ein systematischer Evaluationsbenchmark mit 15 hierarchischen nachgelagerten Aufgaben, die von der Vorverarbeitung bis zu spezialisierten Anwendungen für jede Sentinel-Mission reichen. Unser Datensatz, Modell und Benchmark verbessern die Skalierbarkeit, Vielseitigkeit und multimodale Anpassungsfähigkeit von EO-Foundation-Modellen erheblich und schaffen gleichzeitig neue Möglichkeiten, die Erdbeobachtung mit der Wetter- und Klimaforschung zu verbinden. Codes, Datensätze und Modelle sind unter https://github.com/zhu-xlab/Copernicus-FM verfügbar.
Das Verständnis menschlichen Verhaltens erfordert die Messung von Verhaltensaktionen. Aufgrund seiner Komplexität lässt sich Verhalten am besten auf eine reichhaltige, semantische Struktur wie Sprache abbilden. Die jüngste Entwicklung multimodaler großer Sprachmodelle (MLLMs) stellt einen vielversprechenden Kandidaten für eine Vielzahl von Aufgaben im Bereich des Aktionsverständnisses dar. In dieser Arbeit konzentrieren wir uns darauf, MLLMs zu evaluieren und anschließend zu verbessern, um Aktionserkennung durchzuführen. Wir reformulieren EPIC-KITCHENS-100, einen der größten und anspruchsvollsten egozentrischen Aktionsdatensätze, in die Form von Video Multiple Question Answering (EPIC-KITCHENS-100-MQA). Wir zeigen, dass führende MLLMs Schwierigkeiten haben, die korrekten Aktionen zu erkennen, wenn wir schwierige falsche Antworten als Ablenker auswählen. Wir schlagen eine Reihe von Methoden vor, die die Fähigkeit der MLLMs zur Aktionserkennung erheblich verbessern und state-of-the-art Ergebnisse sowohl auf dem EPIC-KITCHENS-100-Validierungssatz erzielen als auch GPT-4o um 21 Punkte in der Genauigkeit auf EPIC-KITCHENS-100-MQA übertreffen. Schließlich zeigen wir Verbesserungen auf anderen aktionsbezogenen Video-Benchmarks wie EgoSchema, PerceptionTest, LongVideoBench, VideoMME und MVBench, was darauf hindeutet, dass MLLMs ein vielversprechender Weg für komplexe Aktionsaufgaben sind. Code und Modelle sind verfügbar unter: https://github.com/AdaptiveMotorControlLab/LLaVAction.
Wir stellen Any6D vor, ein modellfreies Framework für die 6D-Posenschätzung von Objekten, das nur ein einzelnes RGB-D-Ankerbild benötigt, um sowohl die 6D-Position als auch die Größe unbekannter Objekte in neuen Szenen zu schätzen. Im Gegensatz zu bestehenden Methoden, die auf texturierten 3D-Modellen oder mehreren Blickwinkeln basieren, nutzt Any6D einen gemeinsamen Objektausrichtungsprozess, um die 2D-3D-Ausrichtung und die metrische Skalenschätzung zu verbessern und so die Genauigkeit der Posenschätzung zu erhöhen. Unser Ansatz integriert eine Render-and-Compare-Strategie, um Posenschätzungen zu generieren und zu verfeinern, was eine robuste Leistung in Szenarien mit Verdeckungen, nicht überlappenden Ansichten, unterschiedlichen Lichtverhältnissen und großen umgebungsbedingten Variationen ermöglicht. Wir evaluieren unsere Methode anhand von fünf anspruchsvollen Datensätzen: REAL275, Toyota-Light, HO3D, YCBINEOAT und LM-O, und zeigen ihre Wirksamkeit, indem sie state-of-the-art Methoden für die Posenschätzung neuartiger Objekte deutlich übertrifft. Projektseite: https://taeyeop.com/any6d
Vision-Language-Modelle (VLMs) zeigen großes Potenzial für das Verständnis von 3D-Szenen, werden jedoch hauptsächlich in Innenräumen oder im Bereich des autonomen Fahrens eingesetzt, wobei der Fokus auf Low-Level-Aufgaben wie der Segmentierung liegt. Diese Arbeit erweitert ihren Einsatz auf städtische Umgebungen, indem 3D-Rekonstruktionen aus Multi-View-Luftbildern genutzt werden. Wir präsentieren OpenCity3D, einen Ansatz, der High-Level-Aufgaben wie die Schätzung der Bevölkerungsdichte, die Klassifizierung des Gebäudealters, die Vorhersage von Immobilienpreisen, die Bewertung der Kriminalitätsrate und die Einschätzung der Lärmbelastung adressiert. Unsere Ergebnisse unterstreichen die beeindruckenden Zero-Shot- und Few-Shot-Fähigkeiten von OpenCity3D und zeigen dessen Anpassungsfähigkeit an neue Kontexte. Diese Forschung etabliert ein neues Paradigma für sprachgestützte urbane Analysen und ermöglicht Anwendungen in den Bereichen Planung, Politik und Umweltüberwachung. Besuchen Sie unsere Projektseite: opencity3d.github.io.
KI-Modelle haben in den letzten Jahren bedeutende Fortschritte in ihrer Fähigkeit gemacht, reale Bilder zu beschreiben und Fragen dazu zu beantworten. Sie haben auch Fortschritte in der Fähigkeit erzielt, in Echtzeit mit Benutzern über Audioeingaben zu kommunizieren. Dies wirft die Frage auf: Haben wir den Punkt erreicht, an dem KI-Modelle, die mit einer Kamera und einem Mikrofon verbunden sind, in Echtzeit mit Benutzern über Szenen und Ereignisse sprechen können, die sich live vor der Kamera abspielen? Dies ist ein langjähriges Ziel in der KI und eine Voraussetzung dafür, dass KI-Assistenten und humanoide Roboter in alltäglichen Situationen mit Menschen interagieren können. In dieser Arbeit stellen wir einen neuen Datensatz und Benchmark vor, das Qualcomm Interactive Video Dataset (IVD), mit dem wir bewerten können, inwieweit bestehende Modelle diese Fähigkeiten unterstützen können und in welchem Umfang diese Fähigkeiten durch Feinabstimmung vermittelt werden können. Der Datensatz basiert auf einem einfachen Frage-Antwort-Setup, bei dem Benutzer Fragen stellen, die das System in Echtzeit basierend auf der Kamera- und Audioeingabe beantworten muss. Wir zeigen, dass bestehende Modelle bei dieser Aufgabe weit hinter der menschlichen Leistung zurückbleiben, und wir identifizieren die Hauptursachen für diese Leistungslücke. Allerdings zeigen wir auch, dass für viele der erforderlichen Wahrnehmungsfähigkeiten die Feinabstimmung mit dieser Art von Daten diese Lücke erheblich verringern kann.
Räumlich-zeitliches Denken ist entscheidend für das Verständnis realer Umgebungen in verschiedenen Bereichen, wie z.B. autonomes Fahren und Sportanalysen. Jüngste Fortschritte haben die räumliche Denkfähigkeit von Vision-Language-Modellen (VLMs) durch die Einführung groß angelegter Daten verbessert, doch diese Modelle haben immer noch Schwierigkeiten, kinematische Elemente wie zurückgelegte Distanz und Geschwindigkeit von bewegten Objekten zu analysieren. Um diese Lücke zu schließen, erstellen wir einen Datensatz und ein Benchmark für räumlich-zeitliches Denken, das kinematische Instruktionsoptimierung beinhaltet, genannt STKit und STKit-Bench. Diese bestehen aus realen Videos mit 3D-Annotationen, die die Bewegungsdynamik von Objekten detailliert beschreiben: zurückgelegte Distanz, Geschwindigkeit, Bewegungsrichtung, Distanzvergleiche zwischen Objekten und relative Bewegungsrichtung. Um die Konstruktion solcher Daten auf Videos ohne 3D-Labels zu skalieren, schlagen wir eine automatische Pipeline vor, die Pseudo-Labels mittels 4D-Rekonstruktion in realem Maßstab generiert. Mit unseren kinematischen Instruktionsoptimierungsdaten für räumlich-zeitliches Denken präsentieren wir ST-VLM, ein VLM, das für räumlich-zeitliches Denken optimiert ist und hervorragende Leistungen auf STKit-Bench zeigt. Darüber hinaus demonstrieren wir, dass ST-VLM robust über verschiedene Domänen und Aufgaben hinweg generalisiert und Baselines auf anderen räumlich-zeitlichen Benchmarks (z.B. ActivityNet, TVQA+) übertrifft. Schließlich ermöglicht ST-VLM durch die Integration von gelerntem räumlich-zeitlichem Denken mit bestehenden Fähigkeiten komplexe mehrstufige Schlussfolgerungen. Projektseite: https://ikodoh.github.io/ST-VLM.
Die Verwendung großer Lehrermodelle zur Anleitung des Trainings kleinerer Schülermodelle hat sich zum vorherrschenden Paradigma für effizientes und effektives Lernen entwickelt. Allerdings stellen Vokabularunterschiede zwischen Lehrer- und Schülersprachmodellen erhebliche Herausforderungen in der Sprachmodellierung dar, was zu divergenten Token-Sequenzen und Ausgabeverteilungen führt. Um diese Einschränkungen zu überwinden, schlagen wir Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM) vor, einen neuartigen Ansatz, der die durch Vokabularunterschiede verursachte Lücke durch zwei zentrale Methoden überbrückt: (1) Token-level Lexical Alignment, das Token-Sequenzen über unterschiedliche Vokabulare hinweg ausrichtet, und (2) Teacher Guided Loss, der den Verlust des Lehrermodells nutzt, um das effektive Training des Schülermodells zu steuern. Wir demonstrieren die Wirksamkeit dieses Ansatzes in der Sprachmodellierung mit einem 1B-Schülermodell unter Verwendung verschiedener 7B-Lehrermodelle mit unterschiedlichen Vokabularen. Bemerkenswert ist, dass VocAgnoLM mit Qwen2.5-Math-Instruct, einem Lehrermodell, das nur etwa 6 % seines Vokabulars mit TinyLlama teilt, eine Leistungssteigerung von 46 % im Vergleich zu naivem fortlaufendem Vortraining erzielt. Darüber hinaus zeigen wir, dass VocAgnoLM konsequent von stärkeren Lehrermodellen profitiert und somit eine robuste Lösung für Vokabularunterschiede in der Sprachmodellierung bietet.
Während Dynamische Faltung (DY-Conv) vielversprechende Leistungen gezeigt hat, indem sie die adaptive Gewichtsauswahl durch mehrere parallele Gewichte in Kombination mit einem Aufmerksamkeitsmechanismus ermöglicht, neigt die Frequenzantwort dieser Gewichte dazu, eine hohe Ähnlichkeit aufzuweisen, was zu hohen Parameterkosten, aber begrenzter Anpassungsfähigkeit führt. In dieser Arbeit stellen wir Frequenzdynamische Faltung (FDConv) vor, einen neuartigen Ansatz, der diese Einschränkungen durch das Lernen eines festen Parameterbudgets im Fourier-Bereich mildert. FDConv teilt dieses Budget in frequenzbasierte Gruppen mit disjunkten Fourier-Indizes auf, wodurch die Konstruktion von frequenzdiversen Gewichten ohne Erhöhung der Parameterkosten ermöglicht wird. Um die Anpassungsfähigkeit weiter zu verbessern, schlagen wir Kernel-Spatial-Modulation (KSM) und Frequency-Band-Modulation (FBM) vor. KSM passt die Frequenzantwort jedes Filters auf der räumlichen Ebene dynamisch an, während FBM die Gewichte im Frequenzbereich in verschiedene Frequenzbänder zerlegt und sie basierend auf dem lokalen Inhalt dynamisch moduliert. Umfangreiche Experimente zur Objekterkennung, Segmentierung und Klassifizierung bestätigen die Wirksamkeit von FDConv. Wir zeigen, dass FDConv, wenn es auf ResNet-50 angewendet wird, eine überlegene Leistung mit einem moderaten Anstieg von +3,6M Parametern erzielt und dabei frühere Methoden übertrifft, die erhebliche Erhöhungen der Parameterbudgets erfordern (z.B. CondConv +90M, KW +76,5M). Darüber hinaus integriert sich FDConv nahtlos in eine Vielzahl von Architekturen, einschließlich ConvNeXt und Swin-Transformer, und bietet eine flexible und effiziente Lösung für moderne Vision-Aufgaben. Der Code ist öffentlich unter https://github.com/Linwei-Chen/FDConv verfügbar.
Wir schlagen eine trainingsfreie Methode für die offene Vokabel-Semantiksegmentierung unter Verwendung von Vision-and-Language-Modellen (VLMs) vor. Unser Ansatz verbessert die initialen Vorhersagen pro Patch von VLMs durch Label-Propagation, die Vorhersagen durch die Einbeziehung von Patch-zu-Patch-Beziehungen gemeinsam optimiert. Da VLMs primär für die cross-modale Ausrichtung und nicht für die intra-modale Ähnlichkeit optimiert sind, verwenden wir ein Vision-Modell (VM), das diese Beziehungen besser erfassen kann. Wir adressieren die Auflösungsbeschränkungen, die bei patch-basierten Encodern inhärent sind, indem wir Label-Propagation auf Pixel-Ebene als Verfeinerungsschritt anwenden, was die Segmentierungsgenauigkeit nahe Klassenbegrenzungen erheblich verbessert. Unsere Methode, genannt LPOSS+, führt die Inferenz über das gesamte Bild durch, vermeidet fensterbasierte Verarbeitung und erfasst dadurch kontextuelle Interaktionen über das gesamte Bild hinweg. LPOSS+ erreicht state-of-the-art Leistung unter trainingsfreien Methoden über eine Vielzahl von Datensätzen hinweg. Code: https://github.com/vladan-stojnic/LPOSS
Das Verständnis der geometrischen und semantischen Eigenschaften einer Szene ist entscheidend für die autonome Navigation und stellt insbesondere im Fall der Navigation von unbemannten Luftfahrzeugen (UAV) eine große Herausforderung dar. Solche Informationen können durch die Schätzung von Tiefen- und semantischen Segmentierungskarten der Umgebung gewonnen werden. Für deren praktische Anwendung in der autonomen Navigation muss dieser Prozess so nahe wie möglich in Echtzeit durchgeführt werden. In diesem Beitrag nutzen wir monokulare Kameras auf Flugrobotern, um Tiefen- und semantische Karten in unstrukturierten Umgebungen in niedriger Höhe vorherzusagen. Wir schlagen eine gemeinsame Deep-Learning-Architektur vor, die beide Aufgaben präzise und schnell ausführen kann, und validieren ihre Wirksamkeit anhand der Benchmark-Datensätze MidAir und Aeroscapes. Unsere gemeinsame Architektur erweist sich als wettbewerbsfähig oder überlegen gegenüber anderen Einzel- und Kombinationsarchitekturmethoden, während sie ihre Aufgabe schnell ausführt und dabei 20,2 FPS auf einer einzelnen NVIDIA Quadro P5000 GPU vorhersagt. Zudem hat sie einen geringen Speicherbedarf. Alle Codes für das Training und die Vorhersage sind unter folgendem Link verfügbar: https://github.com/Malga-Vision/Co-SemDepth