papers.description
Die Leistung von Large Language Models (LLMs) wird grundlegend durch die während der Inferenz bereitgestellten kontextuellen Informationen bestimmt. Diese Übersicht führt Context Engineering ein, eine formale Disziplin, die über einfaches Prompt-Design hinausgeht und die systematische Optimierung von Informationsnutzlasten für LLMs umfasst. Wir präsentieren eine umfassende Taxonomie, die Context Engineering in seine grundlegenden Komponenten und die anspruchsvollen Implementierungen, die sie in intelligente Systeme integrieren, zerlegt. Zunächst untersuchen wir die grundlegenden Komponenten: Kontextabruf und -generierung, Kontextverarbeitung und Kontextmanagement. Anschließend erforschen wir, wie diese Komponenten architektonisch integriert werden, um anspruchsvolle Systemimplementierungen zu schaffen: retrieval-augmented generation (RAG), Speichersysteme und werkzeugintegriertes Denken sowie Multi-Agenten-Systeme. Durch diese systematische Analyse von über 1300 Forschungsarbeiten etabliert unsere Übersicht nicht nur einen technischen Fahrplan für das Feld, sondern deckt auch eine kritische Forschungslücke auf: Es besteht eine grundlegende Asymmetrie zwischen den Modellfähigkeiten. Während aktuelle Modelle, unterstützt durch fortschrittliches Context Engineering, bemerkenswerte Fähigkeiten im Verständnis komplexer Kontexte zeigen, weisen sie deutliche Einschränkungen bei der Generierung ebenso anspruchsvoller, langformatiger Ausgaben auf. Die Behebung dieser Lücke ist eine entscheidende Priorität für zukünftige Forschung. Letztendlich bietet diese Übersicht einen einheitlichen Rahmen sowohl für Forscher als auch für Ingenieure, die kontextbewusste KI vorantreiben.
Jüngste Fortschritte in Vision-Language-Modellen (VLMs) haben die Leistung durch die Erhöhung der Anzahl visueller Tokens verbessert, die oft deutlich länger sind als Text-Tokens. Wir beobachten jedoch, dass die meisten realen Szenarien keine so umfangreiche Anzahl visueller Tokens erfordern. Während die Leistung in einer kleinen Teilmenge von OCR-bezogenen Aufgaben deutlich abfällt, erzielen Modelle in den meisten anderen allgemeinen VQA-Aufgaben mit nur 1/4 der Auflösung weiterhin präzise Ergebnisse. Daher schlagen wir vor, unterschiedliche Proben dynamisch mit verschiedenen Auflösungen zu verarbeiten, und präsentieren ein neues Paradigma für die Kompression visueller Tokens, nämlich VisionThink. Es beginnt mit einem heruntergerechneten Bild und entscheidet intelligent, ob dies für die Problemlösung ausreicht. Andernfalls könnte das Modell ein spezielles Token ausgeben, um das Bild in höherer Auflösung anzufordern. Im Vergleich zu bestehenden Efficient-VLM-Methoden, die Tokens mit festen Beschneidungsraten oder Schwellenwerten komprimieren, entscheidet VisionThink autonom, ob Tokens fallweise komprimiert werden sollen. Dadurch zeigt es eine starke Fähigkeit zur feingranularen visuellen Verständnis in OCR-bezogenen Aufgaben und spart gleichzeitig erhebliche visuelle Tokens bei einfacheren Aufgaben ein. Wir setzen Reinforcement Learning ein und schlagen die LLM-as-Judge-Strategie vor, um RL erfolgreich auf allgemeine VQA-Aufgaben anzuwenden. Darüber hinaus entwerfen wir sorgfältig eine Belohnungsfunktion und einen Strafmechanismus, um ein stabiles und angemessenes Verhältnis von Bildgrößenänderungsanforderungen zu erreichen. Umfangreiche Experimente demonstrieren die Überlegenheit, Effizienz und Wirksamkeit unserer Methode. Unser Code ist verfügbar unter https://github.com/dvlab-research/VisionThink.
Wir stellen pi^3 vor, ein Feed-Forward-Neuronales Netzwerk, das einen neuartigen Ansatz zur visuellen Geometrierekonstruktion bietet und die Abhängigkeit von einer konventionellen festen Referenzansicht bricht. Bisherige Methoden verankern ihre Rekonstruktionen oft an einem bestimmten Blickwinkel, ein induktiver Bias, der zu Instabilität und Fehlern führen kann, wenn die Referenz suboptimal ist. Im Gegensatz dazu verwendet pi^3 eine vollständig permutationsäquivariante Architektur, um affininvariante Kameraposen und skalierungsinvariante lokale Punktkarten ohne jegliche Referenzrahmen vorherzusagen. Dieser Entwurf macht unser Modell inhärent robust gegenüber der Eingabereihenfolge und hochgradig skalierbar. Diese Vorteile ermöglichen es unserem einfachen und biasfreien Ansatz, state-of-the-art Leistung in einer Vielzahl von Aufgaben zu erreichen, einschließlich Kameraposenschätzung, monokularer/videobasierter Tiefenschätzung und dichter Punktkartenrekonstruktion. Code und Modelle sind öffentlich verfügbar.
Diese Arbeit befasst sich mit der Herausforderung der hochauflösenden Ansichtssynthese von Menschen unter Verwendung von Videos mit wenigen Ansichten als Eingabe. Bisherige Methoden lösen das Problem der unzureichenden Beobachtung durch den Einsatz von 4D-Diffusionsmodellen, um Videos aus neuen Blickwinkeln zu generieren. Die von diesen Modellen erzeugten Videos weisen jedoch oft eine mangelnde räumlich-zeitliche Konsistenz auf, was die Qualität der Ansichtssynthese beeinträchtigt. In dieser Arbeit schlagen wir einen neuartigen gleitenden iterativen Denoising-Prozess vor, um die räumlich-zeitliche Konsistenz des 4D-Diffusionsmodells zu verbessern. Konkret definieren wir ein latentes Gitter, in dem jedes latente Element das Bild, die Kameraposition und die menschliche Pose für einen bestimmten Blickwinkel und Zeitpunkt kodiert. Anschließend wird das latente Gitter abwechselnd entlang der räumlichen und zeitlichen Dimensionen mit einem gleitenden Fenster denoisiert, und schließlich werden die Videos aus den entsprechenden denoisierten latenten Elementen in den Zielansichten dekodiert. Durch das iterative Gleiten fließen Informationen ausreichend durch das latente Gitter, wodurch das Diffusionsmodell ein großes rezeptives Feld erhält und somit die 4D-Konsistenz der Ausgabe verbessert wird, während der GPU-Speicherverbrauch in einem vertretbaren Rahmen bleibt. Die Experimente auf den Datensätzen DNA-Rendering und ActorsHQ zeigen, dass unsere Methode in der Lage ist, hochwertige und konsistente Videos aus neuen Blickwinkeln zu synthetisieren und die bestehenden Ansätze deutlich übertrifft. Interaktive Demos und Videoergebnisse finden Sie auf unserer Projektseite: https://diffuman4d.github.io/.
Längengeneralisierung, die Fähigkeit, Probleme mit längeren Sequenzen zu lösen als diejenigen, die während des Trainings beobachtet wurden, stellt eine zentrale Herausforderung für Transformer-basierte große Sprachmodelle (LLMs) dar. Obwohl sich bestehende Studien vorwiegend auf datengetriebene Ansätze für arithmetische Operationen und symbolische Manipulationsaufgaben konzentriert haben, neigen diese Ansätze dazu, aufgabenspezifisch zu sein und bieten nur begrenzte Gesamtleistung. Um eine allgemeinere Lösung zu verfolgen, konzentriert sich dieses Papier auf einen breiteren Fall von Problemen, die berechenbar sind, d.h. Probleme, die Algorithmen lösen können und somit von der Turing-Maschine gelöst werden können. Aus dieser Perspektive schlägt dieses Papier Turing-Maschinen-Nachahmungslernen (TAIL) vor, um die Längengeneralisierungsfähigkeit von LLMs zu verbessern. TAIL synthetisiert Chain-of-Thoughts (CoT)-Daten, die den Ausführungsprozess einer Turing-Maschine durch Computerprogramme nachahmen, indem es die Denkschritte linear in atomare Zustände erweitert, um Kurzschlusslernen zu mildern und einen expliziten Speicherzugriffsmechanismus bereitzustellen, um die Schwierigkeiten des dynamischen und langreichweitigen Datenzugriffs bei elementaren Operationen zu reduzieren. Um die Zuverlässigkeit und Universalität von TAIL zu validieren, erstellen wir einen anspruchsvollen synthetischen Datensatz, der 8 Klassen von Algorithmen und 18 Aufgaben abdeckt. Ohne zusätzliche Verfeinerungen verbessert TAIL die Längengeneralisierungsfähigkeit sowie die Leistung von Qwen2.5-7B bei verschiedenen Aufgaben signifikant, wobei nur synthetische Daten verwendet werden, und übertrifft dabei frühere Methoden und DeepSeek-R1. Die experimentellen Ergebnisse zeigen, dass die Schlüsselkonzepte der Turing-Maschine, anstelle der Denkstile, für TAIL zur Längengeneralisierung unverzichtbar sind, wodurch das Modell in seinen Aufmerksamkeitsschichten Lese- und Schreibverhalten zeigt, das mit den Eigenschaften der Turing-Maschine übereinstimmt. Diese Arbeit bietet eine vielversprechende Richtung für zukünftige Forschungen zum Erlernen des LLM-Schlussfolgerns aus synthetischen Daten.
Steuerbare Bildbeschriftung ist entscheidend für präzise multimodale Ausrichtung und Befolgung von Anweisungen, doch bestehende Modelle mangelt es oft an feinkörniger Steuerung und zuverlässigen Evaluierungsprotokollen. Um diese Lücke zu schließen, präsentieren wir das AnyCap-Projekt, eine integrierte Lösung, die Modell, Datensatz und Evaluierung umfasst. Wir stellen AnyCapModel (ACM) vor, ein leichtgewichtiges Plug-and-Play-Framework, das die Steuerbarkeit bestehender Basismodelle für omnimodale Bildbeschriftung verbessert, ohne das Basismodell neu trainieren zu müssen. ACM nutzt die ursprünglichen Beschriftungen der Basismodelle, während es Benutzeranweisungen und Modalitätsmerkmale einbezieht, um verbesserte Beschriftungen zu generieren. Um die Datenknappheit bei steuerbarer multimodaler Bildbeschriftung zu beheben, haben wir AnyCapDataset (ACD) erstellt, das drei Modalitäten, 28 Arten von Benutzeranweisungen und 300.000 hochwertige Dateneinträge abdeckt. Weiterhin schlagen wir AnyCapEval vor, einen neuen Benchmark, der zuverlässigere Evaluierungsmetriken für steuerbare Bildbeschriftung bietet, indem er inhaltliche Genauigkeit und stilistische Treue entkoppelt. ACM verbessert die Beschriftungsqualität deutlich über eine Vielzahl von Basismodellen auf AnyCapEval. Bemerkenswerterweise erhöht ACM-8B die Inhaltswerte von GPT-4o um 45\% und die Stilwerte um 12\%, und es erzielt auch erhebliche Gewinne auf weit verbreiteten Benchmarks wie MIA-Bench und VidCapBench.
Low-Rank Adaptation (LoRA) hat sich als weit verbreiteter Standard für parameter-effizientes Fine-Tuning von großen Sprachmodellen (LLMs) etabliert, wodurch der Speicherbedarf und die Rechenanforderungen erheblich reduziert werden. Dennoch bestehen weiterhin Herausforderungen, wie die Suche nach optimalen Initialisierungsstrategien oder die Vermeidung von Überparametrisierung bei der Low-Rank-Matrixfaktorisierung. In dieser Arbeit schlagen wir einen neuartigen Ansatz vor, der beide Herausforderungen gleichzeitig innerhalb eines einheitlichen Frameworks adressiert. Unsere Methode behandelt eine Menge von LoRA-Matrizen mit festem Rang als eine glatte Mannigfaltigkeit. Die Betrachtung von Adaptern als Elemente auf dieser Mannigfaltigkeit eliminiert die Überparametrisierung, während die Bestimmung der Richtung des schnellsten Verlustabfalls entlang der Mannigfaltigkeit die Initialisierung liefert. Besondere Sorgfalt wird darauf verwendet, eine numerisch stabile und recheneffiziente Implementierung unserer Methode zu gewährleisten, wobei bewährte Verfahren aus der numerischen linearen Algebra und der Riemannschen Optimierung genutzt werden. Experimentelle Ergebnisse auf LLM- und Diffusionsmodell-Architekturen zeigen, dass RiemannLoRA sowohl die Konvergenzgeschwindigkeit als auch die Endleistung im Vergleich zu Standard-LoRA und seinen modernsten Modifikationen konsequent verbessert.
Wir präsentieren Voxtral Mini und Voxtral Small, zwei multimodale Audio-Chat-Modelle. Voxtral wurde darauf trainiert, sowohl gesprochene Audiodaten als auch Textdokumente zu verstehen, und erzielt dabei state-of-the-art Leistungen in einer Vielzahl von Audio-Benchmarks, während gleichzeitig starke Textfähigkeiten erhalten bleiben. Voxtral Small übertrifft mehrere Closed-Source-Modelle, ist jedoch klein genug, um lokal ausgeführt zu werden. Ein Kontextfenster von 32K ermöglicht es dem Modell, Audiodateien mit einer Dauer von bis zu 40 Minuten sowie lange, mehrschrittige Konversationen zu verarbeiten. Zudem stellen wir drei Benchmarks zur Verfügung, um das Sprachverständnis von Modellen in Bezug auf Wissen und Trivia zu bewerten. Beide Voxtral-Modelle werden unter der Apache-2.0-Lizenz veröffentlicht.
Räumliches Denken im 3D-Raum ist zentral für die menschliche Kognition und unverzichtbar für verkörperte Aufgaben wie Navigation und Manipulation. Allerdings haben state-of-the-art Vision-Language-Modelle (VLMs) häufig Schwierigkeiten mit Aufgaben, die so einfach sind wie die Vorhersage, wie eine Szene nach einer egozentrischen Bewegung aussehen wird: Sie nehmen 2D-Bilder wahr, verfügen jedoch nicht über ein internes Modell der 3D-Dynamik. Daher schlagen wir MindJourney vor, ein Framework für das Skalieren zur Testzeit, das einem VLM diese fehlende Fähigkeit verleiht, indem es ihn mit einem steuerbaren Weltmodell auf Basis von Video-Diffusion koppelt. Das VLM skizziert iterativ eine prägnante Kameratrajektorie, während das Weltmodell die entsprechende Ansicht in jedem Schritt synthetisiert. Das VLM schließt dann aus den während der interaktiven Erkundung gesammelten Mehrfachansichten. Ohne jegliches Fine-Tuning erzielt unser MindJourney durchschnittlich eine Leistungssteigerung von über 8 % auf dem repräsentativen Benchmark für räumliches Denken SAT, was zeigt, dass die Kombination von VLMs mit Weltmodellen für das Skalieren zur Testzeit einen einfachen, plug-and-play Weg zu robustem 3D-Denken bietet. Gleichzeitig verbessert unsere Methode auch die Inferenz zur Testzeit von VLMs, die durch Reinforcement Learning trainiert wurden, was das Potenzial unserer Methode unterstreicht, die Weltmodelle für das Skalieren zur Testzeit nutzt.
Die Erzeugung ausdrucksstarker Gesichtsanimationen aus statischen Bildern ist eine anspruchsvolle Aufgabe. Bisherige Methoden, die sich auf explizite geometrische Prioritäten (z. B. Gesichtslandmarken oder 3DMM) stützen, leiden oft unter Artefakten bei der Cross-Reenactment und haben Schwierigkeiten, subtile Emotionen zu erfassen. Darüber hinaus unterstützen bestehende Ansätze keine Multi-Charakter-Animation, da Antriebsmerkmale verschiedener Individuen häufig miteinander interferieren und die Aufgabe erschweren. Um diese Herausforderungen zu bewältigen, schlagen wir FantasyPortrait vor, ein auf Diffusionstransformern basierendes Framework, das in der Lage ist, hochauflösende und emotionsreiche Animationen sowohl für Einzel- als auch für Multi-Charakter-Szenarien zu generieren. Unsere Methode führt eine ausdrucksverstärkte Lernstrategie ein, die implizite Repräsentationen nutzt, um identitätsunabhängige Gesichtsdynamiken zu erfassen und so die Fähigkeit des Modells zur Darstellung fein abgestufter Emotionen zu verbessern. Für die Multi-Charakter-Steuerung entwerfen wir einen maskierten Cross-Attention-Mechanismus, der eine unabhängige, aber koordinierte Ausdrucksgenerierung sicherstellt und effektiv Feature-Interferenzen verhindert. Um die Forschung in diesem Bereich voranzutreiben, schlagen wir das Multi-Expr-Dataset und ExprBench vor, speziell entwickelte Datensätze und Benchmarks für das Training und die Bewertung von Multi-Charakter-Porträtanimationen. Umfangreiche Experimente zeigen, dass FantasyPortrait state-of-the-art-Methoden sowohl in quantitativen Metriken als auch in qualitativen Bewertungen deutlich übertrifft, insbesondere in anspruchsvollen Cross-Reenactment- und Multi-Charakter-Kontexten. Unsere Projektseite ist https://fantasy-amap.github.io/fantasy-portrait/.
Wir stellen AbGen vor, den ersten Benchmark, der entwickelt wurde, um die Fähigkeiten von LLMs (Large Language Models) bei der Gestaltung von Ablationsstudien für die wissenschaftliche Forschung zu bewerten. AbGen besteht aus 1.500 von Experten annotierten Beispielen, die aus 807 NLP-Publikationen abgeleitet wurden. In diesem Benchmark wird von LLMs die Aufgabe gestellt, detaillierte Entwürfe für Ablationsstudien zu einem spezifizierten Modul oder Prozess basierend auf dem gegebenen Forschungskontext zu generieren. Unsere Bewertung führender LLMs, wie DeepSeek-R1-0528 und o4-mini, zeigt eine deutliche Leistungslücke zwischen diesen Modellen und menschlichen Experten in Bezug auf die Bedeutung, Treue und Stichhaltigkeit der Ablationsstudienentwürfe. Darüber hinaus demonstrieren wir, dass aktuelle automatisierte Evaluierungsmethoden für unsere Aufgabe nicht zuverlässig sind, da sie im Vergleich zur menschlichen Bewertung eine erhebliche Diskrepanz aufweisen. Um dies besser zu untersuchen, entwickeln wir AbGen-Eval, einen Meta-Evaluierungs-Benchmark, der die Zuverlässigkeit gängiger automatisierter Evaluierungssysteme bei der Messung der LLM-Leistung in unserer Aufgabe bewertet. Wir untersuchen verschiedene LLM-as-Judge-Systeme auf AbGen-Eval und liefern Erkenntnisse für zukünftige Forschungen zur Entwicklung effektiverer und zuverlässigerer LLM-basierter Evaluierungssysteme für komplexe wissenschaftliche Aufgaben.
Sparse Autoencoder haben sich als leistungsstarke Werkzeuge zur Interpretation der internen Repräsentationen von Large Language Models (LLMs) erwiesen, scheitern jedoch oft daran, domänenspezifische Merkmale zu erfassen, die in ihren Trainingskorpora nicht weit verbreitet sind. Dieses Papier stellt einen Residual-Learning-Ansatz vor, der diese Merkmalsblindheit adressiert, ohne ein vollständiges Neulernen zu erfordern. Wir schlagen vor, einen sekundären Sparse Autoencoder (SAE) speziell dazu zu trainieren, den Rekonstruktionsfehler eines vortrainierten SAE auf domänenspezifischen Texten zu modellieren, wodurch effektiv Merkmale erfasst werden, die vom primären Modell übersehen wurden. Durch die Summierung der Ausgaben beider Modelle während der Inferenz zeigen wir signifikante Verbesserungen sowohl in der Kreuzentropie der LLMs als auch in den erklärten Varianzmetriken über mehrere spezialisierte Domänen hinweg. Unsere Experimente zeigen, dass diese Methode neues Domänenwissen effizient in bestehende SAEs integriert, während deren Leistung bei allgemeinen Aufgaben erhalten bleibt. Dieser Ansatz ermöglicht es Forschern, die Interpretierbarkeit von SAEs gezielt für spezifische Interessensgebiete zu verbessern und eröffnet neue Möglichkeiten für eine zielgerichtete mechanistische Interpretierbarkeit von LLMs.
Sprachmodelle (LMs) sind schwer an neue Datenverteilungen durch einfaches Feinabstimmen anzupassen. Dies liegt an der Starrheit ihrer Subwort-Tokenizer, die während der Anpassung typischerweise unverändert bleiben. Diese Unflexibilität führt oft zu einer ineffizienten Tokenisierung, was eine Überfragmentierung von außerhalb der Verteilung liegenden Domänen, unbekannten Sprachen oder Schriften verursacht. In dieser Arbeit entwickeln wir Byte-Level-LMs mit lernfähigen Tokenizern, um die Tokenisierung adaptiv zu gestalten. Unsere Modelle beinhalten ein Submodul, das lernt, Grenzen zwischen der Eingabebytefolge vorherzusagen und sie in variabel lange Segmente zu kodieren. Bestehende tokenizerfreie Methoden trainieren diesen Grenzvorhersager mithilfe eines zusätzlichen Verlusts, der eine feste Kompressionsrate über den Trainingskorpus erzwingt, was eine neue Art von Starrheit einführt. Wir schlagen FLEXITOKENS vor, ein vereinfachtes Trainingsziel, das während der Anpassung deutlich größere Flexibilität ermöglicht. Bei der Bewertung über mehrere mehrsprachige Benchmarks, morphologisch vielfältige Aufgaben und Domänen zeigen wir, dass FLEXITOKENS konsequent die Token-Überfragmentierung reduziert und im Vergleich zu Subwort- und anderen gradientenbasierten Tokenizern Verbesserungen von bis zu 10 % bei der Leistung nachgelagerter Aufgaben erzielt. Code und Daten für unsere Experimente werden unter https://github.com/owos/flexitokens veröffentlicht.
Wir stellen Einstein Fields vor, eine neuronale Repräsentation, die entwickelt wurde, um rechenintensive vierdimensionale numerische Relativitätssimulationen in kompakte implizite Gewichte neuronaler Netze zu komprimieren. Durch die Modellierung der Metrik, dem zentralen Tensorfeld der allgemeinen Relativitätstheorie, ermöglichen Einstein Fields die Ableitung physikalischer Größen mittels automatischer Differentiation. Im Gegensatz zu konventionellen neuronalen Feldern (z.B. Signierte Distanz-, Belegungs- oder Strahlungsfelder) sind Einstein Fields jedoch Neuronale Tensorfelder, mit dem entscheidenden Unterschied, dass bei der Kodierung der Raumzeitgeometrie der allgemeinen Relativitätstheorie in neuronale Feldrepräsentationen Dynamiken natürlich als Nebenprodukt entstehen. Einstein Fields zeigen bemerkenswertes Potenzial, einschließlich der kontinuierlichen Modellierung von 4D-Raumzeit, Mesh-Agnostizität, Speichereffizienz, Genauigkeit der Ableitungen und Benutzerfreundlichkeit. Wir adressieren diese Herausforderungen in mehreren kanonischen Testumgebungen der allgemeinen Relativitätstheorie und veröffentlichen eine quelloffene, JAX-basierte Bibliothek, die den Weg für skalierbarere und ausdrucksstärkere Ansätze in der numerischen Relativitätstheorie ebnet. Der Code ist unter https://github.com/AndreiB137/EinFields verfügbar.
Video Frame Interpolation (VFI) zielt darauf ab, den Zwischenrahmen I_n (wir verwenden n, um die Zeit in Videos zu bezeichnen, um eine Überladung der Notation mit dem Zeitschritt t in Diffusionsmodellen zu vermeiden) basierend auf zwei aufeinanderfolgenden benachbarten Rahmen I_0 und I_1 vorherzusagen. Aktuelle Ansätze wenden Diffusionsmodelle (sowohl bildbasierte als auch videobasierte) für diese Aufgabe an und erzielen starke Leistungen. Bildbasierte Diffusionsmodelle können jedoch keine zeitlichen Informationen extrahieren und sind im Vergleich zu nicht-diffusionsbasierten Methoden relativ ineffizient. Videobasierte Diffusionsmodelle können zeitliche Informationen extrahieren, sind jedoch in Bezug auf den Trainingsumfang, die Modellgröße und die Inferenzzeit zu groß. Um die oben genannten Probleme zu mildern, schlagen wir Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI) vor, ein effizientes videobasiertes Diffusionsmodell. Durch die Extraktion reichhaltiger zeitlicher Informationen aus Videoeingaben mittels unseres vorgeschlagenen 3D-Wavelet-Gating und des zeitlich bewussten Autoencoders erzielt unsere Methode eine Verbesserung des FID um 20 % auf den anspruchsvollsten Datensätzen im Vergleich zu den aktuellen State-of-the-Art bildbasierten Diffusionsmodellen. Gleichzeitig erreicht unsere Methode aufgrund der Existenz reichhaltiger zeitlicher Informationen eine starke Leistung bei dreimal weniger Parametern. Eine solche Parameterreduktion führt zu einer 2,3-fachen Beschleunigung. Durch die Einbindung von optischem Fluss benötigt unsere Methode 9000-mal weniger Trainingsdaten und erreicht über 20-mal weniger Parameter als videobasierte Diffusionsmodelle. Codes und Ergebnisse sind auf unserer Projektseite verfügbar: https://zonglinl.github.io/tlbvfi_page.
Jüngste Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben leistungsfähige Fähigkeiten zur cross-modalen Argumentation freigesetzt, aber auch neue Sicherheitsbedenken aufgeworfen, insbesondere bei der Konfrontation mit adversarischen multimodalen Eingaben. Um die Sicherheit von MLLMs während der Inferenz zu verbessern, führen wir eine modulare und adaptive Inferenzzeit-Interventionstechnologie namens AutoSteer ein, ohne dass eine Feinabstimmung des zugrunde liegenden Modells erforderlich ist. AutoSteer umfasst drei Kernkomponenten: (1) einen neuartigen Sicherheitsbewusstseins-Score (SAS), der automatisch die sicherheitsrelevantesten Unterscheidungen innerhalb der internen Schichten des Modells identifiziert; (2) einen adaptiven Sicherheitsprüfer, der darauf trainiert ist, die Wahrscheinlichkeit toxischer Ausgaben aus Zwischendarstellungen zu schätzen; und (3) einen leichtgewichtigen Verweigerungskopf (Refusal Head), der selektiv eingreift, um die Generierung zu modulieren, wenn Sicherheitsrisiken erkannt werden. Experimente mit LLaVA-OV und Chameleon über diverse sicherheitskritische Benchmarks zeigen, dass AutoSteer die Angriffserfolgsrate (ASR) für textuelle, visuelle und cross-modale Bedrohungen signifikant reduziert, während die allgemeinen Fähigkeiten erhalten bleiben. Diese Ergebnisse positionieren AutoSteer als ein praktisches, interpretierbares und effektives Framework für die sicherere Bereitstellung multimodaler KI-Systeme.