papers.description
Wir stellen Qwen3-VL vor, das bislang leistungsfähigste Vision-Language-Modell der Qwen-Serie, das auf einer breiten Palette multimodaler Benchmarks überlegene Leistung erzielt. Es unterstützt nativ verschachtelte Kontexte von bis zu 256K Tokens und integriert nahtlos Text, Bilder und Videos. Die Modellfamilie umfasst sowohl Dense- (2B/4B/8B/32B) als auch Mixture-of-Experts-Varianten (30B-A3B/235B-A22B), um unterschiedliche Latenz-Qualitäts-Kompromisse zu ermöglichen. Qwen3-VL basiert auf drei Kernpfeilern: (i) deutlich stärkeres reines Textverständnis, das in mehreren Fällen vergleichbare rein textbasierte Backbones übertrifft; (ii) robustes Langzeitkontextverständnis mit einem nativen 256K-Token-Fenster für Text und verschachtelte multimodale Eingaben, das eine zuverlässige Beibehaltung, Abfrage und Querverweise über lange Dokumente und Videos hinweg ermöglicht; und (iii) fortschrittliches multimodales Reasoning für Einzelbild-, Mehrbild- und Videoaufgaben, das führende Leistung bei umfassenden Bewertungen wie MMMU und visuell-mathematischen Benchmarks (z.B. MathVista und MathVision) demonstriert. Architektonisch führen wir drei wichtige Verbesserungen ein: (i) ein erweitertes verschachteltes MRoPE für stärkere räumlich-zeitliche Modellierung über Bilder und Videos hinweg; (ii) DeepStack-Integration, die effektiv mehrstufige ViT-Merkmale nutzt, um die Vision-Language-Ausrichtung zu verstärken; und (iii) textbasierte Zeitausrichtung für Videos, die sich von T-RoPE zur expliziten textuellen Zeitstempelausrichtung für präisere zeitliche Verankerung weiterentwickelt. Unter vergleichbaren Token-Budgets und Latenzbeschränkungen erzielt Qwen3-VL überlegene Leistung in sowohl Dense- als auch Mixture-of-Experts-Architekturen (MoE). Wir sehen Qwen3-VL als grundlegende Engine für bildgestütztes Reasoning, agentenbasierte Entscheidungsfindung und multimodale Code-Intelligenz in realen Arbeitsabläufen.
Vision-Language-Action (VLA)-Modelle, die mittels Flow-Matching- oder Diffusionszielen trainiert werden, zeichnen sich durch die Fähigkeit aus, komplexe Verhaltensweisen aus groß angelegten, multimodalen Datensätzen (z.B. menschliche Teleoperation, skriptbasierte Policies) zu erlernen. Da VLAs jedoch bereits im Vor-Trainingsstadium diverse Datenmodalitäten integrieren und der Feinjustierungs-Datensatz häufig Demonstrationsdaten enthält, die auf kinematisch suboptimale oder unerwünschte Weise erhoben wurden, existieren redundante Aktionsmodi, die für die erfolgreichen Aktionsmodi der nachgelagerten Aufgabe irrelevant sind. Konkret beobachten wir eine kritische Inferenz-Zeit-Empfindlichkeit gegenüber verschiedenen Rausch-Stichproben nach überwachtem Fein-Tuning von vortrainierten VLAs. In diesem Artikel führen wir diese Instabilität auf eine Verteilungsverschiebung zwischen der VLA-Policy und der durch die stabilen Erfolgsmodi des Downstream-Task-Datensatzes induzierten Policy zurück. Daher schlagen wir TACO vor, ein Test-Time-Scaling (TTS)-Framework, das einen leichten Pseudo-Count-Schätzer als hochpräzisen Verifizierer von Aktions-Blöcken einsetzt. Die mit TACO integrierten VLA-Modelle können die Aktionen mit dem maximalen Pseudo-Count aus allen gesampelten Aktions-Blöcken ausführen, wodurch Verteilungsverschiebungen verhindert werden, während die Generalisierungsfähigkeit der VLAs erhalten bleibt, da die Beschränkung nur während der Inferenz angewendet wird. Unsere Methode ähnelt dem klassischen Anti-Exploration-Prinzip im Offline Reinforcement Learning (RL) und ist, da gradientenfrei, mit erheblichen Rechenvorteilen im Vergleich zu RL-Updates verbunden, insbesondere für flow- oder diffusionsbasierte VLAs, bei denen RL-Updates aufgrund des Entrauschungsprozesses schwierig durchzuführen sind. Umfangreiche Experimente über vier Simulations-Benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) und eine Zwei-Arm-Plattform demonstrieren, dass unsere Methode die Inferenzstabilität und Erfolgsquoten bei Downstream-Task-Anpassungen signifikant verbessert.
Die Nachahmung menschlichen Verhaltens, um aktiv aus allgemeiner Erfahrung zu lernen und allgemeine künstliche Intelligenz zu erreichen, war schon immer ein menschlicher Traum. Jüngste auf Reinforcement Learning (RL) basierende Large-Thinking-Modelle zeigen beeindruckende fähigkeiten auf Expertenniveau, z.B. in Software und Mathematik, sind aber nach wie vor stark auf verifizierbare Belohnungen in spezifischen Domänen angewiesen, was ein erhebliches Nadelöhr für die Erweiterung der Leistungsgrenzen allgemeiner Denkfähigkeiten darstellt. In dieser Arbeit schlagen wir PretrainZero vor, einen Reinforcement Active Learning-Rahmen, der auf dem Vortrainingskorpus aufbaut, um RL von domänenspezifischem Nachtraining auf allgemeines Vortraining auszudehnen. PretrainZero zeichnet sich durch folgende Merkmale aus: 1) Aktives Vortraining: Inspiriert durch die Fähigkeit des aktiven Lernens beim Menschen, erlernt PretrainZero eine vereinheitlichte Reasoning-Policy, um aktiv sinnvolle und informative Inhalte aus dem Vortrainingskorpus zu identifizieren und diese Inhalte durch RL vorherzusagen. 2) Selbstüberwachtes Lernen: Ohne verifizierbare Labels, vortrainierte Belohnungsmodelle oder überwachtes Finetuning trainieren wir Reasoning-Modelle direkt auf Basis von 3- bis 30B-Basismodellen mit RL auf dem allgemeinen Wikipedia-Korpus, wodurch die Verifikationsdatenbarriere für allgemeines Reasoning signifikant durchbrochen wird. 3) Skalierbare Verifikation: Durch die Bewältigung zunehmend schwieriger maskierter Spannen verbessert PretrainZero substantiell die allgemeinen Denkfähigkeiten vortrainierter Basismodelle. Im Reinforcement-Vortraining verbessert PretrainZero Qwen3-4B-Base um 8,43, 5,96 bzw. 10,60 Punkte auf den MMLU-Pro-, SuperGPQA- und Mathematik-Durchschnitts-Benchmarks. Beim Nachtraining können die vortrainierten Modelle auch als Reasoning-Foundation-Modelle für nachgelagerte RLVR-Aufgaben dienen.
Das Verständnis visueller Unterschiede zwischen dynamischen Szenen erfordert die vergleichende Wahrnehmung kompositioneller, räumlicher und zeitlicher Veränderungen – eine Fähigkeit, die in bestehenden Vision-Language-Systemen bisher kaum erforscht ist. Während frühere Arbeiten zur Bilddifferenzbeschreibung (Image Difference Captioning, IDC) Modelle in die Lage versetzten, semantische Veränderungen zwischen statischen Bildern zu beschreiben, erfassen diese Ansätze keine Bewegungskontinuität, Ereignisentwicklung oder Bearbeitungskonsistenz über die Zeit. Wir stellen die Aufgabe ViDiC (Video Difference Captioning) und den entsprechenden ViDiC-1K-Datensatz vor, der entwickelt wurde, um die Fähigkeit multimodaler Large Language Models (MLLMs) zu evaluieren, feingranulare Beschreibungen von Ähnlichkeiten und Unterschieden zwischen Video-Paaren zu liefern. ViDiC-1K umfasst 1.000 kuratierte Video-Paare mit über 4.000 annotierten Vergleichs-Checklisteneinträgen, die sieben Kategorien abdecken: Subjekt, Stil, Hintergrund, Kameraarbeit, Bewegung, Ort und Wiedergabetechniken. Um eine zuverlässige Evaluation zu gewährleisten, schlagen wir einen Dual-Checklist-Rahmen vor, der die Genauigkeit von Ähnlichkeiten und Unterschieden separat auf Basis des LLM-as-a-Judge-Protokolls misst. Experimente mit neunzehn repräsentativen multimodalen Modellen zeigen eine signifikante Leistungslücke in ihren vergleichenden Beschreibungs- und Differenzwahrnehmungsfähigkeiten. Wir hoffen, dass ViDiC-1K als anspruchsvoller Benchmark eine solide Grundlage für Fortschritte im Video-Verständnis, Bearbeitungserkennung und vergleichendem Schließen in multimodaler Intelligenz legen kann.
Reinforcement Learning (RL) hat kürzlich bemerkenswerte Erfolge beim Auslösen visueller Reasoning-Fähigkeiten in Multimodalen Large Language Models (MLLMs) erzielt. Bestehende Ansätze trainieren jedoch typischerweise separate Modelle für verschiedene Aufgaben und behandeln Bild- und Video-Reasoning als getrennte Domänen. Dies führt zu einer begrenzten Skalierbarkeit hin zu einem multimodalen Reasoning-Allrounder, was die praktische Vielseitigkeit einschränkt und potenziellen Wissensaustausch über Aufgaben und Modalitäten hinweg behindert. Daher schlagen wir OneThinker vor, ein All-in-One-Reasoning-Modell, das Bild- und Videoverständnis über verschiedene grundlegende visuelle Aufgaben hinweg vereinheitlicht, einschließlich Frage-Antworten, Beschreibung, räumlicher und zeitlicher Lokalisierung, Tracking und Segmentierung. Um dies zu erreichen, haben wir den OneThinker-600k-Trainingskorpus erstellt, der alle diese Aufgaben abdeckt, und kommerzielle Modelle für CoT-Annotationen eingesetzt, was zu OneThinker-SFT-340k für den SFT-Kaltstart führte. Darüber hinaus schlagen wir EMA-GRPO vor, um Reward-Heterogenität im Multi-Task-RL zu bewältigen, indem gleitende Durchschnitte der Reward-Standardabweichungen pro Aufgabe zur ausgewogenen Optimierung verfolgt werden. Umfangreiche Experimente auf diversen visuellen Benchmarks zeigen, dass OneThinker auf 31 Benchmarks über 10 grundlegende visuelle Verständnisaufgaben hinweg starke Leistungen erbringt. Zudem zeigt es effektiven Wissenstransfer zwischen bestimmten Aufgaben und erste Zero-Shot-Generalisierungsfähigkeiten, was einen Schritt in Richtung eines vereinheitlichten multimodalen Reasoning-Allrounders darstellt. Alle Codes, Modelle und Daten werden veröffentlicht.
Vision Language Models (VLMs) zeigen ein stark qualitatives visuelles Verständnis, haben jedoch Schwierigkeiten mit metrisch präzisem räumlichem Denken, das für embodied Anwendungen erforderlich ist. Das agentische Paradigma verspricht, dass VLMs eine Vielzahl von Werkzeugen nutzen können, die diese Fähigkeiten erweitern könnten, wie z.B. Tiefenschätzer, Segmentierungsmodelle und Posenschätzer. Es bleibt jedoch eine ungelöste Herausforderung, wie diese Vision verwirklicht werden kann, ohne sich ausschließlich auf handgefertigte Prompting-Strategien zu verlassen oder feste, vordefinierte Werkzeugpipelines durchzusetzen, die die Fähigkeit der VLMs einschränken, optimale Werkzeugnutzungsmuster zu entdecken. Reinforcement Learning könnte diese Lücke schließen, war aber bisher aufgrund des großen Suchraums beim Multi-Tool-Denken auf die Verwendung eines einzigen visuellen Werkzeugs beschränkt. Wir stellen Double Interactive Reinforcement Learning (DIRL) vor, ein Zwei-Phasen-Trainingsframework, bei dem VLMs durch interaktive Exploration und Feedback lernen, mehrere Werkzeuge zu koordinieren. In der Lehrphase kombinieren wir Demonstrationen eines auf ein einzelnes Werkzeug spezialisierten Agenten, der via interaktivem RL trainiert wurde, mit Traces eines Frontier-Modells, das alle Werkzeuge nutzt. In der Explorationsphase verfeinert das Modell die Multi-Tool-Koordination durch fortgesetztes RL weiter. Unser Modell SpaceTools mit werkzeuggestützter räumlicher Denkfähigkeit erzielt state-of-the-art Leistung auf Benchmarks für räumliches Verständnis (RoboSpatial-Home, BLINK, BOP-ASK) und demonstriert zuverlässige Manipulation in der realen Welt unter Verwendung eines 7-DOF-Roboters als Werkzeug. DIRL bietet substantielle Verbesserungen gegenüber den reinen SFT- (+12% auf RoboSpatial) und RL- (+16% auf RoboSpatial) Baseline-Modellen. Projektseite: https://spacetools.github.io/.
Die präzise Ausrichtung zwischen Nutzerabsicht und generierten visuellen Inhalten bleibt eine zentrale Herausforderung in der Text-zu-Bild-Generierung, da ein einzelner Generierungsversuch oft nicht das gewünschte Ergebnis liefert. Bisherige Ansätze skalieren hauptsächlich den visuellen Generierungsprozess (z.B. durch Erhöhung der Sampling-Schritte oder Seeds), was jedoch schnell zu einem Qualitätsplateau führt. Diese Einschränkung entsteht, weil der für die Steuerung der Generierung entscheidende Prompt unverändert bleibt. Um dieses Problem zu lösen, schlagen wir Prompt Redesign for Inference-time Scaling (PRIS) vor – ein Framework, das den Prompt während der Inferenzphase adaptiv an die skalierten visuellen Generierungen anpasst. Der Kernansatz von PRIS besteht darin, die generierten visuellen Inhalte zu analysieren, wiederkehrende Fehlermuster zu identifizieren und den Prompt entsprechend zu überarbeiten, bevor die visuellen Inhalte mit dem überarbeiteten Prompt neu generiert werden. Um präzise Rückmeldungen für die Prompt-Überarbeitung zu erhalten, führen wir einen neuen Verifizierungsansatz ein: die elementbezogene faktische Korrektur. Diese bewertet die Übereinstimmung zwischen Prompt-Attributen und generierten visuellen Inhalten auf feingranularer Ebene und erreicht damit präzisere und interpretierbare Bewertungen als holistische Maßstäbe. Umfangreiche Experimente mit Text-zu-Bild- und Text-zu-Video-Benchmarks belegen die Wirksamkeit unseres Ansatzes, einschließlich einer 15%igen Verbesserung auf VBench 2.0. Diese Ergebnisse unterstreichen, dass die gemeinsame Skalierung von Prompts und visuellen Inhalten entscheidend ist, um Skalierungsgesetze während der Inferenzphase vollständig auszuschöpfen. Visualisierungen sind auf der Website verfügbar: https://subin-kim-cv.github.io/PRIS.
Ein wirklich interaktives Weltmodell erfordert drei Schlüsselkomponenten: echtzeitfähiges Langzeit-Streaming, konsistentes räumliches Gedächtnis und präzise Benutzersteuerung. Die meisten bestehenden Ansätze behandeln jedoch nur einen dieser Aspekte isoliert, da die gleichzeitige Realisierung aller drei höchst anspruchsvoll ist – beispielsweise beeinträchtigen Langzeitgedächtnismechanismen oft die Echtzeitleistung. In dieser Arbeit stellen wir RELIC vor, einen einheitlichen Rahmen, der diese drei Herausforderungen gemeinsam adressiert. Ausgehend von einem einzelnen Bild und einer Textbeschreibung ermöglicht RELIC eine gedächtnisbewusste, langandauernde Erkundung beliebiger Szenen in Echtzeit. Unser Modell basiert auf aktuellen autoregressiven Video-Diffusions-Distillationstechniken und repräsentiert Langzeitgedächtnis durch hochkomprimierte historische latente Tokens, die mit relativen Aktionen und absoluten Kameraposen im KV-Cache kodiert sind. Diese kompakte, kamerabewusste Gedächtnisstruktur unterstützt implizite 3D-konsistente Inhaltsabfrage und erzwingt Langzeitkohärenz mit minimalem Rechenaufwand. Parallel dazu feintunen wir ein bidirektionales Lehrer-Videomodell, um Sequenzen jenseits seines ursprünglichen 5-Sekunden-Trainingshorizonts zu generieren, und transformieren es mittels eines neuen speichereffizienten Self-Forcing-Paradigmas in einen kausalen Studenten-Generator, der Vollkontext-Distillation über lange Lehrer- sowie lange Studenten-Self-Rollouts ermöglicht. Als 14-Milliarden-Parameter-Modell implementiert und auf einem kuratierten, mit Unreal Engine gerenderten Datensatz trainiert, erreicht RELIC Echtzeitgenerierung mit 16 FPS und zeigt im Vergleich zu früheren Arbeiten präziseres Handlungsfolgen, stabileres Langzeit-Streaming und robustere räumliche Gedächtnisabfrage. Diese Fähigkeiten etablieren RELIC als eine solide Grundlage für die nächste Generation interaktiver Weltmodellierung.
Multimodale große Sprachmodelle (MLLMs), die mit Bildern denken, können interaktiv Werkzeuge nutzen, um visuelle Eingaben zu verarbeiten. Bisherige Ansätze stützen sich jedoch oft auf einen begrenzten Werkzeugsatz mit geringer praktischer Relevanz und Skalierbarkeit. In dieser Arbeit decken wir zunächst eine kritische, bisher übersehene Schwäche auf: Selbst modernste MLLMs sind überraschend anfällig und zeigen signifikante Leistungseinbußen bei Bildern mit einfachen Orientierungsänderungen oder natürlichen Störungen, was den Bedarf an robusterer, werkzeugbasierter Reasoning-Fähigkeit unterstreicht. Um dies zu adressieren, schlagen wir CodeVision vor – ein flexibles und skalierbares Code-as-a-Tool-Framework, bei dem das Modell Code als universelle Schnittstelle generiert, um beliebige Bildoperationen aufzurufen und sich so über feste Werkzeugregistrierungen hinwegzusetzen. Wir trainieren unser Modell mit einer zweistufigen Methodik: Beginnend mit Supervised Fine-Tuning (SFT) auf einem hochwertigen Datensatz, der für komplexe, mehrstufige Werkzeugkomposition und Fehlerbehebung kuratiert wurde, gefolgt von Reinforcement Learning (RL) mit einer neuartigen, dichten Prozess-Belohnungsfunktion, die strategischen und effizienten Werkzeugeinsatz fördert. Um diese Forschung zu unterstützen, erstellen wir neue SFT- und RL-Datensätze und führen eine anspruchsvolle neue Benchmark-Suite ein, die darauf ausgelegt ist, die Robustheit gegenüber Orientierungsänderungen und Multi-Tool-Reasoning rigoros zu evaluieren. Experimente mit der Qwen2.5-VL- und Qwen3-VL-Serie zeigen, dass unser Ansatz die Modellleistung signifikant verbessert und emergente Fähigkeiten fördert, wie flexible Werkzeugkomposition, effiziente verkettete Ausführung und robuste Fehlerbehebung aus Runtime-Feedback. Der Code ist verfügbar unter https://github.com/ByteDance-BandAI/CodeVision.
Normalizing Flows (NFs) sind eine Klasse von generativen Modellen, die sich durch eine mathematisch invertierbare Architektur auszeichnen. Dabei transformiert der Vorwärtsdurchlauf Daten in einen latenten Raum zur Dichteschätzung, während der Rückwärtsdurchlauf neue Stichproben aus diesem Raum erzeugt. Diese Eigenschaft schafft eine intrinsische Synergie zwischen Repräsentationslernen und Datengenerierung. Die generative Qualität standardmäßiger NFs wird jedoch durch schwache semantische Repräsentationen infolge der Log-Likelihood-Optimierung begrenzt. Um dies zu beheben, schlagen wir eine neuartige Alignment-Strategie vor, die die Invertierbarkeit von NFs kreativ nutzt: Anstatt den Vorwärtsdurchlauf zu regularisieren, alignieren wir die Zwischenmerkmale des generativen (Rückwärts-)Durchlaufs mit Repräsentationen eines leistungsstarken Vision-Foundation-Modells, was eine überlegene Wirksamkeit gegenüber naivem Alignment demonstriert. Zusätzlich führen wir einen neuartigen, trainingsfreien Optimierungsalgorithmus zur Laufzeit für Klassifikationsaufgaben ein, der eine intrinsischere Bewertung des in der NF eingebetteten semantischen Wissens ermöglicht. Umfassende Experimente zeigen, dass unser Ansatz das Training von NFs um mehr als das 3,3-fache beschleunigt und gleichzeitig signifikante Verbesserungen sowohl in der generativen Qualität als auch in der Klassifikationsgenauigkeit erzielt. Neue state-of-the-art Ergebnisse für NFs werden auf ImageNet 64×64 und 256×256 erreicht. Unser Code ist unter https://github.com/MCG-NJU/FlowBack verfügbar.
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen basiert typischerweise auf externer Überwachung, die mit kritischen Einschränkungen konfrontiert ist: Menschliche Annotationen sind knapp und subjektiv, Belohnungsmodelle sind anfällig für Reward Hacking, und Selbstbewertungsmethoden leiden unter Prompt-Abhängigkeit und Verzerrungen. In dieser Arbeit schlagen wir den stabilen Rang vor, ein intrinsisches, annotationsfreies Qualitätssignal, das aus Modellrepräsentationen abgeleitet wird. Der stabile Rang misst die effektive Dimensionalität versteckter Zustände durch Berechnung des Verhältnisses von Gesamtvarianz zur Varianz in der Hauptrichtung und erfasst Qualität darüber, wie sich Informationen über Repräsentationsdimensionen verteilt. Empirisch erreicht der stabile Rang 84,04 % Genauigkeit auf RewardBench und verbessert die Aufgabengenauigkeit im Durchschnitt um 11,3 Prozentpunkte gegenüber gieriger Decodierung via Best-of-N-Sampling. Aufbauend auf dieser Erkenntnis führen wir Stable Rank Group Relative Policy Optimization (SR-GRPO) ein, das den stabilen Rang als Belohnungssignal für bestärkendes Lernen nutzt. Ohne externe Überwachung verbessert SR-GRPO Qwen2.5-1.5B-Instruct um 10 % in MINT-Fächern und 19 % im mathematischen Denken und übertrifft damit sowohl gelernte Belohnungsmodelle als auch Selbstbewertungs-Baselines. Unsere Ergebnisse zeigen, dass Qualitätssignale aus der internen Modellgeometrie extrahiert werden können, was einen Weg zu skalierbarer Ausrichtung ohne externe Überwachung eröffnet.
Während Neural Processing Units (NPUs) eine hohe theoretische Effizienz für Edge-KI bieten, versagen state-of-the-art Vision-Language-Models (VLMs), die für GPUs optimiert sind, häufig auf diesen Substraten. Wir führen diese Hardware-Modell-Diskrepanz auf zwei Hauptfaktoren zurück: die Quantisierungsanfälligkeit von Vision Transformern (ViTs) und den I/O-lastigen Charakter autoregressiver Attention-Mechanismen, welche den hohen arithmetischen Durchsatz von NPUs nicht nutzen können. Um diese Lücke zu schließen, stellen wir AutoNeural vor, eine NPU-native VLM-Architektur, die gemeinsam für eine ausschließlich ganzzahlige (Integer-Only) Inferenz entwickelt wurde. Wir ersetzen den standardmäßigen ViT-Encoder durch ein MobileNetV5-artiges Backbone, das Tiefenweise Separierbare Faltungen nutzt, um begrenzte Aktivierungsverteilungen für eine stabile INT4/8/16-Quantisierung zu gewährleisten. Ergänzend dazu integriert unser Sprach-Backbone Prinzipien von State-Space-Modellen (SSMs) mit Transformer-Schichten und setzt effiziente Gated Convolutions ein, um eine lineare Zeitkomplexität zu erreichen. Dieser hybride Entwurf beseitigt den hohen Speicher-I/O-Overhead von Key-Value-Caching während der Generierung. Unser Ansatz erzielt erhebliche Effizienzgewinne, reduziert den Quantisierungsfehler des Vision-Encoders um bis zum 7-fachen und die Ende-zu-Ende-Latenz um das 14-fache im Vergleich zu konventionellen Baselines. AutoNeural erreicht zudem eine 3-fache Decodiergeschwindigkeit und einen 4-fach längeren Kontextfenster als die Baseline. Wir validieren diese Verbesserungen durch eine automotive Fallstudie auf dem Qualcomm SA8295P SoC, die Echtzeitleistung für Cockpit-Anwendungen demonstriert. Unsere Ergebnisse unterstreichen, dass eine Neuausrichtung der Modelltopologie speziell für NPU-Randbedingungen eine Voraussetzung für robuste multimodale Edge-Intelligenz ist.
Kochen ist eine sequenzielle und visuell fundierte Aktivität, bei der jeder Schritt wie Schneiden, Mischen oder Braten sowohl prozedurale Logik als auch visuelle Semantik trägt. Während aktuelle Diffusionsmodelle starke Fähigkeiten in der Text-zu-Bild-Generierung gezeigt haben, haben sie Schwierigkeiten mit strukturierten Mehrschrittszenarien wie Rezeptillustrationen. Zudem können aktuelle Methoden zur Rezeptillustration nicht auf die natürliche Variabilität der Rezeptlänge reagieren und generieren unabhängig von der tatsächlichen Anweisungsstruktur eine feste Anzahl von Bildern. Um diese Einschränkungen zu adressieren, stellen wir CookAnything vor, ein flexibles und konsistentes diffusionsbasiertes Framework, das kohärente, semantisch distinkte Bildsequenzen aus textuellen Kochanweisungen beliebiger Länge erzeugt. Das Framework führt drei Schlüsselkomponenten ein: (1) Schrittweise regionale Steuerung (Step-wise Regional Control, SRC), die Textschritte mit entsprechenden Bildregionen in einem einzelnen Denoising-Prozess abgleicht; (2) Flexibles RoPE, ein schrittbewusser Positionskodierungsmechanismus, der sowohl temporale Kohärenz als auch räumliche Diversität verbessert; und (3) Schrittübergreifende Konsistenzsteuerung (Cross-Step Consistency Control, CSCC), die feinkörnige Zutatenkonsistenz über alle Schritte hinweg aufrechterhält. Experimentelle Ergebnisse auf Rezeptillustrations-Benchmarks zeigen, dass CookAnything in trainingsbasierten und trainingsfreien Settings besser abschneidet als bestehende Methoden. Das vorgeschlagene Framework unterstützt skalierbare, hochwertige visuelle Synthese komplexer Mehrschrittanleitungen und birgt großes Potenzial für breite Anwendungen in instruktiven Medien und prozeduraler Inhaltserstellung.
Seit 2019 ist der Hugging Face Model Hub die primäre globale Plattform für die Verbreitung von Open-Weight-KI-Modellen. Durch die Veröffentlichung eines Datensatzes der vollständigen Historie wöchentlicher Modell-Downloads (Juni 2020–August 2025) zusammen mit Modell-Metadaten ermöglichen wir die bislang rigoroseste Untersuchung von Konzentrationsdynamiken und sich wandelnden Charakteristiken in der Open-Model-Ökonomie. Unsere Analyse umfasst 851.000 Modelle, über 200 aggregierte Attribute pro Modell und 2,2 Mrd. Downloads. Wir dokumentieren eine grundlegende Neugewichtung der ökonomischen Macht: Die US-amerikanische Open-Weight-Dominanz durch Google, Meta und OpenAI ist zugunsten unabhängiger Entwickler, Gemeinschaftsorganisationen und seit 2025 auch der chinesischen Industrie stark zurückgegangen, wobei DeepSeek- und Qwen-Modelle möglicherweise eine neue Konsolidierung der Marktmacht ankündigen. Wir identifizieren statistisch signifikante Verschiebungen bei Modell-Eigenschaften, eine 17-fache Zunahme der durchschnittlichen Modellgröße, rapides Wachstum bei multimodaler Generierung (3,4-fach), Quantisierung (5-fach) und Mixture-of-Experts-Architekturen (7-fach), sowie besorgniserregende Rückgänge bei der Datentransparenz, wobei 2025 erstmals Open-Weight-Modelle wirklich quelloffene Modelle überflügelt haben. Wir beleuchten eine neue Schicht von Entwickler-Intermediären, die sich auf die Quantisierung und Anpassung von Basis-Modellen für Effizienz und künstlerischen Ausdruck spezialisiert hat. Um weitere Forschung und Überwachung zu ermöglichen, veröffentlichen wir den vollständigen Datensatz mit einem interaktiven Dashboard zur Echtzeitbeobachtung von Konzentrationsdynamiken und sich entwickelnden Eigenschaften in der Open-Model-Ökonomie.
Wir stellen Jina-VLM vor, ein multimodales Vision-Language-Modell mit 2,4 Milliarden Parametern, das im Bereich des multisprachigen visuellen Frageantwortens unter offenen VLMs im 2-Milliarden-Maßstab state-of-the-art Ergebnisse erzielt. Das Modell kombiniert einen SigLIP2-Vision-Encoder mit einem Qwen3-Sprachmodell durch einen Attention-Pooling-Connector, der token-effiziente Verarbeitung von Bildern mit beliebiger Auflösung ermöglicht. In standardisierten VQA-Benchmarks und multisprachigen Evaluierungen übertrifft Jina-VLM vergleichbare Modelle, bei gleichzeitig wettbewerbsfähiger Performance in reinen Textaufgaben.
Die Bewertung von Bild-Text-Alignment-Modellen wie CLIP ist entscheidend für die Überbrückung visueller und linguistischer Repräsentationen. Bisherige Benchmarks stützen sich jedoch auf regelbasierte Perturbationen oder kurze Beschreibungen, was ihre Fähigkeit zur Messung feinkörniger Übereinstimmungen einschränkt. Wir stellen AlignBench vor, einen Benchmark, der durch die Auswertung detaillierter Bild-Beschreibungs-Paare einen neuen Indikator für Bild-Text-Alignment bietet. Diese Paare werden von diversen Bild-zu-Text- und Text-zu-Bild-Modellen generiert. Jeder Satz wird auf Korrektheit annotiert, was eine direkte Bewertung von VLMs als Alignment-Evaluatoren ermöglicht. Die Evaluierung einer Vielzahl decoderbasierter VLMs offenbart drei zentrale Erkenntnisse: (i) CLIP-basierte Modelle – selbst solche für kompositionelles Reasoning – bleiben nahezu blind; (ii) Detektoren bewerten frühe Sätze systematisch über; und (iii) sie zeigen starke Selbstpräferenz, begünstigen eigene Outputs und beeinträchtigen so die Detektionsleistung. Unsere Projektseite wird unter https://dahlian00.github.io/AlignBench/ verfügbar sein.
Wir stellen Doublespeak vor, einen einfachen In-Context-Repräsentations-Hijacking-Angriff auf große Sprachmodelle (LLMs). Der Angriff funktioniert durch systematisches Ersetzen eines schädlichen Schlüsselworts (z.B. Bombe) durch ein harmloses Token (z.B. Karotte) über mehrere In-Context-Beispiele hinweg, sofern ein Präfix zu einer schädlichen Anfrage gegeben ist. Wir zeigen, dass diese Substitution dazu führt, dass die interne Repräsentation des harmlosen Tokens gegen die des schädlichen konvergiert und so die schädliche Semantik effektiv unter einem Euphemismus eingebettet wird. Infolgedessen werden oberflächlich harmlose Prompts (z.B. „Wie baue ich eine Karotte?“) intern als unerlaubte Anweisungen (z.B. „Wie baue ich eine Bombe?“) interpretiert, wodurch die Sicherheitsausrichtung des Modells umgangen wird. Wir nutzen Interpretierbarkeitstools, um zu zeigen, dass diese semantische Überschreibung schichtweise entsteht, wobei harmlose Bedeutungen in frühen Schichten in späteren Schichten zu schädlicher Semantik konvergieren. Doublespeak kommt ohne Optimierung aus, ist breit übertragbar auf verschiedene Modellfamilien und erzielt hohe Erfolgsquoten bei Closed-Source- und Open-Source-Systemen, mit bis zu 74 % ASR auf Llama-3.3-70B-Instruct mittels einer Single-Sentence-Kontext-Überschreibung. Unsere Ergebnisse beleuchten eine neue Angriffsfläche im latenten Raum von LLMs und zeigen, dass aktuelle Alignment-Strategien unzureichend sind und stattdessen auf Repräsentationsebene operieren sollten.
Die Bereitstellung großer Sprachmodelle (LLM) auf mobilen Plattformen steht vor erheblichen Herausforderungen aufgrund des begrenzten Speichers und der gemeinsam genutzten Rechenressourcen der Geräte. Die Ressourcenverfügbarkeit kann problematisch sein, da sie direkt von der aktuellen Geräteauslastung beeinflusst wird, was die Unsicherheit bei der Modellbereitstellung erhöht. Wir stellen UniQL vor, ein einheitliches Framework für Nachtrainingsquantisierung und Low-Rank-Kompression mit konfigurierbaren Pruning-Raten auf dem Gerät für Edge-LLMs. UniQL ist ein allgemeines Framework, das Quantisierung und Low-Rank-Kompression für Transformer, State Space Models (SSMs) und hybride Modelle integriert, um verschiedene Edge-Anwendungen zu unterstützen. In unserem vorgeschlagenen gemeinsamen Framework führen wir eine effiziente strukturierte Gewichtssortierungsmethode ein, die die Berechnung um das 20-fache beschleunigt, quantisierungsbewusste Singulärwertzerlegung (SVD) zur Minimierung von Quantisierungsfehlern, zustandsbewusste Gewichtssortierung für SSMs und einen fusionierten Rotary Positional Embedding (RoPE)-Kernel für geprunte Modelle. Unser Framework führt Gewichtssortierung, Feinabstimmung und Quantisierung in der Cloud in einem Single-Pass-Workflow durch, ermöglicht aber gleichzeitig konfigurierbare Pruning-Raten von bis zu 35 % auf dem Gerät. Unsere Experimente zeigen, dass quantisierte und geprunte Modelle eine Speicherreduzierung um das 4- bis 5,7-fache und eine Token-Throughput-Verbesserung um das 2,7- bis 3,4-fache erreichen, wobei die Genauigkeit innerhalb von 5 % der Originalmodelle bei 15 % Pruning über Transformer (Llama3 und Qwen2.5), SSMs (Mamba2) und hybride Modelle (Nemotron-H und Bamba-v2) hinweg erhalten bleibt. Der Code und die quantisierten Modelle sind verfügbar unter: https://github.com/enyac-group/UniQL.
Reasoning-Modelle, die lange Gedankenketten nutzen, setzen verschiedene kognitive Fähigkeiten ein, wie die Überprüfung ihrer Antworten, Backtracking, erneutes Versuchen mit einer alternativen Methode und mehr. Frühere Arbeiten haben gezeigt, dass wenn ein Basissprachmodell diese Fähigkeiten aufweist, das weitere Training dieses Modells mit Reinforcement Learning (RL) lernen kann, sie zu nutzen. Wie können wir Modelle dazu bringen, Fähigkeiten zu nutzen, die von Basismodellen nicht gezeigt werden? Unsere Arbeit, SkillFactory, ist eine Methode zum Fine-Tuning von Modellen, um diese Fähigkeiten grob während einer überwachten Feinabstimmung (SFT) vor dem RL zu erlernen. Unser Ansatz stützt sich nicht auf die Destillation eines stärkeren Modells, sondern verwendet Proben des Modells selbst, die so umgeordnet werden, dass sie Trainingsdaten im Format dieser Fähigkeiten liefern. Diese "silbernen" SFT-Traces mögen unvollkommen sein, sind dennoch effektiv, um ein Modell darauf vorzubereiten, Fähigkeiten während des RL zu erwerben. Unsere Auswertung zeigt, dass (1) ein Start mit der SkillFactory-SFT-Initialisierung einem Modell hilft, nach dem RL auf schwierigere Varianten einer Aufgabe zu verallgemeinern, trotz geringerer Leistung vor dem RL; (2) kognitive Fähigkeiten tatsächlich vom Modell genutzt werden; (3) RL-trainierte SkillFactory-Modelle robuster gegen Regressionen bei aufgabenfremden Aufgaben sind als RL-trainierte Basismodelle. Unsere Arbeit legt nahe, dass vor dem RL erworbene induktive Verzerrungen Modellen helfen, eine robuste Nutzung kognitiver Fähigkeiten zu erlernen.
Die Anwendung großer multimodaler Modelle (LMMs) für das Verständnis langer Videos wird durch begrenzte Kontextlängen und den rechenintensiven Aufwand der Verarbeitung dichter Videotokens eingeschränkt. Folglich konzentriert sich die aktuelle Forschung auf abfragebewusste Frame-Auswahl, Methoden, die oft erheblichen Rechenaufwand verursachen. Dieses Papier stellt die Annahme in Frage, dass solche komplexen Suchmechanismen universell notwendig sind. Wir identifizieren und validieren zunächst eine Abfrage-Typologie, die zwischen globalen Abfragen und lokalisierten Abfragen unterscheidet. Wir zeigen, dass während gleichmäßige Abtastung für globale Abfragen sowohl effektiv als auch effizient ist, lokalisierte Abfragen tatsächlich eine abfragebewusste Auswahl für optimale Leistung erfordern. Aufbauend auf dieser Erkenntnis schlagen wir DIG vor, ein trainierungsfreies Framework zur Frame-Auswahl, das seine Strategie basierend auf dem Abfragetyp anpasst. Konkret setzt DIG für globale Abfragen eine effiziente gleichmäßige Abtastung ein, während es für lokalisierte Abfragen eine spezialisierte Pipeline aktiviert, um abfragerelevante Frames zu extrahieren. Experimente auf drei Benchmarks für das Verständnis langer Videos zeigen, dass DIG konsistent bestehende Baselines übertrifft und die LMM-Leistung robust verbessert, selbst wenn die Anzahl der Eingabeframes auf 256 skaliert wird.
Vision-Language Models (VLMs) haben bemerkenswerte Erfolge bei Aufgaben zur visuellen Fragebeantwortung erzielt, doch ihre Abhängigkeit von einer großen Anzahl visueller Tokens führt zu erheblichem Rechenaufwand. Während bestehende effiziente VLM-Ansätze visuelle Tokens durch Kompression mit festem Verhältnis reduzieren, arbeiten sie passiv und fehlt ihnen die Fähigkeit, sich an unterschiedliche Aufgabenanforderungen anzupassen. Dies wirft eine grundlegende Frage auf: Können VLMs autonom die minimale Anzahl an visuellen Tokens bestimmen, die für jede einzelne Eingabe erforderlich ist? Inspiriert von menschlichen Active-Vision-Mechanismen führen wir AdaptVision ein, ein effizientes VLM-Paradigma, das einen adaptiven Erwerb visueller Tokens durch einen grob- bis fein-granularen Ansatz ermöglicht. Unser Modell verarbeitet zunächst komprimierte visuelle Tokens aus niedrigaufgelösten Bildern und erwirbt bei Bedarf selektiv zusätzliche visuelle Informationen, indem es ein Bounding-Box-Werkzeug aufruft, um Schlüsselregionen auszuschneiden. Wir trainieren AdaptVision mit einem Reinforcement-Learning-Framework, das Genauigkeit und Effizienz sorgfältig abwägt. Zentrale Bedeutung für unseren Ansatz hat die Decoupled Turn Policy Optimization (DTPO), die das Lernziel in zwei Komponenten entkoppelt: (1) Werkzeuglernen, das die korrekte Werkzeugnutzung optimiert, und (2) Genauigkeitsverbesserung, die die generierten Antworten verfeinert, um die Korrektheit zu steigern. Aufbauend auf dieser Formulierung entkoppeln wir weiter die Advantage-Schätzung, indem wir separate Advantages für Tokens berechnen, die den jeweiligen Zielen zugeordnet sind. Diese Formulierung ermöglicht eine effektivere Optimierung für AdaptVision im Vergleich zu standardmäßigem GRPO. Umfassende Experimente über mehrere VQA-Benchmarks hinweg demonstrieren, dass AdaptVision eine überlegene Leistung erzielt und dabei deutlich weniger visuelle Tokens verbraucht als state-of-the-art effiziente VLM-Methoden.
Diffusionsmodelle zeigen vielversprechende Ergebnisse bei der Entfernung von Bewegungsunschärfe in dynamischen Szenen; bestehende Studien nutzen jedoch häufig die intrinsische Natur des Unschärfeprozesses innerhalb von Diffusionsmodellen nicht aus, was ihr volles Potenzial begrenzt. Um dieses Problem zu adressieren, stellen wir ein Blur Diffusion Model (BlurDM) vor, das den Unschärfebildungsprozess nahtlos in die Diffusion zur Bildentschärfung integriert. Aufbauend auf der Beobachtung, dass Bewegungsunschärfe auf kontinuierlicher Belichtung beruht, modelliert BlurDM den Unschärfebildungsprozess implizit durch ein duales Diffusions-Vorwärtsschema, bei dem sowohl Rauschen als auch Unschärfe auf ein scharfes Bild diffundiert werden. Während des umgekehrten Generierungsprozesses leiten wir eine Formulierung für duale Entrauschung und Entschärfung ab, die es BlurDM ermöglicht, das scharfe Bild durch simultanes Entrauschen und Entschärfen wiederherzustellen, wobei reines Gaußsches Rauschen, konditioniert auf das unscharfe Bild, als Eingabe dient. Zusätzlich führen wir BlurDM im latenten Raum durch, um es effizient in Entschärfungsnetzwerke zu integrieren, und bilden so ein flexibles Prior-Generierungsnetzwerk für die Entschärfung. Umfangreiche Experimente belegen, dass BlurDM bestehende Entschärfungsmethoden auf vier Benchmark-Datensätzen signifikant und konsistent verbessert. Der Quellcode ist verfügbar unter https://github.com/Jin-Ting-He/BlurDM.
Aufmerksamkeitsmechanismen bilden das Kernstück von Foundation Models, doch ihre quadratische Komplexität bleibt ein kritischer Engpass für die Skalierung. Diese Herausforderung hat die Entwicklung effizienter Aufmerksamkeitsmechanismen vorangetrieben, wobei Sparsity sich als dominantes Paradigma etabliert hat. Aktuelle Methoden behalten typischerweise gesamte Key-Value-Blöcke bei oder verwerfen sie mittels binärer Masken, was bei hoher Sparsity zu erheblichem Informationsverlust führt. Um diese Lücke zu schließen, präsentieren wir Pyramid Sparse Attention (PSA), ein vielseitiges Modul, das sowohl für Video-Understanding- als auch für Video-Generierungsaufgaben geeignet ist. Anstelle binärer Maskierung führt PSA mehrstufig gepoolte KV-Repräsentationen ein, die eine feinere Maskengranularität ermöglichen. Konkret weist jeder Query-Block dynamisch niedrigere Pooling-Levels für kritische KV-Blöcke und höhere Levels für weniger wichtige Blöcke zu, wodurch eine informative Interpolation zwischen vollständiger Beibehaltung und komplettem Entfernen entsteht. Dieses Design, das Analogien zur Festkomma-Quantisierung und zu klassischen Feature-Pyramid-Networks in der Computer Vision aufweist, reduziert den Informationsverlust effektiv und bewahrt gleichzeitig die Recheneffizienz bei geringem Rechenbudget. Es funktioniert mit einem nativen, hardwarefreundlichen Kernel, der ein entkoppeltes Block-Tile-Design nutzt, um eine effiziente Ausführung zu gewährleisten. In Benchmarks für Video-Understanding und -Generierung bewahrt PSA kontextuelle Informationen und visuelle Qualität, übertrifft bestehende Sparsity-basierte Aufmerksamkeits-Baselines durchweg oder erreicht vergleichbare Leistung bei überlegenen Effizienz-Qualitäts-Kompromissen. Unser Code und unsere Modellgewichte sind öffentlich verfügbar unter: http://ziplab.co/PSA
Grafikdesign bildet das Fundament der modernen visuellen Kommunikation und dient als wichtiges Medium zur Förderung kultureller und kommerzieller Veranstaltungen. Jüngste Fortschritte haben die Automatisierung dieses Prozesses mit Hilfe großer multimodaler Modelle (LMMs) untersucht, doch bestehende Methoden erzeugen oft geometrisch ungenaue Layouts und ermöglichen nicht die iterative, ebenenspezifische Bearbeitung, die in professionellen Workflows erforderlich ist. Um diese Einschränkungen zu adressieren, stellen wir PosterCopilot vor, ein Framework, das das Layout-Verständnis und die kontrollierbare Bearbeitung für professionelles Grafikdesign vorantreibt. Konkret führen wir eine progressive Drei-Stufen-Trainingsstrategie ein, die LMMs ein geometrisches Verständnis und ästhetische Urteilsfähigkeit für das Layout-Design vermittelt. Diese besteht aus überwachtem Feinabgleich mit Störungen, Reinforcement Learning zur visuell-realitätsbasierten Ausrichtung und Reinforcement Learning aus ästhetischem Feedback. Darüber hinaus entwickeln wir einen vollständigen Workflow, der das trainierte, auf LMM basierende Designmodell mit generativen Modellen koppelt. Dies ermöglicht eine ebenenkontrollierbare, iterative Bearbeitung zur präzisen Verfeinerung von Elementen bei gleichzeitiger Wahrung der globalen visuellen Konsistenz. Umfangreiche Experimente belegen, dass PosterCopilot geometrisch präzise und ästhetisch hochwertige Layouts erzielt und eine beispiellose Kontrollierbarkeit für professionelles iteratives Design bietet.
Wir stellen den Adversarial Confusion Attack vor, eine neue Klasse von Bedrohungen für multimodale Large Language Models (MLLMs). Im Gegensatz zu Jailbreaks oder gezielter Fehlklassifizierung besteht das Ziel darin, eine systematische Störung zu induzieren, die das Modell veranlasst, inkohärente oder selbstsichere, aber falsche Ausgaben zu generieren. Praktische Anwendungen umfassen das Einbetten solcher adversarieller Bilder in Websites, um zu verhindern, dass MLLM-gestützte KI-Agenten zuverlässig operieren können. Der vorgeschlagene Angriff maximiert die Entropie des nächsten Tokens unter Verwendung eines kleinen Ensembles von Open-Source-MLLMs. Im White-Box-Szenario zeigen wir, dass ein einziges adversarielles Bild alle Modelle des Ensembles sowohl im Vollbild- als auch im Adversarial-CAPTCHA-Setting stören kann. Obwohl der Angriff auf einer grundlegenden adversariellen Technik (PGD) basiert, erzeugt er Perturbationen, die sowohl auf ungesehene Open-Source-Modelle (z.B. Qwen3-VL) als auch auf proprietäre Modelle (z.B. GPT-5.1) übertragbar sind.