papers.description
Jüngste Fortschritte bei multimodalen großen Sprachmodellen eröffnen beispiellose Möglichkeiten für die GUI-Automatisierung. Eine grundlegende Herausforderung bleibt jedoch bestehen: Wie können hochwertige Trainingsdaten effizient erfasst werden, während die Zuverlässigkeit der Annotation gewährleistet bleibt? Wir stellen eine sich selbst weiterentwickelnde Trainingspipeline vor, die durch ein kalibriertes Stufenbelohnungssystem angetrieben wird. Dieses System wandelt modellgenerierte Trajektorien durch trajektorienbasierte Kalibrierung in zuverlässige Trainingssignale um und erreicht eine Annotationsgenauigkeit von über 90 % bei 10- bis 100-fach geringeren Kosten. Aufbauend auf dieser Pipeline präsentieren wir Step-GUI, eine Modellfamilie (4B/8B), die state-of-the-art GUI-Leistung erzielt (8B: 80,2 % AndroidWorld, 48,5 % OSWorld, 62,6 % ScreenShot-Pro) und dabei robuste allgemeine Fähigkeiten beibehält. Da die Fähigkeiten von GUI-Agenten zunehmen, erfordert der praktische Einsatz standardisierte Schnittstellen über heterogene Geräte hinweg bei gleichzeitigem Schutz der Benutzerprivatsphäre. Zu diesem Zweck schlagen wir GUI-MCP vor, das erste Model Context Protocol für die GUI-Automatisierung mit einer hierarchischen Architektur, die Low-Level-Atomoperationen und High-Level-Aufgabendelegierung an lokale Spezialmodelle kombiniert. Dies ermöglicht eine hochgradig private Ausführung, bei der sensible Daten auf dem Gerät verbleiben. Schließlich führen wir AndroidDaily ein, um zu bewerten, ob Agenten authentische alltägliche Nutzungsszenarien bewältigen können. Dieser Benchmark basiert auf realen mobilen Nutzungsmustern und umfasst 3146 statische Aktionen und 235 End-to-End-Aufgaben in hochfrequenten Alltagsszenarien (8B: statisch 89,91 %, End-to-End 52,50 %). Unsere Arbeit fördert die Entwicklung praktischer GUI-Agenten und demonstriert ein großes Potenzial für den realen Einsatz in alltäglichen digitalen Interaktionen.
Effizienz als zentrale praktische Herausforderung für LLM-gesteuerte agentenbasierte und reasoning-Systeme wird zunehmend durch die inhärente Latenz des autoregressiven (AR) Decodierens eingeschränkt. Speculative Decoding mildert diese Kosten durch ein Draft-Verify-Schema, doch bestehende Ansätze verlassen sich auf AR-Draft-Modelle (sog. Drafter), die zwei grundlegende Probleme aufwerfen: (1) schrittweise Unsicherheitsakkumulation führt zu einem progressiven Vertrauensverlust zwischen Zielmodell und Drafter, und (2) inhärent sequenzielles Decodieren von AR-Draftern. Gemeinsam führen diese Faktoren zu begrenzten Beschleunigungen. In dieser Arbeit zeigen wir, dass Drafter auf Basis von Diffusion Large Language Models (dLLMs) diese Probleme auf natürliche Weise durch ihre fundamental unterschiedliche probabilistische Modellierung und effiziente parallele Decodierstrategie überwinden können. Aufbauend auf dieser Erkenntnis stellen wir DEER vor, einen effizienten Speculative-Decoding-Rahmen, der mit Diffusion drafted und mit AR-Modellen verifiziert. Um hochwertiges Drafting zu ermöglichen, nutzt DEER eine zweistufige Trainingspipeline, um die dLLM-basierten Drafter am Ziel-AR-Modell auszurichten, und setzt zusätzlich Einzelschritt-Decodierung ein, um lange Draft-Segmente zu generieren. Experimente zeigen, dass DEER Draft-Akzeptanzlängen von bis zu 32 Tokens erreicht, was die von EAGLE-3 erreichten 10 Tokens bei weitem übertrifft. Darüber hinaus erzielt DEER auf HumanEval mit Qwen3-30B-A3B eine 5,54-fache Beschleunigung, während EAGLE-3 nur 2,41-fach beschleunigt. Code, Modelle, Demo usw. werden unter https://czc726.github.io/DEER/ verfügbar sein.
Die Multi-Token-Generierung hat sich als vielversprechendes Paradigma zur Beschleunigung der Inferenz transformerbasierter Großmodelle etabliert. Aktuelle Forschungsbemühungen untersuchen vorrangig diffuse Large Language Models (dLLMs) für paralleles Decodieren, um die Inferenzlatenz zu verringern. Um AR-ähnliche Generierungsqualität zu erreichen, passen viele Techniken AR-Modelle an dLLMs an, um paralleles Decodieren zu ermöglichen. Allerdings weisen sie im Vergleich zu AR-Modellen eine begrenzte Beschleunigung auf, bedingt durch eine Diskrepanz zwischen Pre-Training und Post-Training. Konkret weicht die maskierte Datenverteilung im Post-Training signifikant von der realen Datenverteilung während des Pre-Trainings ab, und dLLMs nutzen bidirektionale Aufmerksamkeit, was im Widerspruch zum kausalen Prior des Pre-Trainings steht und die Integration exakter KV-Cache-Wiederverwendung behindert. Um dies zu adressieren, führen wir Jacobi Forcing ein, ein Paradigma progressiver Distillation, bei dem Modelle anhand ihrer eigenen generierten parallelen Decodierungspfade trainiert werden. Dies wandelt AR-Modelle schrittweise in effiziente parallele Decodierer um und bewahrt dabei ihre vortrainierte kausale Inferenzeigenschaft. Die nach diesem Paradigma trainierten Modelle, Jacobi Forcing Models, erreichen eine 3,8-fache Echtzeit-Beschleunigung bei Coding- und Math-Benchmarks bei minimalem Leistungsverlust. Basierend auf den Trajektorie-Eigenschaften von Jacobi Forcing Models führen wir Multi-Block-Decodierung mit Rejection Recycling ein, die bis zu 4,5-mal mehr akzeptierte Tokens pro Iteration und nahezu eine 4,0-fache Echtzeit-Beschleunigung ermöglicht, wodurch effektiv zusätzliche Rechenleistung gegen geringere Inferenzlatenz getauscht wird. Unser Code ist verfügbar unter https://github.com/hao-ai-lab/JacobiForcing.
Aktuelle multimodale Großsprachmodelle verfügen über starke Wahrnehmungs- und Schlussfolgerungsfähigkeiten, doch hohe Rechen- und Speicheranforderungen erschweren ihren direkten Einsatz in On-Device-Umgebungen. Während kleinere Modelle mit geringerer Parameterzahl zunehmend mit starken allgemeinen Fähigkeiten ausgestattet werden, bleiben standardmäßige Vision-Transformer-(ViT)-Encoder ein kritischer Engpass, da sie bei der Verarbeitung hochauflösender Eingaben unter übermäßiger Latenz und hohem Speicherverbrauch leiden. Um diese Herausforderungen zu bewältigen, stellen wir HyperVL vor, ein effizientes multimodales Großsprachmodell, das für die Inferenz auf Endgeräten optimiert ist. HyperVL setzt eine Bildkachelungsstrategie ein, um den Spitzenspeicherverbrauch zu begrenzen, und integriert zwei neuartige Techniken: (1) einen visuellen Auflösungskompressor (VRC), der adaptiv optimale Encodierungsauflösungen vorhersagt, um redundante Berechnungen zu eliminieren, und (2) Dual Consistency Learning (DCL), das Multi-Scale-ViT-Encoder innerhalb eines einheitlichen Frameworks abstimmt und einen dynamischen Wechsel zwischen visuellen Verarbeitungszweigen unter einer gemeinsamen LLM-Architektur ermöglicht. Umfangreiche Experimente belegen, dass HyperVL bei Modellen vergleichbarer Größe state-of-the-art Leistung in mehreren Benchmarks erreicht. Darüber hinaus reduziert es die Latenz und den Energieverbrauch auf realen Mobilgeräten erheblich, was seine Praxistauglichkeit für die multimodale On-Device-Inferenz unterstreicht.
Aktuelle Reinforcement-Learning (RL)-Ansätze wie das auf Ergebnisse überwachte GRPO haben das Chain-of-Thought-Reasoning in Vision-Language-Models (VLMs) vorangetrieben, doch bestehen zentrale Probleme fort: (i) die Abhängigkeit von kostspieligen und verrauschten, manuell erstellten Annotationen oder externen Verifizierern; (ii) flache und spärliche Belohnungsschemata in GRPO; und (iii) die logische Inkonsistenz zwischen der Begründungskette und ihrer endgültigen Antwort. Wir stellen Puzzle Curriculum GRPO (PC-GRPO) vor, ein aufsichtsfreies Verfahren für RL mit verifizierbaren Belohnungen (RLVR), das das visuelle Reasoning in VLMs ohne Annotationen oder externe Verifizierer stärkt. PC-GRPO ersetzt Labels durch drei selbstüberwachte Puzzle-Umgebungen: PatchFit, Rotation (mit binären Belohnungen) und Jigsaw (mit abgestufter Teilpunktevergabe, die die Belohnungssparsamkeit mildert). Um flachen Belohnungen und schwindenden gruppenrelativen Vorteilen entgegenzuwirken, führen wir einen schwierigkeitsbasierten Lehrplan ein, der Proben dynamisch gewichtet und bei mittlerer Schwierigkeit kulminiert. Weiterhin überwachen wir die Reasoning-Antwort-Konsistenz (RAC) während des Post-Trainings: In Übereinstimmung mit Berichten zu Standard-GRPO in LLMs steigt die RAC typischerweise zunächst an, um dann abzufallen; unser Lehrplan verzögert diesen Abfall, und konsistenzerzwingende Belohnungsschemata steigern die RAC weiter. Die RAC korreliert mit der Downstream-Genauigkeit. Über diverse Benchmarks hinweg und auf Qwen-7B- und Qwen-3B-Backbones verbessert PC-GRPO die Reasoning-Qualität, die Trainingsstabilität und die Endaufgabengenauigkeit und bietet damit einen praktischen Weg zu skalierbarem, verifizierbarem und interpretierbarem RL-Post-Training für VLMs.
Universal Transformer (UT) wurden bereits häufig für komplexe Reasoning-Aufgaben wie ARC-AGI und Sudoku eingesetzt, doch die spezifischen Ursachen für ihre Leistungssteigerungen sind bisher kaum erforscht. In dieser Arbeit analysieren wir systematisch UT-Varianten und zeigen, dass die Verbesserungen bei ARC-AGI hauptsächlich auf den rekurrenten Inductive Bias und die starken nichtlinearen Komponenten des Transformers zurückzuführen sind, und nicht auf aufwändige Architekturdesigns. Aufbauend auf dieser Erkenntnis schlagen wir das Universal Reasoning Model (URM) vor, das den UT durch kurze Faltungsoperationen und truncated Backpropagation erweitert. Unser Ansatz verbessert die Reasoning-Leistung erheblich und erreicht state-of-the-art Werte von 53,8 % pass@1 auf ARC-AGI 1 und 16,0 % pass@1 auf ARC-AGI 2. Unser Code ist verfügbar unter https://github.com/zitian-gao/URM.
Aktuelle visuelle Generative Modelle haben häufig mit Inkonsistenzen bei der Bildbearbeitung zu kämpfen, was auf die verschränkte Natur von Rasterbildern zurückzuführen ist, bei der alle visuellen Inhalte zu einer einzigen Bildebene verschmolzen sind. Im Gegensatz dazu verwenden professionelle Design-Tools geschichtete Darstellungen, die isolierte Bearbeitungen bei gleichzeitiger Wahrung der Konsistenz ermöglichen. Ausgehend von dieser Beobachtung schlagen wir Qwen-Image-Layered vor, ein End-to-End-Diffusionsmodell, das ein einzelnes RGB-Bild in mehrere semantisch entflochtene RGBA-Ebenen zerlegt. Dies ermöglicht eine inhärente Bearbeitbarkeit, bei der jede RGBA-Ebene unabhängig manipuliert werden kann, ohne andere Inhalte zu beeinflussen. Um die Zerlegung in eine variable Anzahl von Ebenen zu unterstützen, führen wir drei Schlüsselkomponenten ein: (1) ein RGBA-VAE zur Vereinheitlichung der latenten Darstellungen von RGB- und RGBA-Bildern; (2) eine VLD-MMDiT-Architektur (Variable Layers Decomposition MMDiT), die in der Lage ist, eine variable Anzahl von Bildebenen zu zerlegen; und (3) eine mehrstufige Trainingsstrategie, um ein vortrainiertes Bildgenerierungsmodell an die Aufgabe der Mehrschicht-Bildzerlegung anzupassen. Darüber hinaus haben wir, um dem Mangel an hochwertigen Mehrschicht-Trainingsbildern entgegenzuwirken, eine Pipeline entwickelt, um mehrschichtige Bilder aus Photoshop-Dokumenten (PSD) zu extrahieren und zu annotieren. Experimente zeigen, dass unsere Methode bestehende Ansätze in der Zerlegungsqualität deutlich übertrifft und ein neues Paradigma für konsistente Bildbearbeitung etabliert. Unser Code und unsere Modelle sind unter https://github.com/QwenLM/Qwen-Image-Layered veröffentlicht.
Wir stellen IC-Effect vor, ein befehlsgeführtes, DiT-basiertes Framework für Few-Shot-Video-VFX-Bearbeitung, das komplexe Effekte (z.B. Flammen, Partikel und Zeichentrickfiguren) synthetisiert und dabei strikt die räumliche und zeitliche Konsistenz bewahrt. Die VFX-Bearbeitung von Videos ist äußerst anspruchsvoll, da eingefügte Effekte nahtlos mit dem Hintergrund verschmelzen müssen, der Hintergrund selbst vollständig unverändert bleiben muss und Effektmuster effizient aus begrenzten gepaarten Daten erlernt werden müssen. Bisherige Videobearbeitungsmodelle erfüllen diese Anforderungen jedoch nicht. IC-Effect nutzt das Quellvideo als saubere kontextuelle Bedingung und macht sich die kontextuelle Lernfähigkeit von DiT-Modellen zunutze, um eine präzise Hintergrunderhaltung und natürliche Effekteinblendung zu erreichen. Eine zweistufige Trainingsstrategie – bestehend aus allgemeiner Bearbeitungsanpassung gefolgt von effektspezifischem Lernen via Effect-LoRA – gewährleistet eine starke Befolgung von Anweisungen und robuste Effektmodellierung. Um die Effizienz weiter zu steigern, führen wir eine raumzeitlich sparse Tokenisierung ein, die hohe Qualität bei deutlich reduziertem Rechenaufwand ermöglicht. Zudem veröffentlichen wir einen gepaarten VFX-Bearbeitungs-Datensatz, der 15 hochwertige visuelle Stile umfasst. Umfangreiche Experimente zeigen, dass IC-Effect hochwertige, steuerbare und zeitlich konsistente VFX-Bearbeitung liefert und neue Möglichkeiten für die Videoproduktion eröffnet.
Räumliches Verständnis kontinuierlicher visueller Eingaben ist entscheidend dafür, dass MLLMs sich zu universellen Assistenten in physischen Umgebungen entwickeln. Dennoch existiert bisher kein umfassender Benchmark, der die Fortschritte hin zu diesem Ziel ganzheitlich bewertet. In dieser Arbeit stellen wir MMSI-Video-Bench vor, einen vollständig humanannotierten Benchmark für videobasierte räumliche Intelligenz in MLLMs. Er operationalisiert ein Vier-Ebenen-Framework – Wahrnehmung, Planung, Vorhersage und videoübergreifendes Schließen – mittels 1.106 Fragen, die auf 1.278 Videosequenzen aus 25 Datensätzen und internen Videos basieren. Jeder Eintrag wurde sorgfältig von 3DV-Experten entworfen und geprüft, mit erläuternden Begründungen, um eine präzise, eindeutige Verankerung zu gewährleisten. Dank seiner diversen Datenquellen und ganzheitlichen Aufgabenabdeckung unterstützt MMSI-Video-Bench zudem drei domänenspezifische Sub-Benchmarks (Indoor Scene Perception Bench, Robot Bench und Grounding Bench) für gezielte Fähigkeitsbewertungen. Wir evaluieren 25 leistungsstarke Open-Source- und proprietäre MLLMs und zeigen eine eklatante Mensch-KI-Lücke auf: Viele Modelle liegen nahe der Ratewahrscheinlichkeit, und das beste Reasoning-Modell liegt fast 60 % hinter dem Menschen zurück. Wir stellen weiter fest, dass räumlich feinabgestimmte Modelle auf unserem Benchmark immer noch keine effektive Generalisierung erreichen. Eine feingranulare Fehleranalyse deckt systematische Schwächen beim geometrischen Schließen, der Bewegungsverankerung, langfristigen Vorhersagen und der videoübergreifenden Korrespondenz auf. Wir zeigen auch, dass gängige Frame-Sampling-Strategien sich schlecht auf unseren reasoning-intensiven Benchmark übertragen lassen und dass weder 3D-räumliche Hinweise noch Chain-of-Thought-Prompting signifikante Verbesserungen bringen. Wir erwarten, dass unser Benchmark eine solide Testgrundlage für die Weiterentwicklung videobasierter räumlicher Intelligenz schaffen wird.
Der Missbrauch von KI-gesteuerter Videogenerierungstechnologie hat ernsthafte gesellschaftliche Bedenken aufgeworfen und unterstreicht die dringende Notwendigkeit zuverlässiger Detektoren für KI-generierte Videos. Bisher beschränken sich die meisten existierenden Methoden jedoch auf binäre Klassifikation und entbehren der notwendigen Erklärungen für die menschliche Interpretation. In diesem Artikel stellen wir Skyra vor, ein spezialisiertes multimodales großes Sprachmodell (MLLM), das menschlich wahrnehmbare visuelle Artefakte in KI-generierten Videos identifiziert und diese als fundierte Beweise sowohl für die Detektion als auch für die Erklärung nutzt. Um dieses Ziel zu unterstützen, erstellen wir ViF-CoT-4K für Supervised Fine-Tuning (SFT), den ersten groß angelegten Datensatz von Artefakten in KI-generierten Videos mit feingranularen menschlichen Annotationen. Anschließend entwickeln wir eine zweistufige Trainingsstrategie, die systematisch die räumlich-zeitliche Artefaktwahrnehmung, die Erklärungsfähigkeit und die Detektionsgenauigkeit unseres Modells verbessert. Für eine umfassende Evaluation von Skyra führen wir ViF-Bench ein, einen Benchmark, der 3.000 hochwertige Beispiele umfasst, die von mehr als zehn modernsten Video-Generatoren erzeugt wurden. Umfangreiche Experimente belegen, dass Skyra existierende Methoden über mehrere Benchmarks hinweg übertrifft, während unsere Evaluation wertvolle Einblicke für die Weiterentwicklung erklärbarer KI-generierter Videodetektion liefert.
Generative Modelle können hochrealistische Inhalte, sogenannte Deepfakes, synthetisieren, die bereits in großem Umfang missbraucht werden, um die Authentizität digitaler Medien zu untergraben. Aktuelle Methoden zur Deepfake-Erkennung sind aus zwei Gründen unzuverlässig: (i) Die nachträgliche Unterscheidung von nicht-authentischen Inhalten ist oft unmöglich (z.B. bei memorisierten Stichproben), was zu einer unbegrenzten False-Positive-Rate (FPR) führt; und (ii) der Erkennungsprozess mangelt es an Robustheit, da Gegner mit minimalen Rechenressourcen eine nahezu perfekte Anpassungsgenauigkeit an bekannte Detektoren erreichen können. Um diese Einschränkungen zu adressieren, schlagen wir ein Resynthese-Framework vor, um zu bestimmen, ob eine Stichprobe authentisch ist oder ob ihre Authentizität plausibel bestritten werden kann. Wir leisten zwei wesentliche Beiträge mit Fokus auf das Hochpräzisions-, Niedrig-Trefferquote-Setting gegenüber effizienten (d.h. rechenbeschränkten) Gegnern. Erstens demonstrieren wir, dass unsere kalibrierte Resynthesemethode der zuverlässigste Ansatz zur Verifikation authentischer Stichproben bei gleichzeitig kontrollierbarer, niedriger FPR ist. Zweitens zeigen wir, dass unsere Methode gegenüber effizienten Gegnern adversariale Robustheit erreicht, während frühere Methoden unter identischen Rechenbudgets leicht umgangen werden können. Unser Ansatz unterstützt multiple Modalitäten und nutzt modernste Inversionstechniken.
Als Menschen sind wir natürlicherweise Denker mit beliebigem Zeithorizont, d.h. wir können je nach Aufgabe entscheiden, ob wir lange Videos iterativ überfliegen oder kurze bei Bedarf vollständig ansehen. Vor diesem Hintergrund würde man erwarten, dass Video-Verstehensmodelle flexibel über verschiedene Zeiträume hinweg schlussfolgern. State-of-the-Art-Modelle werden jedoch nach wie vor so trainiert, dass sie Antworten in einem einzigen Durchgang vorhersagen, während sie eine große Anzahl von Frames verarbeiten – ähnlich dem Ansehen eines gesamten langen Videos –, was erhebliche Ressourcen erfordert. Dies wirft die Frage auf: Ist es möglich, leistungsstarke Video-Verstehensysteme mit beliebigem Zeithorizont zu entwickeln? Inspiriert vom menschlichen Verhalten schlagen wir erstens SAGE vor, ein Agentensystem, das mehrstufige Schlussfolgerungen bei langen Videos durchführt, während es einfachere Probleme in einem einzigen Durchgang löst. Zweitens führen wir eine einfache Pipeline zur Erzeugung synthetischer Daten unter Verwendung von Gemini-2.5-Flash ein, um den Orchestrator SAGE-MM zu trainieren, der das Herzstück von SAGE bildet. Wir schlagen weiterhin ein effektives Reinforcement-Learning-Nachtraining vor, das entscheidend ist, um SAGE-MM die Fähigkeit zum Denken mit beliebigem Zeithorizont zu verleihen. Drittens stellen wir SAGE-Bench mit einer durchschnittlichen Dauer von mehr als 700 Sekunden zusammen, um die Video-Verstehensfähigkeit in realen Unterhaltungsszenarien zu bewerten. Schließlich validieren wir empirisch die Wirksamkeit unseres Systems, unserer Daten und unserer RL-Methode und beobachten bemerkenswerte Verbesserungen von bis zu 6,1 % bei offenen Video-Verstehensaufgaben sowie eine beeindruckende Steigerung von 8,2 % bei Videos, die länger als 10 Minuten sind.
In der aktuellen multimodalen Forschung hat sich das Diffusionsparadigma aufgrund seiner einzigartigen Dekodierungsvorteile als vielversprechende Alternative zum autoregressiven Paradigma (AR) etabliert. Aufgrund der Fähigkeitsbeschränkungen des zugrundeliegenden Diffusions-Sprachmodells hinkt die Leistung des Diffusions-Vision-Sprachmodells (dVLM) jedoch immer noch deutlich hinter der von Mainstream-Modellen her. Dies wirft eine einfache, aber grundlegende Frage auf: Ist es möglich, dVLMs auf der Basis bestehender leistungsstarker AR-Modelle zu konstruieren? Als Antwort darauf schlagen wir DiffusionVL vor, eine dVLM-Familie, die aus beliebigen leistungsfähigen AR-Modellen übertragen werden kann. Durch einfaches Fine-Tuning passen wir AR-vortrainierte Modelle erfolgreich an das Diffusionsparadigma an. Dieser Ansatz führt zu zwei wichtigen Erkenntnissen: (1) Der Paradigmenwechsel von AR-basierten multimodalen Modellen zur Diffusion ist bemerkenswert effektiv. (2) Die direkte Konvertierung eines AR-Sprachmodells in ein dVLM ist ebenfalls machbar und erreicht eine Leistung, die mit LLaVA-style Visual-Instruction-Tuning vergleichbar ist. Darüber hinaus führen wir ein Block-Decoding-Design in dVLMs ein, das die Generierung beliebiger Längen und die Wiederverwendung des KV-Caches unterstützt und damit eine erhebliche Beschleunigung der Inferenz erreicht. Wir führen eine große Anzahl von Experimenten durch. Obwohl mit weniger als 5 % der von früheren Methoden benötigten Daten trainiert, erzielt DiffusionVL eine umfassende Leistungssteigerung – ein Zuwachs von 34,4 % auf der MMMU-Pro (Vision)-Benchmark und 37,5 % auf der MME (Cog.)-Benchmark – bei gleichzeitiger Verdopplung der Inferenzgeschwindigkeit. Das Modell und der Code sind unter https://github.com/hustvl/DiffusionVL veröffentlicht.
Reinforcement Learning ist entscheidend geworden, um die Reasoning-Fähigkeiten großer Sprachmodelle zu stärken, doch bestehende Explorationsmechanismen sind grundlegend fehlausgerichtet mit der Art und Weise, wie diese Modelle tatsächlich lernen. Entropie-Boni und externe semantische Komparatoren fördern oberflächliche Variation, bieten aber keine Garantie dafür, dass gesampelte Trajektorien sich in den Update-Richtungen unterscheiden, welche die Optimierung prägen. Wir schlagen G2RL vor, einen Gradienten-geführten Reinforcement-Learning-Rahmen, in dem Exploration nicht durch externe Heuristiken, sondern durch die interne Update-Geometrie erster Ordnung des Modells gesteuert wird. Für jede Antwort konstruiert G2RL ein Sequenz-level-Merkmal aus der Sensitivität der letzten Modellschicht, die mit vernachlässigbarem Aufwand aus einem Standard-Forward-Pass gewonnen werden kann, und misst, wie jede Trajektorie die Policy verändern würde, indem diese Merkmale innerhalb einer gesampelten Gruppe verglichen werden. Trajektorien, die neuartige Gradientenrichtungen einführen, erhalten einen begrenzten multiplikativen Reward-Scaler, während redundante oder "off-manifold"-Updates abgeschwächt werden. Dies ergibt ein selbstreferenzielles Explorationssignal, das natürlich mit PPO-ähnlicher Stabilität und KL-Kontrolle kompatibel ist. In Mathematik- und allgemeinen Reasoning-Benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) mit Qwen3-Basismodellen (1.7B und 4B) verbessert G2RL konsistent pass@1, maj@16 und pass@k im Vergleich zu entropiebasiertem GRPO und Methoden mit externen Embeddings. Eine Analyse der induzierten Geometrie zeigt, dass G2RL die Exploration in deutlich orthogonalere und oft entgegengesetzte Gradientenrichtungen ausdehnt, bei gleichzeitiger Wahrung der semantischen Kohärenz. Dies offenbart, dass der eigene Update-Raum einer Policy eine wesentlich treuere und effektivere Grundlage für die Steuerung der Exploration im Reinforcement Learning großer Sprachmodelle bietet.
Aktuelle Arbeiten zur mehrsprachigen Erkennung von benannten Entitäten (NER) haben gezeigt, dass große Sprachmodelle (LLMs) effektive synthetische Supervision bieten können. Dennoch sind solche Datensätze meist als Nebenprodukte breiter angelegter Experimente entstanden und nicht als systematische, wiederverwendbare Ressourcen. Wir stellen FiNERweb vor, eine Pipeline zur Datensatzerstellung, die das Lehrer-Schüler-Paradigma auf 91 Sprachen und 25 Schriftsysteme skaliert. Aufbauend auf FineWeb-Edu trainiert unser Ansatz Regressionsmodelle, um NER-relevante Textpassagen zu identifizieren, und annotiert diese mit mehrsprachigen LLMs. Das Ergebnis sind etwa 225.000 Passagen mit 235.000 verschiedenen Entitäten-Labels. Unsere Experimente zeigen, dass das Regressionsmodell einen F1-Score von über 84 erreicht und dass Modelle, die auf FiNERweb trainiert wurden, vergleichbare oder verbesserte Leistung in Zero-Shot-Transfer-Szenarien für Englisch, Thailändisch und Swahili erzielen – obwohl sie mit 19-mal weniger Daten trainiert wurden als starke Baseline-Modelle. Zusätzlich bewerten wir die Annotationsqualität mittels LLM-as-a-judge und beobachten durchgängig hohe Werte sowohl für die Korrektheit (3,99 von 5) als auch für die Vollständigkeit (4,05 von 5), was auf zuverlässige und informative Annotationen hindeutet. Darüber hinaus veröffentlichen wir den Datensatz sowohl mit englischen Labels als auch mit übersetzten Labelsets in den jeweiligen Zielsprachen, da wir feststellen, dass die Leistung aktueller state-of-the-art Modelle um 0,02 bis 0,09 F1-Score absinkt, wenn sie mit zielsprachigen Labels statt englischen Labels evaluiert werden. Wir stellen FiNERweb zusammen mit allen begleitenden Artefakten der Forschungsgemeinschaft zur Verfügung, um ein effektiveres Lehrer-Schüler-Training für die mehrsprachige Erkennung von benannten Entitäten zu ermöglichen.
Große Sprachmodelle (LLMs) werden zunehmend zur Erstellung synthetischer Datensätze für die Evaluierung und das Training nachgelagerter Modelle eingesetzt. Frühere Arbeiten haben jedoch festgestellt, dass solche generierten Daten an Diversität mangeln. In diesem Artikel stellen wir Voyager vor, einen neuartigen, prinzipienbasierten Ansatz zur Erzeugung diverser Datensätze. Unser Ansatz ist iterativ und optimiert direkt eine mathematische Größe, die die Vielfalt des Datensatzes unter Verwendung der Theorie der Determinanten-Punktprozesse maximiert. Darüber hinaus ist unser Ansatz trainingsfrei, auf Closed-Source-Modelle anwendbar und skalierbar. Neben der theoretischen Begründung für die Funktionsweise unserer Methode zeigen wir in umfassenden Experimenten, dass Voyager gängige Baseline-Ansätze deutlich übertrifft, indem es eine 1,5- bis 3-fache Steigerung der Diversität erreicht.
Autoregressive Videodiffusionsmodelle versprechen viel für die Weltsimulation, sind jedoch anfällig für Exposure Bias, der aus der Diskrepanz zwischen Trainings- und Testphase resultiert. Während neuere Arbeiten dies durch Nachbearbeitung adressieren, stützen sie sich typischerweise auf ein bidirektionales Lehrer-Modell oder einen Online-Diskriminator. Um eine End-to-End-Lösung zu erreichen, führen wir Resampling Forcing ein, ein lehrerfreies Framework, das das Training autoregressiver Videomodelle von Grund auf und in großem Maßstab ermöglicht. Kern unseres Ansatzes ist ein Self-Resampling-Schema, das Modellfehler, wie sie zur Inferenzzeit auftreten, während des Trainings auf historischen Bildern simuliert. Bedingt durch diese beeinträchtigten Verläufe, erzwingt eine sparse kausale Maske die zeitliche Kausalität und ermöglicht gleichzeitig paralleles Training mit Frame-level Diffusionsverlust. Um eine effiziente Langzeitgenerierung zu ermöglichen, führen wir weiterhin History Routing ein, einen parameterfreien Mechanismus, der für jede Abfrage dynamisch die k relevanten historischen Bilder abruft. Experimente zeigen, dass unser Ansatz eine mit distillationsbasierten Baseline-Modellen vergleichbare Leistung erzielt und aufgrund des nativen Langzeittrainings eine überlegene zeitliche Konsistenz bei längeren Videos aufweist.
Das autonome Fahren hat lange auf modulare "Wahrnehmungs-Entscheidungs-Handlungs"-Architekturen gesetzt, bei denen handgefertigte Schnittstellen und regelbasierte Komponenten in komplexen oder langschwänzigen Szenarien häufig versagen. Ihr kaskadierter Designansatz verstärkt zudem Wahrnehmungsfehler, was die nachgelagerten Planungs- und Steuerungsprozesse beeinträchtigt. Vision-Action (VA)-Modelle adressieren einige dieser Einschränkungen, indem sie direkte Abbildungen von visuellen Eingaben auf Aktionen erlernen, bleiben jedoch intransparent, anfällig für Distributionsverschiebungen und verfügen weder über strukturierte Reasoning-Fähigkeiten noch die Möglichkeit, Anweisungen zu befolgen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und multimodalem Lernen haben die Entstehung von Vision-Language-Action (VLA)-Architekturen befördert, die Wahrnehmung mit sprachbasiertem Entscheidungsfinden integrieren. Durch die Vereinheitlichung von visuellem Verständnis, linguistischem Reasoning und ausführbaren Ausgaben eröffnen VLAs einen Weg zu interpretierbareren, generalisierbareren und menschlich-kompatibleren Fahrstrategien. Diese Arbeit bietet eine strukturierte Charakterisierung der aufkommenden VLA-Landschaft für das autonome Fahren. Wir zeichnen die Entwicklung von frühen VA-Ansätzen hin zu modernen VLA-Architekturen nach und unterteilen bestehende Methoden in zwei Hauptparadigmen: End-to-End-VLA, das Wahrnehmung, Reasoning und Planung in einem einzigen Modell vereint, und Dual-System-VLA, das langsame Deliberation (mittels VLMs) von schneller, sicherheitskritischer Ausführung (mittels Planern) trennt. Innerhalb dieser Paradigmen unterscheiden wir weiterhin Subklassen, wie textbasierte versus numerische Aktionsgeneratoren und explizite versus implizite Steuerungsmechanismen. Zudem fassen wir repräsentative Datensätze und Benchmarks zur Evaluierung VLA-basierter Fahrzeugsysteme zusammen und beleuchten zentrale Herausforderungen und offene Forschungsrichtungen, darunter Robustheit, Interpretierbarkeit und Instruktionstreue. Insgesamt zielt diese Arbeit darauf ab, eine kohärente Grundlage für die Weiterentwicklung menschlich-kompatibler autonomer Fahrzeugsysteme zu schaffen.
Jüngste Fortschritte in der Videogenerierung sind bemerkenswert und ermöglichen es Modellen, visuell überzeugende Videos mit synchronisiertem Audio zu erzeugen. Während bestehende Benchmarks für die Videogenerierung umfassende Metriken für die visuelle Qualität bieten, fehlt es ihnen an überzeugenden Evaluierungen für die Audio-Video-Generierung, insbesondere für Modelle, die darauf abzielen, synchronisierte Audio-Video-Ausgaben zu erzeugen. Um diese Lücke zu schließen, stellen wir VABench vor, einen umfassenden und mehrdimensionalen Benchmark-Rahmen, der entwickelt wurde, um die Fähigkeiten der synchronen Audio-Video-Generierung systematisch zu bewerten. VABench umfasst drei primäre Aufgabentypen: Text-zu-Audio-Video (T2AV), Bild-zu-Audio-Video (I2AV) und stereophone Audio-Video-Generierung. Darüber hinaus etabliert es zwei Hauptbewertungsmodule, die 15 Dimensionen abdecken. Diese Dimensionen bewerten spezifisch paarweise Ähnlichkeiten (Text-Video, Text-Audio, Video-Audio), Audio-Video-Synchronisation, Lippen-Sprache-Konsistenz sowie sorgfältig kuratierte Audio- und Video-Frage-Antwort-Paare (QA) unter anderem. Zudem deckt VABench sieben Hauptinhaltskategorien ab: Tiere, menschliche Geräusche, Musik, Umgebungsgeräusche, synchrone physikalische Geräusche, komplexe Szenen und virtuelle Welten. Wir bieten eine systematische Analyse und Visualisierung der Bewertungsergebnisse, mit dem Ziel, einen neuen Standard für die Bewertung von Videogenerierungsmodellen mit synchronen Audiofähigkeiten zu etablieren und die umfassende Weiterentwicklung des Feldes zu fördern.
Auf grundlegendster Ebene sind Pixel die Quelle der visuellen Informationen, durch die wir die Welt wahrnehmen. Pixel enthalten Informationen auf allen Ebenen, von einfachen Attributen bis hin zu komplexen Konzepten. Autoencoder stellen ein klassisches und langjähriges Paradigma zum Erlernen von Repräsentationen aus Pixeln oder anderen Rohdaten dar. In dieser Arbeit zeigen wir, dass selbstüberwachtes Lernen auf Basis von Autoencodern auch heute noch wettbewerbsfähig ist und starke Repräsentationen für nachgelagerte Aufgaben erzeugen kann, dabei jedoch einfach, stabil und effizient bleibt. Unser Modell mit dem Codenamen "Pixio" ist ein verbesserter maskierter Autoencoder (MAE) mit anspruchsvolleren Vortrainingsaufgaben und leistungsfähigeren Architekturen. Das Modell wird auf 2B webgecrawlten Bildern mit einer selbstkuratierten Strategie und minimaler menschlicher Kuratierung trainiert. Pixio schneidet bei einer Vielzahl von nachgelagerten Aufgaben in realen Szenarien wettbewerbsfähig ab, einschließlich monokularer Tiefenschätzung (z.B. Depth Anything), direktem 3D-Rekonstruktionsverfahren (d.h. MapAnything), semantischer Segmentierung und Robotik-Lernen, und übertrifft oder erreicht DINOv3, das in ähnlichem Umfang trainiert wurde. Unsere Ergebnisse deuten darauf hin, dass selbstüberwachtes Lernen im Pixelraum eine vielversprechende Alternative und Ergänzung zu Ansätzen im Latentraum darstellen kann.
Die rasante Entwicklung von Text-zu-Bild-Generierungsmodellen hat die Erstellung visueller Inhalte revolutioniert. Während kommerzielle Produkte wie Nano Banana Pro erhebliche Aufmerksamkeit erregt haben, ist ihr Potenzial als universelle Lösungsansätze für traditionelle Low-Level-Vision-Herausforderungen weitgehend unerforscht. In dieser Studie gehen wir der entscheidenden Frage nach: Ist Nano Banana Pro ein Allrounder für Low-Level Vision? Wir führten eine umfassende Zero-Shot-Evaluierung über 14 verschiedene Low-Level-Aufgaben und 40 diverse Datensätze hinweg durch. Durch die Verwendung einfacher textueller Prompts ohne Feinabstimmung verglichen wir Nano Banana Pro mit state-of-the-art spezialisierten Modellen. Unsere umfangreiche Analyse zeigt eine deutliche Leistungsdichotomie: Während Nano Banana Pro eine überlegene subjektive visuelle Qualität demonstriert und oft plausible Hochfrequenzdetails halluziniert, die spezialisierte Modelle übertreffen, bleibt es in traditionellen referenzbasierten quantitativen Metriken zurück. Wir führen diese Diskrepanz auf die inhärente Stochastizität generativer Modelle zurück, die Schwierigkeiten haben, die strikte Pixelgenauigkeit zu gewährleisten, die von konventionellen Metriken gefordert wird. Dieser Bericht identifiziert Nano Banana Pro als einen fähigen Zero-Shot-Kandidaten für Low-Level-Vision-Aufgaben, betont jedoch, dass die Erreichung der hohen Genauigkeit von Domänenspezialisten nach wie vor eine erhebliche Hürde darstellt.
Wir stellen FrontierCS vor, einen Benchmark mit 156 offenen Problemen aus verschiedenen Bereichen der Informatik, der von Experten – einschließlich CS-Promovierten, Top-Teilnehmern im kompetitiven Programmieren und Aufgabenstellern – entworfen und begutachtet wurde. Im Gegensatz zu bestehenden Benchmarks, die sich auf Aufgaben mit bekannten optimalen Lösungen konzentrieren, zielt FrontierCS auf Probleme ab, bei denen die optimale Lösung unbekannt ist, die Qualität einer Lösung jedoch objektiv bewertet werden kann. Modelle lösen diese Aufgaben durch die Implementierung ausführbarer Programme anstatt durch die direkte Ausgabe einer Antwort. FrontierCS umfasst algorithmische Probleme, bei denen es sich oft um NP-schwere Varianten von Wettbewerbsprogrammieraufgaben mit objektiver Teilpunktvergabe handelt, sowie Forschungsprobleme mit derselben Eigenschaft. Für jedes Problem stellen wir eine Experten-Referenzlösung und einen automatischen Evaluator bereit. Durch die Kombination von offenem Design, messbarem Fortschritt und Expertenkuratierung bietet FrontierCS einen Benchmark an der Grenze des informatisch Machbaren. Empirisch stellen wir fest, dass fortschrittliche Reasoning-Modelle auf beiden Spuren – algorithmisch und forschungsbasiert – noch deutlich hinter menschlichen Experten zurückbleiben, dass eine Erhöhung des Reasoning-Budgets allein diese Lücke nicht schließt, und dass Modelle häufig darauf optimieren, lediglich funktionierenden Code zu generieren, anstatt hochwertige Algorithmen und Systemdesigns zu entdecken.
Die mit der Erweiterung des Kontextfensters von LLMs verbundenen Rechen- und Speicheraufwände schränken deren Skalierbarkeit erheblich ein. Eine bemerkenswerte Lösung ist die Vision-Text-Kompression (VTC), die durch Frameworks wie DeepSeek-OCR und Glyph veranschaulicht wird und lange Texte in dichte 2D-Visualisierungen umwandelt, wodurch Token-Kompressionsraten von 3x bis 20x erreicht werden. Die Auswirkungen dieser hohen Informationsdichte auf die zentralen Langkontextfähigkeiten von Vision-Language-Models (VLMs) sind jedoch noch unzureichend erforscht. Um diese Lücke zu schließen, führen wir den ersten Benchmark für VTC ein und bewerten systematisch die Leistung von VLMs in drei Langkontext-Verständnisszenarien: VTC-Retrieval, das die Fähigkeit des Modells zur Informationsabfrage und -aggregation bewertet; VTC-Reasoning, das von Modellen das Ableiten latenter Assoziationen zur Faktenlokalisierung bei minimaler lexikalischer Überlappung erfordert; und VTC-Memory, das umfassende Fragebeantwortung im Langzeitdialoggedächtnis misst. Zusätzlich etablieren wir VTCBench-Wild zur Simulation diverser Eingabeszenarien. Wir evaluieren umfassend führende Open-Source- und proprietäre Modelle anhand unserer Benchmarks. Die Ergebnisse zeigen, dass die meisten VLMs – obwohl sie Textinformationen (z.B. via OCR) gut decodieren können – überraschend schwache Langkontext-Verständnisfähigkeiten bei VTC-komprimierten Informationen aufweisen und lange Assoziationen oder Abhängigkeiten im Kontext nicht erfassen können. Diese Studie liefert ein vertieftes Verständnis von VTC und bildet eine Grundlage für die Entwicklung effizienterer und skalierbarer VLMs.
Große Sprachmodell-Agenten (LLM) werden zunehmend in Umgebungen eingesetzt, die massive, dynamische Kontexte generieren. Ein kritischer Engpass bleibt jedoch bestehen: Während Agenten Zugang zu diesem Kontext haben, fehlen ihren statischen Prompts die Mechanismen, um ihn effektiv zu verwalten, was zu wiederkehrenden Korrektur- und Verbesserungsfehlern führt. Um diese Fähigkeitslücke zu schließen, stellen wir SCOPE (Self-evolving Context Optimization via Prompt Evolution) vor. SCOPE fasst Kontextmanagement als ein Online-Optimierungsproblem auf und synthetisiert Richtlinien aus Ausführungspfaden, um den Prompt des Agenten automatisch weiterzuentwickeln. Wir schlagen einen Dual-Stream-Mechanismus vor, der taktische Spezifität (Lösen unmittelbarer Fehler) mit strategischer Allgemeingültigkeit (Weiterentwicklung langfristiger Prinzipien) in Einklang bringt. Darüber hinaus führen wir perspektivengesteuerte Exploration ein, um die Strategieabdeckung zu maximieren und so die Wahrscheinlichkeit zu erhöhen, dass der Agent für jede gegebene Aufgabe die richtige Strategie besitzt. Experimente auf dem HLE-Benchmark zeigen, dass SCOPE die Aufgaben-Erfolgsrate von 14,23 % auf 38,64 % steigert, ohne menschliches Eingreifen. Unser Code ist öffentlich verfügbar unter https://github.com/JarvisPei/SCOPE.
Das Automatic Identification System (AIS) ermöglicht eine datengestützte maritime Überwachung, leidet jedoch unter Zuverlässigkeitsproblemen und unregelmäßigen Intervallen. Wir behandeln die Schiffszielschätzung unter Verwendung globaler AIS-Daten, indem wir einen differenzierten Ansatz vorschlagen, der lange Hafen-zu-Hafen-Trajektorien als eine geschachtelte Sequenzstruktur neu formuliert. Diese Methode mildert unter Verwendung räumlicher Raster räumlich-zeitliche Verzerrungen ab, während sie die detaillierte Auflösung beibehält. Wir stellen eine neuartige Deep-Learning-Architektur namens WAY vor, die dafür konzipiert ist, diese umformulierten Trajektorien zur langfristigen Ziels
Die Leistung von Reinforcement Learning (RL)-Agenten hängt entscheidend von der Qualität der zugrundeliegenden Merkmalsrepräsentationen ab. Hyperbolische Merkmalsräume sind hierfür besonders geeignet, da sie von Natur aus hierarchische und relationale Strukturen erfassen, die oft in komplexen RL-Umgebungen vorhanden sind. Die Nutzung dieser Räume steht jedoch häufig vor Optimierungsherausforderungen aufgrund der Nichtstationarität von RL. In dieser Arbeit identifizieren wir Schlüsselfaktoren, die den Erfolg und das Scheitern beim Training hyperbolischer Deep-RL-Agenten bestimmen. Durch Analyse der Gradienten grundlegender Operationen in den Poincaré-Ball- und Hyperboloid-Modellen der hyperbolischen Geometrie zeigen wir, dass Einbettungen mit großer Norm gradientenbasiertes Training destabilisieren, was zu Verletzungen der Trust-Region bei der proximalen Politikoptimierung (PPO) führt. Aufbauend auf diesen Erkenntnissen stellen wir Hyper++ vor, einen neuen hyperbolischen PPO-Agenten, der aus drei Komponenten besteht: (i) stabiles Critic-Training durch einen kategorialen Wertverlust anstelle von Regression; (ii) Merkmalsregularisierung, die begrenzte Normen gewährleistet und gleichzeitig den Fluch der Dimensionalität durch Clipping vermeidet; und (iii) eine optimierungsfreundlichere Formulierung hyperbolischer Netzwerkschichten. In Experimenten mit ProcGen zeigen wir, dass Hyper++ stabiles Lernen garantiert, bisherige hyperbolische Agenten übertrifft und die Echtzeit um etwa 30 % reduziert. Bei Atari-5 mit Double DQN übertrifft Hyper++ euklidische und hyperbolische Baseline-Methoden deutlich. Unser Code ist unter https://github.com/Probabilistic-and-Interactive-ML/hyper-rl verfügbar.
Kleine Sprachmodelle (SLMs) werden häufig für Aufgaben eingesetzt, die geringe Latenz und schlanke Bereitstellung erfordern, insbesondere für Klassifikation. Da Interpretierbarkeit und Robustheit zunehmend an Bedeutung gewinnen, hat sich erklärungsgeführtes Lernen als effektiver Rahmen etabliert, der auf attributionsbasierter Überwachung während des Trainings basiert; jedoch bleibt die Ableitung allgemeiner und zuverlässiger Attributions-Priors eine große Herausforderung. Durch eine Analyse repräsentativer Attributionsmethoden in Klassifikationsszenarien stellen wir fest, dass diese Methoden zwar zuverlässig klassenrelevante Tokens hervorheben können, sich jedoch oft auf gemeinsame Schlüsselwörter konzentrieren, die von semantisch ähnlichen Klassen geteilt werden. Da solche Klassen bereits unter Standardtraining schwer zu unterscheiden sind, liefern diese Attributionen unzureichende diskriminative Hinweise, was ihre Fähigkeit zur Verbesserung der Modellunterscheidung begrenzt. Um diese Einschränkung zu überwinden, schlagen wir Class-Aware Attribution Prior (CAP) vor, ein neuartiges Framework zur Extraktion von Attributions-Priors, das Sprachmodelle dazu anleitet, feinkörnige Klassenunterschiede zu erfassen und salientere, diskriminativere Attributions-Priors zu erzeugen. Aufbauend auf dieser Idee führen wir weiterhin CAP Hybrid ein, das Priors von CAP mit denen bestehender Attributionstechniken kombiniert, um ein umfassenderes und ausgewogeneres Überwachungssignal zu bilden. Indem wir die Selbstattribution eines Modells mit diesen angereicherten Priors in Einklang bringen, fördert unser Ansatz das Erlernen vielfältiger, entscheidungsrelevanter Merkmale. Umfangreiche Experimente in Szenarien mit vollständigen Daten, Few-Shot-Lernen und adversariellen Angriffen demonstrieren, dass unsere Methode konsistent sowohl die Interpretierbarkeit als auch die Robustheit verbessert.
Mixture of Experts (MoE)-Modelle haben sich als de-facto-Architektur etabliert, um Sprachmodelle zu skalieren, ohne die Rechenkosten erheblich zu erhöhen. Aktuelle MoE-Modelle zeigen einen klaren Trend zu hoher Expertengranularität (kleinere Zwischendimension der Experten) und höherer Sparsity (konstante Anzahl aktivierter Experten bei höherer Gesamtzahl an Experten), was die Modellqualität pro FLOP verbessert. Allerdings leiden feingranulare MoEs unter einem erhöhten Aktivierungsspeicherbedarf und reduzierter Hardware-Effizienz aufgrund höherer IO-Kosten, während sparsere MoEs unter Rechenverschwendung durch Padding in gruppierten GEMM-Kerneln leiden. Als Antwort darauf schlagen wir einen speichereffizienten Algorithmus vor, um die Vorwärts- und Rückwärtspass-Berechnungen von MoEs mit minimaler Aktivierungspufferung für den Rückwärtspass durchzuführen. Wir entwickeln auch GPU-Kernel, die Speicher-IO mit Berechnungen überlappen und allen MoE-Architekturen zugutekommen. Schließlich schlagen wir eine neuartige "Token-Rounding"-Methode vor, die die Rechenverschwendung durch Padding in gruppierten GEMM-Kerneln minimiert. Infolgedessen reduziert unsere Methode SonicMoE den Aktivierungsspeicher um 45 % und erreicht einen 1,86-fachen Durchsatzgewinn auf Hopper-GPUs im Vergleich zu ScatterMoEs BF16-MoE-Kernel für ein feingranulares 7B-MoE. Konkret erzielt SonicMoE auf 64 H100s einen Trainingsdurchsatz von 213 Milliarden Token pro Tag, vergleichbar mit ScatterMoEs 225 Milliarden Token pro Tag auf 96 H100s für ein 7B-MoE-Modelltraining mit FSDP-2 unter Verwendung der lm-engine-Codebasis. Unter Einstellungen mit hoher MoE-Sparsity erzielt unser tile-aware Token-Rounding-Algorithmus eine zusätzliche Beschleunigung der Kernel-Ausführungszeit um den Faktor 1,16 im Vergleich zum herkömmlichen Top-K-Routing bei ähnlicher Downstream-Leistung. Wir stellen alle unsere Kernel als Open Source zur Verfügung, um ein schnelleres MoE-Modelltraining zu ermöglichen.
Ein personalisiertes LLM sollte Nutzerfakten speichern, korrekt anwenden und sich im Laufe der Zeit anpassen, um Antworten zu liefern, die der Nutzer bevorzugt. Bestehende Benchmarks für die LLM-Personalisierung konzentrieren sich weitgehend auf zwei Achsen: die präzise Erinnerung von Nutzerinformationen und die korrekte Anwendung der gespeicherten Informationen in nachgelagerten Aufgaben. Wir vertreten die Auffassung, dass eine dritte Achse – die Sympathie (Likability) – sowohl subjektiv als auch zentral für das Nutzererlebnis ist, jedoch von aktuellen Benchmarks unzureichend erfasst wird. Um Sympathie ganzheitlich zu messen, führen wir LikeBench ein, einen mehrsitzigen, dynamischen Evaluierungsrahmen, der Sympathie über mehrere Dimensionen hinweg misst, indem er erfasst, inwieweit sich ein LLM im Laufe der Zeit an die Präferenzen eines Nutzers anpassen kann, um sympathischere Antworten zu geben. In LikeBench führen die LLMs Konversationen mit einem simulierten Nutzer und lernen Präferenzen ausschließlich aus dem laufenden Dialog. Während die Interaktion fortschreitet, versuchen die Modelle, sich an die Antworten anzupassen, und nach jedem Zug werden sie vom selben simulierten Nutzer in sieben Dimensionen auf Sympathie bewertet. Nach unserem Wissenstand sind wir die Ersten, die Sympathie in mehrere diagnostische Metriken zerlegen: emotionale Anpassung, Formality-Abgleich, Wissensanpassung, Referenzverständnis, Passgenauigkeit der Gesprächslänge, Humor-Passung und Callback (Rückbezug), was es erleichtert, Schwachstellen eines Modells zu identifizieren. Um den simulierten Nutzer realistischer und diskriminativer zu gestalten, verwendet LikeBench feinkörnige, psychologisch fundierte descriptive Personas anstelle der grob auf High/Low-Merkmalen basierenden Bewertungspersonas aus früheren Arbeiten. Unser Benchmark zeigt, dass eine starke Gedächtnisleistung keine hohe Sympathie garantiert: DeepSeek R1 mit geringerer Gedächtnisgenauigkeit (86 %, 17 Fakten/Profil) übertraf Qwen3 bei der Sympathiebewertung um 28 %, obwohl Qwen3 eine höhere Gedächtnisgenauigkeit (93 %, 43 Fakten/Profil) aufwies. Selbst SOTA-Modelle wie GPT-5 passen sich in kurzen Austauschen gut an, zeigen aber nur begrenzte Robustheit in längeren, verrauschteren Interaktionen.
Roboter-Manipulation erfordert sowohl eine umfassende multimodale Wahrnehmung als auch effektive Lernframeworks, um komplexe Aufgaben in der realen Welt zu bewältigen. Durchsicht-Haut (STS)-Sensoren, die taktile und visuelle Wahrnehmung kombinieren, bieten vielversprechende Erfassungsfähigkeiten, während moderne Imitationslernverfahren leistungsstarke Werkzeuge zur Politikakquisition bereitstellen. Allerdings fehlt es bestehenden STS-Designs an simultaner multimodaler Wahrnehmung und sie leiden unter unzuverlässiger taktiler Erfassung. Darüber hinaus bleibt die Integration dieser reichhaltigen multimodalen Signale in lernbasierte Manipulationspipelines eine ungelöste Herausforderung. Wir stellen TacThru vor, einen STS-Sensor, der simultane visuelle Wahrnehmung und robuste taktile Signalerfassung ermöglicht, sowie TacThru-UMI, ein Imitationslernframework, das diese multimodalen Signale für die Manipulation nutzt. Unser Sensor zeichnet sich durch ein vollständig transparentes Elastomer, dauerhafte Beleuchtung, neuartige Markierungslinien und effiziente Erfassung aus, während unser Lernsystem diese Signale durch eine transformerbasierte Diffusionspolitik integriert. Experimente mit fünf anspruchsvollen realen Aufgaben zeigen, dass TacThru-UMI eine durchschnittliche Erfolgsrate von 85,5 % erreicht und damit die Baseline-Ansätze mit abwechselnd taktil-visueller (66,3 %) und rein visueller Wahrnehmung (55,4 %) signifikant übertrifft. Das System überzeugt in kritischen Szenarien, einschließlich der Kontakterkennung mit dünnen und weichen Objekten sowie Präzisionsmanipulationen, die multimodale Koordination erfordern. Diese Arbeit zeigt, dass die Kombination von simultaner multimodaler Wahrnehmung mit modernen Lernframeworks eine präzisere und anpassungsfähigere Roboter-Manipulation ermöglicht.
Menschliche Konversation beinhaltet kontinuierliche Wechsel von Sprache und nonverbalen Signalen wie Kopfnicken, Blickwechseln und Gesichtsausdrücken, die Aufmerksamkeit und Emotionen vermitteln. Die Modellierung dieser bidirektionalen Dynamiken in 3D ist entscheidend für die Erstellung ausdrucksstarker Avatare und interaktiver Roboter. Bisherige Frameworks behandeln Sprechen und Zuhören jedoch oft als unabhängige Prozesse oder verlassen sich auf nicht-kausale Vollsequenz-Modellierung, was die zeitliche Kohärenz über Sprechwechsel hinweg beeinträchtigt. Wir stellen TIMAR (Turn-level Interleaved Masked AutoRegression) vor, einen kausalen Framework für 3D-Konversationskopfgenerierung, der Dialoge als verschachtelte audiovisuelle Kontexte modelliert. Es fusioniert multimodale Informationen innerhalb jedes Sprechwechsels und wendet wechselbezogene kausale Aufmerksamkeit an, um Konversationsverlauf zu akkumulieren, während ein leichtgewichtiger Diffusionskopf kontinuierliche 3D-Kopfdynamiken vorhersagt, die sowohl Koordination als auch ausdrucksstarke Variabilität erfassen. Experimente auf dem DualTalk-Benchmark zeigen, dass TIMAR die Fréchet-Distanz und MSE auf dem Testset um 15-30% reduziert und ähnliche Verbesserungen bei Out-of-Distribution-Daten erzielt. Der Quellcode wird im GitHub-Repository https://github.com/CoderChen01/towards-seamleass-interaction veröffentlicht.