Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Menschen nehmen reale Räume über einen Strom visueller Beobachtungen wahr und verstehen sie. Daher ist die Fähigkeit, räumliche Evidenz aus potenziell unbegrenzten Videoströmen streamingfähig zu erhalten und zu aktualisieren, entscheidend für räumliche Intelligenz. Die zentrale Herausforderung besteht nicht einfach in längeren Kontextfenstern, sondern darin, wie räumliche Informationen über die Zeit hinweg ausgewählt, organisiert und beibehalten werden. In diesem Artikel schlagen wir Spatial-TTT vor, um streamingbasierte, visuelle räumliche Intelligenz mit Test-Time Training (TTT) zu erreichen. Dabei passt es eine Teilmenge von Parametern (schnelle Gewichte) an, um räumliche Evidenz in langen Szenenvideos zu erfassen und zu organisieren. Konkret entwerfen wir eine hybride Architektur und setzen große Chunk-Updates parallel zu Sliding-Window-Attention für eine effiziente räumliche Videoverarbeitung ein. Um das räumliche Bewusstsein weiter zu fördern, führen wir einen räumlich-prädiktiven Mechanismus ein, der auf TTT-Schichten mit 3D-raumzeitlicher Faltung angewendet wird. Dies ermutigt das Modell, geometrische Korrespondenz und zeitliche Kontinuität über Bildfolgen hinweg zu erfassen. Über die Architektur hinaus erstellen wir einen Datensatz mit dichten 3D-Raumbeschreibungen, der das Modell anleitet, seine schnellen Gewichte so zu aktualisieren, dass globale 3D-Raumsignale strukturiert gespeichert und organisiert werden. Umfangreiche Experimente zeigen, dass Spatial-TTT das räumliche Verständnis über lange Zeithorizonte verbessert und state-of-the-art Leistung auf Video-Raum-Benchmarks erreicht. Projektseite: https://liuff19.github.io/Spatial-TTT.
Multimodale Agenten bieten einen vielversprechenden Weg zur Automatisierung komplexer, dokumentenintensiver Arbeitsabläufe. Dennoch bleibt eine kritische Frage bestehen: Zeigen diese Agenten echtes strategisches Denkvermögen oder lediglich eine stochastische Trial-and-Error-Suche? Um dies zu untersuchen, stellen wir MADQA vor, einen Benchmark mit 2.250 von Menschen erstellten Fragen, die auf 800 heterogenen PDF-Dokumenten basieren. Angeleitet von der Klassischen Testtheorie haben wir ihn so konzipiert, dass er die diskriminative Aussagekraft über verschiedene Stufen agentenbasierter Fähigkeiten maximiert. Zur Bewertung des agentenhaften Verhaltens führen wir ein neuartiges Evaluierungsprotokoll ein, das den Trade-off zwischen Genauigkeit und Aufwand misst. Mithilfe dieses Frameworks zeigen wir, dass die besten Agenten zwar in puncto reiner Genauigkeit mit menschlichen Suchern mithalten können, sie jedoch bei weitgehend anderen Fragen erfolgreich sind und sich auf eine Brute-Force-Suche stützen, um schwache strategische Planung zu kompensieren. Es gelingt ihnen nicht, die Lücke von fast 20 % zur Oracle-Performance zu schließen, und sie verharren in unproduktiven Schleifen. Wir veröffentlichen den Datensatz und die Evaluierungsmethode, um den Übergang von der Brute-Force-Recherche zu kalibriertem, effizientem Denken zu erleichtern.
Langfristige agentenbasierte Workflows haben sich als wegweisende Anwendungsfälle für große Sprachmodelle etabliert, wodurch die Aufmerksamkeitseffizienz für sowohl Inferenzgeschwindigkeit als auch Betriebskosten entscheidend wird. Sparse Attention adressiert diese Herausforderung effektiv, und DeepSeek Sparse Attention (DSA) ist eine repräsentative produktionsreife Lösung: Ein leichtgewichtiger Lightning-Indexer wählt die k relevantesten Tokens pro Query aus und reduziert die Kern-Aufmerksamkeitsberechnung von O(L²) auf O(Lk). Der Indexer selbst behält jedoch eine O(L²)-Komplexität bei und muss unabhängig in jeder Schicht ausgeführt werden, obwohl die resultierenden Top-k-Auswahlen über aufeinanderfolgende Schichten hinweg sehr ähnlich sind. Wir stellen IndexCache vor, das diese schichtübergreifende Redundanz ausnutzt, indem Schichten in eine kleine Menge von Voll-Schichten, die ihre eigenen Indexer ausführen, und eine Mehrheit von Shared-Schichten unterteilt werden, die einfach die Top-k-Indizes der nächstgelegenen Voll-Schicht wiederverwenden. Wir schlagen zwei komplementäre Ansätze zur Bestimmung und Optimierung dieser Konfiguration vor. Training-freies IndexCache wendet einen gierigen Suchalgorithmus an, der auswählt, in welchen Schichten Indexer beibehalten werden, indem direkt der Sprachmodellierungsverlust auf einem Kalibrierungsdatensatz minimiert wird, ohne Gewichtsaktualisierungen zu benötigen. Training-bewusstes IndexCache führt einen Multi-Layer-Distillationsverlust ein, der jeden beibehaltenen Indexer gegen die gemittelten Aufmerksamkeitsverteilungen aller von ihm bedienten Schichten trainiert, was es sogar einfachen, verschachtelten Mustern ermöglicht, die Genauigkeit eines Voll-Indexers zu erreichen. Experimentelle Ergebnisse mit einem 30B DSA-Modell zeigen, dass IndexCache 75 % der Indexer-Berechnungen entfernen kann bei vernachlässigbarem Qualitätsverlust und dabei eine bis zu 1,82-fache Prefill-Beschleunigung und 1,48-fache Decode-Beschleunigung im Vergleich zu Standard-DSA erreicht. Diese positiven Ergebnisse werden durch unsere vorläufigen Experimente mit dem produktionsskalierten GLM-5-Modell weiter bestätigt (Abbildung 1).
Computergestützte Agenten (CUAs) werden zunehmend leistungsfähiger; dennoch bleibt es schwierig, die Bewertung, ob eine Trajektorie eine Benutzeranweisung tatsächlich erfüllt, zu skalieren. In dieser Arbeit untersuchen wir Reward-Modellierung anhand von Ausführungsvideos: einer Sequenz von Keyframes aus einer Agenten-Trajektorie, die unabhängig von der internen Logik oder den Aktionen des Agenten ist. Obwohl die Videoausführungsmodellierung methodenagnostisch ist, birgt sie zentrale Herausforderungen, darunter hochredundante Layouts und subtile, lokalisierte Hinweise, die den Erfolg bestimmen. Wir stellen Execution Video Reward 53k (ExeVR-53k) vor, einen Datensatz mit 53.000 hochwertigen Video-Aufgabe-Belohnungs-Tripeln. Darüber hinaus schlagen wir adversarische Anweisungsübersetzung vor, um negative Beispiele mit schrittweisen Annotationen zu synthetisieren. Um das Lernen aus langen, hochauflösenden Ausführungsvideos zu ermöglichen, entwickeln wir eine raumzeitliche Token-Ausdünnung, die homogene Bereiche und persistente Tokens entfernt, während entscheidende UI-Änderungen erhalten bleiben. Aufbauend auf diesen Komponenten feintunen wir ein Execution Video Reward Model (ExeVRM), das nur eine Benutzeranweisung und eine Videoausführungssequenz benötigt, um den Aufgaben-Erfolg vorherzusagen. Unser ExeVRM 8B erreicht eine Genauigkeit von 84,7 % und eine Trefferquote von 87,7 % bei der Videoausführungsbewertung und übertrifft damit leistungsstarke proprietäre Modelle wie GPT-4o und Gemini-1.5 Pro unter Ubuntu, macOS, Windows und Android, bei gleichzeitig präziserer temporaler Attribution. Diese Ergebnisse zeigen, dass die Videoausführungs-Belohnungsmodellierung als skalierbarer, modellagnostischer Evaluator für CUAs dienen kann.
Die textgesteuerte Videogenerierung hat die Filmerstellung demokratisiert, doch die Kamerasteuerung in kinematografischen Mehrschuss-Szenarien bleibt eine große Hürde. Implizite textuelle Prompts sind unpräzise, während explizite Trajektorien-Konditionierung unverhältnismäßigen manuellen Aufwand erfordert und in aktuellen Modellen häufig zu Ausführungsfehlern führt. Um diesen Engpass zu überwinden, schlagen wir einen datenzentrierten Paradigmenwechsel vor, der davon ausgeht, dass ausgerichtete (Beschreibung, Trajektorie, Video)-Triplets eine inhärente gemeinsame Verteilung bilden, die automatisierte Planung und präzise Ausführung verbinden kann. Aufbauend auf dieser Erkenntnis präsentieren wir ShotVerse, einen "Plan-then-Control"-Framework, der die Generierung in zwei zusammenarbeitende Agenten entkoppelt: einen VLM-basierten Planer, der räumliche Priori nutzt, um kinematografische, global ausgerichtete Trajektorien aus Text abzuleiten, und einen Controller, der diese Trajektorien über einen Kameraadapter in Mehrschuss-Videoinhalte umsetzt. Zentrale Grundlage unseres Ansatzes ist der Aufbau einer Datenbasis: Wir entwickeln eine automatisierte Pipeline zur Mehrschuss-Kamerakalibrierung, die disparate Einzelschuss-Trajektorien in ein einheitliches globales Koordinatensystem überführt. Dies ermöglicht die Erstellung von ShotVerse-Bench, einem hochwertigen kinematografischen Datensatz mit einem dreistufigen Evaluierungsprotokoll, der als Fundament für unser Framework dient. Umfangreiche Experimente belegen, dass ShotVerse die Lücke zwischen unzuverlässiger textueller Steuerung und arbeitsintensiver manueller Planung effektiv schließt, überlegene kinematografische Ästhetik erreicht und Mehrschuss-Videos erzeugt, die sowohl kameragenau als auch schussübergreifend konsistent sind.
Während groß angelegte Diffusionsmodelle die Videosynthese revolutioniert haben, bleibt die präzise Steuerung sowohl multi-subjektiver Identität als auch multi-granularer Bewegung eine große Herausforderung. Jüngste Versuche, diese Lücke zu schließen, leiden oft unter begrenzter Bewegungsgranularität, Kontrollunschärfe und Identitätsdegradierung, was zu suboptimaler Leistung bei der Identitätserhaltung und Bewegungssteuerung führt. In dieser Arbeit stellen wir DreamVideo-Omni vor, einen einheitlichen Rahmen, der harmonische Multi-Subjekt-Anpassung mit Omni-Bewegungssteuerung durch ein progressives Zwei-Stufen-Trainingsparadigma ermöglicht. In der ersten Stufe integrieren wir umfassende Steuersignale für gemeinsames Training, darunter Subjekterscheinungen, globale Bewegung, lokale Dynamik und Kamerabewegungen. Um robuste und präzise Steuerbarkeit zu gewährleisten, führen wir eine konditionsbewusste 3D-Rotations-Positionscodierung ein, um heterogene Eingaben zu koordinieren, sowie eine hierarchische Bewegungsinjektionsstrategie, um die globale Bewegungsführung zu verbessern. Darüber hinaus führen wir zur Lösung von Multi-Subjekt-Unschärfe Gruppen- und Rollen-Einbettungen ein, um Bewegungssignale explizit an bestimmte Identitäten zu binden und komplexe Szenen effektiv in unabhängig steuerbare Instanzen zu entwirren. In der zweiten Stufe entwerfen wir, um Identitätsdegradierung zu mildern, ein Paradigma des latenten Identitätsbelohnungs-Feedback-Lernens, indem wir ein latentes Identitätsbelohnungsmodell auf einem vortrainierten Video-Diffusions-Backbone trainieren. Dies liefert bewegungssensitive Identitätsbelohnungen im latenten Raum, die die Identitätserhaltung priorisieren, die mit menschlichen Präferenzen übereinstimmt. Gestützt durch unseren kuratierten großangelegten Datensatz und den umfassenden DreamOmni-Bench zur Bewertung der Multi-Subjekt- und Omni-Bewegungssteuerung, demonstriert DreamVideo-Omni überlegene Leistung bei der Erzeugung hochwertiger Videos mit präziser Steuerbarkeit.
Reinforcement Learning (RL) hat sich als vielversprechendes Paradigma zur Verbesserung der Bildbearbeitung und Text-zu-Bild (T2I)-Generierung erwiesen. Allerdings leiden aktuelle Belohnungsmodelle, die während des RL als Kritiker fungieren, oft unter Halluzinationen und weisen verrauschte Scores zu, was den Optimierungsprozess inherent fehlleitet. In diesem Artikel stellen wir FIRM (Faithful Image Reward Modeling) vor, einen umfassenden Rahmen, der robuste Belohnungsmodelle entwickelt, um genaue und zuverlässige Anleitung für treue Bildgenerierung und -bearbeitung zu bieten. Erstens entwerfen wir maßgeschneiderte Datenkuratierungspipelines, um hochwertige Bewertungsdatensätze zu konstruieren. Konkret bewerten wir Bearbeitung anhand von Ausführung und Konsistenz, während Generierung primär über die Befolgung von Anweisungen bewertet wird. Mithilfe dieser Pipelines sammeln wir die FIRM-Edit-370K- und FIRM-Gen-293K-Datensätze und trainieren spezialisierte Belohnungsmodelle (FIRM-Edit-8B und FIRM-Gen-8B), die diese Kriterien genau widerspiegeln. Zweitens führen wir FIRM-Bench ein, einen umfassenden Benchmark, der speziell für Bearbeitungs- und Generierungskritiker entwickelt wurde. Evaluationen zeigen, dass unsere Modelle im Vergleich zu bestehenden Metriken eine überlegene Übereinstimmung mit menschlichen Urteilen erreichen. Darüber hinaus formulieren wir, um diese Kritiker nahtlos in die RL-Pipeline zu integrieren, eine neuartige "Base-and-Bonus"-Belohnungsstrategie, die konkurrierende Ziele ausbalanciert: Konsistenz-modulierte Ausführung (CME) für die Bearbeitung und Qualitäts-modulierte Ausrichtung (QMA) für die Generierung. Durch diesen Rahmen gestärkt, erreichen unsere resultierenden Modelle FIRM-Qwen-Edit und FIRM-SD3.5 erhebliche Leistungsdurchbrüche. Umfassende Experimente demonstrieren, dass FIRM Halluzinationen mindert und einen neuen Standard für Treue und Anweisungsbefolgung gegenüber bestehenden allgemeinen Modellen setzt. Alle unsere Datensätze, Modelle und Code sind öffentlich unter https://firm-reward.github.io verfügbar.
Multimodale Agenten können inzwischen komplexe Argumentationsaufgaben mit verschiedenen Werkzeugen bewältigen, leiden jedoch weiterhin unter ineffizienter Werkzeugnutzung und unflexibler Orchestrierung in offenen Umgebungen. Eine zentrale Herausforderung besteht darin, solchen Agenten zu ermöglichen, sich kontinuierlich ohne Parameteraktualisierungen durch Lernen aus vergangenen Trajektorien zu verbessern. Wir identifizieren zwei komplementäre Formen von wiederverwendbarem Wissen, die für dieses Ziel wesentlich sind: Erfahrungen, die präzise Handlungsanleitungen für die Werkzeugauswahl und Entscheidungsfindung bieten, und Fähigkeiten (Skills), die strukturierte Aufgabenanleitungen für die Planung und Werkzeugnutzung bereitstellen. Zu diesem Zweck schlagen wir XSkill vor, ein Dual-Stream-Framework für kontinuierliches Lernen aus Erfahrungen und Fähigkeiten in multimodalen Agenten. XSkill verankert sowohl die Wissensextraktion als auch den Wissensabruf in visuellen Beobachtungen. Während der Akkumulation destilliert und konsolidiert XSkill Erfahrungen und Fähigkeiten aus Multi-Path-Rollouts mittels visuell gestützter Zusammenfassung und übergreifender Bewertung der Rollouts. Während der Inferenz ruft es dieses Wissen ab, passt es an den aktuellen visuellen Kontext an und speist die Nutzungshistorie zurück in die Akkumulation, um eine kontinuierliche Lernschleife zu bilden. Evaluierungen auf fünf Benchmarks aus verschiedenen Domänen mit vier Basismodellen zeigen, dass XSkill durchgängig und erheblich sowohl werkzeugbasierte als auch lernbasierte Baseline-Methoden übertrifft. Eine weiterführende Analyse zeigt, dass die beiden Wissensströme komplementäre Rollen bei der Beeinflussung des Argumentationsverhaltens der Agenten spielen und eine überlegene Zero-Shot-Generalisierung aufweisen.
Die bestehende Videotiefenschätzung steht vor einem grundlegenden Zielkonflikt: Generative Modelle leiden unter stochastischen geometrischen Halluzinationen und Maßstabsdrift, während diskriminative Modelle riesige Mengen an gelabelten Daten benötigen, um semantische Mehrdeutigkeiten aufzulösen. Um diese Sackgasse zu überwinden, stellen wir DVD vor, den ersten Rahmen, der vortrainierte Videodiffusionsmodelle deterministisch zu Einzel-Durchlauf-Tiefenregressoren adaptiert. Konkret zeichnet sich DVD durch drei Kerndesigns aus: (i) die Umwidmung des Diffusions-Zeitschritts als strukturellen Anker, um globale Stabilität mit Hochfrequenzdetails in Einklang zu bringen; (ii) latente Mannigfaltigkeits-Rektifizierung (LMR) zur Milderung von durch Regression verursachter Übersättigung, durch Durchsetzung differentialer Zwangsbedingungen zur Wiederherstellung scharfer Grenzen und kohärenter Bewegung; und (iii) globale affine Kohärenz, eine inhärente Eigenschaft, die die Divergenz zwischen Fenstern begrenzt und nahtlose Rückschlüsse auf lange Videos ohne komplexe temporale Anpassung ermöglicht. Umfangreiche Experimente belegen, dass DVD state-of-the-art Zero-Shot-Leistung über Benchmarks hinweg erreicht. Darüber hinaus erschließt DVD erfolgreich die tiefgehenden geometrischen Priors, die in Video-Foundation-Modellen implizit vorhanden sind, und verwendet dabei 163-mal weniger aufgabenspezifische Daten als führende Baseline-Modelle. Bemerkenswerterweise stellen wir unsere Pipeline vollständig zur Verfügung und bieten die gesamte Trainingssuite für state-of-the-art Videotiefenschätzung, um die Open-Source-Community zu bereichern.
Instruktionsbasierte Bildbearbeitung zielt darauf ab, spezifische Inhalte in vorhandenen Bildern entsprechend benutzerdefinierter Anweisungen zu modifizieren, während nicht betroffene Bereiche erhalten bleiben. Über traditionelle objekt- und stilzentrierte Manipulationen hinaus konzentriert sich textzentrierte Bildbearbeitung auf das Ändern, Übersetzen oder Neuanordnen von Textelementen innerhalb von Bildern. Allerdings bestehen bei führenden existierenden Modellen häufig Schwierigkeiten, komplexe Textbearbeitungen präzise auszuführen, was oft zu unscharfen oder halluzinierten Zeichen führt. Wir führen diese Fehler hauptsächlich auf das Fehlen spezialisierter Trainingsparadigmen für textzentrierte Bearbeitung sowie auf den Mangel an großangelegten Datensätzen und standardisierten Benchmarks zurück, die für ein geschlossenes Trainings- und Evaluierungssystem notwendig sind. Um diese Einschränkungen zu adressieren, präsentieren wir WeEdit, eine systematische Lösung, die eine skalierbare Datenkonstruktions-Pipeline, zwei Benchmarks und eine maßgeschneiderte zweistufige Trainingsstrategie umfasst. Konkret schlagen wir eine neuartige HTML-basierte automatische Bearbeitungspipeline vor, die 330.000 Trainingspaare mit diversen Bearbeitungsoperationen und 15 Sprachen generiert, ergänzt durch standardisierte bilinguale und multilinguale Benchmarks für eine umfassende Evaluation. Auf algorithmischer Seite setzen wir glyph-geführtes supervidiertes Feintuning ein, um explizite räumliche und inhaltliche Priors zu vermitteln, gefolgt von einer Reinforcement-Learning-Phase mit multiplen Zielen, um die Generierung an Befolgung der Instruktion, Textklarheit und Hintergrunderhaltung auszurichten. Umfangreiche Experimente zeigen, dass WeEdit bisherige Open-Source-Modelle bei diversen Bearbeitungsoperationen deutlich übertrifft.
Unifizierte multimodale Modelle zielen auf gemeinsames Verständnis, Schlussfolgern und Generieren ab, doch aktuelle Bildbearbeitungs-Benchmarks beschränken sich weitgehend auf natürliche Bilder und oberflächliches Alltagsverständnis, was nur eine begrenzte Bewertung dieser Fähigkeit unter strukturierten, domänenspezifischen Einschränkungen ermöglicht. In dieser Arbeit stellen wir GRADE vor, den ersten Benchmark zur Bewertung von disziplingestütztem Wissen und Schlussfolgerungen in der Bildbearbeitung. GRADE umfasst 520 sorgfältig kuratierte Beispiele aus 10 akademischen Domänen, die von Naturwissenschaften bis zu Sozialwissenschaften reichen. Zur Unterstützung einer rigorosen Evaluation schlagen wir ein mehrdimensionales Bewertungsprotokoll vor, das gleichzeitig Fachliches Schlussfolgern, Visuelle Konsistenz und Logische Nachvollziehbarkeit beurteilt. Umfangreiche Experimente mit 20 state-of-the-art Open-Source- und Closed-Source-Modellen zeigen erhebliche Einschränkungen aktueller Modelle in impliziten, wissensintensiven Bearbeitungsszenarien auf, was zu großen Leistungslücken führt. Über quantitative Scores hinaus führen wir rigorose Analysen und Ablationen durch, um Modellschwächen aufzudecken und die Grenzen disziplinärer Bearbeitung zu identifizieren. GRADE weist gemeinsam zentrale Richtungen für die zukünftige Entwicklung unifizierter multimodaler Modelle auf und fördert die Forschung zu disziplingestützter Bildbearbeitung und Schlussfolgerung. Unser Benchmark und Evaluationscode sind öffentlich verfügbar.
Diffusion-Transformatoren (DiTs) erzielen hohe generative Qualität, koppeln jedoch die FLOPs an die Bildauflösung, was prinzipielle Latency-Quality-Kompromisse einschränkt, und verteilen die Berechnungen gleichmäßig über die räumlichen Eingabe-Tokens, wodurch Rechenressourcen für unwichtige Regionen verschwendet werden. Wir stellen Elastic Latent Interface Transformer (ELIT) vor, einen direkt austauschbaren, DiT-kompatiblen Mechanismus, der die Eingabebildgröße von der Berechnung entkoppelt. Unser Ansatz fügt eine latente Schnittstelle ein, eine lernbare Token-Sequenz variabler Länge, auf der Standard-Transformer-Blöcke operieren können. Leichtgewichtige Read- und Write-Cross-Attention-Schichten bewegen Informationen zwischen räumlichen Tokens und latenten Variablen und priorisieren wichtige Eingaberegionen. Durch Training mit zufälligem Auslassen hinterer latenter Variablen lernt ELIT, bedeutungsgeordnete Repräsentationen zu erzeugen, wobei frühe latente Variablen die globale Struktur erfassen, während spätere Informationen zur Verfeinerung von Details enthalten. Zur Inferenzzeit kann die Anzahl der latenten Variablen dynamisch angepasst werden, um Rechenbeschränkungen zu entsprechen. ELIT ist bewusst minimalistisch gehalten und fügt lediglich zwei Cross-Attention-Schichten hinzu, während das Rectified-Flow-Ziel und die DiT-Architektur unverändert bleiben. Über verschiedene Datensätze und Architekturen (DiT, U-ViT, HDiT, MM-DiT) hinweg erzielt ELIT konsistent Verbesserungen. Auf ImageNet-1K 512px erzielt ELIT durchschnittliche Verbesserungen von 35,3 % bzw. 39,6 % bei den FID- und FDD-Werten. Projektseite: https://snap-research.github.io/elit/
Ein Schlüsselelement der Kreativität ist assoziatives Denken: die Fähigkeit, neuartige und doch sinnvolle Verbindungen zwischen Konzepten herzustellen. Wir stellen CREATE vor, einen Benchmark, der entwickelt wurde, um die Fähigkeit von Modellen zu kreativem assoziativen Denken zu bewerten. CREATE erfordert, dass Modelle Mengen von Pfaden generieren, die Konzepte im parametrischen Wissen eines Modells verbinden. Die Pfade sollten eine hohe Spezifität (Unterscheidungskraft und Enge der Konzeptverbindung) und eine hohe Diversität (Unterschiedlichkeit zu anderen Pfaden) aufweisen, und Modelle erhalten eine höhere Bewertung, wenn sie eine größere Menge an starken, vielfältigen Pfaden erzeugen. Diese Aufgabe teilt Anforderungen realer Kreativitätsaufgaben wie der Hypothesengenerierung, einschließlich eines extrem großen Suchraums, ermöglicht aber die Sammlung eines umfangreichen Benchmarks mit objektiver Bewertung der Antworten. Die Evaluierung von Spitzenmodellen zeigt, dass die leistungsstärksten Modelle eine höhere kreative Nützlichkeit erreichen als andere, wobei die hohe Vielfalt der Antworten und die Komplexität der Suche eine Benchmarksättigung schwer erreichbar machen. Darüber hinaus verdeutlichen unsere Ergebnisse, dass Denkmodelle in unserer Aufgabe nicht immer effektiver sind, selbst bei hohen Token-Budgets. Aktuelle Ansätze für kreatives Prompting bringen begrenzte zusätzliche Verbesserungen. CREATE bietet eine Sandbox für die Entwicklung neuer Methoden zur Verbesserung der assoziativen Kreativitätsfähigkeit von Modellen.
Autoregressive (AR) Video-Generativmodelle basieren auf Video-Tokenizern, die Pixel in diskrete Token-Sequenzen komprimieren. Die Länge dieser Token-Sequenzen ist entscheidend, um die Rekonstruktionsqualität gegen die Rechenkosten der nachgelagerten Generierung abzuwägen. Herkömmliche Video-Tokenizer wenden eine einheitliche Token-Zuweisung über zeitliche Blöcke verschiedener Videos hinweg an, was häufig Token für einfache, statische oder repetitive Segmente verschwendet, während dynamische oder komplexe Bereiche unterversorgt bleiben. Um diese Ineffizienz zu beheben, stellen wir EVATok vor, ein Framework zur Erzeugung effizienter, video-adaptiver Tokenizer. Unser Framework schätzt optimale Token-Zuweisungen für jedes Video, um den besten Qualitäts-Kosten-Kompromiss zu erreichen, entwickelt leichtgewichtige Router zur schnellen Vorhersage dieser optimalen Zuweisungen und trainiert adaptive Tokenizer, die Videos basierend auf den durch Router vorhergesagten Zuweisungen kodieren. Wir zeigen, dass EVATok erhebliche Verbesserungen in Effizienz und Gesamtqualität für die Videorekonstruktion und nachgelagerte AR-Generierung liefert. Durch unser erweitertes Trainingsrezept, das Video-Semantik-Encoder integriert, erreicht EVATok eine überlegene Rekonstruktion und state-of-the-art Klassen-zu-Video-Generierung auf UCF-101, mit mindestens 24,4 % Ersparnis im durchschnittlichen Token-Verbrauch im Vergleich zum bisherigen State-of-the-Art LARP und unserer Fixed-Length-Baseline.
Dichte Bildbeschriftung ist entscheidend für die cross-modale Ausrichtung im Vision-Language-Pre-training und der Text-zu-Bild-Generierung, doch die Skalierung von Expert:innen-Annotationen ist prohibitiv teuer. Während die synthetische Beschriftung mittels starker Vision-Language-Modelle (VLMs) eine praktische Alternative darstellt, führt überwachte Distillation oft zu begrenzter Ausgabevielfalt und schwacher Generalisierung. Reinforcement Learning (RL) könnte diese Grenzen überwinden, doch seine Erfolge konzentrierten sich bisher auf verifizierbare Domänen, die auf deterministischen Prüfverfahren basieren – ein Luxus, der bei offener Beschriftung nicht verfügbar ist. Wir adressieren diesen Engpass mit RubiCap, einem neuartigen RL-Framework, das feingranulare, exemplarspezifische Belohnungssignale aus LLM-geschriebenen Bewertungsrubriken ableitet. RubiCap assembliert zunächst ein diverses Komitee von Kandidaten-Beschreibungen, nutzt dann einen LLM-Rubrikenschreiber, um konsistente Stärken zu extrahieren und Defizite der aktuellen Policy zu diagnostizieren. Diese Erkenntnisse werden in explizite Bewertungskriterien überführt, wodurch ein LLM-Bewerter in die Lage versetzt wird, holistische Qualitätsbewertungen zu zerlegen und grobe skalare Belohnungen durch strukturierte, mehrdimensionale Evaluationen zu ersetzen. In umfangreichen Benchmarks erzielt RubiCap die höchsten Gewinnraten auf CapArena und übertrifft dabei überwachte Distillation, frühere RL-Methoden, menschliche Expert:innen-Annotationen und GPT-4V-erweiterte Ausgaben. Auf CaptionQA demonstriert es überlegene Worteffizienz: Unser 7B-Modell erreicht das Niveau von Qwen2.5-VL-32B-Instruct, und unser 3B-Modell übertrifft sein 7B-Pendant. Bemerkenswerterweise erzeugt der Einsatz des kompakten RubiCap-3B als Beschriftungsmodell leistungsfähigere vortrainierte VLMs als jene, die mit Beschriftungen proprietärer Modelle trainiert wurden.
Kürzlich wurden multimodale große Sprachmodelle (MLLMs) verstärkt in Diffusions-Frameworks integriert, hauptsächlich als Text-Encoder, um komplexe Aufgaben wie räumliches Schließen zu bewältigen. Dieses Paradigma weist jedoch zwei kritische Einschränkungen auf: (i) Der MLLM-Text-Encoder zeigt eine unzureichende Reasoning-Tiefe. Eine Einzelschritt-Kodierung aktiviert nicht den Chain-of-Thought-Prozess, der für MLLMs essentiell ist, um präzise Anleitungen für komplexe Aufgaben zu liefern. (ii) Die Anleitung bleibt während des Decodierungsprozesses invariant. Invariante Anleitung verhindert, dass das Diffusions-Transformer-Modell (DiT) komplexe Instruktionen schrittweise in ausführbare Denoising-Schritte zerlegt, selbst bei korrekten MLLM-Kodierungen. Daher schlagen wir Endogenous Chain-of-Thought (EndoCoT) vor, ein neuartiges Framework, das erstens das Reasoning-Potenzial von MLLMs aktiviert, indem latente Gedankenzustände durch ein iteratives Gedankenführungsmodul verfeinert werden, und zweitens diese Zustände mit dem Denoising-Prozess des DiT verbindet. Zusätzlich wird ein Terminal-Thought-Grounding-Modul eingesetzt, um sicherzustellen, dass die Reasoning-Trajektorie durch eine Ausrichtung des Endzustands an Ground-Truth-Antworten textuell verankert bleibt. Durch diese beiden Komponenten liefert der MLLM-Text-Encoder sorgfältig durchdachte Anleitungen, die es dem DiT ermöglichen, diese progressiv auszuführen und komplexe Aufgaben schrittweise zu lösen. Umfangreiche Evaluierungen über diverse Benchmarks (z.B. Maze, TSP, VSP und Sudoku) erzielen eine durchschnittliche Genauigkeit von 92,1 % und übertreffen damit die stärkste Baseline um 8,3 Prozentpunkte.
Moderne visuelle Agenten benötigen Repräsentationen, die allgemeingültig, kausal und physikalisch strukturiert sind, um in Echtzeit-Streaming-Umgebungen zu operieren. Allerdings sind aktuelle Vision-Foundation-Models nach wie vor fragmentiert und spezialisieren sich eng auf semantische Bildwahrnehmung, offline temporale Modellierung oder räumliche Geometrie. Dieses Paper stellt OmniStream vor, einen vereinheitlichten Streaming-Visual-Backbone, der effektiv diverse visuelle Eingaben wahrnimmt, rekonstruiert und danach handelt. Durch die Integration von kausaler raumzeitlicher Aufmerksamkeit und 3D-Rotations-Positions-Embeddings (3D-RoPE) unterstützt unser Modell eine effiziente, frame-by-frame Online-Verarbeitung von Videostreams über einen persistenten KV-Cache. Wir pre-trainieren OmniStream mit einem synergetischen Multi-Task-Framework, das statisches und temporales Repräsentationslernen, Streaming-Geometrierekonstruktion und Vision-Language-Alignment auf 29 Datensätzen koppelt. Umfassende Evaluationen zeigen, dass OmniStream selbst mit einem strikt eingefrorenen Backbone durchweg wettbewerbsfähige Leistung mit spezialisierten Expertensystemen in den Bereichen Bild- und Video-Probing, Streaming-Geometrierekonstruktion, komplexe Video- und räumliche Reasoning sowie robotische Manipulation (während des Trainings ungesehen) erreicht. Statt benchmarkspezifischer Dominanz zielt unsere Arbeit darauf ab, die Machbarkeit des Trainings eines einzigen, vielseitigen Vision-Backbones zu demonstrieren, der sich über semantisches, räumliches und temporales Reasoning verallgemeinert – ein bedeutungsvollerer Schritt hin zu einem allgemeinen visuellen Verständnis für interaktive und verkörperte Agenten.
3D Gaussian Splatting (3DGS) hat sich als leistungsstarke Repräsentation für hochwertiges Rendering in einer Vielzahl von Anwendungen etabliert. Die hohen Rechenanforderungen und großen Speicherkosten stellen jedoch erhebliche Herausforderungen für den Einsatz auf mobilen Geräten dar. In dieser Arbeit schlagen wir eine auf mobile Geräte zugeschnittene Echtzeit-Gaussian-Splatting-Methode vor, genannt Mobile-GS, die eine effiziente Inferenz von Gaussian Splatting auf Edge-Geräten ermöglicht. Konkret identifizieren wir zunächst Alpha Blending als primären Rechenengpass, da dieses auf den zeitaufwändigen Prozess der Gauß'schen Tiefensortierung angewiesen ist. Um dieses Problem zu lösen, schlagen wir ein tiefenbewusstes, reihenfolgeunabhängiges Rendering-Verfahren vor, das die Notwendigkeit der Sortierung eliminiert und dadurch das Rendering erheblich beschleunigt. Obwohl dieses reihenfolgeunabhängige Rendering die Geschwindigkeit erhöht, kann es in Bereichen mit überlappender Geometrie aufgrund der fehlenden Rendering-Reihenfolge Transparenzartefakte verursachen. Um dieses Problem zu adressieren, schlagen wir eine neuronale, sichtrichtungsabhängige Verbesserungsstrategie vor, die eine genauere Modellierung von sichtrichtungsabhängigen Effekten ermöglicht, die von der Blickrichtung, der 3D-Gauß-Geometrie und den Erscheinungsattributen abhängen. Auf diese Weise kann Mobile-GS sowohl hochwertiges als auch Echtzeit-Rendering erreichen. Darüber hinaus führen wir, um die Bereitstellung auf speicherbeschränkten mobilen Plattformen zu erleichtern, eine Distillation von sphärischen Harmoniken erster Ordnung, eine neuronale Vektorquantisierungstechnik und eine beitragsbasiere Reduktionsstrategie ein, um die Anzahl der Gauß-Primitive zu verringern und die 3D-Gauß-Repräsentation mit Hilfe neuronaler Netze zu komprimieren. Umfangreiche Experimente belegen, dass unser vorgeschlagenes Mobile-GS Echtzeit-Rendering und eine kompakte Modellgröße bei Erhalt hoher visueller Qualität erreicht, was es ideal für mobile Anwendungen macht.
Große Sprachmodelle, die auf natürlicher Sprache trainiert werden, weisen eine ausgeprägte Anisotropie auf: Eine geringe Anzahl von Richtungen konzentriert unverhältnismäßig viel Energie, während die verbleibenden Dimensionen einen breiten semantischen Ausläufer bilden. In Trainingsregimen mit niedriger Bitzahl wird diese Geometrie numerisch instabil. Da die blockweisen Quantisierungsskalen durch extreme elementweise Größen bestimmt werden, dehnen dominante Richtungen den dynamischen Bereich, was semantische Variationen im langen Ausläufer in enge numerische Intervalle komprimiert. Wir zeigen, dass diese Instabilität primär durch einen kohärenten Rang-1-Mittelwertbias verursacht wird, der die dominante Komponente der spektralen Anisotropie in LLM-Repräsentationen darstellt. Diese Mittelwertkomponente tritt systematisch über Schichten und Trainingsstadien hinweg auf und ist für die Mehrheit der extremen Aktivierungsgrößen verantwortlich, was sie zum Haupttreiber der Dynamikbereichsausdehnung unter niedriger Präzision macht. Entscheidend ist, dass diese dominante Instabilität, da sie Rang-1 ist, durch eine einfache Mittelwertsubtraktion auf Quellenebene beseitigt werden kann. Diese bias-zentrierte Konditionierung erzielt den Großteil der Stabilitätsvorteile spektraler SVD-basierter Methoden, erfordert jedoch nur Reduktionsoperationen und standardmäßige Quantisierungskernel. Empirische Ergebnisse beim FP4-Training (W4A4G4) zeigen, dass die Mittelwertentfernung die Verlustlücke zu BF16 erheblich verringert und die nachgelagerte Leistung wiederherstellt, was einen hardwareeffizienten Weg zu stabilem LLM-Training mit niedriger Bitzahl eröffnet.
Dieses Paper stellt MR-Search vor, eine In-Context-Meta-Reinforcement-Learning(RL)-Formulierung für agentenbasiertes Suchen mit Selbstreflexion. Anstatt eine Policy innerhalb einer einzelnen, unabhängigen Episode mit spärlichen Belohnungen zu optimieren, trainiert MR-Search eine Policy, die vergangene Episoden berücksichtigt und ihre Suchstrategie episodenübergreifend anpasst. MR-Search lernt, eine Suchstrategie mit Selbstreflexion zu erlernen, was es Suchagenten ermöglicht, ihre In-Context-Exploration zur Testzeit zu verbessern. Konkret führt MR-Search eine episodenübergreifende Exploration durch, indem es nach jeder Episode explizite Selbstreflexionen generiert und diese als zusätzlichen Kontext nutzt, um nachfolgende Versuche zu steuern, wodurch eine effektivere Exploration während der Testzeit gefördert wird. Wir führen weiterhin einen Multi-Turn-RL-Algorithmus ein, der einen dichten relativen Vorteil auf der Ebene einzelner Züge schätzt und so eine feingranulare Kreditzuordnung für jede Episode ermöglicht. Empirische Ergebnisse über verschiedene Benchmarks hinweg demonstrieren die Vorteile von MR-Search gegenüber RL-basierten Baseline-Methoden, mit starker Generalisierungsfähigkeit und relativen Verbesserungen von 9,2 % bis 19,3 % über acht Benchmarks hinweg. Unser Code und unsere Daten sind verfügbar unter https://github.com/tengxiao1/MR-Search.
Im praktischen Einsatz sehen sich visionssprachliche Modelle häufig mit Störungen wie Wettereinflüssen, Verdeckungen und Kamerabewegungen konfrontiert. Unter solchen Bedingungen verschlechtern sich ihr Verständnis und ihre Schlussfolgerungsfähigkeit erheblich, was eine Diskrepanz zwischen sauberen, kontrollierten (d.h. ungestörten) Evaluierungsumgebungen und der Robustheit in realen Szenarien offenbart. Um diese Einschränkung zu adressieren, schlagen wir ROVA vor, ein neuartiges Trainingsframework, das die Robustheit durch Modellierung einer robustheitsbewussten Konsistenzbelohnung unter räumlich-zeitlichen Störungen verbessert. ROVA führt eine schwierigkeitsbewusste Online-Trainingsstrategie ein, die informative Proben basierend auf der sich entwickelnden Fähigkeit des Modells priorisiert. Konkret schätzt es kontinuierlich den Schwierigkeitsgrad von Proben durch selbstreflektierende Evaluation neu, was ein adaptives Training mit einer robustheitsbewussten Konsistenzbelohnung ermöglicht. Wir stellen außerdem PVRBench vor, einen neuen Benchmark, der reale Störungen in verkörperte Videodatensätze injiziert, um sowohl die Genauigkeit als auch die Schlussfolgerungsqualität unter realistischen Störungen zu bewerten. Wir evaluieren ROVA und Baseline-Modelle auf PVRBench, UrbanVideo und VisBench, wobei Open-Source- und proprietäre Modelle unter realistischen Störungen Genauigkeits- und Schlussfolgerungseinbußen von bis zu 35 % bzw. 28 % verzeichnen. ROVA mildert die Leistungsverschlechterung effektiv ab und steigert die relative Genauigkeit um mindestens 24 % und die Schlussfolgerungsfähigkeit um über 9 % im Vergleich zu Baseline-Modellen (QWen2.5/3-VL, InternVL2.5, Embodied-R). Diese Verbesserungen übertragen sich auf saubere Standard-Benchmarks und erzielen konsistente Steigerungen.
Während Large Language Models (LLMs) bemerkenswerte Erfolge in der Code-Generierung erzielt haben, stoßen sie oft an ihre Grenzen, wenn es um tiefgreifendes, langfristiges Reasoning für komplexe Softwareentwicklung geht. Wir führen diese Einschränkung auf die Natur standardmäßiger Vortrainingsdaten zurück: Statische Software-Repositories repräsentieren nur den Endzustand eines komplexen intellektuellen Prozesses und abstrahieren die Zwischenschritte der Planung, Fehlersuche und iterativen Verfeinerung. Um diese Lücke zu schließen, schlagen wir ein neuartiges Paradigma vor: Verstehen durch Rekonstruktion. Wir stellen die Hypothese auf, dass das Reverse-Engineering der latenten agentenbasierten Trajektorien – der Planungs-, Reasoning- und Debugging-Schritte – hinter statischen Repositories ein wesentlich reichhaltigeres Trainingssignal liefert als Rohcode allein. Um dies umzusetzen, führen wir ein Framework ein, das diese Trajektorien mittels einer Multi-Agenten-Simulation synthetisiert. Dieser Prozess ist in den strukturellen Gegebenheiten der Quell-Repositories (z.B. Abhängigkeitsgraphen und Dateihierarchien) verankert, um die Treue zu gewährleisten. Darüber hinaus setzen wir eine suchbasierte Optimierungstechnik ein, um die logische Strenge der synthetischen Daten zu garantieren; diese verfeinert iterativ die Chain-of-Thought (CoT)-Argumentation, um die Wahrscheinlichkeit des Ground-Truth-Codes zu maximieren. Empirische Ergebnisse zeigen, dass kontinuierliches Vortraining auf diesen rekonstruierten Trajektorien die Leistung von Llama-3-8B über diverse Benchmarks hinweg signifikant steigert, einschließlich Langzeitkontextverständnis, Programmierkompetenz und agentenbasierter Fähigkeiten.
Akzente sind ein integraler Bestandteil der Gesellschaft, spiegeln Multikulturalismus wider und prägen, wie Individuen Identität ausdrücken. Die Mehrheit der Englischsprechenden sind Nicht-Muttersprachler (L2), doch aktuelle Text-zu-Sprache (TTS)-Systeme modellieren hauptsächlich amerikanisch akzentuiertes Englisch aufgrund begrenzter Akzentdaten. Wir schlagen Akzent-Vektoren vor, eine steuerbare Repräsentation, die Akzentmanipulation in mehrsprachigen TTS-Systemen ermöglicht, ohne akzentuierte Trainingsdaten zu benötigen. Akzent-Vektoren werden durch Feinabstimmung eines TTS-Systems mit Muttersprachendaten einer anderen Sprache (d.h. nicht-Englisch) abgeleitet und erfassen Akzentcharakteristika (im Englischen) durch Berechnung von Aufgabenvektoren. Durch Skalierung und Interpolation des Vektors erreichen wir fein abgestufte Kontrolle über die Akzentstärke und erzeugen Mischakzent-Sprache. Zudem generalisiert die Methode über Englisch hinaus und ermöglicht Akzentkontrolle über mehrere Sprachen. Objektive und menschliche Evaluationen bestätigen die Wirksamkeit von Akzent-Vektoren für fein abgestufte und kompositionelle Akzentkontrolle.
Reasoning-LLMs-als-Jurymitglieder, die von Skalierung zur Inferenzzeit profitieren können, bieten einen vielversprechenden Weg, um den Erfolg von Reasoning-Modellen auf nicht verifizierbare Domänen auszudehnen, in denen die Korrektheit/Qualität der Ausgabe nicht direkt überprüft werden kann. Während Reasoning-Jurys jedoch eine bessere Leistung auf statischen Evaluierungs-Benchmarks gezeigt haben, wurde ihre Wirksamkeit im tatsächlichen Policy-Training nicht systematisch untersucht. Daher führen wir eine rigorose Studie durch, um die tatsächliche Auswirkung von nicht-reasoning- und reasoning-Jurys in der reinforcement-learning-basierten LLM-Alignment zu untersuchen. Unser kontrolliertes synthetisches Setting, in dem ein "Goldstandard"-Jurymitglied (gpt-oss-120b) Präferenzannotationen bereitstellt, um kleinere Jurymitglieder zu trainieren, zeigt wesentliche Unterschiede zwischen nicht-reasoning- und reasoning-Jurys auf: Nicht-reasoning-Jurys führen leicht zu Reward-Hacking, während reasoning-Jurys zu Policies führen können, die eine starke Leistung erzielen, wenn sie durch das Goldstandard-Jurymitglied evaluiert werden. Interessanterweise stellen wir fest, dass die durch reasoning-Jurys trainierten Policies diese starke Leistung erreichen, indem sie lernen, hochwirksame adversariale Ausgaben zu generieren, die auch auf populären Benchmarks wie Arena-Hard gut abschneiden können, indem sie andere LLM-Jurys täuschen. In Kombination mit unserer weiteren Analyse unterstreicht unsere Studie sowohl wichtige Erkenntnisse als auch Verbesserungspotenzial für die Anwendung von (reasoning-)LLM-Jurys im nicht verifizierbaren Post-Training von LLMs.
Die Übersetzung komplexer Reinforcement-Learning (RL)-Umgebungen in hochperformante Implementierungen erforderte traditionell monatelange spezialisierte Entwicklungsarbeit. Wir stellen eine wiederverwendbare Methode vor – eine generische Prompt-Vorlage, hierarchische Verifikation und iteratives agentengestütztes Reparieren – die semantisch äquivalente Hochleistungsumgebungen für unter 10 US-Dollar Rechenkosten erzeugt. Wir demonstrieren drei verschiedene Workflows anhand von fünf Umgebungen. Direkte Übersetzung (keine existierende Performance-Implementierung): EmuRust (1,5-fache PPO-Beschleunigung durch Rust-Parallelisierung für einen Game-Boy-Emulator) und PokeJAX, der erste GPU-parallele Pokemon-Kampfsimulator (500M SPS Zufallsaktionen, 15,2M SPS PPO; 22.320-fache Leistung des TypeScript-Referenzsystems). Übersetzung verifiziert gegen existierende Performance-Implementierungen: Durchsatzparität mit MJX (1,04-fach) und 5-fache Leistung gegenüber Brax bei gleichen GPU-Batch-Größen (HalfCheetah JAX); 42-fache PPO-Leistung (Puffer Pong). Neue Umgebungserstellung: TCGJax, die erste einsatzfähige JAX-Pokemon-TCG-Engine (717K SPS Zufallsaktionen, 153K SPS PPO; 6,6-fache Leistung der Python-Referenz), synthetisiert aus einer webbasierten Spezifikation. Bei 200M Parametern sinkt der Umgebungs-Overhead unter 4% der Trainingszeit. Hierarchische Verifikation (Eigenschafts-, Interaktions- und Rollout-Tests) bestätigt die semantische Äquivalenz für alle fünf Umgebungen; Policy-Transfer zwischen Backends bestätigt eine Null Sim-to-Sim-Lücke für alle fünf Umgebungen. TCGJax, synthetisiert aus einer privaten Referenz, die nicht in öffentlichen Repositories vorhanden ist, dient als Kontrolle für Kontaminationsbedenken bei Agenten-Pretraining-Daten. Die Arbeit enthält ausreichend Detail – einschließlich repräsentativer Prompts, Verifikationsmethodik und vollständiger Ergebnisse – damit ein Coding-Agent die Übersetzungen direkt aus dem Manuskript reproduzieren könnte.
Grobgesteuerte visuelle Erzeugung, die feine visuelle Beispiele aus degradierten oder niedrigauflösenden groben Referenzen synthetisiert, ist für verschiedene realweltliche Anwendungen von entscheidender Bedeutung. Während trainierungsbasierte Ansätze effektiv sind, sind sie inhärent durch hohe Trainingskosten und eingeschränkte Generalisierung aufgrund gepaarter Datensammlung limitiert. Dementsprechend schlagen neuere trainierungsfreie Arbeiten vor, vortrainierte Diffusionsmodelle zu nutzen und Guidance während des Sampling-Prozesses zu integrieren. Diese trainierungsfreien Methoden erfordern jedoch entweder die Kenntnis des Vorwärts- (fein-zu-grob) Transformationsoperators, z.B. bikubisches Downsampling, oder es ist schwierig, einen Ausgleich zwischen Guidance und synthetischer Qualität zu finden. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Guided-Methode vor, die die h-Transformation verwendet – ein Werkzeug, das stochastische Prozesse (z.B. den Sampling-Prozess) unter gewünschten Bedingungen einschränken kann. Konkret modifizieren wir die Übergangswahrscheinlichkeit in jedem Sampling-Zeitschritt, indem wir der ursprünglichen Differentialgleichung eine Drift-Funktion hinzufügen, die die Erzeugung approximativ in Richtung des idealen feinen Samples lenkt. Um unvermeidbare Approximationsfehler zu adressieren, führen wir einen rauschpegelabhängigen Zeitplan ein, der den Term schrittweise abschwächt, wenn der Fehler zunimmt, und so sowohl die Führungsadhärenz als auch hochwertige Synthese gewährleistet. Umfangreiche Experimente über verschiedene Bild- und Videoerzeugungsaufgaben hinweg demonstrieren die Wirksamkeit und Generalisierungsfähigkeit unserer Methode.
Aktuelle Arbeiten synthetisieren agentenbasierte Aufgaben für nachtrainierte, werkzeugnutzende LLMs, dennoch bleibt robuste Generalisierung unter Verschiebungen in Aufgaben und Werkzeugsets eine offene Herausforderung. Wir führen diese Brüchigkeit auf unzureichende Vielfalt in synthetisierten Aufgaben zurück. Die Skalierung von Diversität ist schwierig, da das Training erfordert, dass Aufgaben ausführbar und verifizierbar bleiben, während Generalisierung eine Abdeckung verschiedener Werkzeugtypen, Werkzeugset-Kombinationen und heterogener Werkzeugnutzungsmuster erfordert. Wir schlagen DIVE vor, ein evidenzbasiertes Verfahren, das die Synthesereihenfolge umkehrt: Es führt zunächst diverse, realweltliche Werkzeuge aus und leitet daraus streng abgeleitete Aufgaben aus den resultierenden Spuren ab, wodurch eine Verankerung durch Konstruktion gewährleistet wird. DIVE skaliert strukturelle Vielfalt entlang zwei kontrollierbarer Achsen – Werkzeugpool-Abdeckung und Werkzeugset-Vielfalt pro Aufgabe – und eine Evidenzsammelungs–Aufgabenableitungs-Schleife induziert zudem reichhaltige mehrstufige Werkzeugnutzungsmuster über 373 Werkzeuge in fünf Domänen hinweg. Das Training von Qwen3-8B auf DIVE-Daten (48k SFT + 3.2k RL) verbessert die Leistung um durchschnittlich +22 Punkte über 9 OOD-Benchmarks hinweg und übertrifft die stärkste 8B-Baseline um +68. Bemerkenswerterweise zeigt eine kontrollierte Skalierungsanalyse, dass die Skalierung von Diversität für die OOD-Generalisierung durchgängig besser abschneidet als die Skalierung der Datenmenge, selbst mit 4x weniger Daten.
Tiny Aya definiert neu, was ein kleines mehrsprachiges Sprachmodell leisten kann. Das Modell wurde auf 70 Sprachen trainiert und durch regionsbewusstes Nachtraining verfeinert. Es bietet mit nur 3,35 Milliarden Parametern state-of-the-art Übersetzungsqualität, ein starkes mehrsprachiges Verständnis und eine hochwertige Generierung in den Zielsprachen. Die Veröffentlichung umfasst ein vortrainiertes Basismodell, eine global ausgewogene, instruktionsfeinabgestimmte Variante und drei regionsspezialisierte Modelle für Sprachen aus Afrika, Südasien, Europa, dem asiatisch-pazifischen Raum und Westasien. Dieser Bericht erläutert die Trainingsstrategie, die Datenzusammensetzung und den umfassenden Evaluierungsrahmen hinter Tiny Aya und präsentiert einen alternativen Skalierungspfad für multilinguale KI: einen Pfad, der auf Effizienz, ausgewogener Leistung über alle Sprachen hinweg und praktischer Einsatzfähigkeit ausgerichtet ist.
Herkömmliche LLM-Distillation verschwendet Rechenleistung auf zwei Ebenen: bei Aufgaben, die der Student bereits beherrscht (Gradienten nahe null), und bei Aufgaben, die weit über seine Fähigkeiten hinausgehen (inkohärente Gradienten, die bestehende Kompetenzen zersetzen). Wir zeigen, dass diese Verschwendung nicht nur intuitiv, sondern strukturell unvermeidbar ist: Das Gradienten-Signal-Rausch-Verhältnis bei der Distillation verschwindet nachweislich an beiden Extremen der Bestehensrate. Diese theoretische Beobachtung führt zu Paced, einem Framework, das die Distillation auf die Zone der proximalen Entwicklung konzentriert – die Grenze der Kompetenz eines Studentenmodells – mittels einer prinzipiellen Gewichtung der Bestehensrate w(p) = p^α(1 - p)^β, die sich aus der Struktur der verschwindenden Distillationsgradienten an den Rändern ableitet. Wichtige Ergebnisse: (1) Theorie: Wir beweisen, dass der Beta-Kernel w(p) = p^α(1-p)^β eine führende Gewichtungsfamilie ist, die aus der SNR-Struktur der Distillation hervorgeht, und dass sie minimax-robust ist – bei begrenzter multiplikativer Fehlspezifikation beträgt der worst-case-Effizienzverlust nur O(δ^2). (2) Distillation: Bei der Distillation von einem größeren Teacher- zu einem kleineren Studentenmodell mit forward KL erzielt Paced signifikante Gewinne gegenüber dem Basismodell, bei gleichzeitig niedrigem Vergessen in Benchmarks. (3) Selbst-Distillation: Bei instruktionsfinetunierten Modellen mit reverse KL übertreffen die Gewinne ebenfalls die Baselinewerte. (4) Zwei-Stufen-Synergie: Ein Ablaufplan mit forward KL gefolgt von reverse KL erzielt in unserem Setup die stärksten Ergebnisse und erreicht substantielle Verbesserungen in standardisierten Reasoning-Benchmarks – was eine Interpretation des Distillationsprozesses als Modus-Abdeckung gefolgt von Konsolidierung stützt. Alle Konfigurationen erfordern lediglich Student-Rollouts zur Schätzung der Bestehensraten, benötigen keine Architekturänderungen und sind mit jeder KL-Richtung kompatibel.
Wir stellen FireRedASR2S vor, ein industrietaugliches All-in-One-System zur automatischen Spracherkennung (ASR) auf dem neuesten Stand der Technik. Es integriert vier Module in einer einheitlichen Pipeline: ASR, Sprachaktivitätserkennung (VAD), gesprochene Sprachenidentifikation (LID) und Interpunktionsvorhersage (Punc). Alle Module erzielen State-of-the-Art-Leistung auf den evaluierten Benchmarks: **FireRedASR2**: Ein ASR-Modul mit zwei Varianten, FireRedASR2-LLM (8B+ Parameter) und FireRedASR2-AED (1B+ Parameter), das die Transkription von Sprache und Gesang für Mandarin, chinesische Dialekte und Akzente, Englisch und Code-Switching unterstützt. Im Vergleich zu FireRedASR bietet FireRedASR2 eine verbesserte Erkennungsgenauigkeit und eine breitere Abdeckung von Dialekten und Akzenten. FireRedASR2-LLM erreicht eine durchschnittliche Zeichenfehlerrate (CER) von 2,89 % auf 4 öffentlichen Mandarin-Benchmarks und 11,55 % auf 19 öffentlichen Benchmarks für chinesische Dialekte und Akzente und übertrifft damit konkurrierende Baselines wie Doubao-ASR, Qwen3-ASR und Fun-ASR. **FireRedVAD**: Ein ultraleichtes Modul (0,6 Mio. Parameter) basierend auf dem Deep Feedforward Sequential Memory Network (DFSMN), das Streaming-VAD, Nicht-Streaming-VAD und Multi-Label-VAD (mVAD) unterstützt. Auf dem FLEURS-VAD-102-Benchmark erreicht es einen Frame-Level-F1-Score von 97,57 % und eine AUC-ROC von 99,60 % und übertrifft damit Silero-VAD, TEN-VAD, FunASR-VAD und WebRTC-VAD. **FireRedLID**: Ein Encoder-Decoder-LID-Modul, das über 100 Sprachen und mehr als 20 chinesische Dialekte und Akzente unterstützt. Auf FLEURS (82 Sprachen) erreicht es eine Äußerungsgenauigkeit von 97,18 % und übertrifft damit Whisper und SpeechBrain. **FireRedPunc**: Ein BERT-artiges Modul zur Interpunktionsvorhersage für Chinesisch und Englisch. Auf Multi-Domain-Benchmarks erreicht es einen durchschnittlichen F1-Score von 78,90 % und übertrifft damit FunASR-Punc (62,77 %). Um die Forschung in der Sprachverarbeitung voranzutreiben, veröffentlichen wir die Modellgewichte und den Code unter https://github.com/FireRedTeam/FireRedASR2S.
Latente Diffusionsmodelle haben einen neuen State-of-the-Art in der hochauflösenden Bildgenerierung etabliert. Die Integration von Priors aus Vision Foundation Models verbessert die generative Effizienz, doch bestehende latente Designs bleiben weitgehend heuristisch. Diese Ansätze haben oft Schwierigkeiten, semantische Diskriminierbarkeit, Rekonstruktionstreue und latente Kompaktheit zu vereinen. In diesem Artikel schlagen wir den Geometric Autoencoder (GAE) vor, einen prinzipienbasierten Rahmen, der diese Herausforderungen systematisch adressiert. Durch die Analyse verschiedener Alignment-Paradigmen konstruiert GAE ein optimiertes, niedrigdimensionales semantisches Supervisionsziel aus VFMs, um eine Anleitung für den Autoencoder bereitzustellen. Darüber hinaus nutzen wir eine latente Normalisierung, die die restriktive KL-Divergenz standardmäßiger VAEs ersetzt und so eine stabilere latente Mannigfaltigkeit ermöglicht, die speziell für das Diffusionslernen optimiert ist. Um eine robuste Rekonstruktion unter hochintensivem Rauschen zu gewährleisten, integriert GAE einen dynamischen Noise-Sampling-Mechanismus. Empirisch erzielt GAE überzeugende Leistungen auf dem ImageNet-1K-256×256-Benchmark und erreicht einen gFID von 1,82 nach nur 80 Epochen und 1,31 nach 800 Epochen ohne Classifier-Free Guidance, womit es bestehende State-of-the-Art-Methoden deutlich übertrifft. Über die generative Qualität hinaus stellt GAE eine überlegene Balance zwischen Kompression, semantischer Tiefe und robuster Rekonstruktionsstabilität her. Diese Ergebnisse validieren unsere Designüberlegungen und bieten ein vielversprechendes Paradigma für latente Diffusionsmodellierung. Code und Modelle sind öffentlich verfügbar unter https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
Pre-Training ist entscheidend für große Sprachmodelle (LLMs), da hierbei der Großteil der Repräsentationen und Fähigkeiten erworben wird. Allerdings weist das natürliche Sprach-Pre-Training Probleme auf: Hochwertige Texte sind begrenzt verfügbar, sie enthalten menschliche Verzerrungen (Biases) und vermengen Wissen mit logischem Denken. Dies wirft eine grundlegende Frage auf: Ist natürliche Sprache der einzige Weg zu Intelligenz? Wir schlagen vor, neuronale zelluläre Automaten (NCA) zu nutzen, um synthetische, nicht-sprachliche Daten für ein Pre-Pre-Training von LLMs zu erzeugen – also ein Training auf synthetischer, gefolgt von natürlicher Sprache. NCA-Daten weisen eine reiche raumzeitliche Struktur und Statistik auf, die der natürlichen Sprache ähnelt, sind dabei aber kontrollierbar und in großem Maßstab kostengünstig zu generieren. Wir stellen fest, dass ein Pre-Pre-Training mit nur 164M NCA-Tokens die nachgelagerte Sprachmodellierung um bis zu 6 % verbessert und die Konvergenz um das bis zu 1,6-fache beschleunigt. Überraschenderweise übertrifft dies sogar ein Pre-Pre-Training mit 1,6B Tokens natürlicher Sprache aus Common Crawl bei höherem Rechenaufwand. Diese Gewinne übertragen sich auch auf Reasoning-Benchmarks, einschließlich GSM8K, HumanEval und BigBench-Lite. Bei der Untersuchung der Ursachen für diese Übertragbarkeit stellen wir fest, dass Attention-Schichten am übertragbarsten sind und dass die optimale NCA-Komplexität je nach Domäne variiert: Code profitiert von einfacheren Dynamiken, während Mathematik und Webtexte komplexere bevorzugen. Diese Ergebnisse ermöglichen eine systematische Abstimmung der synthetischen Verteilung auf Zielbereiche. Weiter gefasst eröffnet unsere Arbeit einen Weg zu effizienteren Modellen mit vollständig synthetischem Pre-Training.
Multimodale Large Language Models (MLLMs) werden aufgrund ihrer hohen Übereinstimmung mit menschlichen Urteilen bei verschiedenen visuellen Aufgaben häufig als „MLLM-as-a-Judge“ eingesetzt. Die meisten vorhandenen Richtermodelle sind jedoch für Einzelaufgaben-Szenarien optimiert und haben Schwierigkeiten, sich auf verschiedene Kontexte zu verallgemeinern, was eine entscheidende Voraussetzung für eine zuverlässige Bewertung ist. Um diese Einschränkung zu adressieren, schlagen wir Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge) vor, ein Framework, das das Richtermodell gemeinsam über mehrere Aufgaben hinweg optimiert und dabei die Verallgemeinerungsfähigkeiten von Reinforcement Learning nutzt. Experimentelle Ergebnisse im Vergleich zu mehreren starken Baseline-Modellen zeigen, dass MT-RL-Judge diese Baselines sowohl in Bezug auf die Urteilskonsistenz als auch die Korrelation mit menschlichen Präferenzen übertrifft. Darüber hinaus zeigt unser Ansatz eine robuste Generalisierungsfähigkeit bei Out-of-Distribution-Aufgaben, was seine Wirksamkeit weiter validiert.
Text-to-Audio-Diffusionsmodelle erzeugen hochwertige Audioausgaben, benötigen jedoch Dutzende von Funktionsauswertungen (NFEs), was zu Latenzen im Sekundenbereich und begrenztem Durchsatz führt. Wir stellen SoundWeaver vor, das erste trainingsfreie, modellagnostische Bereitstellungssystem, das Text-to-Audio-Diffusion beschleunigt, indem es mit semantisch ähnlichen, zwischengespeicherten Audiodaten warmstartet. SoundWeaver führt drei Komponenten ein: einen Referenzselektor, der zwischengespeicherte Kandidaten über semantisches und dauerbasiertes Gating abruft und zeitlich ausrichtet; einen Skip-Gater, der dynamisch den Prozentsatz der zu überspringenden NFEs bestimmt; und einen schlanken Cache-Manager, der die Nutzungsqualität des Caches durch qualitätsbewusste Verdrängung und Verfeinerung aufrechterhält. Bei realen Audio-Traces erreicht SoundWeaver eine 1,8–3,0-fache Latenzreduzierung mit einem Cache von nur ∼1.000 Einträgen bei gleichzeitiger Beibehaltung oder Verbesserung der wahrgenommenen Qualität.
Das Pre-Training erzeugt einen gelernten Parametervektor, der typischerweise als Ausgangspunkt für weitere iterative Anpassungen dient. In dieser Arbeit betrachten wir das Ergebnis des Pre-Trainings stattdessen als eine Verteilung über Parametervektoren, deren Träger bereits aufgabenspezifische Experten enthält. Wir zeigen, dass bei kleinen Modellen solche Expertenlösungen einen vernachlässigbaren Bruchteil des Volumens dieser Verteilung einnehmen, was ihre Entdeckung von strukturierten Optimierungsmethoden wie Gradientenabstieg abhängig macht. Im Gegensatz dazu nimmt die Dichte der Aufgabenexperten in großen, gut vortrainierten Modellen dramatisch zu, sodass diverse, aufgabenverbessernde Spezialisten einen erheblichen Teil der Umgebung um die vortrainierten Gewichte bevölkern. Motiviert durch diese Perspektive untersuchen wir eine einfache, vollständig parallele Nachtrainingsmethode, die N Parameterstörungen zufällig abtastet, die besten K auswählt und Vorhersagen per Mehrheitsentscheid kombiniert. Trotz ihrer Einfachheit ist dieser Ansatz wettbewerbsfähig mit Standard-Nachtrainingsmethoden wie PPO, GRPO und ES für moderne großskalige Modelle.
Continual Reinforcement Learning (CRL) für Vision-Language-Action (VLA)-Modelle ist ein vielversprechender Ansatz für sich selbst verbessernde, verkörperte Agenten, die sich in offenen, sich entwickelnden Umgebungen anpassen können. Die konventionelle Einsicht aus dem Continual Learning legt jedoch nahe, dass naives Sequentielles Fine-Tuning (Seq. FT) zu katastrophalem Vergessen führt und somit komplexe CRL-Strategien erfordert. In dieser Arbeit treten wir einen Schritt zurück und führen eine systematische Untersuchung von CRL für groß angelegte, vortrainierte VLA-Modelle über drei Modelle und fünf anspruchsvolle lebenslange RL-Benchmarks hinweg durch. Wir stellen fest, dass – entgegen der etablierten Meinung – einfaches Seq. FT mit Low-Rank Adaptation (LoRA) bemerkenswert leistungsstark ist: Es erreicht eine hohe Plastizität, zeigt wenig bis kein Vergessen und bewahrt eine starke Zero-Shot-Generalisation, wobei es häufig anspruchsvollere CRL-Methoden übertrifft. Durch eine detaillierte Analyse zeigen wir, dass diese Robustheit aus einer Synergie zwischen dem groß angelegten vortrainierten Modell, parameter-effizienter Adaptation und On-Policy-Reinforcement-Learning entsteht. Gemeinsam verändern diese Komponenten den Stabilitäts-Plastizitäts-Kompromiss und machen kontinuierliche Anpassung sowohl stabil als auch skalierbar. Unsere Ergebnisse positionieren Sequentielles Fine-Tuning als eine leistungsfähige Methode für Continual RL mit VLA-Modellen und liefern neue Einblicke in lebenslanges Lernen im Zeitalter großer Modelle. Code ist verfügbar unter github.com/UT-Austin-RobIn/continual-vla-rl.
Wir schlagen Neural Field Thermal Tomography (NeFTY) vor, ein differenzierbares Physik-Framework für die quantitative 3D-Rekonstruktion von Materialeigenschaften aus transienten Oberflächentemperaturmessungen. Während sich die traditionelle Thermografie auf pixelweise 1D-Approximationen stützt, die die laterale Diffusion vernachlässigen, und weich-constrainte Physics-Informed Neural Networks (PINNs) in transienten Diffusionsszenarien oft aufgrund von Gradientensteifheit versagen, parametrisiert NeFTY das 3D-Diffusivitätsfeld als ein kontinuierliches neuronales Feld, das durch einen rigorosen numerischen Löser optimiert wird. Durch die Nutzung eines differenzierbaren Physik-Solvers erzwingt unser Ansatz die thermodynamischen Gesetze als harte Constraints bei gleichzeitiger Wahrung der Speichereffizienz, die für hochauflösende 3D-Tomographie erforderlich ist. Unser Paradigma "zuerst diskretisieren, dann optimieren" mildert effektiv die spektrale Verzerrung und schlechte Konditionierung, die dem inversen Wärmeleitproblem inhärent sind, und ermöglicht die Erkennung von Untergrunddefekten in beliebigen Größenordnungen. Die experimentelle Validierung an synthetischen Daten zeigt, dass NeFTY die Genauigkeit der Lokalisierung von Untergrunddefekten im Vergleich zu Baseline-Methoden signifikant verbessert. Weitere Details unter https://cab-lab-princeton.github.io/nefty/
Die physikbasierte Steuerung von Humanoiden hat bemerkenswerte Fortschritte bei der Realisierung realistischer und leistungsstarker Einzelagenten-Verhaltensweisen erzielt. Die Übertragung dieser Fähigkeiten auf kooperative Mensch-Objekt-Interaktionen (HOI) bleibt jedoch eine Herausforderung. Wir stellen TeamHOI vor, einen Rahmen, der es einer einzigen dezentralen Policy ermöglicht, kooperative HOIs mit beliebig vielen zusammenarbeitenden Agenten zu bewältigen. Jeder Agent arbeitet mit lokalen Beobachtungen, während er über ein Transformer-basiertes Policy-Netzwerk mit Teammitglieder-Tokens Aufmerksamkeit auf andere Teammitglieder richtet, was eine skalierbare Koordination über variable Teamgrößen hinweg ermöglicht. Um die Bewegungsrealismus zu gewährleisten und gleichzeitig der Knappheit an kooperativen HOI-Daten zu begegnen, führen wir eine Strategie mit maskiertem Adversarial Motion Prior (AMP) ein. Diese verwendet Referenzbewegungen einzelner Personen und maskiert während des Trainings die mit Objekten interagierenden Körperteile. Die maskierten Bereiche werden anschließend durch Aufgaben-Belohnungen so gelenkt, dass sie vielfältige und physikalisch plausible kooperative Verhaltensweisen erzeugen. Wir evaluieren TeamHOI anhand einer anspruchsvollen kooperativen Tragaufgabe mit zwei bis acht humanoiden Agenten und variierenden Objektgeometrien. Abschließend entwerfen wir eine teamgrößen- und formunabhängige Formationsbelohnung, um stabiles Tragen zu fördern. TeamHOI erreicht hohe Erfolgsquoten und demonstriert kohärente Kooperation über diverse Konfigurationen hinweg mit einer einzigen Policy.
Wir stellen NerVE vor, einen vereinheitlichten Eigenfrequenzrahmen, um zu verstehen, wie Feed-Forward-Netzwerke (FFNs) in großen Sprachmodellen (LLMs) den Informationsfluss im hochdimensionalen latenten Raum organisieren und regulieren. Obwohl FFNs den Großteil des Parameterbudgets ausmachen, sind ihre hochdimensionalen Dynamiken nach wie vor wenig verstanden. NerVE schließt diese Lücke durch eine ressourcenschonende, speichereffiziente Verfolgung der Eigenfrequenzdynamik mittels vier komplementärer Metriken: Spektrale Entropie (Dispersion), Partizipationsverhältnis (effektive Dimensionalität), frühe Eigenwert-Anreicherung (Top-Lastigkeit) und Jensen-Shannon-Divergenz (Verteilungsverschiebungen). Unsere zentrale Erkenntnis ist, dass FFN-Nichtlinearitäten Varianz über Eigenmoden hinweg zurückführen und dadurch grundlegend die Nutzung latenter Dimensionen steuern, und dass die Optimierergeometrie das Ausmaß dieser Varianzrückführung stark moduliert. Wir validieren NerVE über verschiedene Modellgrößen sowie diverse architektonische und Optimierer-Konfigurationen hinweg, die jeweils auf einzigartige Weise die FFN-Dynamik prägen: Normalisierungsschemata kontrollieren den Varianzfluss; FFN-Gewichtsgeometrien beschränken den latenten Raum; positionsbezogene Kodierung und Aktivierungsfunktionen regulieren den Informationsfluss; und Optimierer-Wahlentscheidungen verteilen die effektive Kapazität über die Tiefe hinweg neu. In all diesen Konfigurationen identifiziert NerVE konsistent stabile spektrale Signaturen, die mit der Generalisierungsfähigkeit des Modells korrelieren und vorhersagbar auf Designentscheidungen reagieren. Der Rahmen verallgemeinert über Transformer-Architekturen hinaus auch auf MLP-Mixer-Architekturen und liefert damit umsetzbare Erkenntnisse für architektonische und Optimierer-Entscheidungen jenseits von Trial-and-Error.
Federated Language Model (FedLM) ermöglicht kollaboratives Lernen ohne Austausch von Rohdaten, führt jedoch eine kritische Schwachstelle ein, da jeder nicht vertrauenswürdige Client die empfangene funktionale Modellinstanz preisgeben kann. Bestehende Wasserzeichen-Verfahren für FedLM erfordern oft White-Box-Zugriff und Client-seitige Kooperation und bieten lediglich Nachweise auf Gruppenebene statt individueller Rückverfolgbarkeit. Wir stellen EmbTracker vor, ein serverseitiges, rückverfolgbares Black-Box-Wasserzeichen-Framework, das speziell für FedLMs entwickelt wurde. EmbTracker erreicht Black-Box-Verifizierbarkeit durch Einbettung eines Backdoor-basierten Wasserzeichens, das über einfache API-Abfragen erkennbar ist. Client-spezifische Rückverfolgbarkeit wird realisiert, indem einzigartige identitätsbezogene Wasserzeichen in das an jeden Client verteilte Modell injiziert werden. Auf diese Weise kann ein geleaktes Modell einem bestimmten Verantwortlichen zugeordnet werden, was Robustheit selbst gegenüber nicht kooperativen Teilnehmern gewährleistet. Umfangreiche Experimente mit verschiedenen Sprach- und Vision-Language-Modellen zeigen, dass EmbTracker eine robuste Rückverfolgbarkeit mit Verifizierungsraten nahe 100 %, hohe Widerstandsfähigkeit gegen Entfernungsangriffe (Fine-Tuning, Pruning, Quantisierung) und vernachlässigbare Auswirkungen auf die Hauptaufgabenperformance (typischerweise innerhalb von 1-2 %) erreicht.
Audiovisuelle Spracherkennung (AVSR) nutzt sowohl akustische als auch visuelle Informationen, um eine robuste Erkennung unter Rauschen zu ermöglichen. Wie Modelle diese Modalitäten jedoch gewichten, bleibt unklar. Wir stellen Dr. SHAP-AV vor, ein Framework, das Shapley-Werte zur Analyse des Modalitätenbeitrags in AVSR verwendet. Anhand von Experimenten mit sechs Modellen über zwei Benchmarks und verschiedene SNR-Stufen hinweg führen wir drei Analysen ein: Global SHAP für die allgemeine Modalitätengewichtung, Generative SHAP für die Dynamik der Beiträge während der Decodierung und Temporal Alignment SHAP für die Input-Output-Korrespondenz. Unsere Ergebnisse zeigen, dass Modelle bei Rauschen vermehrt auf visuelle Informationen zurückgreifen, aber dennoch einen hohen Audioanteil selbst bei starker Degradierung beibehalten. Die Modalitätengewichtung verändert sich während der Generierung, die zeitliche Ausrichtung bleibt unter Rauschen erhalten, und das SNR ist der dominante Faktor für die Modalitätengewichtung. Diese Erkenntnisse offenbaren eine anhaltende Audio-Präferenz, was ad-hoc Modalitäten-Gewichtungsmechanismen und Shapley-basierte Attributionsverfahren als Standarddiagnosewerkzeug für AVSR nahelegt.
Transformer zeigen häufig ein Aufmerksamkeits-Phänomen, bei dem sich die Wahrscheinlichkeitsmasse auf eine feste, inhaltsunabhängige Position konzentriert. Wir beweisen, dass die Berechnung eines einfachen trigger-konditionierten Verhaltens zwangsläufig ein solches Phänomen in Softmax-Self-Attention-Modellen hervorruft. Unsere Ergebnisse formalisieren eine geläufige Intuition: Die Normalisierung über einen Wahrscheinlichkeitssimplex muss die Aufmerksamkeit zwingen, sich auf einen stabilen Ankerpunkt zusammenzuziehen, um einen Standardzustand zu realisieren (z.B. wenn das Modell den Input ignorieren muss). Wir konkretisieren dies anhand einer Aufgabe: Wenn ein bestimmter Trigger-Token erscheint, muss das Modell den Durchschnitt aller vorherigen Token-Repräsentationen zurückgeben, andernfalls soll es Null ausgeben – eine Aufgabe, die die Funktionsweise von Aufmerksamkeits-Head in der Praxis widerspiegelt (Barbero et al., 2025; Guo et al., 2024). Wir beweisen ebenfalls, dass nicht-normalisierte ReLU-Attention dieselbe Aufgabe ohne ein solches Phänomen lösen kann, was bestätigt, dass die Normalisierungsbedingung die grundlegende Ursache für das Verhalten ist. Experimente validieren unsere Vorhersagen und zeigen, dass diese über das theoretisch analysierte Szenario hinausgehen: Softmax-Modelle entwickeln starke Phänomene, während ReLU-Attention diese sowohl in Einzel-Head- als auch Multi-Head-Varianten beseitigt.
Die Schätzung heterogener Behandlungseffekte (HTE) aus rechtszensierten Überlebensdaten ist entscheidend für hochriskante Anwendungen wie die Präzisionsmedizin und individualisierte politische Entscheidungsfindung. Dennoch stellt das Überlebensanalyse-Setting aufgrund von Zensierung, nicht beobachteten kontrafaktischen Ergebnissen und komplexen Identifikationsannahmen einzigartige Herausforderungen für die HTE-Schätzung dar. Trotz jüngster Fortschritte – von Causal Survival Forests über Survival-Meta-Learner bis hin zu Ergebnismodellierungsansätzen – bleiben Evaluierungspraktiken fragmentiert und inkonsistent. Wir stellen SurvHTE-Bench vor, den ersten umfassenden Benchmark für die HTE-Schätzung mit zensierten Ergebnissen. Der Benchmark umfasst (i) eine modulare Suite synthetischer Datensätze mit bekanntem Ground Truth, die kausale Annahmen und Überlebensdynamiken systematisch variieren, (ii) halbsynthetische Datensätze, die reale Kovariaten mit simulierten Behandlungen und Ergebnissen kombinieren, und (iii) reale Datensätze aus einer Zwillingsstudie (mit bekanntem Ground Truth) und aus einer HIV-Klinikstudie. In synthetischen, halbsynthetischen und realen Settings bieten wir den ersten rigorosen Vergleich von Survival-HTE-Methoden unter verschiedenen Bedingungen und realistischen Annahmeverletzungen. SurvHTE-Bench schafft eine Grundlage für eine faire, reproduzierbare und erweiterbare Evaluierung kausaler Survival-Methoden. Die Daten und der Code unseres Benchmarks sind verfügbar unter: https://github.com/Shahriarnz14/SurvHTE-Bench.
Trotz der beeindruckenden Leistung von Diffusionsmodellen wie Stable Diffusion (SD) in der Bildgenerierung schränkt ihre langsame Inferenz die praktische Anwendung ein. Aktuelle Arbeiten beschleunigen die Inferenz, indem sie die mehrstufige Diffusion in einstufige Generatoren destillieren. Um den Destillationsmechanismus besser zu verstehen, analysieren wir die Gewichtsveränderungen in U-Net/DiT zwischen einstufigen Studentenmodellen und ihren mehrstufigen Lehrer-Gegenstücken. Unsere Analyse zeigt, dass die Veränderungen der Gewichtsrichtung die der Gewichtsnorm erheblich übertreffen, was sie als Schlüsselfaktor während der Destillation hervorhebt. Angeregt durch diese Erkenntnis schlagen wir die Low-rank Rotation of weight Direction (LoRaD) vor, einen parameter-effizienten Adapter, der speziell für die einstufige Diffusionsdestillation entwickelt wurde. LoRaD ist darauf ausgelegt, diese strukturierten Richtungsänderungen mittels lernbarer Low-rank-Rotationsmatrizen zu modellieren. Wir integrieren LoRaD weiterhin in die Variational Score Distillation (VSD), was zu Weight Direction-aware Distillation (WaDi) führt – einem neuartigen einstufigen Destillationsframework. WaDi erzielt state-of-the-art FID-Werte auf COCO 2014 und COCO 2017, während nur etwa 10 % der trainierbaren Parameter des U-Net/DiT verwendet werden. Darüber hinaus zeigt das destillierte einstufige Modell eine starke Vielseitigkeit und Skalierbarkeit und generalisiert gut für verschiedene Downstream-Aufgaben wie kontrollierbare Generierung, Relationsinversion und hochauflösende Synthese.
Vortrainierte Vision-Encoder wie DINOv2 haben außergewöhnliche Leistungen bei unimodalen Aufgaben gezeigt. Wir stellen jedoch fest, dass ihre Merkmalsrepräsentationen nur geringfügig über verschiedene Modalitäten hinweg ausgerichtet sind. So weist beispielsweise die Merkmalseinbettung eines RGB-Bildes und der entsprechenden Tiefenkarte derselben Szene eine Kosinus-Ähnlichkeit auf, die nahezu identisch mit der von zwei zufälligen, unzusammenhängenden Bildern ist. Um dieses Problem zu lösen, schlagen wir den Omnivoren Vision-Encoder vor, ein neuartiges Framework, das einen modalitätsunabhängigen Merkmalsraum erlernt. Wir trainieren den Encoder mit einem dualen Ziel: erstens, die Merkmalsausrichtung zwischen verschiedenen Modalitäten derselben Szene zu maximieren; und zweitens, ein Distillationsziel, das die gelernten Repräsentationen an die Ausgabe eines vollständig eingefrorenen Teacher-Modells wie DINOv2 bindet. Der resultierende Student-Encoder wird "omnivor", indem er für eine gegebene Szene eine konsistente, leistungsstarke Einbettung erzeugt – unabhängig von der Eingabemodalität (RGB, Tiefe, Segmentierung etc.). Dieser Ansatz ermöglicht ein robustes cross-modales Verständnis, während die diskriminative Semantik des ursprünglichen Foundation-Modells beibehalten wird.
Die 4D-Rekonstruktion von Equiden (z.B. Pferden) aus monokularen Videos ist wichtig für das Tierwohl. Bisherige Mainstream-Methoden zur 4D-Tierrekonstruktion erforderten eine gemeinsame Optimierung von Bewegung und Erscheinungsbild über ein gesamtes Video hinweg, was zeitaufwändig und anfällig für unvollständige Beobachtungen ist. In dieser Arbeit schlagen wir einen neuartigen Rahmen namens 4DEquine vor, indem wir das 4D-Rekonstruktionsproblem in zwei Teilprobleme entkoppeln: dynamische Bewegungsrekonstruktion und statische Erscheinungsbildrekonstruktion. Für die Bewegung führen wir einen einfachen, aber effektiven räumlich-zeitlichen Transformer mit einer Nachoptimierungsphase ein, um aus dem Video glatte und pixelgenau ausgerichtete Posen- und Formsequenzen zu regressieren. Für das Erscheinungsbild entwerfen wir ein neuartiges Vorwärtsnetzwerk, das aus nur einem einzigen Bild ein hochauflösendes, animierbares 3D-Gaussian-Avatar rekonstruiert. Zur Unterstützung des Trainings erstellen wir einen großen synthetischen Bewegungsdatensatz, VarenPoser, der hochwertige Oberflächenbewegungen und diverse Kameratrajektorien umfasst, sowie einen synthetischen Erscheinungsbilddatensatz, VarenTex, der realistische Multi-View-Bilder enthält, die durch Multi-View-Diffusion erzeugt wurden. Obwohl 4DEquine ausschließlich auf synthetischen Datensätzen trainiert wurde, erzielt es state-of-the-art Ergebnisse auf den realen Datensätzen APT36K und AiM, was die Überlegenheit von 4DEquine und unseren neuen Datensätzen für sowohl die Geometrie- als auch die Erscheinungsbildrekonstruktion demonstriert. Umfassende Ablationsstudien validieren die Wirksamkeit sowohl des Bewegungs- als auch des Erscheinungsbildrekonstruktionsnetzwerks. Projektseite: https://luoxue-star.github.io/4DEquine_Project_Page/.
Generative Modelle werden häufig eingesetzt, um den Photorealismus synthetischer Daten für das Training von Computer-Vision-Algorithmen zu verbessern. Allerdings führen sie oft zu visuellen Artefakten, welche die Genauigkeit dieser Algorithmen beeinträchtigen, und erfordern hohe Rechenressourcen, was ihre Anwendbarkeit in Echtzeit-Trainings- oder Evaluierungsszenarien einschränkt. In diesem Beitrag stellen wir HyPER-GAN (Hybrid Patch Enhanced Realism Generative Adversarial Network) vor, eine leichtgewichtige Bild-zu-Bild-Übersetzungsmethode auf Basis eines U-Net-artigen Generators, die für Echtzeitinferenz konzipiert ist. Das Modell wird mit gepaarten synthetischen und photorealismus-verbesserten Bildern trainiert, ergänzt durch eine hybride Trainingsstrategie, die übereinstimmende Bildausschnitte aus Realweltdaten einbezieht, um den visuellen Realismus und die semantische Konsistenz zu verbessern. Experimentelle Ergebnisse zeigen, dass HyPER-GAN state-of-the-art Methoden der gepaarten Bild-zu-Bild-Übersetzung hinsichtlich Inferenzlatenz, visuellem Realismus und semantischer Robustheit übertrifft. Darüber hinaus wird verdeutlicht, dass die vorgeschlagene hybride Trainingsstrategie im Vergleich zum Training des Modells ausschließlich mit gepaarten synthetischen und photorealismus-verbesserten Bildern tatsächlich die visuelle Qualität und semantische Konsistenz verbessert. Code und vortrainierte Modelle sind öffentlich unter folgender Adresse verfügbar: https://github.com/stefanos50/HyPER-GAN
Das Exportverbot für Nickelerz in Indonesien hat zu einem raschen Ausbau der Schmelz- und hydrometallurgischen Verarbeitungskapazitäten im Indonesischen Morowali-Industriepark (IMIP) geführt, der an der Küste von Zentralsulawesi mittlerweile der weltweit größte integrierte Nickelverarbeitungskomplex ist. Ob diese Industrialisierung die angrenzende Meeresumwelt beeinträchtigt hat, ist bislang nicht quantifiziert worden. Wir wenden kausale Inferenz mittels Bayes'scher struktureller Zeitreihen (BSTS) auf eine mehrjährige, multi-sensorische Satellitenaufzeichnung der Ozeanfarbe – des diffusen Abschwächungskoeffizienten bei 490 nm, K_d(490) – an, um einen kausalen Zusammenhang zwischen der IMIP-Expansion und Veränderungen der Trübung in Küstennähe zu testen. Ein konsistenter struktureller Bruchpunkt, ein signifikanter posteriorer kausaler Effekt, geschätzt gegenüber einem kontrafaktischen Szenario in der Bandasee, und ein verteilungsfreier Placebo-Rangtest belegen gemeinsam, dass die Küstenwasserklarheit nach dem Übergang von der anfänglichen Nickel-Roheisen-Produktion zur Hyper-Expansion von Hochdruck-Säurelaugungsanlagen für batterietaugliches Nickel abnahm. Eine satellitengestützte Landbedeckungsanalyse bestätigt diesen Zeitpunkt unabhängig und zeigt ein substanzielles Wachstum der bebauten Fläche bei gleichzeitigem Baumbedeckungsverlust innerhalb des IMIP-Fußabdrucks. Die daraus resultierende Verflachung der euphotischen Zone tritt in oligotrophen Gewässern auf, die eine hohe marine Biodiversität aufweisen, wo selbst eine moderate optische Verschlechterung die Photosynthese von Korallen beeinträchtigen und den tiefenabhängigen Riff-Lebensraum komprimieren kann. Diese Ergebnisse quantifizieren eine marine Umweltkosten, die in der politischen Diskussion um die indonesische mineralische Weiterverarbeitung bisher fehlen, und demonstrieren einen übertragbaren, satellitengestützten quasi-experimentellen Rahmen für die kausale Wirkungsabschätzung an industriellen Küstenstandorten in datenarmen tropischen Gebieten.