papers.description
Mixture-of-Experts (MoE)-Modelle verfügen über keine expliziten Beschränkungen, um sicherzustellen, dass die Entscheidungen des Routers gut mit den Fähigkeiten der Experten übereinstimmen, was letztlich die Modellleistung begrenzt. Um dies zu beheben, schlagen wir den Expert-Router-Coupling (ERC)-Loss vor, einen leichtgewichtigen Zusatzverlust, der die Entscheidungen des Routers eng mit den Expertenfähigkeiten koppelt. Unser Ansatz behandelt die Router-Einbettung jedes Experten als Stellvertreter-Token (Proxy-Token) für die diesem Experten zugewiesenen Token und führt perturbierte Router-Einbettungen durch die Experten, um interne Aktivierungen zu erhalten. Der ERC-Loss erzwingt zwei Beschränkungen für diese Aktivierungen: (1) Jeder Experte muss für sein eigenes Stellvertreter-Token eine höhere Aktivierung zeigen als für die Stellvertreter-Token jedes anderen Experten. (2) Jedes Stellvertreter-Token muss eine stärkere Aktivierung von seinem entsprechenden Experten hervorrufen als von jedem anderen Experten. Diese Beschränkungen stellen gemeinsam sicher, dass jede Router-Einbettung die Fähigkeit ihres entsprechenden Experten treu repräsentiert, während sich jeder Experte auf die Verarbeitung der tatsächlich an ihn gerouteten Token spezialisiert. Der ERC-Loss ist recheneffizient und arbeitet nur mit n² Aktivierungen, wobei n die Anzahl der Experten ist. Dies stellt eine feste Kostenlast dar, die unabhängig von der Batch-Größe ist, im Gegensatz zu früheren Kopplungsmethoden, die mit der Anzahl der Token skalierten (oft Millionen pro Batch). Durch Pre-Training von MoE-LLMs mit 3B bis 15B Parametern und umfangreiche Analysen an Billionen von Token demonstrieren wir die Wirksamkeit des ERC-Loss. Darüber hinaus bietet der ERC-Loss eine flexible Kontrolle und quantitative Verfolgung des Experten-Spezialisierungsgrades während des Trainings, was wertvolle Einblicke in MoEs liefert.
Die Echtzeit-Videogenerierung mittels Diffusion ist entscheidend für die Entwicklung allgemeiner multimodaler interaktiver KI-Systeme. Allerdings verhindert die simultane Denoisierung aller Videobilder durch bidirektionale Attention in einem iterativen Prozess bei Diffusionsmodellen eine Echtzeit-Interaktion. Bestehende Distillationsmethoden können das Modell zwar autoregressiv machen und die Abtastschritte reduzieren, konzentrieren sich jedoch primär auf Text-zu-Video-Generierung, was die Mensch-KI-Interaktion unnatürlich und ineffizient gestaltet. Diese Arbeit zielt auf eine echtzeitfähige interaktive Videodiffusion ab, die auf einen multimodalen Kontext (Text, Bild und Audio) konditioniert ist, um diese Lücke zu schließen. Angesichts der Beobachtung, dass der führende On-Policy-Distillationsansatz Self Forcing bei multimodaler Konditionierung Schwierigkeiten aufweist (visuelle Artefakte wie Flackern, schwarze Bilder und Qualitätsverlust), untersuchen wir ein verbessertes Distillationsverfahren mit Schwerpunkt auf der Qualität der Konditionierungseingaben sowie der Initialisierung und Planung der On-Policy-Optimierung. In Benchmarks für multimodal konditionierte (Audio, Bild und Text) Avatar-Videogenerierung – einschließlich HDTF, AVSpeech und CelebV-HQ – erreicht unser distilliertes Modell die visuelle Qualität der Vollschritt-basierten bidirektionalen Baseline-Modelle ähnlicher oder größerer Größe bei 20-fach geringeren Inferenzkosten und Latenzzeiten. Darüber hinaus integrieren wir unser Modell mit Audio-Sprachmodellen und der Long-Form-Video-Inferenztechnik Anchor-Heavy Identity Sinks, um LiveTalk zu entwickeln – ein echtzeitfähiges multimodales interaktives Avatar-System. Eine systemweite Evaluation auf unserem kuratierten Multi-Turn-Interaktionsbenchmark zeigt, dass LiveTalk state-of-the-art-Modelle (Sora2, Veo3) in Bezug auf Multi-Turn-Videokohärenz und Inhaltsqualität übertrifft, während die Antwortlatenz von 1–2 Minuten auf Echtzeitgenerierung reduziert wird, was eine nahtlose multimodale Mensch-KI-Interaktion ermöglicht.
Aktuelle Ansätze haben das Potenzial von Diffusionsmodellen zur Erzeugung interaktiver und erkundbarer Welten aufgezeigt. Die meisten dieser Methoden stehen jedoch vor kritischen Herausforderungen wie übermäßig großen Parametergrößen, der Abhängigkeit von langen Inferenzschritten und schnell wachsendem historischem Kontext, was die Echtzeitleistung erheblich einschränkt und textgesteuerte Generierungsfähigkeiten vermissen lässt. Um diese Herausforderungen zu bewältigen, schlagen wir \method vor, ein neuartiges Framework zur Erzeugung realistischer, interaktiver und kontinuierlicher Welten aus einem einzelnen Bild oder Textprompt. \method erreicht dies durch ein sorgfältig gestaltetes Framework, das tastaturbasierte Erkundung der generierten Welten unterstützt. Das Framework umfasst drei Kernkomponenten: (1) ein Langvideo-Generierungsframework mit integrierter einheitlicher Kontextkompression und linearen Aufmerksamkeitsmechanismen, (2) eine Echtzeit-Streaming-Beschleunigungsstrategie mit bidirektionaler Aufmerksamkeitsdistillation und einem erweiterten Text-Einbettungsschema, (3) eine textgesteuerte Methode zur Erzeugung von Weltereignissen. Die Codebasis wurde im ergänzenden Material bereitgestellt.
Agentisches Reinforcement Learning (RL) birgt großes Potenzial für die Entwicklung autonomer Agenten bei komplexen GUI-Aufgaben, doch seine Skalierbarkeit wird nach wie vor stark durch die Verifizierung des Aufgabenabschlusses eingeschränkt. Bisher wird die Aufgabenverifikation als passiver, nachträglicher Prozess behandelt: Ein Verifizierer (z.B. ein regelbasiertes Bewertungsskript, ein Belohnungs- oder Kritikermodell oder ein LLM-as-a-Judge) analysiert die gesamte Interaktionshistorie des Agenten, um zu bestimmen, ob der Agent erfolgreich war. Die Verarbeitung dieses umfangreichen Kontextes, der irrelevante und verrauschte Historie enthält, stellt Herausforderungen für die Verifikationsprotokolle dar und führt somit zu prohibitiv hohen Kosten und geringer Zuverlässigkeit. Um diesen Engpass zu überwinden, schlagen wir SmartSnap vor, einen Paradigmenwechsel von dieser passiven, nachträglichen Verifikation hin zu einer proaktiven, in-situ Selbstverifikation durch den Agenten selbst. Wir führen den selbstverifizierenden Agenten ein, eine neue Art von Agent, der mit einer doppelten Mission entworfen wurde: nicht nur eine Aufgabe zu erfüllen, sondern deren Erfüllung auch mit kuratierten Beweismomentaufnahmen zu belegen. Angeleitet durch unsere vorgeschlagenen 3C-Prinzipien (Vollständigkeit, Prägnanz und Kreativität) nutzt der Agent seinen Zugriff auf die Online-Umgebung, um eine Selbstverifikation auf Basis eines minimalen, entscheidenden Satzes von Momentaufnahmen durchzuführen. Diese Beweise werden als alleinige Grundlage für einen allgemeinen LLM-as-a-Judge-Verifizierer bereitgestellt, um deren Gültigkeit und Relevanz zu bestimmen. Experimente mit Mobilgeräte-Aufgaben über verschiedene Modellfamilien und -größen hinweg demonstrieren, dass unser SmartSnap- Paradigma es erlaubt, LLM-gesteuerte Agenten auf skalierbare Weise zu trainieren, was Leistungssteigerungen von bis zu 26,08 % bzw. 16,66 % für 8B- und 30B-Modelle bringt. Die Synergie zwischen Lösungsfindung und Beweissuche erleichtert die Entwicklung effizienter, selbstverifizierender Agenten mit wettbewerbsfähiger Leistung im Vergleich zu DeepSeek V3.1 und Qwen3-235B-A22B.
Durchsichtige Objekte stellen für Wahrnehmungssysteme nach wie vor eine große Herausforderung dar: Brechung, Reflexion und Transmission verletzen die Annahmen von Stereo-, ToF- und rein diskriminativer monokularer Tiefenschätzung, was zu Lücken und zeitlich instabilen Schätzungen führt. Unsere zentrale Beobachtung ist, dass moderne Video-Diffusionsmodelle bereits überzeugende transparente Phänomene synthetisieren, was darauf hindeutet, dass sie die optischen Regeln internalisiert haben. Wir erstellen TransPhy3D, einen synthetischen Videokorpus transparenter/reflektierender Szenen: 11.000 mit Blender/Cycles gerenderte Sequenzen. Die Szenen werden aus einer kuratierten Sammlung kategorienreicher statischer Assets und formenreicher prozeduraler Assets zusammengesetzt, die mit Glas-/Kunststoff-/Metallmaterialien kombiniert werden. Wir rendern RGB + Tiefe + Normalen mittels physikalisch basiertem Raytracing und OptiX-Denoising. Ausgehend von einem großen Video-Diffusionsmodell lernen wir einen Video-zu-Video-Übersetzer für Tiefe (und Normalen) über leichte LoRA-Adapter. Während des Trainings verketten wir RGB- und (verrauschte) Tiefen-Latents im DiT-Backbone und trainieren gemeinsam auf TransPhy3D und bestehenden bildweisen synthetischen Datensätzen, was zeitlich konsistente Vorhersagen für beliebig lange Eingabevideos liefert. Das resultierende Modell, DKT, erreicht Zero-Shot State-of-the-Art auf realen und synthetischen Videobenchmarks, die Transparenz beinhalten: ClearPose, DREDS (CatKnown/CatNovel) und TransPhy3D-Test. Es verbessert Genauigkeit und zeitliche Konsistenz gegenüber starken Bild-/Video-Baselines, und eine Normalen-Variante erzielt die besten Video-Normalenschätzergebnisse auf ClearPose. Eine kompakte 1.3B-Version läuft mit ~0.17 s/Frame. Integriert in einen Greifstack erhöht DKT's Tiefenschätzung die Erfolgsraten bei durchscheinenden, reflektierenden und diffusen Oberflächen und übertrifft bisherige Schätzer. Zusammengenommen unterstützen diese Ergebnisse eine weiterreichende Behauptung: "Diffusion versteht Transparenz." Generative Video-Priors können effizient und ohne Label robuste, zeitlich kohärente Wahrnehmung für anspruchsvolle, reale Manipulationsaufgaben liefern.
Diffusionsbasierte Video-Super-Resolution (VSR)-Methoden erzielen eine hohe perzeptive Qualität, bleiben jedoch aufgrund ihrer Abhängigkeit von zukünftigen Bildern und rechenintensiver Mehrschritt-Entrauschung für latenzsensitive Anwendungen unpraktikabel. Wir schlagen Stream-DiffVSR vor, einen kausal konditionierten Diffusionsframework für effiziente Online-VSR. Die Methode, die strikt auf vergangenen Bildern operiert, kombiniert einen vierstufigen destillierten Entrauscher für schnelle Inferenz, ein Auto-regressives Temporales Guidance (ARTG)-Modul, das bewegungsausgerichtete Hinweise während der latenten Entrauschung injiziert, und einen leichtgewichtigen temporal-sensitiven Decoder mit einem Temporal Processor Module (TPM), das Detailreichtum und zeitliche Kohärenz verbessert. Stream-DiffVSR verarbeitet 720p-Bilder in 0,328 Sekunden auf einer RTX4090 GPU und übertrifft frühere diffusionsbasierte Methoden deutlich. Im Vergleich zum Online-SOTA TMP steigert es die perzeptive Qualität (LPIPS +0,095) und reduziert die Latenz um über das 130-fache. Stream-DiffVSR erreicht die niedrigste jemals für diffusionsbasierte VSR berichtete Latenz und verringert die anfängliche Verzögerung von über 4600 Sekunden auf 0,328 Sekunden, wodurch es zur ersten für den Einsatz in Low-Latency-Online-Szenarien geeigneten Diffusions-VSR-Methode wird. Projektseite: https://jamichss.github.io/stream-diffvsr-project-page/
Während autoregressive große visuell-sprachliche Modelle (VLMs) bemerkenswerte Erfolge erzielt haben, schränkt ihre sequentielle Generierung oft ihre Wirksamkeit bei komplexer visueller Planung und dynamischer Robotersteuerung ein. In dieser Arbeit untersuchen wir das Potenzial, visuell-sprachliche Modelle auf diffusionsbasierten großen Sprachmodellen (dLLMs) aufzubauen, um diese Einschränkungen zu überwinden. Wir stellen Dream-VL vor, ein offenes, diffusionsbasiertes VLM (dVLM), das state-of-the-art Leistung unter bisherigen dVLMs erreicht. Dream-VL ist mit erstklassigen AR-basierten VLMs, die mit offenen Daten trainiert wurden, auf verschiedenen Benchmarks vergleichbar, zeigt aber überlegenes Potenzial bei der Anwendung auf visuelle Planungsaufgaben. Aufbauend auf Dream-VL führen wir Dream-VLA ein, ein auf dLLM basierendes Vision-Language-Action-Modell (dVLA), das durch kontinuierliches Vor-Training auf offenen Robotik-Datensätzen entwickelt wurde. Wir zeigen, dass die native bidirektionale Natur dieses Diffusions-Backbones eine überlegene Grundlage für VLA-Aufgaben darstellt, die inhärent für Action-Chunking und parallele Generierung geeignet ist, was zu deutlich schnellerer Konvergenz beim Downstream-Fine-Tuning führt. Dream-VL erreicht eine erstklassige Leistung von 97,2 % durchschnittlicher Erfolgsrate auf LIBERO, 71,4 % Gesamtdurchschnitt auf SimplerEnv-Bridge und 60,5 % Gesamtdurchschnitt auf SimplerEnv-Fractal und übertrifft damit führende Modelle wie π_0 und GR00T-N1. Wir validieren ebenfalls, dass dVLMs AR-Baselines bei Downstream-Aufgaben über verschiedene Trainingsziele hinweg übertreffen. Wir veröffentlichen sowohl Dream-VL als auch Dream-VLA, um weitere Forschung in der Gemeinschaft zu ermöglichen.
Diffusion-Transformer-Modelle haben die Bildbearbeitung erheblich vorangetrieben, indem sie konditionelle Bilder kodieren und in die Transformer-Schichten integrieren. Bei den meisten Bearbeitungen werden jedoch nur kleine Bildbereiche verändert, während aktuelle Methoden alle Token in jedem Zeitschritt gleichmäßig verarbeiten und entrauschen. Dies führt zu redundanten Berechnungen und kann unveränderte Bereiche verschlechtern. Daraus ergibt sich eine grundlegende Frage: Ist es wirklich notwendig, jede Region während der Bearbeitung neu zu generieren? Um dies zu adressieren, schlagen wir SpotEdit vor, ein trainierungsfreies Diffusions-Bearbeitungsframework, das selektiv nur die veränderten Regionen aktualisiert. SpotEdit besteht aus zwei Schlüsselkomponenten: Der SpotSelector identifiziert stabile Regionen über perzeptuelle Ähnlichkeit und überspringt deren Berechnung durch Wiederverwendung konditioneller Bildmerkmale; SpotFusion verschmilzt diese Merkmale adaptiv mit bearbeiteten Token durch einen dynamischen Fusionsmechanismus, um kontextuelle Kohärenz und Bearbeitungsqualität zu erhalten. Durch die Reduzierung unnötiger Berechnungen und die Beibehaltung hoher Qualität in unveränderten Bereichen ermöglicht SpotEdit eine effiziente und präzise Bildbearbeitung.
Der Text-Encoder ist eine kritische Komponente von Text-zu-Bild- und Text-zu-Video-Diffusionsmodellen, die grundlegend die semantische Treue des generierten Inhalts bestimmt. Seine Entwicklung wurde jedoch durch zwei große Herausforderungen behindert: das Fehlen eines effizienten Bewertungsrahmens, der die Downstream-Generierungsleistung zuverlässig vorhersagt, und die Schwierigkeit, vortrainierte Sprachmodelle effektiv für die visuelle Synthese anzupassen. Um diese Probleme zu lösen, führen wir GRAN-TED ein, ein Paradigma zur Erzeugung robuster, ausgerichteter und nuancierter Text-Einbettungen für Diffusionsmodelle. Unser Beitrag ist zweigeteilt. Erstens schlagen wir TED-6K vor, ein neuartiges textbasiertes Benchmark, das eine effiziente und robuste Bewertung der Repräsentationsqualität eines Encoders ermöglicht, ohne kostspieliges End-to-End-Modelltraining zu erfordern. Wir zeigen, dass die Leistung auf TED-6K, standardisiert über einen leichtgewichtigen, einheitlichen Adapter, stark mit der Effektivität eines Encoders in Downstream-Generierungsaufgaben korreliert. Bemerkenswerterweise ist die Bewertung mit TED-6K in unserem experimentellen Aufbau etwa 750-mal schneller als das Training eines Diffusionsmodells von Grund auf. Zweitens entwickeln wir, geleitet durch diesen validierten Rahmen, einen überlegenen Text-Encoder unter Verwendung eines neuartigen zweistufigen Trainingsparadigmas. Dieser Prozess umfasst eine anfängliche Feinanpassungsphase an einem multimodalen Large Language Model für bessere visuelle Repräsentation, gefolgt von einer schichtenweisen Gewichtungsmethode, um nuanciertere und potentere Textmerkmale zu extrahieren. Unsere Experimente zeigen, dass der resultierende GRAN-TED-Encoder nicht nur state-of-the-art Leistung auf TED-6K erzielt, sondern auch zu nachweislichen Leistungssteigerungen in der Text-zu-Bild- und Text-zu-Video-Generierung führt. Unser TED-6K-Datensatz und unser Bewertungscode sind unter folgendem Link verfügbar: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
Die Spezifikation von Robotermanipulationsaufgaben auf eine sowohl ausdrucksstarke als auch präzise Weise bleibt eine zentrale Herausforderung. Während visuelle Ziele eine kompakte und eindeutige Aufgabenbeschreibung bieten, haben bestehende zielkonditionierte Strategien oft Schwierigkeiten mit langfristiger Manipulation, da sie auf Einzelschritt-Aktionsvorhersagen ohne explizite Modellierung des Aufgabenfortschritts angewiesen sind. Wir schlagen Act2Goal vor, eine allgemeine zielkonditionierte Manipulationsstrategie, die ein zielkonditioniertes visuelles Weltmodell mit mehrskaliger zeitlicher Steuerung integriert. Gegeben eine aktuelle Beobachtung und ein visuelles Zielzustandsbild, generiert das Weltmodell eine plausible Abfolge von intermediären visuellen Zuständen, die die langfristige Struktur erfasst. Um diesen visuellen Plan in eine robuste Ausführung zu übersetzen, führen wir Multi-Scale Temporal Hashing (MSTH) ein, das die imaginierte Trajektorie in dichte proximale Frames für fein abgestimmte Closed-Loop-Steuerung und spärliche distale Frames zerlegt, die die globale Aufgabenkonsistenz verankern. Die Strategie koppelt diese Repräsentationen durch End-to-End-Cross-Attention mit der Motorsteuerung, wodurch kohärentes langfristiges Verhalten ermöglicht wird, während sie reaktiv auf lokale Störungen bleibt. Act2Goal erreicht eine starke Zero-Shot-Generalisierung auf neue Objekte, räumliche Anordnungen und Umgebungen. Wir ermöglichen weiterhin belohnungsfreie Online-Anpassung durch Hindsight-Goal-Relabeling mit LoRA-basiertem Finetuning, was eine schnelle autonome Verbesserung ohne externe Überwachung erlaubt. Echte-Roboter-Experimente zeigen, dass Act2Goal die Erfolgsrate bei anspruchsvollen Out-of-Distribution-Aufgaben innerhalb von Minuten autonomer Interaktion von 30 % auf 90 % steigert, was bestätigt, dass zielkonditionierte Weltmodelle mit mehrskaliger zeitlicher Steuerung die strukturierte Führung bereitstellen, die für robuste langfristige Manipulation notwendig ist. Projektseite: https://act2goal.github.io/
Sprachagenten benötigen zunehmend persistente Welten, in denen sie handeln, sich erinnern und lernen können. Bestehende Ansätze bewegen sich zwischen zwei Extremen: Konventionelle Web-Frameworks bieten zuverlässige, aber feste Kontexte, die durch Datenbanken abgesichert sind, während vollständig generative Weltmodelle auf unbegrenzte Umgebungen abzielen, jedoch auf Kosten von Kontrollierbarkeit und praktischer Umsetzbarkeit. In dieser Arbeit stellen wir das Web World Model (WWM) vor, einen Mittelweg, bei dem der Weltzustand und die „Physik“ in gewöhnlichem Web-Code implementiert sind, um logische Konsistenz zu gewährleisten, während große Sprachmodelle Kontext, Narrative und hochrangige Entscheidungen auf diesem strukturierten latenten Zustand generieren. Wir entwickeln eine Reihe von WWMs auf einem realistischen Web-Stack, darunter einen unendlichen Reiseatlas, der auf realer Geografie basiert, fiktionale Galaxien-Explorer, webskalige enzyklopädische und narrative Welten sowie simulations- und spielähnliche Umgebungen. Anhand dieser Systeme identifizieren wir praktische Designprinzipien für WWMs: die Trennung von code-definierten Regeln und modellgetriebener Imagination, die Darstellung latenter Zustände als typisierte Web-Schnittstellen und die Nutzung deterministischer Generierung, um unbegrenzte aber strukturierte Exploration zu erreichen. Unsere Ergebnisse deuten darauf hin, dass Web-Stacks selbst als skalierbares Substrat für Weltmodelle dienen können, um kontrollierbare und dennoch offene Umgebungen zu ermöglichen. Projektseite: https://github.com/Princeton-AI2-Lab/Web-World-Models.
Diffusions-Sprachmodelle (dLLMs) haben sich als vielversprechende Alternativen zu autoregressiven (AR) Modellen etabliert. Während jüngste Bemühungen ihr Pre-Training-Potenzial validiert und die Inferenzgeschwindigkeiten beschleunigt haben, ist die Post-Training-Landschaft für dLLMs nach wie vor unterentwickelt. Bestehende Methoden leiden unter rechnerischer Ineffizienz und Zielkonflikten zwischen Training und Inferenz, was die Leistung bei komplexen Reasoning-Aufgaben wie Mathematik erheblich einschränkt. Um dies zu adressieren, führen wir DiRL ein, ein effizientes Post-Training-Framework, das FlexAttention-beschleunigtes blockweises Training eng mit LMDeploy-optimierter Inferenz integriert. Diese Architektur ermöglicht eine optimierte Online-Modellaktualisierungsschleife und erleichtert ein effizientes zweistufiges Post-Training (Supervised Fine-Tuning gefolgt von Reinforcement Learning). Aufbauend auf diesem Framework schlagen wir DiPO vor, die erste unverzerrte Implementierung von Group Relative Policy Optimization (GRPO), die speziell für dLLMs zugeschnitten ist. Wir validieren unseren Ansatz durch das Training von DiRL-8B-Instruct mit hochwertigen Mathe-Daten. Unser Modell erzielt state-of-the-art Mathe-Leistungen unter dLLMs und übertrifft vergleichbare Modelle der Qwen2.5-Serie in mehreren Benchmarks.
KI-Co-Wissenschaftler entwickeln sich zunehmlich als Werkzeug zur Unterstützung menschlicher Forscher bei der Erreichung ihrer Forschungsziele. Ein entscheidendes Merkmal dieser KI-Co-Wissenschaftler ist die Fähigkeit, einen Forschungsplan auf der Grundlage gegebener Zielsetzungen und Randbedingungen zu generieren. Der Plan kann von Forschern zur Ideenfindung genutzt werden oder nach weiterer Verfeinerung sogar umgesetzt werden. Derzeit haben Sprachmodelle jedoch noch Schwierigkeiten, Forschungspläne zu generieren, die alle Randbedingungen und impliziten Anforderungen erfüllen. In dieser Arbeit untersuchen wir, wie der umfangreiche Korpus bestehender Forschungsarbeiten genutzt werden kann, um Sprachmodelle zu trainieren, die bessere Forschungspläne generieren. Wir erstellen einen skalierbaren, diversen Trainingskorpus, indem wir automatisch Forschungsziele und zielspezifische Bewertungsraster aus Publikationen verschiedener Domänen extrahieren. Anschließend trainieren wir Modelle zur Forschungsplangenerierung mittels Reinforcement Learning mit Selbstbewertung. Eine eingefrorene Kopie der initialen Policy fungiert während des Trainings als Bewerter, wobei die Bewertungsraster eine Generator-Verifizierer-Lücke schaffen, die Verbesserungen ohne externe menschliche Aufsicht ermöglicht. Zur Validierung dieses Ansatzes führen wir eine Studie mit menschlichen Experten für Forschungsziele im Bereich Maschinelles Lernen durch, die 225 Stunden umfasst. Die Experten bevorzugen für 70 % der Forschungsziele die von unserem feinabgestimmten Qwen3-30B-A3B-Modell generierten Pläne gegenüber denen des Ausgangsmodells und billigen 84 % der automatisch extrahierten zielspezifischen Bewertungsraster. Um die Allgemeingültigkeit zu bewerten, erweitern wir unseren Ansatz auch auf Forschungsziele aus medizinischen Publikationen und neuen arXiv-Preprints, wobei die Evaluation durch ein Gremium von Frontier-Modellen erfolgt. Unsere Feinabstimmung führt zu relativen Verbesserungen von 12–22 % und signifikanter domänenübergreifender Generalisierung, was sich selbst in Problemszenarien wie der medizinischen Forschung, wo eine Umsetzungsrückmeldung undurchführbar ist, als wirksam erweist. Zusammengenommen demonstrieren diese Ergebnisse das Potenzial eines skalierbaren, automatisierten Trainingsverfahrens als Schritt zur Verbesserung allgemeiner KI-Co-Wissenschaftler.
Die Evolution autonomer Agenten revolutioniert die Informationsbeschaffung, indem sie einen Wandel von passiver Abfrage hin zu proaktiver, ergebnisoffener Webrecherche einleitet. Während textbasierte und statische multimodale Agenten rasante Fortschritte verzeichnen, besteht jedoch nach wie vor eine erhebliche Modallitätslücke bei der Verarbeitung der dynamischsten Modalität des Webs: Video. Bestehende Video-Benchmarks konzentrieren sich überwiegend auf passive Wahrnehmung, bei der kuratierte Clips an Modelle übergeben werden, ohne externe Recherche zu erfordern. Sie bewerten keine agentenbasierte Videorecherche, die aktives Befragen von Videozeitachsen, Querverweise auf verstreute Beweise und die Verifikation von Behauptungen im offenen Web erfordert. Um diese Lücke zu schließen, präsentieren wir Video-BrowseComp, einen anspruchsvollen Benchmark mit 210 Fragen, die für ergebnisoffenes agentenbasiertes Videoverständnis konzipiert sind. Im Gegensatz zu früheren Benchmarks erzwingt Video-BrowseComp eine zwingende Abhängigkeit von zeitlicher visueller Evidenz, sodass Antworten nicht allein durch Textsuche gefunden werden können, sondern das Navigieren durch Videozeitlinien zur Überprüfung externer Behauptungen erfordern. Unsere Evaluation modernster Modelle offenbart einen kritischen Engpass: Selbst fortschrittliche suchaugmentierte Modelle wie GPT-5.1 (mit Suche) erreichen lediglich 15,24 % Genauigkeit. Unsere Analyse zeigt, dass diese Modelle weitgehend auf textuelle Stellvertreter zurückgreifen – sie glänzen in metadatengestützten Domänen (z.B. TV-Serien mit Handlungszusammenfassungen), scheitern jedoch in metadatenarmen, dynamischen Umgebungen (z.B. Sport, Gameplay), wo visuelle Verankerung essenziell ist. Als erster Benchmark für offene Videorecherche treibt Video-BrowseComp das Feld über passive Wahrnehmung hinaus hin zu proaktivem Videoverständnis voran.
In den meisten bestehenden embodied Navigation-Aufgaben sind Anweisungen klar definiert und eindeutig, wie beispielsweise bei Instruktionsbefolgung und Objektsuche. In diesem idealisierten Setting müssen Agenten lediglich effektive Navigationsausgaben auf der Grundlage von visuellen und sprachlichen Eingaben erzeugen. In der realen Welt sind Navigationsanweisungen jedoch oft vage und mehrdeutig, was vom Agenten verlangt, Unsicherheiten aufzulösen und die Benutzerabsicht durch aktiven Dialog zu erschließen. Um diese Lücke zu schließen, schlagen wir Interactive Instance Object Navigation (IION) vor, eine Aufgabe, die von Agenten nicht nur die Generierung von Navigationsaktionen, sondern auch die Erzeugung von Sprachausgaben über aktiven Dialog verlangt und sich somit stärker an praktischen Gegebenheiten orientiert. IION erweitert Instance Object Navigation (ION), indem es Agenten ermöglicht, während der Navigation frei ein Orakel in natürlicher Sprache zu konsultieren. Aufbauend auf dieser Aufgabe stellen wir den Vision Language-Language Navigation (VL-LN) Benchmark vor, der einen großen, automatisch generierten Datensatz und ein umfassendes Evaluierungsprotokoll für das Training und die Bewertung von dialogfähigen Navigationsmodellen bereitstellt. VL-LN umfasst über 41.000 dialog-angereicherte Trajektorien mit langem Zeithorizont für das Training sowie ein automatisches Evaluierungsprotokoll mit einem Orakel, das auf Anfragen des Agenten antworten kann. Mithilfe dieses Benchmarks trainieren wir ein Navigationsmodell mit Dialogfähigkeiten und zeigen, dass es signifikante Verbesserungen gegenüber den Baseline-Modellen erzielt. Umfangreiche Experimente und Analysen demonstrieren weiterhin die Effektivität und Zuverlässigkeit von VL-LN für die Weiterentwicklung der Forschung zu dialogfähiger embodied Navigation. Code und Datensatz: https://0309hws.github.io/VL-LN.github.io/
Omnimodale große Sprachmodelle haben bedeutende Fortschritte bei der Vereinheitlichung audio-visueller Modalitäten erzielt; jedoch fehlt es ihnen oft an feinkörnigem cross-modalem Verständnis und sie haben Schwierigkeiten mit multimodaler Ausrichtung. Um diese Einschränkungen zu adressieren, stellen wir OmniAgent vor, einen vollständig audio-gesteuerten aktiven Wahrnehmungsagenten, der spezialisierte Werkzeuge dynamisch orchestriert, um eine feinkörnigere audio-visuelle Reasoning zu erreichen. Im Gegensatz zu früheren Arbeiten, die auf starren, statischen Arbeitsabläufen und dichten Frame-Beschriftungen basieren, demonstriert dieses Papier einen Paradigmenwechsel von der passiven Antwortgenerierung zur aktiven multimodalen Untersuchung. OmniAgent setzt dynamische Planung ein, um Tool-Aufrufe bedarfsgesteuert autonom zu orchestrieren und die Wahrnehmungsaufmerksamkeit strategisch auf aufgabenrelevante Hinweise zu konzentrieren. Zentrale Elemente unseres Ansatzes sind ein neuartiges Grob-zu-Fein-Audio-gesteuertes Wahrnehmungsparadigma, das Audio-Hinweise nutzt, um zeitliche Ereignisse zu lokalisieren und nachfolgendes Reasoning zu steuern. Umfangreiche empirische Evaluationen auf drei Audio-Video-Verständnis-Benchmarks zeigen, dass OmniAgent state-of-the-art Leistung erzielt und führende Open-Source- sowie proprietäre Modelle mit deutlichen Abständen von 10 % bis 20 % Genauigkeit übertrifft.
Informationssuchende (IS) Agenten haben bereits beeindruckende Leistungen bei einer Vielzahl von breiten und tiefgehenden Suchaufgaben gezeigt, doch ihre Werkzeugnutzung beschränkt sich weitgehend auf API-basierte Snippet-Abrufe und URL-gestütztes Seitenladen. Dies limitiert den Zugang zu den umfangreicheren Informationen, die durch tatsächliches Browsen verfügbar sind. Während vollständige Browserinteraktion tiefgreifendere Fähigkeiten freisetzen könnte, führen ihre feingranulare Steuerung und umfangreichen Seiteninhaltsrückgaben erhebliche Komplexität für ReAct-artige Funktionsaufruf-Agenten ein. Um diese Lücke zu schließen, schlagen wir Nested Browser-Use Learning (NestBrowse) vor, welches ein minimales und vollständiges Browser-Aktions-Framework einführt. Dieses entkoppelt durch eine verschachtelte Struktur Interaktionssteuerung von Seitenexploration. Dieses Design vereinfacht agentenbasiertes Reasoning und ermöglicht gleichzeitig eine effektive Erschließung von Deep-Web-Informationen. Empirische Ergebnisse auf anspruchsvollen Deep-IS-Benchmarks belegen, dass NestBrowse klare praktische Vorteile bietet. Vertiefende Analysen unterstreichen zudem seine Effizienz und Flexibilität.
Bestehende Echtzeit-Objekterkennungsmethoden (RTOD) nutzen häufig YOLO-ähnliche Architekturen aufgrund ihrer günstigen Balance zwischen Genauigkeit und Geschwindigkeit. Diese Modelle basieren jedoch auf statischer, dichter Berechnung, die alle Eingaben einheitlich verarbeitet, was zu einer Fehlverteilung von Repräsentationskapazität und Rechenressourcen führt – beispielsweise durch Überversorgung trivialer Szenen und Unterversorgung komplexer Szenen. Diese Diskrepanz resultiert sowohl in Rechenredundanz als auch in suboptimaler Erkennungsleistung. Um diese Einschränkung zu überwinden, schlagen wir YOLO-Master vor, ein neuartiges YOLO-ähnliches Framework, das instanzenkonditionierte adaptive Berechnung für RTOD einführt. Dies wird durch einen Efficient Sparse Mixture-of-Experts (ES-MoE)-Block erreicht, der Rechenressourcen dynamisch entsprechend der Szenenkomplexität jeder Eingabe zuweist. Kernstück ist ein leichtgewichtiges dynamisches Routing-Netzwerk, das während des Trainings durch ein Diversitätsziel die Expertenspezialisierung steuert und komplementäre Expertise unter den Experten fördert. Zudem lernt das Routing-Netzwerk adaptiv, nur die relevantesten Experten zu aktivieren, wodurch die Erkennungsleistung verbessert und der Rechenaufwand während der Inferenz minimiert wird. Umfassende Experimente auf fünf großen Benchmarks demonstrieren die Überlegenheit von YOLO-Master. Auf MS COCO erreicht unser Modell 42,4 % AP bei 1,62 ms Latenz und übertrifft YOLOv13-N um +0,8 % mAP bei 17,8 % schnellerer Inferenz. Besonders ausgeprägt sind die Verbesserungen in anspruchsvollen dichten Szenen, während das Modell Effizienz bei typischen Eingaben bewahrt und Echtzeit-Inferenzgeschwindigkeit beibehält. Der Code wird verfügbar sein.
Datenknappheit bleibt eine grundlegende Barriere für die Entwicklung vollständig autonomer chirurgischer Roboter. Während groß angelegte Vision-Language-Action (VLA)-Modelle durch die Nutzung gepaarter Video-Aktions-Daten aus verschiedenen Domänen beeindruckende Generalisierungsfähigkeiten in der Haushalts- und Industriemanipulation gezeigt haben, leidet die chirurgische Robotik unter dem Mangel an Datensätzen, die sowohl visuelle Beobachtungen als auch präzise Roboterkinematik umfassen. Im Gegensatz dazu existieren umfangreiche Korpora chirurgischer Videos, denen jedoch entsprechende Aktionslabels fehlen, was eine direkte Anwendung von Imitationslernen oder VLA-Training verhindert. In dieser Arbeit zielen wir darauf ab, dieses Problem zu mildern, indem wir Politikmodelle aus SurgWorld lernen, einem Weltmodell, das für chirurgische physische KI entwickelt wurde. Wir haben den Surgical Action Text Alignment (SATA)-Datensatz mit detaillierten Aktionsbeschreibungen speziell für chirurgische Roboter kuratiert. Anschließend bauten wir SurgeWorld auf Basis des fortschrittlichsten physischen KI-Weltmodells und SATA auf. Es ist in der Lage, diverse, generalisierbare und realistische Chirurgievideos zu generieren. Wir sind zudem die Ersten, die ein inverses Dynamikmodell verwenden, um Pseudokinematik aus synthetischen chirurgischen Videos abzuleiten und so synthetische gepaarte Video-Aktions-Daten zu erzeugen. Wir zeigen, dass eine mit diesen augmentierten Daten trainierte chirurgische VLA-Politik auf einer echten chirurgischen Roboterplattform Modelle, die nur mit realen Demonstrationen trainiert wurden, signifikant übertrifft. Unser Ansatz eröffnet einen skalierbaren Weg zum autonomen Erwerb chirurgischer Fähigkeiten, indem er die Fülle ungelabelter chirurgischer Videos und generative Weltmodellierung nutzt, und öffnet somit die Tür zu generalisierbaren und dateneffizienten chirurgischen Robotik-Policies.
Die Verbreitung von Large Language Models (LLMs) hat einen Wandel hin zu autonomen Agenten katalysiert, die zu komplexem logischen Schlussfolgern und Werkzeuggebrauch fähig sind. Jedoch werden gegenwärtige Agentenarchitekturen häufig nach imperativen, ad-hoc-Mustern konstruiert. Dies resultiert in spröden Systemen, die von Schwierigkeiten im Zustandsmanagement, Fehlerbehandlung und Nebenläufigkeit geplagt werden. Dieses Papier stellt Monadic Context Engineering (MCE) vor, ein neuartiges Architekturparadigma, das die algebraischen Strukturen von Funktoren, applikativen Funktoren und Monaden nutzt, um eine formale Grundlage für das Agentendesign zu schaffen. MCE behandelt Agenten-Workflows als computationale Kontexte, in denen übergreifende Belange – wie Zustandspropagierung, abbrechende Fehlerbehandlung und asynchrone Ausführung – intrinsisch durch die algebraischen Eigenschaften der Abstraktion verwaltet werden. Wir demonstrieren, wie Monaden robuste sequentielle Komposition ermöglichen, wie Applikative eine prinzipielle Struktur für parallele Ausführung bereitstellen und, entscheidend, wie Monad-Transformatoren die systematische Komposition dieser Fähigkeiten erlauben. Dieser geschichtete Ansatz ermöglicht es Entwicklern, komplexe, widerstandsfähige und effiziente KI-Agenten aus einfachen, unabhängig verifizierbaren Komponenten zu konstruieren. Wir erweitern dieses Framework weiter, um Meta-Agenten zu beschreiben, die MCE zur generativen Orchestrierung nutzen und durch Metaprogrammierung dynamisch Sub-Agenten-Workflows erstellen und verwalten. Projektseite: https://github.com/yifanzhang-pro/monadic-context-engineering.
Agentische Sprachmodell-Systeme (LM) treiben moderne Anwendungen wie "Deep Research" und "Claude Code" an und nutzen Multi-LM-Architekturen, um Kontextbeschränkungen zu überwinden. Unter ihrer scheinbaren Vielfalt verbirgt sich ein wiederkehrendes Muster: Kleinere "Kompressor"-LMs (die sogar lokal laufen können) destillieren Rohkontext in kompakten Text, der dann von größeren "Prädiktor"-LMs verarbeitet wird. Trotz ihrer Beliebtheit bleibt das Design von Kompressor-Prädiktor-Systemen weitgehend ad hoc, mit wenig Anleitung dazu, wie die Wahl von Kompressor und Prädiktor die nachgelagerte Leistung beeinflusst. In der Praxis erfordert die Zuordnung von Leistungssteigerungen zur Kompression versus Prädiction kostspielige, aufgabenspezifische paarweise Sweeps. Wir argumentieren, dass diese Fragen des agentischen Systemdesigns im Kern informationstheoretischer Natur sind. Indem wir den Kompressor-LM als verrauschten Kanal betrachten, führen wir einen einfachen Schätzer der mutualen Information zwischen Kontext und Kompression ein, um die Kompressionsqualität aufgabenunabhängig zu quantifizieren. Wir zeigen, dass mutuale Information die nachgelagerte Leistung stark vorhersagt, unabhängig von einer spezifischen Aufgabe. Mittels eines informationstheoretischen Frameworks führen wir eine umfassende empirische Analyse über fünf Datensätze und drei Modellfamilien durch. Die Ergebnisse zeigen, dass größere Kompressoren nicht nur genauer, sondern auch token-effizienter sind und mehr Bits an Information pro Token übermitteln. Ein 7B Qwen-2.5-Kompressor ist beispielsweise 1,6-mal genauer, 4,6-mal prägnanter und übermittelt 5,5-mal mehr Bits an mutualer Information pro Token als sein 1,5B-Pendant. Über Datensätze hinweg ist das Skalieren von Kompressoren wesentlich effektiver als das Skalieren von Prädiktoren, was größere On-Device-Kompressoren ermöglicht, die mit kleineren Cloud-Prädiktoren gepaart werden. Angewendet auf ein Deep-Research-System ermöglichen diese Prinzipien lokalen Kompressoren mit nur 3B Parametern, 99 % der Genauigkeit eines Frontier-LMs bei 26 % der API-Kosten zu erreichen.
Jüngste Fortschritte in der Computer Vision haben Open-vocabulary Segmentation (OVS) erfolgreich durch den Einsatz von 3D Gaussian Splatting (3D-GS) auf den 3D-Bereich ausgeweitet. Trotz dieser Fortschritte stellt die effiziente Darstellung der für Open-vocabulary-Abfragen erforderlichen hochdimensionalen Merkmale eine erhebliche Herausforderung dar. Bestehende Methoden verwenden Codebücher oder Merkmalskompression, was zu Informationsverlusten und damit zu einer Verschlechterung der Segmentierungsqualität führt. Um diese Einschränkung zu überwinden, führen wir Quantile Rendering (Q-Render) ein, eine neuartige Rendering-Strategie für 3D-Gaußsche, die hochdimensionale Merkmale effizient verarbeitet und gleichzeitig eine hohe Detailtreue beibehält. Im Gegensatz zum konventionellen Volumenrendering, das alle 3D-Gaußschen entlang jedes Strahls dicht abtastet, sampelt Q-Render sparsam nur jene mit dominantem Einfluss entlang des Strahls. Durch die Integration von Q-Render in ein generalisierbares 3D-Neuronales Netzwerk schlagen wir zudem Gaussian Splatting Network (GS-Net) vor, das Gaußsche Merkmale auf generalisierbare Weise vorhersagt. Umfangreiche Experimente auf ScanNet und LeRF zeigen, dass unser Framework state-of-the-art Methoden übertrifft und dabei Echtzeit-Rendering mit einer Beschleunigung um den Faktor ~43,7 bei 512-D-Merkmalskarten ermöglicht. Der Code wird öffentlich zugänglich gemacht.
Das primäre Hindernis für die Anwendung von Reinforcement Learning (RL) in der realen Robotik ist das Design effektiver Belohnungsfunktionen. Obwohl lernbasierte Prozessbelohnungsmodelle (PRMs) jüngst eine vielversprechende Richtung darstellen, werden sie oft durch zwei grundlegende Einschränkungen behindert: Ihren Belohnungsmodellen fehlt ein schrittweises Verständnis und sie stützen sich auf Einzelbildwahrnehmung, was zu unzuverlässigen Bewertungen des feinabgestimmten Manipulationsfortschritts führt; und ihre Belohnungsformungsverfahren sind theoretisch nicht fundiert, was oft eine semantische Falle induziert, welche die Policy-Optimierung fehlleitet. Um diese Probleme zu adressieren, führen wir Dopamine-Reward ein, eine neuartige Belohnungsmodellierungsmethode zum Erlernen eines allgemeinen, schrittbewussten Prozessbelohnungsmodells aus Multi-View-Eingaben. Sein Kernstück ist unser Allgemeines Belohnungsmodell (GRM), das auf einem umfangreichen Datensatz von über 3.400 Stunden trainiert wurde und Schrittweise Belohnungsdiskretisierung für strukturelles Verständnis sowie Multi-Perspektivische Belohnungsfusion zur Überwindung von Wahrnehmungsbeschränkungen nutzt. Aufbauend auf Dopamine-Reward schlagen wir Dopamine-RL vor, einen robusten Policy-Learning-Rahmen, der eine theoretisch fundierte Policy-invariante Belohnungsformungsmethode einsetzt. Diese ermöglicht es dem Agenten, dichte Belohnungen für effiziente Selbstverbesserung zu nutzen, ohne die optimale Policy zu verändern, und vermeidet so grundlegend die semantische Falle. Umfangreiche Experimente in verschiedenen simulierten und realen Aufgaben validieren unseren Ansatz. GRM erreicht state-of-the-art Genauigkeit bei der Belohnungsbewertung, und auf GRM aufbauendes Dopamine-RL verbessert die Policy-Learning-Effizienz signifikant. Wenn GRM beispielsweise im One-Shot-Verfahren aus einer einzelnen Expertentrajektorie an eine neue Aufgabe angepasst wird, ermöglicht das resultierende Belohnungsmodell Dopamine-RL, die Policy von nahezu Null auf 95 % Erfolgsrate mit nur 150 Online-Rollouts (etwa 1 Stunde Echtzeit-Roboterinteraktion) zu verbessern, bei gleichzeitig starker Generalisierungsfähigkeit über Aufgaben hinweg. Projektwebsite: https://robo-dopamine.github.io
Die rasche Entwicklung generativer Modelle hat zu einem kontinuierlichen Auftreten multimodaler Sicherheitsrisiken geführt, wodurch die Grenzen bestehender Abwehrverfahren aufgezeigt werden. Um diesen Herausforderungen zu begegnen, schlagen wir ProGuard vor, eine visuell-sprachliche proaktive Schutzmaßnahme, die out-of-distribution (OOD) Sicherheitsrisiken identifiziert und beschreibt, ohne die bei traditionellen reaktiven Ansätzen erforderlichen Modellanpassungen. Zunächst erstellen wir einen modalitätsausgewogenen Datensatz mit 87.000 Stichproben, die jeweils mit binären Sicherheitslabels und Risikokategorien gemäß einer hierarchischen multimodalen Sicherheitstaxonomie annotiert sind, wodurch Modalbias wirksam gemindert und eine konsistente Moderation über Text-, Bild- und Text-Bild-Eingaben hinweg gewährleistet wird. Auf Basis dieses Datensatzes trainieren wir unser visuell-sprachliches Basismodell ausschließlich durch Reinforcement Learning (RL), um ein effizientes und präzises Reasoning zu erreichen. Um proaktive Sicherheitsszenarien in einer kontrollierten Umgebung zu approximieren, führen wir weiterhin eine OOD-Sicherheitskategorie-Inferenzaufgabe ein und erweitern das RL-Ziel um eine auf einer Synonymdatenbank basierende Ähnlichkeitsbelohnung, die das Modell dazu anregt, prägnante Beschreibungen für unbekannte unsichere Kategorien zu generieren. Experimentelle Ergebnisse zeigen, dass ProGuard bei der binären Sicherheitsklassifizierung eine mit Closed-Source-Großmodellen vergleichbare Leistung erzielt und bestehende Open-Source-Schutzmodelle bei der Kategorisierung unsicherer Inhalte erheblich übertrifft. Besonders bemerkenswert ist, dass ProGuard eine starke proaktive Moderationsfähigkeit aufweist, die OOD-Risikoerkennung um 52,6 % und die OOD-Risikobeschreibung um 64,8 % verbessert.
Bestehende KI-gesteuerte Videocreationsysteme behandeln das Verfassen von Drehbüchern und das Design von Schlüsseleinstellungen typischerweise als zwei getrennte Aufgaben: Ersteres stützt sich auf große Sprachmodelle, während Letzteres von Bildgenerierungsmodellen abhängt. Wir vertreten die Auffassung, dass diese beiden Aufgaben in einem einzigen Framework vereinheitlicht werden sollten, da logisches Denken und imaginative Vorstellungskraft gleichermaßen grundlegende Qualitäten eines Filmregisseurs sind. In dieser Arbeit schlagen wir UniMAGE vor, ein vereinheitlichtes Regisseurmodell, das Benutzeranfragen mit wohlstrukturierten Drehbüchern verbindet und damit Laien befähigt, langkettige, mehrszenische Filme unter Nutzung bestehender Audio-Video-Generierungsmodelle zu produzieren. Um dies zu erreichen, setzen wir die Mixture-of-Transformers-Architektur ein, die Text- und Bildgenerierung vereint. Um die narrative Logik und die Konsistenz der Keyframes weiter zu verbessern, führen wir ein Trainingsparadigma des „erst Verschachtelns, dann Entknäulens“ ein. Konkret führen wir zunächst interleaved Concept Learning durch, das verschachtelte Text-Bild-Daten nutzt, um ein tieferes Verständnis und eine imaginative Interpretation der Drehbücher im Modell zu fördern. Anschließend führen wir Disentangled Expert Learning durch, das das Drehbuchschreiben von der Keyframe-Generierung entkoppelt und so mehr Flexibilität und Kreativität in der Erzählung ermöglicht. Umfangreiche Experimente belegen, dass UniMAGE unter Open-Source-Modellen state-of-the-art Leistung erzielt und logisch kohärente Videodrehbücher sowie visuell konsistente Keyframe-Bilder generiert.
Echtzeit-Porträtanimation ist entscheidend für interaktive Anwendungen wie virtuelle Assistenten und Live-Avatare, da sie hohe visuelle Qualität, zeitliche Kohärenz, ultrageringe Latenz und reaktionsschnelle Steuerung durch dynamische Eingaben wie Referenzbilder und Treibersignale erfordert. Während diffusionsbasierte Modelle hohe Qualität erreichen, verhindert ihre nicht-kausale Natur den Einsatz im Streaming-Betrieb. Kausale autoregressive Videoerzeugungsansätze ermöglichen eine effiziente Einzelbildgenerierung, leiden jedoch unter Fehlerakkumulation, Bewegungsdiskontinuitäten an Chunk-Grenzen und verminderter Langzeitkonsistenz. In dieser Arbeit stellen wir ein neuartiges Streaming-Framework namens Knot Forcing für Echtzeit-Porträtanimation vor, das diese Herausforderungen durch drei Schlüsseldesigns adressiert: (1) eine chunk-basierte Generierungsstrategie mit globaler Identitätserhaltung durch zwischengespeicherte KV-Zustände des Referenzbildes und lokaler Zeitmodellierung mittels Sliding-Window-Attention; (2) ein temporales Knotenmodul, das benachbarte Chunks überlappt und räumlich-zeitliche Hinweise über Image-to-Video-Conditioning weiterleitet, um Bewegungsübergänge zwischen Chunks zu glätten; und (3) ein "Vorauslaufen"-Mechanismus, der die temporale Koordinate des Referenzrahmens während der Inferenz dynamisch aktualisiert, um seinen semantischen Kontext vor dem aktuell generierten Frame zu halten und so Langzeitkohärenz zu unterstützen. Knot Forcing ermöglicht hochwertige, zeitlich konsistente und interaktive Porträtanimation über unendliche Sequenzen hinweg und erreicht Echtzeitleistung mit hoher visueller Stabilität auf consumer-grade GPUs.
Die Bewertung der Leistung verschiedener Modellarchitekturen wie Transformer, Large Language Models (LLMs) und anderer NLP-Systeme erfordert umfassende Benchmarks, die die Leistung über mehrere Dimensionen hinweg messen. Dabei ist die Evaluierung des natürlichen Sprachverständnisses (Natural Language Understanding, NLU) besonders entscheidend, da sie als grundlegendes Kriterium für die Beurteilung von Modellfähigkeiten dient. Daher ist es unerlässlich, Benchmarks zu etablieren, die eine gründliche Bewertung und Analyse von NLU-Fähigkeiten aus verschiedenen Perspektiven ermöglichen. Während der GLUE-Benchmark einen Standard für die Bewertung des englischen NLU gesetzt hat, wurden ähnliche Benchmarks für andere Sprachen entwickelt, wie CLUE für Chinesisch, FLUE für Französisch und JGLUE für Japanisch. Für die türkische Sprache existiert derzeit jedoch kein vergleichbarer Benchmark. Um diese Lücke zu schließen, führen wir TrGLUE ein, einen umfassenden Benchmark, der eine Vielzahl von NLU-Aufgaben für das Türkische umfasst. Zusätzlich präsentieren wir SentiTurca, einen spezialisierten Benchmark für Sentimentanalyse. Zur Unterstützung von Forschern stellen wir außerdem Fine-Tuning- und Evaluierungscode für transformerbasierte Modelle bereit, um die effektive Nutzung dieser Benchmarks zu erleichtern. TrGLUE umfasst türkischsprachige Korpora, die so zusammengestellt wurden, dass sie die Domänen und Aufgabenstellungen von GLUE-artigen Evaluationen widerspiegeln. Die Annotation der Labels erfolgte durch eine semi-automatisierte Pipeline, die eine robuste, LLM-basierte Annotation, Kreuzmodell-Übereinstimmungsprüfungen und nachfolgende menschliche Validierung kombiniert. Dieses Design priorisiert linguistische Natürlichkeit, minimiert Übersetzungsartefakte und ermöglicht einen skalierbaren, reproduzierbaren Workflow. Mit TrGLUE verfolgen wir das Ziel, einen robusten Evaluierungsrahmen für türkisches NLU zu etablieren, Forscher mit wertvollen Ressourcen auszustatten und Einblicke in die Erstellung hochwertiger semi-automatisierter Datensätze zu bieten.
Die Beschleunigung und Effizienzsteigerung von Training und Inferenz tiefer Empfehlungsmodelle (DLRM) ist von großer Bedeutung. Dies wirft jedoch drei zentrale Systemherausforderungen auf: die Diversität der Modellarchitekturen, die Vielfalt der Kernel-Primitive sowie die Heterogenität der Hardware-Generationen und -Architekturen. Dieses Paper stellt KernelEvolve vor – einen agentenbasierten Kernel-Code-Rahmen – um Heterogenität im großen Maßstab für DLRM zu bewältigen. KernelEvolve ist darauf ausgelegt, Kernel-Spezifikationen als Eingabe zu nehmen und den Prozess der Kernel-Generierung und -Optimierung für Empfehlungsmodelle über heterogene Hardware-Architekturen hinweg zu automatisieren. Dies erreicht KernelEvolve, indem es auf mehreren Programmierabstraktionsebenen operiert – von Triton- und CuTe-DSLs bis hin zu hardwareunabhängigen Low-Level-Sprachen – und somit den gesamten Hardware-Software-Optimierungs-Stack abdeckt. Der Kernel-Optimierungsprozess wird als graphenbasierte Suche mit Auswahlrichtlinie, universellem Operator, Fitness-Funktion und Abbruchregel beschrieben, die sich dynamisch an den Laufzeitausführungskontext durch retrieval-erweiterte Prompt-Synthese anpasst. Wir haben KernelEvolve entworfen, implementiert und eingesetzt, um eine Vielzahl von Produktions-Empfehlungsmodellen über Generationen von NVIDIA- und AMD-GPUs sowie Metas AI-Beschleunigern hinweg zu optimieren. Wir validieren KernelEvolve anhand der öffentlich verfügbaren KernelBench-Suite, erreichen eine 100%ige Bestehensrate bei allen 250 Problemen über drei Schwierigkeitsgrade hinweg sowie bei 160 PyTorch-ATen-Operatoren über drei heterogene Hardware-Plattformen, was 100%ige Korrektheit demonstriert. KernelEvolve reduziert die Entwicklungszeit von Wochen auf Stunden und erzielt erhebliche Leistungsverbesserungen gegenüber PyTorch-Baselines in diversen Produktionsszenarien und für heterogene KI-Systeme im großen Maßstab. Über Leistungsverbesserungen hinaus verringert KernelEvolve die Programmierbarriere für neue KI-Hardware erheblich, indem es automatisierte Kernel-Generierung für intern entwickelte KI-Hardware ermöglicht.
Wir stellen das Self-Evaluating Model (Self-E) vor, einen neuartigen Trainingsansatz für die Text-zu-Bild-Generierung von Grund auf, der Inferenz mit beliebig vielen Schritten unterstützt. Self-E lernt ähnlich wie ein Flow-Matching-Modell aus Daten, setzt dabei jedoch gleichzeitig einen neuartigen Selbstbewertungsmechanismus ein: Es bewertet seine eigenen generierten Beispiele anhand seiner aktuellen Schätzwerte (Scores) und fungiert so effektiv als dynamischer Selbst-Lehrer. Im Gegensatz zu traditionellen Diffusions- oder Flow-Modellen stützt es sich nicht ausschließlich auf lokale Supervision, die typischerweise viele Inferenzschritte erfordert. Anders als distillationsbasierte Ansätze benötigt es keinen vortrainierten Lehrer. Diese Kombination aus instantanem lokalem Lernen und selbstgesteuerter globaler Anpassung überbrückt die Lücke zwischen den beiden Paradigmen und ermöglicht das Training eines hochwertigen Text-zu-Bild-Modells von Grund auf, das selbst bei sehr geringen Schrittzahlen hervorragende Leistung erbringt. Umfangreiche Experimente mit groß angelegten Text-zu-Bild-Benchmarks zeigen, dass Self-E nicht nur in der Generierung mit wenigen Schritten überzeugt, sondern auch mit state-of-the-art Flow-Matching-Modellen bei 50 Schritten konkurrieren kann. Wir stellen weiterhin fest, dass sich seine Leistung monoton verbessert, wenn die Inferenzschritte zunehmen, was sowohl ultraschnelle Generierung mit wenigen Schritten als auch hochwertige Sampling mit langen Trajektorien innerhalb eines einzigen vereinheitlichten Modells ermöglicht. Unseres Wissens ist Self-E das erste Text-zu-Bild-Modell, das von Grund auf trainiert wird und beliebig viele Inferenzschritte unterstützt, und bietet damit einen vereinheitlichten Rahmen für effiziente und skalierbare Generierung.
Wir berichten über die überraschende Erkenntnis, dass die Fähigkeiten eines Sprachmodells zum logischen Schlussfolgern verbessert werden können, indem es mit synthetischen Datensätzen von Chain-of-Thought (CoT)-Abläufen leistungsfähigerer Modelle trainiert wird – selbst wenn all diese Abläufe zu einer falschen Endantwort führen. Unsere Experimente zeigen, dass dieser Ansatz bei Aufgaben zum logischen Denken eine bessere Leistung erzielen kann als ein Training mit von Menschen annotierten Datensätzen. Wir stellen die Hypothese auf, dass zwei Schlüsselfaktoren dieses Phänomen erklären: Erstens liegt die Verteilung der synthetischen Daten inhärent näher an der eigenen Verteilung des Sprachmodells, was das Lernen erleichtert. Zweitens sind diese "falschen" Abläufe oft nur teilweise fehlerhaft und enthalten gültige Denkschritte, von denen das Modell lernen kann. Um die erste Hypothese weiter zu testen, verwenden wir ein Sprachmodell, um von Menschen annotierte Abläufe umzuformulieren – wodurch sich deren Verteilung der des Modells weiter annähert – und zeigen, dass dies die Leistung verbessert. Für die zweite Hypothese führen wir zunehmend fehlerhafte CoT-Abläufe ein und untersuchen, inwieweit Modelle gegenüber diesen Fehlern tolerant sind. Wir demonstrieren unsere Ergebnisse in verschiedenen Domänen des logischen Schließens wie Mathematik, algorithmischem Denken und Code-Generierung anhand der Datensätze MATH, GSM8K, Countdown und MBPP mit verschiedenen Sprachmodellen der Qwen-, Llama- und Gemma-Modelle im Größenbereich von 1,5B bis 9B Parametern. Unsere Studie zeigt, dass die Zusammenstellung von Datensätzen, die näher an der Verteilung des Modells liegen, ein kritischer zu berücksichtigender Aspekt ist. Wir zeigen außerdem, dass eine korrekte Endantwort nicht immer ein verlässlicher Indikator für einen korrekten Denkprozess ist.
Aktuelle Text-zu-Bild-Diffusionsmodelle ermöglichen die beeindruckende Erzeugung realistischer Gesichtsbilder auf Basis textueller Eingabeaufforderungen und menschlicher Identitäten, was die Erstellung personalisierter Gesichtsbilder erlaubt. Bestehende prompt-basierte Methoden zum Entfernen oder Modifizieren identitätsspezifischer Merkmale setzen jedoch voraus, dass die Person im vortrainierten Modell gut repräsentiert ist oder erfordern eine Modellfeinabstimmung für bestimmte Identitäten. In dieser Arbeit analysieren wir den Identitätsgenerierungsprozess und führen ein Reverse-Personalization-Framework zur Gesichtsanonymisierung ein. Unser Ansatz nutzt bedingte Diffusionsinversion, die eine direkte Bildmanipulation ohne Textprompts ermöglicht. Um eine Generalisierung über die im Trainingsdatensatz des Modells enthaltenen Personen hinaus zu erreichen, integrieren wir einen identitätsgesteuerten Konditionierungszweig. Im Gegensatz zu früheren Anonymisierungsmethoden, bei denen die Kontrolle über Gesichtsattribute fehlt, unterstützt unser Framework attributsteuerbare Anonymisierung. Wir zeigen, dass unsere Methode einen state-of-the-art Kompromiss zwischen Identitätsentfernung, Attributerhaltung und Bildqualität erreicht. Quellcode und Daten sind unter https://github.com/hanweikung/reverse-personalization verfügbar.