Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Was passiert, wenn eine Geschichtenerzählerin ihre eigene Geschichte vergisst? Große Sprachmodelle (LLMs) können inzwischen Erzählungen mit Zehntausenden von Wörtern generieren, scheitern jedoch oft daran, die Konsistenz throughout zu wahren. Bei der Erzeugung langformatiger Narrationen können diese Modelle ihre eigenen etablierten Fakten, Charaktereigenschaften und Weltregeln widersprechen. Bestehende Benchmarks zur Geschichtengenerierung konzentrieren sich hauptsächlich auf Handlungsqualität und Flüssigkeit, wodurch Konsistenzfehler weitgehend unerforscht bleiben. Um diese Lücke zu schließen, stellen wir ConStory-Bench vor, einen Benchmark, der zur Bewertung der narrativen Konsistenz bei der langformatigen Geschichtengenerierung entwickelt wurde. Er enthält 2.000 Prompts über vier Aufgaben-Szenarien hinweg und definiert eine Taxonomie mit fünf Fehlerkategorien und 19 feinkörnigen Subtypen. Wir entwickeln zudem ConStory-Checker, eine automatisierte Pipeline, die Widersprüche erkennt und jedes Urteil in expliziten textuellen Belegen verankert. Durch die Evaluation einer Reihe von LLMs anhand von fünf Forschungsfragen stellen wir fest, dass Konsistenzfehler klare Tendenzen aufweisen: Sie treten am häufigsten in faktischen und temporalen Dimensionen auf, neigen dazu, in der Mitte von Narrationen zu erscheinen, kommen in Textsegmenten mit höherer Token-Entropie vor und bestimmte Fehlertypen ko-okkurenzieren tendenziell. Diese Erkenntnisse können zukünftige Bemühungen zur Verbesserung der Konsistenz in der langformatigen narrativen Generierung informieren. Unsere Projektseite ist verfügbar unter https://picrew.github.io/constory-bench.github.io/.
Die Verfolgung räumlicher Intelligenz ist grundlegend auf den Zugang zu groß angelegten, fein granularen 3D-Daten angewiesen. Bisherige Ansätze konstruieren Verständnis-Benchmarks für räumliche Intelligenz jedoch überwiegend durch die Generierung von Frage-Antwort-Paaren aus einer begrenzten Anzahl manuell annotierter Datensätze, anstatt systematisch neue groß angelegte 3D-Szenen aus Rohdaten des Internets zu annotieren. Infolgedessen ist ihre Skalierbarkeit stark eingeschränkt, und die Modellleistung wird weiterhin durch Domänenlücken beeinträchtigt, die diesen eng kuratierten Datensätzen inhärent sind. In dieser Arbeit stellen wir Holi-Spatial vor, den ersten vollautomatisierten, groß angelegten, raumbewussten multimodalen Datensatz, der ohne menschliches Eingreifen aus Rohvideo-Eingaben mithilfe der vorgeschlagenen Datenkuratierungspipeline erstellt wird. Holi-Spatial unterstützt eine mehrstufige räumliche Supervision, die von geometrisch präzisen 3D-Gaussian-Splatting-Rekonstruktionen mit gerenderten Tiefenkarten über objektbezogene und relationale semantische Annotationen bis hin zu entsprechenden räumlichen Frage-Antwort-Paaren reicht. Gemäß einer prinzipienbasierten und systematischen Pipeline konstruieren wir weiterhin Holi-Spatial-4M, den ersten groß angelegten, hochwertigen 3D-Semantik-Datensatz, der 12.000 optimierte 3DGS-Szenen, 1,3 Millionen 2D-Masken, 320.000 3D-Bounding-Boxes, 320.000 Instanzen-Bildunterschriften, 1,2 Millionen 3D-Grounding-Instanzen und 1,2 Millionen räumliche Frage-Antwort-Paare umfasst, die verschiedene geometrische, relationale und semantische Reasoning-Aufgaben abdecken. Holi-Spatial zeigt eine außergewöhnliche Leistung in Bezug auf die Qualität der Datenkuratierung und übertrifft vorhandene Feed-Forward- und pro-Szene-optimierte Methoden auf Datensätzen wie ScanNet, ScanNet++ und DL3DV erheblich. Darüber hinaus hat das Fine-Tuning von Vision-Language-Models für räumliche Reasoning-Aufgaben mit diesem Datensatz ebenfalls zu erheblichen Verbesserungen der Modellleistung geführt.
Feedforward-geometrische Basismodelle erreichen eine starke Rekonstruktion in kurzen Zeitfenstern, doch ihre Skalierung auf minutenlange Videos wird durch die quadratische Komplexität von Attention oder begrenzten effektiven Speicher in rekurrenten Designs begrenzt. Wir stellen LoGeR (Long-context Geometric Reconstruction) vor, eine neuartige Architektur, die dichte 3D-Rekonstruktion auf extrem lange Sequenzen ohne Nachoptimierung skaliert. LoGeR verarbeitet Videoströme in Segmenten und nutzt starke bidirektionale Priors für hochpräzises Schlussfolgern innerhalb eines Segments. Um die kritische Herausforderung der Kohärenz über Segmentgrenzen hinweg zu bewältigen, schlagen wir ein lernbares hybrides Speichermodul vor. Dieses duale System kombiniert einen parametrischen Test-Time Training (TTT)-Speicher, um das globale Koordinatensystem zu verankern und Maßstabsdrift zu verhindern, mit einem nicht-parametrischen Sliding Window Attention (SWA)-Mechanismus, um unkomprimierten Kontext für hochpräzise benachbarte Ausrichtung zu bewahren. Bemerkenswerterweise ermöglicht diese Speicherarchitektur LoGeR, auf Sequenzen von 128 Frames trainiert zu werden und sich auf bis zu Tausende von Frames während der Inferenz zu verallgemeinern. Ausgewertet anhand standardisierter Benchmarks und einem neu angepassten VBR-Datensatz mit Sequenzen von bis zu 19.000 Frames, übertrifft LoGeR frühere state-of-the-art Feedforward-Methoden deutlich – reduziert den ATE auf KITTI um über 74 % – und erreicht eine robuste, global konsistente Rekonstruktion über beispiellose Zeiträume.
Unüberwachtes Reinforcement Learning mit verifizierbaren Belohnungen (URLVR) bietet einen Weg, das LLM-Training über den Engpass der Überwachung hinaus zu skalieren, indem Belohnungen ohne Ground-Truth-Labels abgeleitet werden. Jüngste Arbeiten nutzen modellinterne Signale und zeigen vielversprechende frühe Erfolge, doch ihr Potenzial und ihre Grenzen sind noch unklar. In dieser Arbeit untersuchen wir URLVR neu und liefern eine umfassende Analyse, die Taxonomie, Theorie und umfangreiche Experimente umfasst. Wir klassifizieren URLVR-Methoden zunächst basierend auf den Belohnungsquellen in intrinsische und externe Methoden und stellen dann einen einheitlichen theoretischen Rahmen auf, der zeigt, dass alle intrinsischen Methoden darauf konvergieren, die anfängliche Verteilung des Modells zu verschärfen. Dieser Schärfungsmechanismus ist erfolgreich, wenn die anfängliche Konfidenz mit der Korrektheit übereinstimmt, scheitert jedoch katastrophal bei Nichtübereinstimmung. Durch systematische Experimente zeigen wir, dass intrinsische Belohnungen über verschiedene Methoden hinweg konsistent einem Anstieg-gefolgt-von-Abfall-Muster folgen, wobei der Zeitpunkt des Kollapses durch die Modellpräferenz und nicht durch technische Entscheidungen bestimmt wird. Trotz dieser Skalierungsgrenzen bleiben intrinsische Belohnungen bei Test-Time-Training auf kleinen Datensätzen wertvoll, und wir schlagen den "Model Collapse Step" vor, um die Modellpräferenz zu messen, was als praktischer Indikator für die Trainierbarkeit mittels RL dient. Schließlich untersuchen wir externe Belohnungsmethoden, die die Verifikation in rechnerischen Asymmetrien verankern, und zeigen erste Hinweise darauf, dass sie die Konfidenz-Korrektheit-Grenze überwinden könnten. Unsere Ergebnisse skizzieren die Grenzen intrinsischer URLVR-Methoden und liefern gleichzeitig Ansätze für skalierbare Alternativen.
Große Reasoning-Modelle haben mit der Weiterentwicklung von Test-Time-Scaling-Techniken bemerkenswerte Leistungen gezeigt, welche die Vorhersagegenauigkeit verbessern, indem mehrere Kandidatenantworten generiert und die zuverlässigste Antwort ausgewählt wird. Während frühere Arbeiten analysiert haben, dass interne Modellsignale wie Konfidenzscores die Antwortkorrektheit teilweise anzeigen und eine Verteilungskorrelation mit der Genauigkeit aufweisen, wurde solche Verteilungsinformation nicht vollständig zur Steuerung der Antwortauswahl genutzt. Daraus motiviert schlagen wir DistriVoting vor, das Verteilungs-Priors als weiteres Signal neben der Konfidenz während der Abstimmung einbezieht. Konkret zerlegt unsere Methode (1) zunächst die gemischte Konfidenzverteilung mittels Gaußscher Mischmodelle in positive und negative Komponenten, (2) wendet dann einen Reject-Filter basierend auf positiven/negativen Stichproben daraus an, um Überlappungen zwischen den beiden Verteilungen zu reduzieren. Zusätzlich schlagen wir zur weiteren Linderung der Überlappung aus Perspektive der Verteilung selbst SelfStepConf vor, das schrittweise Konfidenz nutzt, um den Inferenzprozess dynamisch anzupassen, die Trennung zwischen den beiden Verteilungen zu vergrößern und so die Zuverlässigkeit der Konfidenzen bei der Abstimmung zu verbessern. Experimente über 16 Modelle und 5 Benchmarks zeigen, dass unsere Methode state-of-the-art-Ansätze signifikant übertrifft.
Einheitliche Diffusions-Editoren basieren häufig auf einem festen, gemeinsamen Backbone für verschiedene Aufgaben, was zu Aufgabeninterferenzen und schlechter Anpassung an heterogene Anforderungen führt (z.B. lokal vs. global, semantisch vs. photometrisch). Insbesondere gängige ControlNet- und OmniControl-Varianten kombinieren multiple Konditionierungssignale (z.B. Text, Maske, Referenz) durch statische Konkatenierung oder additive Adapter, die konfligierende Modalitäten nicht dynamisch priorisieren oder unterdrücken können. Dies führt zu Artefakten wie Farbausläufern über Maskengrenzen hinweg, Identitäts- oder Stildrift sowie unvorhersehbarem Verhalten bei Multi-Condition-Eingaben. Um dies zu adressieren, schlagen wir Condition-Aware Routing of Experts (CARE-Edit) vor, das die Modellberechnung mit spezifischen Bearbeitungskompetenzen in Einklang bringt. Kernstück ist ein leichtgewichtiger Latent-Attention-Router, der encodierte Diffusions-Tokens basierend auf multimodalen Bedingungen und Diffusions-Zeitschritten vier spezialisierten Experten zuweist – Text, Maske, Referenz und Basis: (i) ein Mask Repaint-Modul verfeinert zunächst grobe benutzerdefinierte Masken für präzise räumliche Führung; (ii) der Router wendet eine sparse Top-K-Selektion an, um Rechenoperationen dynamisch den relevantesten Experten zuzuteilen; (iii) ein Latent Mixture-Modul fusioniert anschließend die Expertenergebnisse, um semantische, räumliche und stilistische Informationen kohärent in die Basisbilder zu integrieren. Experimente validieren die hohe Leistung von CARE-Edit bei kontextuellen Bearbeitungsaufgaben wie Löschung, Ersetzung, textgesteuerter Bearbeitung und Stiltransfer. Empirische Analysen zeigen zudem aufgabenspezifisches Verhalten der spezialisierten Experten und unterstreichen die Bedeutung dynamischer, konditionsabhängiger Verarbeitung zur Minderung von Multi-Condition-Konflikten.
Jüngste Fortschritte bei vereinheitlichten multimodalen Modellen (UMMs) haben die Text-zu-Bild-Generierung (T2I) erheblich vorangetrieben, insbesondere durch die Integration von Chain-of-Thought (CoT)-Reasoning. Bisherige CoT-basierte T2I-Methoden stützen sich jedoch weitgehend auf abstrakte natürlichsprachliche Planung, der die für komplexe räumliche Anordnungen, strukturierte visuelle Elemente und dichte Textinhalte erforderliche Präzision fehlt. In dieser Arbeit stellen wir CoCo (Code-as-CoT) vor, ein codegesteuertes Reasoning-Framework, das den Denkprozess als ausführbaren Code repräsentiert und so explizite, überprüfbare Zwischenplanung für die Bildgenerierung ermöglicht. Bei einer Texteingabe generiert CoCo zunächst ausführbaren Code, der den strukturellen Aufbau der Szene spezifiziert. Dieser Code wird in einer sandboxed-Umgebung ausgeführt, um ein deterministisches Vorentwurfsbild zu rendern. Anschließend verfeinert das Modell diesen Entwurf durch fein granulierte Bildbearbeitung, um das endgültige hochauflösende Ergebnis zu erzeugen. Um dieses Trainingsparadigma zu unterstützen, haben wir CoCo-10K erstellt, einen kuratierten Datensatz mit strukturierten Vorentwurf-Endbild-Paaren, der sowohl den Aufbau strukturierter Entwürfe als auch korrigierende visuelle Verfeinerung vermittelt. Empirische Auswertungen auf StructT2IBench, OneIG-Bench und LongText-Bench zeigen, dass CoCo Verbesserungen von +68,83 %, +54,8 % bzw. +41,23 % gegenüber Direktgenerierung erzielt und dabei andere durch CoT unterstützte Generierungsmethoden übertrifft. Diese Ergebnisse demonstrieren, dass ausführbarer Code ein effektives und zuverlässiges Reasoning-Paradigma für präzise, steuerbare und strukturierte Text-zu-Bild-Generierung darstellt. Der Code ist verfügbar unter: https://github.com/micky-li-hd/CoCo
Autoregressive (AR) Diffusion bietet einen vielversprechenden Rahmen zur Erzeugung von Videos theoretisch unendlicher Länge. Eine große Herausforderung besteht jedoch darin, die zeitliche Kontinuität aufrechtzuerhalten und gleichzeitig den fortschreitenden Qualitätsverlust durch Fehlerakkumulation zu verhindern. Um Kontinuität zu gewährleisten, konditionieren bestehende Methoden typischerweise auf stark entrauschte Kontexte; diese Praxis überträgt jedoch Vorhersagefehler mit hoher Sicherheit und verschärft so die Verschlechterung. In diesem Beitrag argumentieren wir, dass ein sehr sauberer Kontext unnötig ist. Inspiriert von bidirektionalen Diffusionsmodellen, die Bilder auf einem gemeinsamen Rauschpegel entrauschen und dabei Kohärenz bewahren, schlagen wir vor, dass eine Konditionierung auf einen Kontext mit demselben Rauschpegel wie der aktuelle Block ausreichend Signal für zeitliche Konsistenz liefert und gleichzeitig die Fehlerfortpflanzung wirksam mindert. Aufbauend auf dieser Erkenntnis schlagen wir HiAR vor, ein hierarchisches Entrauschungsframework, das die konventionelle Generierungsreihenfolge umkehrt: Anstatt jeden Block sequenziell abzuschließen, führt es bei jedem Entrauschungsschritt eine kausale Generierung über alle Blöcke hinweg durch, sodass jeder Block stets auf einen Kontext mit demselben Rauschpegel konditioniert ist. Diese Hierarchie ermöglicht natürlich eine gepipelinte parallele Inferenz, was in unserem 4-Schritt-Setup eine 1,8-fache Beschleunigung der Echtzeit ergibt. Wir beobachten weiterhin, dass Self-Rollout-Distillation unter diesem Paradigma einen inherenten Low-Motion-Shortcut des modus-suchenden Reverse-KL-Ziels verstärkt. Um dem entgegenzuwirken, führen wir einen Forward-KL-Regularisierer im Bidirectional-Attention-Modus ein, der die Bewegungsvielfalt für die kausale Inferenz erhält, ohne die Distillationsverluste zu beeinträchtigen. Auf VBench (20s Generierung) erzielt HiAR die beste Gesamtpunktzahl und die geringste zeitliche Drift unter allen verglichenen Methoden.
Mit der Entwicklung von Sprachmodellen (LMs) von Chat-Assistenten zu langlebigen Agenten, die zu mehrstufigem Denken und Werkzeuggebrauch fähig sind, bleiben bestehende Benchmarks größtenteils auf strukturierte oder prüfungsähnliche Aufgaben beschränkt, die den realen beruflichen Anforderungen nicht gerecht werden. Zu diesem Zweck stellen wir \OneMillion-Bench OneMillion-Bench vor, einen Benchmark mit 400 von Experten kuratierten Aufgaben aus den Bereichen Recht, Finanzen, Industrie, Gesundheitswesen und Naturwissenschaften, der entwickelt wurde, um Agenten in wirtschaftlich relevanten Szenarien zu bewerten. Im Gegensatz zu früheren Arbeiten erfordert dieser Benchmark das Abrufen autoritativer Quellen, das Auflösen widersprüchlicher Evidenz, die Anwendung domainspezifischer Regeln und das Treffen von Entscheidungen unter Nebenbedingungen, wobei die Korrektheit ebenso sehr vom Denkprozess wie von der endgültigen Antwort abhängt. Wir verwenden ein rubrikbasiertes Bewertungsprotokoll, das faktische Genauigkeit, logische Kohärenz, praktische Machbarkeit und berufliche Konformität bewertet, wobei der Fokus auf Expertenniveau-Problemen liegt, um eine aussagekräftige Differenzierung zwischen Agenten zu gewährleisten. Zusammengenommen bietet \$OneMillion-Bench eine einheitliche Testumgebung zur Bewertung von agentenbasierter Zuverlässigkeit, professioneller Tiefe und praktischer Einsatzbereitschaft in domainsintensiven Szenarien.
Während autoregressive (AR) auf LLM basierende ASR-Systeme eine hohe Genauigkeit erreichen, schränkt ihr sequenzielles Decodieren die Parallelisierbarkeit ein und verursacht hohe Latenz. Wir schlagen NLE vor, einen nicht-autoregressiven (NAR) Ansatz, der Spracherkennung als bedingte Transkriptbearbeitung formuliert und eine vollständig parallele Vorhersage ermöglicht. NLE extrahiert akustische Embeddings und eine initiale Hypothese aus einem vortrainierten Sprach-Encoder und verfeinert die Hypothese anschließend mit einem bidirektionalen LLM-Editor, der mit einem latenten Alignment-Ziel trainiert wird. Eine Strategie mit verschachteltem Padding nutzt die Bias für Identitätsabbildungen in Transformern aus, sodass sich das Modell auf Korrekturen statt auf vollständige Rekonstruktion konzentriert. Auf dem Open ASR Leaderboard erreicht NLE++ eine durchschnittliche WER von 5,67 % bei einem RTFx (inverser Echtzeitfaktor) von 1630. In Einzeläußerungsszenarien erzielt NLE eine 27-fache Beschleunigung gegenüber der AR-Basislinie, was es für Echtzeitanwendungen geeignet macht.
Wir stellen AutoResearch-RL vor, ein Framework, in dem ein Reinforcement-Learning-Agent ohne menschliche Aufsicht offene Forschung zu neuronaler Architektur und Hyperparametern durchführt und dabei kontinuierlich läuft, bis ein Abbruchorakel Konvergenz oder Ressourcenerschöpfung signalisiert. In jedem Schritt schlägt der Agent eine Codeänderung an einem Ziel-Trainingsskript vor, führt diese unter einem festen Zeitbudget (Wall Clock Time) aus, beobachtet eine skalare Belohnung, die aus der Validierungs-Bits-per-Byte (val-bpb) abgeleitet wird, und aktualisiert seine Policy mittels Proximal Policy Optimization (PPO). Die zentrale Gestaltungsidee ist die Trennung von drei Aspekten: (i) eine eingefrorene Umgebung (Datenpipeline, Evaluierungsprotokoll und Konstanten), die einen fairen experimentübergreifenden Vergleich gewährleistet; (ii) eine veränderbare Zieldatei (train.py), die den editierbaren Zustand des Agents repräsentiert; und (iii) ein Meta-Learner (der RL-Agent selbst), der eine wachsende Trajektorie von Experimentergebnissen akkumuliert und diese zur Informationsgewinnung für nachfolgende Vorschläge nutzt. Wir formalisieren dies als Markov-Entscheidungsprozess, leiten unter milden Annahmen Konvergenzgarantien her und zeigen empirisch an einem Nanochat-Pretraining-Benchmark auf einer einzelnen GPU, dass AutoResearch-RL nach etwa 300 nächtlichen Iterationen Konfigurationen entdeckt, die handoptimierte Baselines erreichen oder übertreffen – ohne menschliche Beteiligung im Kreislauf.
Agentische Systeme, die in großen Werkzeugökosystemen operieren, müssen langfristige Arbeitsabläufe unter schwacher oder nicht verifizierbarer Aufsicht planen und ausführen. Während Spitzenmodelle diese Herausforderungen durch Skalierung und große Kontextbudgets mildern, bleiben kleine Sprachmodelle (Small Language Models, SLMs) anfällig: unbedachtes Laden von Werkzeugen sättigt den Kontext, Ausführungsfehler summieren sich über die Zeit, und spärliche Belohnungen limitieren das Lernen. Wir stellen ATLAS vor, ein Reinforcement-Finetuning-Framework, das SLMs befähigt, effektiv in Umgebungen mit großem Werkzeugraum zu operieren, indem es lernt, wie Kontext erworben und Aktionen ausgeführt werden. Unser Ansatz leistet zwei wesentliche Beiträge. Erstens behandeln wir Kontextkontrolle und Ausführungsstruktur als erlernbare Entscheidungen, indem wir iteratives Werkzeugladen mit programmatischer Werkzeugorchestrierung kombinieren, um das Kontextwachstum zu begrenzen und langfristige Trajektorien zu stabilisieren. Zweitens schlagen wir rubrikbasiertes Reinforcement-Finetuning vor, das den Aufgaben-Erfolg in strukturierte, aufgabenspezifische Kriterien zerlegt und skalierbares Training mit kleinen Bewertungsmodellen ermöglicht. In MCP-Benchmarks erzielen diese Designentscheidungen große und konsistente Verbesserungen gegenüber generischen RL-Baselines, sodass ein 4B-SLM die Leistung von Spitzen-Agenten mit deutlich engeren Parameter- und Kontextbudgets annähernd erreicht.
Aktuelle grafische Benutzeroberflächen-Agenten (GUI-Agents) arbeiten hauptsächlich nach einem reaktiven Paradigma: Ein Benutzer muss eine explizite Anweisung geben, damit der Agent eine Aufgabe ausführt. Ein intelligenter KI-Assistent sollte jedoch proaktiv agieren, in der Lage sein, Benutzerabsichten direkt aus kontinuierlichen visuellen Eingaben wie Mobil- oder Desktop-Bildschirmfotos vorherzusehen und zeitnahe Empfehlungen ohne explizite Aufforderung durch den Benutzer anzubieten. Der Übergang zu diesem proaktiven Paradigma stellt erhebliche Herausforderungen dar. Die Bildschirmaktivität in der realen Welt verläuft selten linear; sie besteht aus langfristigen Trajektorien, die von verrauschtem Browsen, bedeutungslosen Aktionen und multithreadedem Task-Switching geprägt sind. Um diese Lücke zu schließen, stellen wir PIRA-Bench (Proactive Intent Recommendation Agent Benchmark) vor, einen neuartigen Benchmark zur Bewertung multimodaler großer Sprachmodelle (MLLMs) anhand kontinuierlicher, schwach überwachter visueller Eingaben. Im Gegensatz zu reaktiven Datensätzen zeichnet sich PIRA-Bench durch komplexe Trajektorien mit mehreren verschachtelten Absichten und verrauschte Segmente mit verschiedenen Benutzerprofilkontexten aus, die Agenten dazu herausfordern, umsetzbare Ereignisse zu erkennen und sich gleichzeitig an Benutzerpräferenzen anzupassen. Darüber hinaus schlagen wir die PIRF-Baseline vor, ein gedächtnisbasiertes Zustandsverfolgungs-Framework, das allgemeine MLLMs befähigt, mehrere Aufgabenstränge zu verwalten und irreführende visuelle Eingaben zu verarbeiten. PIRA-Bench dient als erster Schritt hin zu robusten und proaktiven, GUI-basierten persönlichen Assistenten.
Diffusionsmodelle degradieren Bilder durch Rauschen, und die Umkehrung dieses Prozesses offenbart eine Informationshierarchie über Zeitschritte hinweg. Die Skalenraumtheorie zeigt eine ähnliche Hierarchie durch Tiefpassfilterung auf. Wir formalisieren diese Verbindung und zeigen, dass stark verrauschte Diffusionszustände nicht mehr Information enthalten als kleine, herunterskalierte Bilder – was die Frage aufwirft, warum sie in voller Auflösung verarbeitet werden müssen. Um dies zu adressieren, integrieren wir Skalenräume in den Diffusionsprozess, indem wir eine Familie von Diffusionsmodellen mit verallgemeinerten linearen Degradationen und praktischen Implementierungen formulieren. Die Verwendung von Herunterskalierung als Degradation führt zu unserem vorgeschlagenen Scale Space Diffusion. Um Scale Space Diffusion zu unterstützen, führen wir Flexi-UNet ein, eine UNet-Variante, die auflösungserhaltendes und auflösungserhöhendes Entrauschen unter ausschließlicher Verwendung der notwendigen Netzwerkteile durchführt. Wir evaluieren unser Framework auf CelebA und ImageNet und analysieren sein Skalierungsverhalten über Auflösungen und Netzwerktiefen hinweg. Unsere Projektwebsite (https://prateksha.github.io/projects/scale-space-diffusion/) ist öffentlich verfügbar.
Das Training großer Sprachmodelle (LLMs) als autonome Agenten beginnt häufig mit Imitationslernen, doch dieses vermittelt den Agenten nur, was zu tun ist, ohne das Warum zu verstehen: Agenten vergleichen erfolgreiche Aktionen nie mit suboptimalen Alternativen und entwickeln daher kein Bewusstsein für Aktionsqualität. Neuere Ansätze versuchen dies durch Einführung von Selbstreflexions-Supervision zu adressieren, die aus Kontrasten zwischen Experten- und Alternativaktionen abgeleitet wird. Das Trainingsparadigma bleibt jedoch grundsätzlich Imitationslernen: Das Model imitiert vorkonstruierten Reflexionstext, anstatt autonomes Reasoning zu erlernen. Wir schlagen Agentic Critical Training (ACT) vor, ein Reinforcement-Learning-Paradigma, das Agenten trainiert, die bessere Aktion unter Alternativen zu identifizieren. Indem belohnt wird, ob die Urteilsbildung des Models korrekt ist, treibt ACT das Model dazu an, autonom Reasoning über Aktionsqualität zu entwickeln und echte Selbstreflexion zu erzeugen statt sie zu imitieren. In drei anspruchsvollen Agenten-Benchmarks verbessert ACT konsistent die Agentenleistung, wenn es mit verschiedenen Post-Training-Methoden kombiniert wird. Es erzielt eine durchschnittliche Verbesserung von 5,07 Punkten gegenüber Imitationslernen und 4,62 Punkten gegenüber Reinforcement Learning. Verglichen mit Ansätzen, die Reflexionsfähigkeit durch Knowledge Distillation injizieren, zeigt ACT ebenfalls klare Vorteile mit einer durchschnittlichen Steigerung von 2,42 Punkten. Darüber hinaus ermöglicht ACT starke Out-of-Distribution-Generalisierung auf agentischen Benchmarks und verbessert die Leistung auf allgemeinen Reasoning-Benchmarks ohne jegliche reasoning-spezifischen Trainingsdaten, was den Wert unserer Methode unterstreicht. Diese Ergebnisse deuten darauf hin, dass ACT ein vielversprechender Weg zur Entwicklung reflektierterer und leistungsfähigerer LLM-Agenten ist.
Während generative Modelle mit wenigen Schritten eine leistungsstarke Bild- und Videogenerierung zu deutlich geringeren Kosten ermöglicht haben, bleiben generische Reinforcement-Learning (RL)-Paradigmen für solche Modelle mit wenigen Schritten ein ungelöstes Problem. Bestehende RL-Ansätze für Diffusionsmodelle mit wenigen Schritten stützen sich stark auf das Backpropagieren durch differenzierbare Belohnungsmodelle, wodurch die Mehrheit der wichtigen Belohnungssignale aus der realen Welt ausgeschlossen wird, z. B. nicht-differenzierbare Belohnungen wie binäre Präferenzen von Menschen, Objektanzahlen usw. Um nicht-differenzierbare Belohnungen zur Verbesserung generativer Modelle mit wenigen Schritten sinnvoll einzubinden, führen wir TDM-R1 ein, ein neuartiges Reinforcement-Learning-Paradigma, das auf einem führenden Modell mit wenigen Schritten basiert, dem Trajectory Distribution Matching (TDM). TDM-R1 entkoppelt den Lernprozess in Surrogat-Belohnungslernen und Generatorlernen. Darüber hinaus haben wir praktische Methoden entwickelt, um belohnungsrelevante Signale pro Schritt entlang der deterministischen Generierungstrajektorie von TDM zu erhalten, was zu einer einheitlichen RL-Nachschulungsmethode führt, die die Fähigkeiten von Modellen mit wenigen Schritten im Umgang mit generischen Belohnungen signifikant verbessert. Wir führen umfangreiche Experimente durch, die Textdarstellung, visuelle Qualität und Präferenzausrichtung abdecken. Alle Ergebnisse demonstrieren, dass TDM-R1 ein leistungsstarkes Reinforcement-Learning-Paradigma für Text-zu-Bild-Modelle mit wenigen Schritten ist, das state-of-the-art RL-Leistungen sowohl in domäneninternen als auch domänenexternen Metriken erreicht. Darüber hinaus skaliert TDM-R1 auch effektiv mit dem recent starken Z-Image-Modell und übertrifft konsistent sowohl seine 100-NFE- als auch seine Varianten mit wenigen Schritten bei nur 4 NFEs. Projektseite: https://github.com/Luo-Yihong/TDM-R1
Aktuelle Videogenerierungsmodelle leiden unter hoher Rechenlatenz, was Echtzeitanwendungen unverhältnismäßig kostspielig macht. In dieser Arbeit begegnen wir dieser Einschränkung, indem wir die inhärente zeitliche Redundanz in latenten Videopatches ausnutzen. Zu diesem Zweck schlagen wir den Rahmen Latent Inter-frame Pruning with Attention Recovery (LIPAR) vor, der duplizierte latente Patches erkennt und deren Neuberechnung überspringt. Zusätzlich führen wir einen neuartigen Attention-Recovery-Mechanismus ein, der die Attention-Werte beschnittener Token approximiert und dadurch visuelle Artefakte entfernt, die durch eine naive Anwendung der Beschnittmethode entstehen. Empirisch steigert unsere Methode den Videobearbeitungsdurchsatz um das 1,45-fache und erreicht im Durchschnitt 12,2 FPS auf einer NVIDIA A6000 im Vergleich zu 8,4 FPS der Baseline. Die vorgeschlagene Methode beeinträchtigt die Generierungsqualität nicht und kann nahtlos in das Modell integriert werden, ohne zusätzliches Training zu erfordern. Unser Ansatz überbrückt effektiv die Lücke zwischen traditionellen Kompressionsalgorithmen und modernen Generierungspipelines.
Große Sprachmodelle (LLMs) haben starke allgemeine Fähigkeiten demonstriert, doch ihr Einsatz im Finanzwesen bleibt aufgrund von dichtem domänenspezifischem Fachvokabular, strengen Anforderungen an numerisches Reasoning und geringer Toleranz gegenüber faktischen Fehlern herausfordernd. Wir führen eine kontrollierte empirische Studie durch, die zeigt, dass in spezialisierten vertikalen Domänen die Leistung weitgehend von der Qualität und dem Schwierigkeits-/Verifizierbarkeitsprofil der Post-Training-Daten bestimmt wird. Wir stellen ODA-Fin-SFT-318k vor, das durch mehrstufige Destillation und Verifikation konstruiert wurde, um hochwertige Chain-of-Thought-Aufsicht zu erzeugen, sowie ODA-Fin-RL-12k, das für schwierige aber verifizierbare Aufgaben kuratiert wurde, um Belohnungspräzision und Aufgabenvariabilität auszugleichen. Unter Verwendung standardmäßiger SFT- und RL-Pipelines zeigen wir, dass hochwertige CoT-Destillation eine robuste Grundlage während des SFT schafft, während schwierigkeits- und verifizierbarkeitsbewusstes Sampling die RL-Generalisation verbessert. Evaluierungen auf neun Benchmarks, die allgemeine Finanzaufgaben, Sentimentanalyse und numerisches Reasoning abdecken, zeigen, dass unser ODA-Fin-RL-8B durchgehend Open-Source-State-of-the-Art (SOTA) Finanz-LLMs vergleichbarer Größe übertrifft. Wir veröffentlichen unsere ODA-Fin-SFT-318k- und ODA-Fin-RL-12k-Datensätze sowie trainierte Modelle, um datenzentrierte Finanz-KI-Forschung voranzutreiben.
Vision Transformer (ViTs) verschlechtern sich häufig unter Distributionsverschiebungen, da sie auf scheinbare Korrelationen wie Hintergrundmerkmale anstatt auf semantisch bedeutsame Merkmale angewiesen sind. Bestehende Regularisierungsmethoden, die typischerweise auf einfachen Vordergrund-Hintergrund-Masken basieren, erfassen nicht die feingranularen semantischen Konzepte, die ein Objekt definieren (z.B. „langer Schnabel“ und „Flügel“ für einen „Vogel“). Folglich bieten diese Methoden nur begrenzte Robustheit gegenüber Distributionsverschiebungen. Um diese Einschränkung zu adressieren, führen wir einen neuartigen Finetuning-Ansatz ein, der die Modellableitung auf konzeptuelle Semantik lenkt. Unser Ansatz optimiert die internen Relevanzkarten des Modells, um sie mit räumlich verankerten Konzeptmasken in Einklang zu bringen. Diese Masken werden automatisch ohne manuelle Annotation generiert: klassenrelevante Konzepte werden zunächst mittels einer LLM-basierten, etikettierungsfreien Methode vorgeschlagen und anschließend mit einem VLM segmentiert. Das Finetuning-Ziel richtet die Relevanz auf diese Konzeptregionen aus und unterdrückt gleichzeitig die Fokussierung auf irrelevante Hintergrundbereiche. Bemerkenswerterweise erfordert dieser Prozess nur einen minimalen Bildsatz und nutzt die Hälfte der Datensatzkategorien. Umfangreiche Experimente auf fünf Out-of-Distribution-Benchmarks zeigen, dass unsere Methode die Robustheit über mehrere ViT-basierte Modelle hinweg verbessert. Darüber hinaus demonstrieren wir, dass die resultierenden Relevanzkarten eine stärkere Übereinstimmung mit semantischen Objektteilen aufweisen und somit einen skalierbaren Weg zu robusteren und interpretierbaren Vision-Modellen eröffnen. Abschließend bestätigen wir, dass konzeptgesteuerte Masken eine effektivere Überwachung für Modellrobustheit bieten als konventionelle Segmentierungskarten, was unsere zentrale Hypothese stützt.
Die Initialisierungsphase mit Cold-Start spielt eine entscheidende Rolle beim Training multimodaler großer Reasoning-Modelle (MLRMs), doch ihre Mechanismen sind nach wie vor unzureichend verstanden. Um diese Phase zu analysieren, führen wir den Visual Attention Score (VAS) ein, eine auf Aufmerksamkeit basierende Metrik, die quantifiziert, wie stark ein Modell visuelle Tokens beachtet. Wir stellen fest, dass die Reasoning-Leistung stark mit dem VAS korreliert (r=0,9616): Modelle mit höherem VAS erreichen deutlich stärkeres multimodales Reasoning. Überraschenderweise führt ein multimodaler Cold-Start nicht zu einer Erhöhung des VAS, was zu Aufmerksamkeitsverteilungen führt, die nah am Basismodell liegen, während ein rein textbasierter Cold-Start zu einem deutlichen Anstieg führt. Wir bezeichnen dieses kontraintuitive Phänomen als Lazy Attention Localization. Um seine kausale Rolle zu validieren, entwerfen wir trainingsfreie Interventionen, die direkt die Aufmerksamkeitszuweisung während des Inferenzvorgangs modulieren und Leistungssteigerungen von 1–2 % ohne jegliches Neutraining erzielen. Aufbauend auf diesen Erkenntnissen schlagen wir weiterhin Attention-Guided Visual Anchoring and Reflection (AVAR) vor, ein umfassendes Cold-Start-Framework, das visuell verankerte Datensynthese, aufmerksamkeitsgesteuerte Zielsetzungen und visuell verankerte Belohnungsformung integriert. Angewendet auf Qwen2.5-VL-7B erzielt AVAR durchschnittlich einen Gewinn von 7,0 % über 7 multimodalen Reasoning-Benchmarks hinweg. Ablationsstudien bestätigen weiterhin, dass jede Komponente von AVAR schrittweise zu den Gesamtgewinnen beiträgt. Der Code, die Daten und die Modelle sind unter https://github.com/lrlbbzl/Qwen-AVAR verfügbar.
Bestehende Konzeptanpassungsmethoden haben bemerkenswerte Ergebnisse bei hochpräziser und multikonzeptueller Anpassung erzielt. Allerdings vernachlässigen sie häufig den Einfluss auf das Verhalten und die Fähigkeiten des ursprünglichen Modells beim Erlernen neuer personalisierter Konzepte. Um dieses Problem zu lösen, schlagen wir PureCC vor. PureCC führt ein neuartiges entkoppeltes Lernziel für die Konzeptanpassung ein, das die implizite Führung durch das Zielkonzept mit der ursprünglichen bedingten Vorhersage kombiniert. Diese getrennte Form ermöglicht es PureCC, sich während des Trainings weitgehend auf das ursprüngliche Modell zu konzentrieren. Darüber hinaus entwirft PureCC auf Basis dieses Ziels eine Dual-Branch-Trainingspipeline, die einen eingefrorenen Extraktor umfasst, der gereinigte Zielkonzeptrepräsentationen als implizite Führung bereitstellt, und ein trainierbares Flow-Modell, das die ursprüngliche bedingte Vorhersage erzeugt, wodurch gemeinsam reines Lernen für personalisierte Konzepte erreicht wird. Ferner führt PureCC eine neuartige adaptive Führungsstärke λ^star ein, um die Führungsstärke des Zielkonzepts dynamisch anzupassen und so Anpassungspräzision und Modellerhalt auszubalancieren. Umfangreiche Experimente zeigen, dass PureCC state-of-the-art Leistung beim Erhalt des ursprünglichen Verhaltens und der Fähigkeiten erzielt, während gleichzeitig hochpräzise Konzeptanpassung ermöglicht wird. Der Code ist verfügbar unter https://github.com/lzc-sg/PureCC.
Autoregressive (AR-)Sprachmodelle basieren auf kausaler Tokenisierung, doch die Übertragung dieses Paradigmas auf den visuellen Bereich bleibt eine Herausforderung. Aktuelle visuelle Tokenizer glätten entweder 2D-Patches zu nicht-kausalen Sequenzen oder erzwingen heuristische Ordnungen, die sich nicht mit dem "Next-Token-Prediction"-Muster decken. Neuere Diffusions-Autoencoder zeigen ähnliche Defizite: Die Konditionierung des Decoders auf alle Token entbehrt der Kausalität, während der Einsatz von Nested-Dropout-Mechanismen ein Ungleichgewicht verursacht. Um diese Probleme zu lösen, stellen wir CaTok vor, einen 1D-kausalen Bild-Tokenizer mit einem MeanFlow-Decoder. Durch die Auswahl von Token über Zeitintervalle und ihre Bindung an das MeanFlow-Ziel, wie in Abb. 1 dargestellt, lernt CaTok kausale 1D-Repräsentationen, die sowohl schnelle One-Step-Generierung als auch hochwertiges Multi-Step-Sampling unterstützen und gleichzeitig verschiedene visuelle Konzepte über Token-Intervalle hinweg natürlicherweise erfassen. Um das Training weiter zu stabilisieren und zu beschleunigen, schlagen wir eine einfache Regularisierung REPA-A vor, die Encoder-Merkmale mit Vision Foundation Models (VFMs) in Einklang bringt. Experimente zeigen, dass CaTok state-of-the-art Ergebnisse bei der ImageNet-Rekonstruktion erzielt und mit 0.75 FID, 22.53 PSNR und 0.674 SSIM bei weniger Trainingsepochen erreicht, während das AR-Modell eine mit führenden Ansätzen vergleichbare Leistung erzielt.
Die Landschaft der KI-Codierungsunterstützung durchläuft einen grundlegenden Wandel: weg von komplexen IDE-Plugins hin zu vielseitigen, terminal-nativen Agenten. CLI-basierte Agenten, die direkt dort operieren, wo Entwickler die Quellcodeverwaltung, Build-Ausführung und Deployment-Umgebungen handhaben, bieten beispiellose Autonomie für langfristige Entwicklungsaufgaben. In diesem Artikel stellen wir OPENDEV vor, einen Open-Source-Command-Line-Codierungsagenten, der speziell für dieses neue Paradigma entwickelt wurde. Effektive autonome Unterstützung erfordert strenge Sicherheitskontrollen und hocheffizientes Kontextmanagement, um Kontextaufblähung und Abbau der Schlussfolgerungsqualität zu verhindern. OPENDEV bewältigt diese Herausforderungen durch eine zusammengesetzte KI-Systemarchitektur mit last-spezifischem Model-Routing, eine Dual-Agenten-Architektur, die Planung von Ausführung trennt, verzögerte Werkzeugerkennung und adaptive Kontextkomprimierung, die ältere Beobachtungen progressiv reduziert. Darüber hinaus setzt es ein automatisches Speichersystem ein, um projektspezifisches Wissen sitzungsübergreifend anzusammeln, und wirkt Instruktionsverblassen durch ereignisgesteuerte Systemerinnerungen entgegen. Durch die Durchsetzung expliziter Denkphasen und die Priorisierung von Kontexteffizienz bietet OPENDEV eine sichere, erweiterbare Grundlage für terminal-zentrierte KI-Unterstützung und liefert einen Entwurf für robuste autonome Softwareentwicklung.
Die Ausbildung von Code-Generation-Modellen der nächsten Generation erfordert hochwertige Datensätze, doch bestehende Datensätze leiden unter Schwierigkeitsungleichgewicht, Formatinkonsistenz und Datenqualitätsproblemen. Wir adressieren diese Herausforderungen durch systematische Datenverarbeitung und Schwierigkeitsskalierung. Wir stellen ein vierstufiges Datenverarbeitungsframework vor, das Erfassung, Verarbeitung, Filterung und Verifizierung umfasst, einschließlich einer automatischen Schwierigkeitsfilterung mittels eines LLM-basierten Vorhersage-Kalibrierungs-Auswahl-Frameworks. Dieses nutzt mehrdimensionale Schwierigkeitsmetriken über fünf gewichtete Dimensionen, um anspruchsvolle Probleme beizubehalten und einfache zu entfernen. Der resultierende MicroCoder-Datensatz umfasst zehntausende kuratierte, reale Competitive-Programming-Probleme von diversen Plattformen mit Fokus auf Aktualität und Schwierigkeitsgrad. Evaluationen auf strikt unbekannten LiveCodeBench-Daten zeigen, dass MicroCoder innerhalb von 300 Trainingsschritten dreifach größere Leistungssteigerungen erzielt als häufig verwendete Referenzdatensätze vergleichbarer Größe, mit konsistenten Vorteilen unter sowohl GRPO als auch dessen varianten Trainingsalgorithmen. Der MicroCoder-Datensatz erbringt deutliche Verbesserungen bei mittleren und schweren Problemen über verschiedene Modellgrößen hinweg und erreicht bis zu 17,2 % relative Leistungssteigerungen im Gesamtergebnis, insbesondere dort, wo Modellfähigkeiten am stärksten gefordert werden. Diese Ergebnisse validieren, dass schwierigkeitsbewusste Datenkuratierung die Modellleistung bei anspruchsvollen Aufgaben verbessert und multiple Erkenntnisse für die Datensatzerstellung in der Code-Generation liefert.
CLIP-basiertes Prompt-Tuning ermöglicht es vortrainierten Vision-Language-Modellen (VLMs), sich effizient an Downstream-Aufgaben anzupassen. Obwohl bestehende Studien bedeutende Fortschritte erzielt haben, schenken sie den Veränderungen in den internen Aufmerksamkeitsrepräsentationen von VLMs während des Tuning-Prozesses nur begrenzte Aufmerksamkeit. In diesem Artikel führen wir die Fehlermodi von Prompt-Tuning-Vorhersagen auf Verschiebungen in der Vordergrundaufmerksamkeit des visuellen Encoders zurück und schlagen Foreground View-Guided Prompt Tuning (FVG-PT) vor, ein adaptives Plug-and-Play-Modul zur Vordergrundaufmerksamkeitssteuerung, um diese Verschiebungen zu mildern. Konkret führt FVG-PT ein lernbares Foreground Reliability Gate ein, um automatisch die Qualität der Vordergrundansicht zu verbessern, wendet ein Foreground Distillation Compensation-Modul an, um die visuelle Aufmerksamkeit auf den Vordergrund zu lenken, und führt zudem ein Prior Calibration-Modul ein, um Generalisierungsverschlechterungen zu mindern, die durch übermäßige Fokussierung auf den Vordergrund verursacht werden. Experimente mit mehreren Backbone-Modellen und Datensätzen zeigen die Wirksamkeit und Kompatibilität von FVG-PT. Codes sind verfügbar unter: https://github.com/JREion/FVG-PT
Moderne Code-Generierungsmodelle zeigen längere Ausgaben, beschleunigte Fähigkeitsentwicklung und veränderte Trainingsdynamiken, was traditionelle Trainingsmethoden, Algorithmen und Datensätze für die Leistungssteigerung unwirksam macht. Um diese Trainingsengpässe zu adressieren, schlagen wir MicroCoder-GRPO vor, einen verbesserten Group Relative Policy Optimization-Ansatz mit drei Innovationen: bedingte Trunkierungsmaskierung zur Verbesserung des Langausgabepotenzials bei gleichzeitiger Aufrechterhaltung der Trainingsstabilität, diversitätsbestimmte Temperaturauswahl zur Beibehaltung und Förderung der Ausgabevielfalt sowie Entfernung des KL-Verlusts mit hohen Clipping-Verhältnissen zur Förderung der Lösungsvielfalt. MicroCoder-GRPO erzielt auf LiveCodeBench v6 eine relative Verbesserung von bis zu 17,6 % gegenüber starken Baselines, mit deutlicheren Gewinnen unter erweiterter Kontextauswertung. Zusätzlich veröffentlichen wir MicroCoder-Dataset, einen anspruchsvolleren Trainingskorpus, der innerhalb von 300 Trainingsschritten auf LiveCodeBench v6 dreimal größere Leistungssteigerungen als Mainstream-Datensätze erzielt, und MicroCoder-Evaluator, ein robustes Framework mit etwa 25 % verbesserter Auswertungsgenauigkeit und rund 40 % schnellerer Ausführung. Durch umfassende Analysen in über dreißig kontrollierten Experimenten decken wir 34 Trainingseinblicke in sieben Hauptaspekten auf und zeigen, dass richtig trainierte Modelle wettbewerbsfähige Leistung mit größeren Gegenstücken erreichen können.
Vision-Language Models (VLMs) haben sich als vielversprechender Ansatz für End-to-End autonomes Fahren (AD) erwiesen, indem sie visuelle Beobachtungen, Fahrkontext und sprachbasierte Entscheidungsfindung gemeinsam modellieren. Allerdings sehen sich bestehende VLM-basierte Systeme mit einem Zielkonflikt zwischen hochrangiger Entscheidungsfindung und Bewegungsplanung konfrontiert: Große Modelle bieten ein starkes semantisches Verständnis, sind jedoch kostspielig für eine präzise Steuerung anzupassen, während kleine VLM-Modelle effizient feinabgestimmt werden können, aber oft ein schwächeres Entscheidungsvermögen aufweisen. Wir schlagen NaviDriveVLM vor, ein entkoppeltes Framework, das die Entscheidungsfindung von der Aktionsgenerierung trennt, indem es einen großskaligen Navigator und einen leichtgewichtigen, trainierbaren Driver verwendet. Dieser Aufbau bewahrt die Entscheidungsfähigkeit, reduziert die Trainingskosten und bietet eine explizite, interpretierbare Zwischendarstellung für die nachgelagerte Planung. Experimente auf dem nuScenes-Benchmark zeigen, dass NaviDriveVLM große VLM-Baselines in der End-to-End-Bewegungsplanung übertrifft.
Halbstrukturierte N:M-Sparsity und Low-Bit-Quantisierung (z.B. 1,58-Bit-BitNet) sind zwei vielversprechende Ansätze zur Verbesserung der Effizienz von Large Language Models (LLMs), wurden jedoch bisher weitgehend isoliert voneinander untersucht. In dieser Arbeit untersuchen wir ihre Wechselwirkung und zeigen, dass 1,58-Bit-BitNet von Natur aus besser mit N:M-Sparsity kompatibel ist als Modelle in Vollpräzision. Um diesen Effekt zu untersuchen, schlagen wir Sparse-BitNet vor, einen einheitlichen Rahmen, der erstmals gleichzeitig 1,58-Bit-Quantisierung und dynamische N:M-Sparsifizierung anwendet und dabei stabiles Training gewährleistet. Über verschiedene Modellgrößen und Trainingsregime hinweg (sparse Pretraining und Dense-to-Sparse-Ansätze) zeigt 1,58-Bit-BitNet durchgängig einen geringeren Leistungsabfall als Vollpräzision-Baselines bei gleichen Sparsity-Levels und toleriert höhere strukturierte Sparsity, bevor es zum Genauigkeitseinbruch kommt. Darüber hinaus erzielt Sparse-BitNet durch die Verwendung unserer maßgeschneiderten Sparse-Tensor-Cores erhebliche Beschleunigungen sowohl im Training als auch im Inference von bis zu 1,30X. Diese Ergebnisse unterstreichen, dass die Kombination von extrem niedriger Bit-Quantisierung mit halbstrukturierter N:M-Sparsity eine vielversprechende Richtung für effiziente LLMs ist. Code verfügbar unter https://github.com/AAzdi/Sparse-BitNet.
Da sich die Videoproduktion zunehmend auf langformatige Erzählformen verlagert, wird die Komposition kurzer Clips zu kohärenten Handlungssträngen immer wichtiger. Bisherige Retrieval-Ansätze bleiben jedoch zum Inferenzzeitpunkt kontextunabhängig, priorisieren lokale semantische Übereinstimmung und vernachlässigen Zustands- und Identitätskonsistenz. Um diese strukturelle Einschränkung zu adressieren, formalisieren wir die Aufgabe des Consistent Video Retrieval (CVR) und führen einen diagnostischen Benchmark ein, der YouCook2, COIN und CrossTask umfasst. Wir schlagen CAST (Context-Aware State Transition) vor, einen leichtgewichtigen Plug-and-Play-Adapter, der mit verschiedenen eingefrorenen Vision-Language-Einbettungsräumen kompatibel ist. Durch die Vorhersage eines zustandsbedingten Residual-Updates (Δ) aus der visuellen Historie führt CAST eine explizite induktive Verzerrung für die latente Zustandsentwicklung ein. Umfangreiche Experimente zeigen, dass CAST die Leistung auf YouCook2 und CrossTask verbessert, auf COIN wettbewerbsfähig bleibt und zero-shot Baselines über verschiedene Foundation-Backbones hinweg konsistent übertrifft. Darüber hinaus liefert CAST ein nützliches Reranking-Signal für Kandidaten aus Black-Box-Videogeneratoren (z.B. Veo) und fördert so temporal kohärentere Fortsetzungen.
Direkte promptbasierte Bearbeitung scheitert häufig an komplexen Transformationen, da vage und subjektive Prompts oft ein nuanciertes Verständnis der erforderlichen Bildänderungen voraussetzen. Unser grundlegender Ansatz ist, dass die Nutzung kompositioneller Bildbearbeitungswerkzeuge anstelle direkter Prompts von strukturierter, agentenbasierter Planung mit expliziter Begründung profitiert, was zu besseren Ergebnissen führt. Dieser strukturierte Planungsrahmen ermöglicht ein effizientes Offline-Reinforcement-Learning (RL) nach dem Training anhand qualitätsbewerteter Trajektorien zur Leistungsverbesserung. Wir stellen ein werkzeugbasiertes agentisches RL-Nachtrainierungsframework vor, das dies durch strukturierte Planung mit Chain-of-Thought-Begründung adressiert. Unsere wichtigsten Beiträge umfassen: (1) Eine werkzeugbasierte agentische Planungsmethodik, die eine kompositionelle Bibliothek orthogonaler primitiver Transformationen, strukturierte Kontextdarstellung und explizite schrittweise Begründung kombiniert, um komplexe Stilisierung in interpretierbare Werkzeugsequenzen zu zerlegen. (2) Eine Pipeline zur synthetischen Datengenerierung, die drei umfangreiche Datensätze (jeweils ∼10.000 Trajektorien) mit Begründungsketten, Plänen und Qualitätsbewertungen erzeugt, da keine bestehenden Datensätze eine solche Aufsicht bieten. Unsere Datensätze und Code sind öffentlich im HuggingFace-Repository verfügbar. (3) Offline-RL-Trainingsmethoden zum Erlernen von Planern mit Begründung als unsere zentralen algorithmischen Beiträge, die durchgängig die Edit-Only-Baseline in visueller Qualität und Befolgungsgenauigkeit der Anweisungen verbessern. (4) Umfassende Evaluation an 4B- und 8B-Parameter Qwen3-VL-Modellen, die zeigt, dass unsere Methoden andere Baselines bei den meisten kompositionellen Aufgaben übertreffen, was durch humanevaluationen validiert wurde.
Wir stellen OfficeQA Pro vor, einen Benchmark zur Bewertung von KI-Agenten im Bereich des geerdeten, dokumentspezifischen Denkens über einen großen und heterogenen Dokumentenkorpus. Der Korpus besteht aus US-Treasury-Bulletins, die einen Zeitraum von fast 100 Jahren umfassen und 89.000 Seiten sowie über 26 Millionen numerische Werte enthalten. OfficeQA Pro besteht aus 133 Fragen, die eine präzise Dokumentenanalyse, -abfrage und analytisches Denken sowohl über unstrukturierte Texte als auch über Tabellendaten erfordern. Führende LLMs wie Claude Opus 4.6, GPT-5.4 und Gemini 3.1 Pro Preview erreichen auf OfficeQA Pro eine Genauigkeit von weniger als 5 %, wenn sie sich auf parametrisches Wissen verlassen, und weniger als 12 % mit zusätzlichem Zugang zum Internet. Selbst wenn sie direkt mit dem Dokumentenkorpus versorgt werden, haben führende Agenten bei über der Hälfte der Fragen Schwierigkeiten und erzielen durchschnittlich 34,1 %. Wir stellen fest, dass die Bereitstellung einer strukturierten Dokumentendarstellung, die mit Databricks' ai_parse_document erzeugt wurde, bei den Agenten einen durchschnittlichen relativen Leistungszuwachs von 16,1 % bewirkt. Wir führen zusätzliche Ablationen durch, um die Auswirkungen von Modellauswahl, Tabellendarstellung, Abfragestrategie und Test-Time-Scaling auf die Leistung zu untersuchen. Trotz dieser Verbesserungen bleibt ein erheblicher Spielraum, bis Agenten als zuverlässig für unternehmensreifes, geerdetes Denken eingestuft werden können.
Autoregressive (AR-)Sprachmodelle bilden Repräsentationen inkrementell durch Vorhersage von links nach rechts, während Diffusions-Sprachmodelle (dLLMs) durch Denoisen vollständiger Sequenzen trainiert werden. Obwohl neuere dLLMs mit der AR-Leistung mithalten können, bleibt unklar, ob Diffusionsziele die internen Repräsentationen über die Tiefe hinweg grundlegend verändern. Wir führen die erste schicht- und tokenweise Repräsentationsanalyse durch, die native dLLMs (LLaDA), native AR-Modelle (Qwen2.5) und AR-initialisierte dLLMs (Dream-7B) vergleicht. Wir stellen fest, dass Diffusionsziele zu anderen, hierarchischeren Abstraktionen mit erheblicher Redundanz in frühen Schichten und reduziertem Recency-Bias führen, während AR-Ziele eng gekoppelte, tiefenabhängige Repräsentationen erzeugen. Entscheidend ist, dass AR-initialisierte dLLMs trotz Diffusionstraining AR-ähnliche Repräsentationsdynamik beibehalten, was einen anhaltenden Initialisierungs-Bias offenbart. Indem wir diese beobachtete Repräsentationsredundanz nutzen, führen wir eine statische, aufgabenagnostische Methode zum Überspringen von Schichten zur Inferenzzeit ein, die keine Architekturänderungen oder KV-Cache-Sharing erfordert. Native dLLMs erreichen eine FLOPs-Reduktion von bis zu 18,75 % bei gleichzeitiger Beibehaltung von über 90 % der Leistung in Reasoning- und Code-Generierungs-Benchmarks, während AR-Modelle unter vergleichbarem Überspringen stark abfallen. Diese Ergebnisse verknüpfen Trainingsziele mit der Repräsentationsstruktur und ermöglichen praktische, cache-orthogonale Effizienzgewinne.
Foundation Models vollziehen einen Wandel von offline arbeitenden Vorhersagesystemen zu eingesetzten Systemen, die über lange Zeiträume hinweg betrieben werden sollen. In realen Einsatzszenarien sind die Zielsetzungen nicht statisch: Domänen verändern sich, Nutzerpräferenzen entwickeln sich weiter und neue Aufgaben tauchen auf, nachdem das Modell bereits ausgeliefert wurde. Dies macht Continual Learning und sofortige Personalisierung von optionalen Funktionen zu zentralen Architekturanforderungen. Dennoch folgen die meisten Anpassungspipelines weiterhin einem Paradigma statischer Gewichte: Nach dem Training (oder nach jedem Anpassungsschritt) verwendet die Inferenz einen einzigen Parametervektor, unabhängig von Nutzerabsicht, Domäne oder instanzspezifischen Randbedingungen. Dies behandelt das trainierte oder angepasste Modell als einen einzelnen Punkt im Parameterraum. In heterogenen und sich kontinuierlich weiterentwickelnden Umgebungen können unterschiedliche Zielsetzungen getrennte zulässige Bereiche im Parameterraum erzeugen, was jeden gemeinsamen Update-Schritt zu einem Kompromiss, zu Interferenz oder zu Überspezialisierung zwingt. In der Folge werden Continual Learning und Personalisierung oft als wiederholtes Überschreiben gemeinsamer Gewichte implementiert, was den Verlust zuvor erlernter Fähigkeiten riskiert. Wir schlagen HY-WU (Weight Unleashing) vor, ein speicherorientiertes Anpassungsframework, das den Anpassungsdruck vom Überschreiben eines einzelnen gemeinsamen Parameterpunkts wegnimmt. HY-WU implementiert funktionalen (Operator-level) Speicher als ein neuronales Modul: einen Generator, der Gewichtsupdates on-the-fly aus der Instanzenbedingung synthetisiert und so instanzspezifische Operatoren ohne Optimierung zur Laufzeit erzeugt.
Die manuelle Optimierung von GPU-Kerneln ist eine anspruchsvolle und zeitaufwändige Aufgabe. Mit der rasanten Entwicklung von LLMs wird die automatisierte GPU-Kernel-Optimierung allmählich zur greifbaren Realität. Allerdings konzentrieren sich aktuelle LLM-gestützte Automatisierungsansätze eng auf Machine-Learning-Anwendungen, wie die Optimierung von PyTorch-Operatoren, und vernachlässigen dabei breitere Domänen wie Sparse-Matrix-Operationen im wissenschaftlichen Rechnen. Die Ausweitung auf diese breiteren Anwendungsbereiche stellt neue Herausforderungen an Benchmarks und Algorithmen. Daher ist die Entwicklung einer allgemeinen Methode zur automatisierten Kernel-Optimierung unser Hauptaugenmerk. In diesem Beitrag begegnen wir dem Fehlen systematischer Auswertungen für Multiszenario-Umgebungen durch die Einführung von MSKernelBench, das mehrere Szenarien abdeckt, darunter grundlegende algebraische Operationen, gängige LLM-Kernel, Sparse-Matrix-Operatoren und Routinen des wissenschaftlichen Rechnens, wobei jeder Bereich sowohl FP32- als auch BF16-Genauigkeit unterstützt. Aufbauend auf diesem Benchmark präsentieren wir CUDAMaster, ein multiagentenbasiertes, hardwarebewusstes System zur Kernel-Optimierung, das Profiling-Informationen nutzt und automatisch die vollständige Toolchain für Kompilierung und Ausführung aufbaut. Experimentelle Ergebnisse zeigen, dass CUDAMaster bei den meisten Operatoren signifikante Beschleunigungen erzielt und Astra um etwa 35% übertrifft. In mehreren Fällen erreicht oder übertrifft seine Leistung die hochoptimierter, proprietärer Bibliotheken wie cuBLAS. Eine Demo, die den ursprünglichen und optimierten Code für jeden Operator zeigt, ist unter https://hanyx2021.github.io/MSKernelBenchDemo/ verfügbar.
Aktuelle generative Video-Weltmodelle zielen darauf ab, die Evolution visueller Umgebungen zu simulieren, sodass ein Beobachter die Szene interaktiv via Kamerasteuerung erkunden kann. Sie gehen jedoch implizit davon aus, dass sich die Welt nur innerhalb des Sichtfelds des Beobachters weiterentwickelt. Sobald ein Objekt den Blickbereich verlässt, wird sein Zustand im Gedächtnis "eingefroren", und das spätere Wiederaufrufen derselben Region spiegelt oft nicht die Ereignisse wider, die in der Zwischenzeit hätten stattfinden sollen. In dieser Arbeit identifizieren und formalisieren wir diese übersehene Einschränkung als das "Out-of-Sight-Dynamics"-Problem, das Video-Weltmodelle daran hindert, eine kontinuierlich fortschreitende Welt abzubilden. Um dieses Problem zu adressieren, schlagen wir LiveWorld vor, einen neuartigen Rahmen, der Video-Weltmodelle um persistente Weltentwicklung erweitert. Anstatt die Welt als statischen Beobachtungsspeicher zu behandeln, modelliert LiveWorld einen persistenten globalen Zustand, der aus einem statischen 3D-Hintergrund und dynamischen Entitäten besteht, die sich auch bei Nichtbeobachtung weiterentwickeln. Um diese unsichtbaren Dynamiken aufrechtzuerhalten, führt LiveWorld einen monitorbasierten Mechanismus ein, der den zeitlichen Verlauf aktiver Entitäten autonom simuliert und deren weiterentwickelte Zustände beim Wiederaufrufen synchronisiert, um räumlich kohärentes Rendering zu gewährleisten. Für die Evaluation führen wir zudem LiveBench ein, einen speziellen Benchmark für die Aufgabe der Aufrechterhaltung von Out-of-Sight-Dynamiken. Umfangreiche Experimente zeigen, dass LiveWorld persistente Ereignisentwicklung und langfristige Szenenkonsistenz ermöglicht und so die Lücke zwischen bestehendem 2D-Beobachtungsgedächtnis und wahrer 4D-dynamischer Weltsimulation schließt. Die Baseline und der Benchmark werden unter https://zichengduan.github.io/LiveWorld/index.html öffentlich verfügbar sein.
Moderne Sprachmodelle verlassen sich nach wie vor auf feste, vordefinierte Subwort-Tokenisierungen. Sobald ein Tokenizer trainiert ist, kann das Sprachmodell nur noch auf dieser festen Granularitätsebene operieren, was oft zu spröden und kontraintuitiven Verhaltensweisen führt – selbst bei ansonsten leistungsstarken Reasoning-Modellen. Wir stellen ByteFlow Net vor, eine neue hierarchische Architektur, die Tokenizer vollständig entfernt und es Modellen stattdessen ermöglicht, ihre eigene Segmentierung von Rohdaten-Byte-Strömen in semantisch bedeutungsvolle Einheiten zu erlernen. ByteFlow Net führt eine kompressionsgesteuerte Segmentierung auf Basis der Coderate latenter Repräsentationen durch, was adaptive Grenzen ergibt und gleichzeitig einen statischen Berechnungsgraphen via Top-K-Auswahl bewahrt. Im Gegensatz zu früheren Methoden zur Selbst-Tokenisierung, die auf spröden Heuristiken mit menschlich entworfenen induktiven Verzerrungen basieren, passt ByteFlow Net die Granularität seiner internen Repräsentation an die Eingabe selbst an. Experimente belegen, dass diese kompressionsbasierte Chunking-Strategie erhebliche Leistungssteigerungen bringt; ByteFlow Net übertrifft sowohl BPE-basierte Transformer als auch frühere Byte-Level-Architekturen. Diese Ergebnisse legen nahe, dass end-to-end, tokenizerfreie Modellierung nicht nur machbar, sondern auch effektiver ist und einen Weg zu adaptiveren und informationsfundierteren Sprachmodellen eröffnet.
Wissensdistillation (KD) wird bei der semantischen Segmentierung häufig zur Komprimierung großer Modelle eingesetzt. Herkömmliche Ansätze bewahren jedoch primär die In-Domain-Genauigkeit, vernachlässigen aber die Out-of-Domain-Generalisierung, die unter Verteilungsverschiebungen entscheidend ist. Diese Einschränkung verschärft sich mit dem Aufkommen visueller Foundation-Modelle (VFMs): Obwohl VFMs eine hohe Robustheit gegenüber ungesehenen Daten aufweisen, beeinträchtigt deren Distillation mit herkömmlicher KD häufig diese Fähigkeit. Wir schlagen Generalizable Knowledge Distillation (GKD) vor, ein mehrstufiges Framework, das die Generalisierungsfähigkeit explizit verbessert. GKD entkoppelt Repräsentationslernen von Aufgabenlernen. In der ersten Stufe erwirbt der Student domänenunabhängige Repräsentationen durch selektive Feature-Distillation; in der zweiten Stufe werden diese Repräsentationen eingefroren und für die Aufgabenanpassung genutzt, wodurch eine Überanpassung an sichtbare Domänen vermieden wird. Um die Übertragbarkeit weiter zu unterstützen, führen wir einen abfragebasierten Soft-Distillationsmechanismus ein, bei dem Studenten-Features als Abfragen an die Lehrer-Repräsentationen fungieren, um übertragbares räumliches Wissen selektiv aus VFMs abzurufen. Umfangreiche Experimente auf fünf Domain-Generalization-Benchmarks zeigen, dass GKD durchgängig bestehende KD-Methoden übertrifft und durchschnittliche Steigerungen von +1,9 % bei Foundation-to-Foundation (F2F) und +10,6 % bei Foundation-to-Local (F2L) Distillation erzielt. Der Code wird unter https://github.com/Younger-hua/GKD verfügbar sein.
In dieser Arbeit behandeln wir das Problem des taktilen Sim-to-Real-Policy-Transfers für kontaktintensive Aufgaben. Bestehende Methoden konzentrieren sich primär auf visuell basierte Sensoren und legen den Schwerpunkt auf die Bildwiedergabequalität, während sie nur stark vereinfachte Modelle für Druck- und Scherkräfte bieten. Infolgedessen weisen diese Modelle für viele geschickte Aufgaben eine große Sim-to-Real-Lücke auf. Hier stellen wir HydroShear vor, einen nicht-holonomen hydroelastischen taktilen Simulator, der den Stand der Technik voranbringt, indem er modelliert: a) Haft-Gleit-Übergänge, b) pfadabhängigen Kraft- und Scherkraftaufbau und c) vollständige SE(3)-Interaktionen zwischen Objekt und Sensor. HydroShear erweitert hydroelastische Kontaktmodelle unter Verwendung von Signed Distance Functions (SDFs), um die Verschiebungen der Oberflächenpunkte eines Eindringkörpers während der physikalischen Interaktion mit der Sensormembran zu verfolgen. Unser Ansatz erzeugt physikalisch basierte, recheneffiziente Kraftfelder aus beliebigen wasserdichten Geometrien und bleibt dabei agnostisch gegenüber der zugrundeliegenden Physik-Engine. In Experimenten mit GelSight Mini-Sensoren reproduziert HydroShear im Vergleich zu bestehenden Methoden die reale taktile Scherung treuer. Diese Genauigkeit ermöglicht einen Zero-Shot-Sim-to-Real-Transfer von Reinforcement-Learning-Policies über vier Aufgaben hinweg: Stift-Einfügung, Behälter-Befüllung, Bücher-Einräumen zum Einfügen und Schubladen-Ziehen zur feinen Greifersteuerung unter Rutschbedingungen. Unsere Methode erreicht eine durchschnittliche Erfolgsrate von 93 % und übertrifft damit Policies, die auf taktilen Bildern trainiert wurden (34 %), sowie alternative Schersimulationsmethoden (58 %–61 %).
Vielfältige Ausgaben in der Textgenerierung sind für eine effektive Erkundung in komplexen Denkaufgaben notwendig, wie z.B. Code-Generierung und mathematische Problemlösungen. Solche Pass@k-Probleme profitieren von unterschiedlichen Kandidaten, die den Lösungsraum abdecken. Herkömmliche Sampling-Ansätze verschwenden jedoch oft Rechenressourcen für repetitive Fehlermodi. Während Diffusions-Sprachmodelle sich als wettbewerbsfähige Alternative zum vorherrschenden autoregressiven Paradigma etabliert haben, bleiben sie anfällig für diese Redundanz, wobei unabhängige Stichproben häufig in ähnliche Modi kollabieren. Um dies zu adressieren, schlagen wir eine trainingsfreie, kostengünstige Intervention vor, um die generative Vielfalt in Diffusions-Sprachmodellen zu erhöhen. Unser Ansatz modifiziert Zwischenstichproben in einem Batch sequentiell, wobei jede Stichprobe vom Merkmalsraum vorheriger Stichproben abgestoßen wird und so Redundanz aktiv bestraft. Im Gegensatz zu früheren Methoden, die ein Neutraining oder Beam Search erfordern, verursacht unsere Strategie einen vernachlässigbaren Rechenaufwand und stellt gleichzeitig sicher, dass jede Stichprobe einen einzigartigen Perspektivenbeitrag zum Batch leistet. Wir evaluieren unsere Methode an den Benchmarks HumanEval und GSM8K unter Verwendung des LLaDA-8B-Instruct-Modells. Unsere Ergebnisse demonstrieren eine signifikant verbesserte Diversität und Pass@k-Leistung über verschiedene Temperatureinstellungen hinweg. Als einfache Modifikation des Sampling-Prozesses bietet unsere Methode eine sofortige, kostengünstige Verbesserung für aktuelle und zukünftige Diffusions-Sprachmodelle in Aufgaben, die von einer vielfältigen Lösungssuche profitieren. Unser Code ist verfügbar unter https://github.com/sean-lamont/odd.
Flow Maps ermöglichen die Erzeugung hochwertiger Bilder in einem einzigen Vorwärtsdurchlauf. Im Gegensatz zu iterativen Diffusionsmodellen verhindert ihr Fehlen eines expliziten Sampling-Pfads jedoch die Einbindung externer Randbedingungen für bedingte Generierung und die Lösung inverser Probleme. Wir stellen Variational Flow Maps vor, einen Rahmen für bedingtes Sampling, der die Perspektive der Konditionierung von der "Steuerung eines Sampling-Pfads" hin zum "Lernen des richtigen Anfangsrauschens" verschiebt. Konkret lernen wir bei gegebener Beobachtung ein Rausch-Adapter-Modell, das eine Rauschverteilung ausgibt, sodass die Samples nach der Abbildung in den Datenraum via Flow Map die Beobachtung und die Datenpriori respektieren. Zu diesem Zweck entwickeln wir ein prinzipielles variationsbasiertes Ziel, das den Rausch-Adapter und den Flow Map gemeinsam trainiert, um die Rausch-Daten-Ausrichtung zu verbessern, sodass das Sampling aus komplexen Datenposteriors mit einem einfachen Adapter erreicht wird. Experimente zu verschiedenen inversen Problemen zeigen, dass VFMs gut kalibrierte bedingte Samples in einem (oder wenigen) Schritten erzeugen. Für ImageNet erreicht VFM eine wettbewerbsfähige Qualität, während es den Sampling-Prozess im Vergleich zu alternativen iterativen Diffusions-/Flow-Modellen um Größenordnungen beschleunigt. Code ist verfügbar unter https://github.com/abbasmammadov/VFM.
Folien sind ein entscheidendes Medium zur Informationsvermittlung in präsentationsorientierten Kontexten wie Wissenschaft, Bildung und Wirtschaft. Trotz ihrer Bedeutung ist die Erstellung hochwertiger Folien nach wie vor zeitaufwendig und kognitiv anspruchsvoll. Jüngste Fortschritte bei generativen Modellen, wie z.B. Nano Banana Pro, machen die automatisierte Folien-Erzeugung zunehmend praktikabel. Bisherige Evaluierungen der Folien-Generierung sind jedoch oft grobmaschig und stützen sich auf holistische Bewertungen, was eine genaue Einschätzung der Modellfähigkeiten oder die Nachverfolgung bedeutender Fortschritte auf diesem Gebiet erschwert. In der Praxis stellt das Fehlen feingranularer, überprüfbarer Bewertungskriterien einen kritischen Engpass für Forschung und praktischen Einsatz dar. In diesem Beitrag stellen wir PresentBench vor, einen feingranularen, kriterienbasierten Benchmark zur Evaluierung automatischer Folien-Generierung für reale Anwendungsszenarien. Er umfasst 238 Evaluierungsinstanzen, die jeweils mit den für die Folien-Erstellung notwendigen Hintergrundmaterialien ergänzt werden. Darüber hinaus haben wir manuell durchschnittlich 54,1 Checklisten-Punkte pro Instanz entworfen, die jeweils als binäre Frage formuliert sind, um eine feingranulare, instanzspezifische Bewertung der generierten Folien zu ermöglichen. Umfangreiche Experimente zeigen, dass PresentBench zuverlässigere Evaluierungsergebnisse liefert als bestehende Methoden und eine signifikant stärkere Übereinstimmung mit menschlichen Präferenzen aufweist. Darüber hinaus macht unser Benchmark deutlich, dass NotebookLM andere Methoden zur Folien-Generierung deutlich übertrifft, was den erheblichen Fortschritt in diesem Bereich unterstreicht.
Die Vorhersage, wie Zellen auf genetische Perturbationen reagieren, ist grundlegend für das Verständnis von Genfunktion, Krankheitsmechanismen und der Entwicklung von Therapien. Während neuere Deep-Learning-Ansätze vielversprechende Ergebnisse bei der Modellierung von Einzelzell-Perturbationsantworten gezeigt haben, leiden sie unter mangelnder Generalisierbarkeit über verschiedene Zelltypen und Perturbationskontexte hinweg, bedingt durch begrenzte kontextuelle Informationen während der Generierung. Wir stellen PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation) vor, ein neuartiges Framework, das Retrieval-Augmented Generation über traditionelle Sprachmodell-Anwendungen hinaus auf die Zellbiologie erweitert. Im Gegensatz zu Standard-RAG-Systemen, die für Textretrieval mit vortrainierten LLMs konzipiert sind, fehlen für das Perturbations-Retrieval etablierte Ähnlichkeitsmetriken, und es muss erlernt werden, was einen relevanten Kontext ausmacht, was differentierbares Retrieval essenziell macht. PT-RAG adressiert dies durch eine zweistufige Pipeline: Zuerst werden Kandidaten-Perturbationen K unter Verwendung von GenePT-Embeddings abgerufen, dann wird die Auswahl adaptiv durch Gumbel-Softmax-Diskretabtastung verfeinert, die sowohl vom Zellzustand als auch von der Eingabe-Perturbation abhängt. Dieser zelltypsensitive, differentierbare Retrieval-Ansatz ermöglicht eine end-to-end-Optimierung des Retrieval-Ziels gemeinsam mit der Generierung. Auf dem Replogle-Nadig-Datensatz für Einzelgen-Perturbationen demonstrieren wir, dass PT-RAG unter identischen experimentellen Bedingungen sowohl STATE als auch einfaches RAG übertrifft, mit den stärksten Verbesserungen bei den Verteilungsähnlichkeitsmetriken (W_1, W_2). Bemerkenswerterweise ist das dramatische Scheitern des einfachen RAG an sich eine zentrale Erkenntnis: Es zeigt, dass differentierbares, zelltypsensitives Retrieval in diesem Bereich unerlässlich ist und dass naives Retrieval die Leistung aktiv verschlechtern kann. Unsere Ergebnisse etablieren Retrieval-Augmented Generation als ein vielversprechendes Paradigma für die Modellierung zellulärer Antworten auf Genperturbationen. Der Code zur Reproduktion unserer Experimente ist verfügbar unter https://github.com/difra100/PT-RAG_ICLR.
Generative Diffusionsmodelle werden zunehmend zur Datenanreicherung in der medizinischen Bildgebung eingesetzt, jedoch können Text-Prompts keine kausalen Trainingsdaten erzeugen. Neues Prompten startet den gesamten Generierungspfad neu und verändert dabei Anatomie, Textur und Hintergrund. Bearbeitungsmethoden auf Inversionsbasis führen Rekonstruktionsfehler ein, die strukturelle Abweichungen verursachen. Wir stellen MedSteer vor, ein trainierungsfreies Framework zur Aktivierungssteuerung für die endoskopische Synthese. MedSteer identifiziert einen Pathologie-Vektor für jedes kontrastive Prompt-Paar in den Cross-Attention-Schichten eines Diffusion Transformers. Zur Inferenzzeit lenkt es die Bildaktivierungen entlang dieses Vektors und erzeugt dabei von Grund auf kontrafaktische Paare, bei denen der einzige Unterschied das gesteuerte Konzept ist. Alle anderen Strukturen bleiben durch die Konstruktion erhalten. Wir evaluieren MedSteer in drei Experimenten mit Kvasir v3 und HyperKvasir. Bei der kontrafaktischen Generierung über drei klinische Konzeptpaare erreicht MedSteer Flip-Raten von 0,800, 0,925 und 0,950 und übertrifft damit die beste inversionsbasierte Baseline sowohl in der Konzept-Flip-Rate als auch in der Strukturerhaltung. Bei der Entwirrung von Färbungen erreicht MedSteer eine 75%ige Entfernungsrate gegenüber 20% (PnP) und 10% (h-Edit). Beim nachgelagerten Polypennachweis erzielt eine Anreicherung mit MedSteer-Kontrafaktika eine ViT-AUC von 0,9755 gegenüber 0,9083 für mengenmäßig angepasstes Neuprompten, was bestätigt, dass die kontrafaktische Struktur den Gewinn treibt. Code ist unter https://github.com/phamtrongthang123/medsteer verfügbar.
Der städtische Verkehrsfluss wird durch die komplexe, nichtlineare Wechselwirkung zwischen der Flächennutzungskonfiguration und der räumlich-zeitlich heterogenen Mobilitätsnachfrage bestimmt. Konventionelle globale Regressions- und Zeitreihenmodelle können diese multiskaligen Dynamiken über mehrere Verkehrsmittel hinweg nicht gleichzeitig erfassen. Diese Studie schlägt einen GeoAI-Hybrid-Analyseframework vor, der sequenziell Multiskalige Geographisch Gewichtete Regression (MGWR), Random Forest (RF) und Räumlich-Zeitliche Graph Convolutional Networks (ST-GCN) integriert, um die räumlich-zeitliche Heterogenität von Verkehrsflussmustern und deren Wechselwirkung mit der Flächennutzung über drei Verkehrsmodi hinweg zu modellieren: motorisierter Individualverkehr, öffentlicher Personennahverkehr und aktive Mobilität. Die Anwendung des Frameworks auf einen empirisch kalibrierten Datensatz von 350 Verkehrsanalysezonen in sechs Städten mit zwei kontrastierenden Stadtmorphologien ergibt vier zentrale Erkenntnisse: (i) Der GeoAI-Hybrid-Ansatz erreicht einen mittleren quadratischen Fehler (RMSE) von 0,119 und ein Bestimmtheitsmaß (R²) von 0,891 und übertrifft damit alle Vergleichsmodelle um 23–62 %; (ii) Eine SHAP-Analyse identifiziert die Flächennutzungsmischung als stärksten Prädiktor für Kfz-Verkehrsströme und die Haltestellendichte als stärksten Prädiktor für den öffentlichen Nahverkehr; (iii) DBSCAN-Clustering identifiziert fünf funktional distincte städtische Verkehrstypologien mit einem Silhouetten-Score von 0,71, und die Residuen des GeoAI-Hybrid-Ansatzes weisen einen Moran-I-Wert von 0,218 (p<0,001) auf, was einer Reduktion von 72 % gegenüber OLS-Baselines entspricht; und (iv) Städteübergreifende Transfer-Experimente zeigen eine moderate Übertragbarkeit innerhalb von Clustern (R²≥0,78) und eine begrenzte generalisierbarkeit zwischen Clustern, was die Primärbedeutung des stadtmorphologischen Kontexts unterstreicht. Das Framework bietet Planern und Verkehrsingenieuren ein interpretierbares, skalierbares Werkzeugkit für evidenzbasiertes multimodales Mobilitätsmanagement und die Gestaltung von Flächennutzungspolitiken.
Die Verfolgung beliebiger Punkte (Tracking any Point, TAP) ist eine grundlegende, aber anspruchsvolle Aufgabe in der Computer Vision, die hohe Präzision und langfristige Bewegungsanalyse erfordert. Jüngste Versuche, RGB-Bilder und Ereignisströme (Events) zu kombinieren, waren vielversprechend, basieren jedoch typischerweise auf synchroner oder nicht-adaptiver Fusion, was zu zeitlichen Fehlanpassungen und erheblichen Leistungseinbußen führt, wenn eine Modalität versagt. Wir stellen TAPFormer vor, ein transformer-basiertes Framework, das eine asynchrone, zeitlich konsistente Fusion von Bildern und Events für eine robuste und hochfrequente Verfolgung beliebiger Punkte durchführt. Unsere zentrale Innovation ist ein Transient Asynchronous Fusion (TAF)-Mechanismus, der die zeitliche Entwicklung zwischen diskreten Bildern explizit durch kontinuierliche Event-Updates modelliert und so die Lücke zwischen niederfrequenten Bildern und hochfrequenten Events überbrückt. Zusätzlich passt ein Cross-modal Locally Weighted Fusion (CLWF)-Modul die räumliche Aufmerksamkeit adaptiv entsprechend der Zuverlässigkeit der Modalität an, was selbst bei Unschärfe oder geringer Beleuchtung stabile und diskriminative Merkmale liefert. Um unseren Ansatz unter realistischen Bedingungen zu evaluieren, haben wir einen neuartigen realweltlichen Frame-Event-TAP-Datensatz unter verschiedenen Beleuchtungs- und Bewegungsbedingungen erstellt. Unsere Methode übertrifft existierende Punkt-Tracker und erreicht eine Verbesserung des durchschnittlichen Pixel-Fehlers innerhalb eines Schwellenwerts um 28,2 %. Darüber hinaus erzielt unser Tracker auf standardisierten Punkt-Tracking-Benchmarks durchweg die beste Leistung. Projektwebsite: tapformer.github.io
Moderne grafische Benutzeroberflächen-Agenten (GUI-Agenten) auf Basis von Vision-Language-Modellen (VLM) sollen nicht nur Aktionen präzise ausführen, sondern auch Nutzeranweisungen mit geringer Latenz beantworten. Während sich bestehende Forschung zur Sicherheit von GUI-Agenten hauptsächlich auf die Manipulation der Aktionskorrektheit konzentriert, sind die Sicherheitsrisiken im Zusammenhang mit der Antworteffizienz weitgehend unerforscht. In dieser Arbeit stellen wir SlowBA vor, einen neuartigen Backdoor-Angriff, der die Reaktionsfähigkeit von VLM-basierten GUI-Agenten ins Visier nimmt. Der Kernansatz besteht darin, die Antwortlatenz durch die Induktion übermäßig langer Reasoning-Ketten unter bestimmten Trigger-Mustern zu manipulieren. Um dies zu erreichen, schlagen wir eine zweistufige Backdoor-Injektionsstrategie auf Belohnungsebene (RBI) vor, die zunächst das Langantwort-Format aligniert und anschließend triggerbewusste Aktivierung durch Reinforcement Learning erlernt. Zusätzlich entwerfen wir realistische Pop-up-Fenster als Trigger, die natürlich in GUI-Umgebungen auftreten, um die Heimlichkeit des Angriffs zu verbessern. Umfangreiche Experimente über mehrere Datensätze und Baseline-Modelle hinweg zeigen, dass SlowBA die Antwortlänge und -latenz signifikant erhöhen kann, während die Aufgabengenauigkeit weitgehend erhalten bleibt. Der Angriff bleibt selbst bei geringen Poisoning-Raten und unter verschiedenen Abwehrszenarien wirksam. Diese Ergebnisse decken eine bisher übersehene Sicherheitslücke in GUI-Agenten auf und unterstreichen die Notwendigkeit von Abwehrmaßnahmen, die sowohl Aktionskorrektheit als auch Antworteffizienz berücksichtigen. Code ist verfügbar unter https://github.com/tu-tuing/SlowBA.
Wir untersuchen die Selbstdiffusiophorese einer kugelförmigen, chemisch aktiven Partikel in der Nähe einer ebenen, undurchlässigen Wand, mit einem Fokus auf den Einfluss der Partikelorientierung auf den Antrieb. Wir analysieren eine Janus-Partikel mit asymmetrischer chemischer Oberflächenaktivität, die aus einer kleinen inerten Region innerhalb einer katalytisch aktiven Kappe besteht. Während numerische Simulationen zur Untersuchung solcher Partikel eingesetzt wurden, stoßen diese auf Schwierigkeiten bei der Auflösung von Strömung und Transport im extremen Nahwandbereich aufgrund geometrischer Beschränkung und steiler Gradienten der Solutkonzentration. Wir begegnen dieser Einschränkung durch eine asymptotische Analyse im Grenzfall des Nahkontakts, bei dem der Spalt zwischen Partikel und Wand schmal ist. Insbesondere betrachten wir den ausgezeichneten Grenzfall, in dem die inerte Region asymptotisch vergleichbar groß ist wie das Lubrikationsgebiet. Wir analysieren eine achsensymmetrische Konfiguration, bei der die inerte Seite parallel zur Wand orientiert ist, und erweitern die Analyse auf leicht geneigte Orientierungen. Wir stellen fest, dass das Kippverhalten bestimmt, ob eine geneigte Partikel zur achsensymmetrischen Lage zurückrotiert oder sich weiter umorientiert, und charakterisieren so ihre Rotationsstabilität im Nahkontaktbereich.
Imitation Learning (IL) ermöglicht es Robotern, Manipulationsfähigkeiten anhand von Experten-Demonstrationen zu erlernen. Diffusion Policy (DP) modelliert multimodales Expertenverhalten, leidet jedoch unter Leistungseinbußen bei zunehmendem Beobachtungshorizont, was die langfristige Manipulation einschränkt. Wir schlagen Self-Evolving Gated Attention (SEGA) vor, ein temporales Modul, das über gated attention einen zeitlich sich entwickelnden latenten Zustand aufrechterhält. Dies ermöglicht effiziente rekurrente Updates, die langfristige Beobachtungen in eine feste Größen komprimieren und gleichzeitig irrelevante temporale Informationen herausfiltern. Die Integration von SEGA in DP führt zu Self-Evolving Diffusion Policy (SeedPolicy), was den Engpass in der temporalen Modellierung beseitigt und eine skalierbare Horizonterweiterung mit moderatem Overhead ermöglicht. Im RoboTwin 2.0 Benchmark mit 50 Manipulationsaufgaben übertrifft SeedPolicy DP und andere IL-Baselines. Im Durchschnitt über CNN- und Transformer-Backbones hinweg erzielt SeedPolicy eine relative Verbesserung von 36,8 % unter sauberen Bedingungen und eine relative Verbesserung von 169 % unter randomisierten, anspruchsvollen Bedingungen gegenüber DP. Im Vergleich zu Vision-Language-Action-Modellen wie RDT mit 1,2 Mrd. Parametern erreicht SeedPolicy eine vergleichbare Leistung mit ein bis zwei Größenordnungen weniger Parametern, was auf hohe Effizienz und Skalierbarkeit hindeutet. Diese Ergebnisse etablieren SeedPolicy als eine state-of-the-art Imitation-Learning-Methode für langfristige robotische Manipulation. Code ist verfügbar unter: https://github.com/Youqiang-Gui/SeedPolicy.
Weltmodelle ermöglichen Planung im vorhergesagten imaginären Zukunftsraum und bieten einen vielversprechenden Rahmen für verkörpertes Navigieren. Allerdings fehlt es bestehenden Navigationsweltmodellen oft an aktionskonditionierter Konsistenz, sodass visuell plausible Vorhersagen bei mehrstufiger Abfolge dennoch abdriften und die Planung beeinträchtigen können. Zudem erfordert ein effizienter Einsatz wenigstufige Diffusionsinferenz, aber bestehende Destillationsmethoden bewahren die Abfolgekonsistenz nicht explizit, was zu einer Trainings-Inferenz-Diskrepanz führt. Um diese Herausforderungen zu adressieren, schlagen wir MWM vor, ein mobiles Weltmodell für planungsbasierte Bildzielnavigation. Konkret führen wir einen zweistufigen Trainingsrahmen ein, der Struktur-Pretraining mit aktionskonditionierter Konsistenz (ACC) als Nachbereitung kombiniert, um die aktionskonditionierte Abfolgekonsistenz zu verbessern. Weiterhin führen wir Inferenz-konsistente Zustandsdestillation (ICSD) für wenigstufige Diffusionsdestillation mit verbesserter Abfolgekonsistenz ein. Unsere Experimente mit Benchmark- und realen Aufgaben demonstrieren konsistente Verbesserungen in visueller Qualität, Trajektoriengenauigkeit, Planungserfolg und Inferenzeffizienz. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.