Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Eine vorherrschende Annahme im Post-Training von LLMs besagt, dass überwachtes Feintuning (SFT) memorisiert, während Reinforcement Learning (RL) generalisiert. Wir überprüfen diese Behauptung für Reasoning-SFT mit langen Chain-of-Thought (CoT)-Supervisionsdaten und stellen fest, dass domänenübergreifende Generalisierung nicht abwesend, sondern bedingt ist – gemeinsam geprägt durch Optimierungsdynamik, Trainingsdaten und Basismodellfähigkeiten. Einige berichtete Fehlschläge sind Artefakte von Unteroptimierung: Die domänenübergreifende Leistung verschlechtert sich zunächst, bevor sie sich bei längerem Training erholt und verbessert (ein Dip-and-Recovery-Muster), sodass Checkpoints nach kurzem Training die Generalisierung unterschätzen können. Datenqualität und -struktur sind beide entscheidend: qualitativ niedrige Lösungen schaden der Generalisierung breit, während verifizierte lange-CoT-Abläufe konsistente domänenübergreifende Gewinne bringen. Die Modellfähigkeit ist wesentlich: leistungsstärkere Modelle internalisieren übertragbare prozedurale Muster (z.B. Backtracking) selbst aus einem einfachen Arithmetik-Spiel, während schwächere lediglich oberflächliche Weitschweifigkeit imitieren. Diese Generalisierung ist jedoch asymmetrisch: Das Reasoning verbessert sich, während die Sicherheit abnimmt, was die Frage neu formuliert – nicht ob Reasoning-SFT generalisiert, sondern unter welchen Bedingungen und zu welchem Preis.
Große Sprachmodell-Agenten (LLM) wie OpenClaw nutzen wiederverwendbare Fähigkeiten, um komplexe Aufgaben auszuführen, doch diese Fähigkeiten bleiben nach dem Einsatz weitgehend statisch. Infolgedessen werden ähnliche Arbeitsabläufe, Werkzeugnutzungsmuster und Fehlermodi von verschiedenen Nutzern immer wieder neu entdeckt, was verhindert, dass sich das System durch Erfahrung verbessert. Obwohl Interaktionen verschiedener Nutzer komplementäre Signale darüber liefern, wann eine Fähigkeit funktioniert oder versagt, fehlt bestehenden Systemen ein Mechanismus, um solche heterogenen Erfahrungen in zuverlässige Fähigkeitsaktualisierungen umzuwandeln. Um diese Probleme zu adressieren, stellen wir SkillClaw vor, einen Rahmen für die kollektive Evolution von Fähigkeiten in Multi-User-Agenten-Ökosystemen, der nutzerübergreifende und zeitlich verteilte Interaktionen als primäres Signal zur Verbesserung von Fähigkeiten behandelt. SkillClaw aggregiert kontinuierlich während der Nutzung erzeugte Trajektorien und verarbeitet sie mit einem autonomen Evolver, der wiederkehrende Verhaltensmuster identifiziert und diese in Aktualisierungen des Fähigkeitensatzes übersetzt, indem bestehende Fähigkeiten verfeinert oder um neue Funktionalitäten erweitert werden. Die resultierenden Fähigkeiten werden in einem gemeinsamen Repository verwaltet und nutzerübergreifend synchronisiert, sodass Verbesserungen, die in einem Kontext entdeckt werden, systemweit verbreitet werden können, ohne dass Nutzer zusätzlichen Aufwand betreiben müssen. Durch die Integration von Multi-User-Erfahrungen in fortlaufende Fähigkeitsaktualisierungen ermöglicht SkillClaw nutzerübergreifenden Wissenstransfer und kumulative Kompetenzverbesserung. Experimente auf WildClawBench zeigen, dass SkillClaw mit begrenzten Interaktionen und Feedback die Leistung von Qwen3-Max in realen Agentenszenarien signifikant verbessert.
Wir stellen HY-Embodied-0.5 vor, eine Familie von Foundation-Modellen, die speziell für den Einsatz in realen, verkörperten Agenten (Embodied Agents) entwickelt wurden. Um die Lücke zwischen allgemeinen Vision-Language-Modellen (VLMs) und den Anforderungen verkörperter Agenten zu schließen, wurden unsere Modelle entwickelt, um die zentralen Fähigkeiten der verkörperten Intelligenz zu verbessern: räumliche und zeitliche visuelle Wahrnehmung sowie erweitertes verkörpertes Schließen für Vorhersage, Interaktion und Planung. Die HY-Embodied-0.5-Suite umfasst zwei Hauptvarianten: ein effizientes Modell mit 2B aktivierten Parametern für den Einsatz auf Edge-Geräten und ein leistungsstarkes Modell mit 32B aktivierten Parametern für komplexe Reasoning-Aufgaben. Um die für verkörperte Aufgaben essentielle, feingranulare visuelle Wahrnehmung zu unterstützen, setzen wir eine Mixture-of-Transformers (MoT)-Architektur ein, die eine modalitätsspezifische Verarbeitung ermöglicht. Durch die Integration latenter Tokens verbessert dieses Design effektiv die perzeptuelle Repräsentation der Modelle. Um die Reasoning-Fähigkeiten zu steigern, führen wir ein iteratives, sich selbst entwickelndes Post-Training-Paradigma ein. Des Weiteren nutzen wir On-Policy-Distillation, um die erweiterten Fähigkeiten des großen Modells auf die kleinere Variante zu übertragen und so das Leistungspotenzial des kompakten Modells zu maximieren. Umfangreiche Evaluierungen über 22 Benchmarks hinweg, die visuelle Wahrnehmung, räumliches Schließen und verkörpertes Verständnis abdecken, demonstrieren die Effektivität unseres Ansatzes. Unser MoT-2B-Modell übertrifft State-of-the-Art-Modelle ähnlicher Größe in 16 Benchmarks, während die 32B-Variante eine mit Spitzenmodellen wie Gemini 3.0 Pro vergleichbare Leistung erzielt. In nachgelagerten Robotiksteuerungs-Experimenten nutzen wir unsere robuste VLM-Basis, um ein effektives Vision-Language-Action (VLA)-Modell zu trainieren, das überzeugende Ergebnisse in realen physischen Evaluierungen erzielt. Code und Modelle sind unter https://github.com/Tencent-Hunyuan/HY-Embodied quelloffen verfügbar.
Text-to-Video-Diffusionsmodelle ermöglichen eine offene Videosynthese, haben jedoch oft Schwierigkeiten, die korrekte Anzahl von Objekten zu generieren, die in einer Eingabeaufforderung angegeben ist. Wir stellen NUMINA vor, ein trainierungsfreies Identify-then-Guide-Framework zur Verbesserung der numerischen Übereinstimmung. NUMINA identifiziert Inkonsistenzen zwischen Eingabeaufforderung und Layout, indem es diskriminative Selbst- und Kreuz-Attentions-Köpfe auswählt, um ein zählbares latentes Layout abzuleiten. Anschließend verfeinert es dieses Layout konservativ und moduliert die Kreuz-Attention, um die Regeneration zu steuern. Auf der eingeführten CountBench verbessert NUMINA die Zählgenauigkeit um bis zu 7,4 % bei Wan2.1-1.3B sowie um 4,9 % bzw. 5,5 % bei 5B- und 14B-Modellen. Darüber hinaus wird die CLIP-Übereinstimmung verbessert, während die zeitliche Konsistenz erhalten bleibt. Diese Ergebnisse zeigen, dass strukturelle Führung die Suche nach Ausgangspunkten und die Verbesserung von Eingabeaufforderungen ergänzt und einen praktischen Weg zu zählgenauer Text-zu-Video-Diffusion bietet. Der Code ist verfügbar unter https://github.com/H-EmbodVis/NUMINA.
KI-Agents können möglicherweise Ihren Posteingang automatisieren, aber können sie auch andere Routineaspekte Ihres Lebens automatisieren? Alltägliche Online-Aufgaben bieten ein realistisches, aber noch ungelöstes Testfeld für die Bewertung der nächsten Generation von KI-Agents. Zu diesem Zweck stellen wir ClawBench vor, ein Evaluierungsframework mit 153 einfachen Aufgaben, die Menschen regelmäßig in ihrem Leben und ihrer Arbeit bewältigen müssen. Diese Aufgaben erstrecken sich über 144 Live-Plattformen in 15 Kategorien, vom Abschluss von Einkäufen und der Buchung von Terminen bis zur Einreichung von Jobbewerbungen. Diese Aufgaben erfordern anspruchsvollere Fähigkeiten als bestehende Benchmarks, wie das Extrahieren relevanter Informationen aus benutzerbereitgestellten Dokumenten, die Navigation durch mehrstufige Workflows auf verschiedenen Plattformen und schreibintensive Operationen wie das korrekte Ausfüllen detaillierter Formulare. Im Gegensatz zu bestehenden Benchmarks, die Agents in Offline-Sandboxes mit statischen Seiten testen, operiert ClawBench auf Produktions-Websites und bewahrt so die volle Komplexität, Dynamik und Herausforderungen realer Web-Interaktionen. Eine leichtgewichtige Abfangschicht erfasst und blockiert nur die finale Übermittlungsanfrage, was eine sichere Evaluation ohne reale Nebenwirkungen gewährleistet. Unsere Auswertungen von 7 Spitzenmodellen zeigen, dass sowohl proprietäre als auch Open-Source-Modelle nur einen kleinen Teil dieser Aufgaben bewältigen können. Beispielsweise erreicht Claude Sonnet 4.6 lediglich 33,3%. Fortschritte bei ClawBench bringen uns KI-Agents näher, die als zuverlässige Allzweck-Assistenten fungieren können.
In diesem Beitrag stellen wir MegaStyle vor, eine neuartige und skalierbare Datenkuratierungspipeline, die einen stilintern konsistenten, stilübergreifend diversen und hochwertigen Stildatensatz erstellt. Dies erreichen wir durch die Nutzung der konsistenten Text-zu-Bild-Stilabbildungsfähigkeit aktueller großer generativer Modelle, die Bilder im gleichen Stil aus einer gegebenen Stilbeschreibung generieren können. Auf dieser Grundlage kuratieren wir eine diverse und ausgewogene Prompt-Galerie mit 170.000 Stil-Prompts und 400.000 Inhalts-Prompts und generieren über Inhalts-Stil-Prompt-Kombinationen den großangelegten Stildatensatz MegaStyle-1.4M. Mit MegaStyle-1.4M schlagen wir styliüberwachtes kontrastives Lernen vor, um einen Stil-Encoder (MegaStyle-Encoder) für die Extraktion aussagekräftiger, stilspezifischer Repräsentationen zu feinabstimmen, und wir trainieren ebenfalls ein FLUX-basiertes Stiltransfermodell (MegaStyle-FLUX). Umfangreiche Experimente belegen die Bedeutung der Wahrung von Stilkonsistenz innerhalb eines Stils, Stilvielfalt zwischen Stilen und hoher Qualität für Stildatensätze sowie die Wirksamkeit des vorgeschlagenen MegaStyle-1.4M. Darüber hinaus bieten MegaStyle-Encoder und MegaStyle-FLUX, wenn sie auf MegaStyle-1.4M trainiert werden, zuverlässige Stilähnlichkeitsmessung und generalisierbaren Stiltransfer und leisten damit einen bedeutenden Beitrag zur Stiltransfer-Community. Weitere Ergebnisse sind auf unserer Projektwebsite https://jeoyal.github.io/MegaStyle/ verfügbar.
Performance, die Externalisierung von Absicht, Emotion und Persönlichkeit durch visuelles, vokales und zeitliches Verhalten, ist es, was eine Figur lebendig macht. Das Erlernen solcher Performance aus Videos ist eine vielversprechende Alternative zu traditionellen 3D-Pipelines. Allerdings haben bestehende Videomodelle Schwierigkeiten, hohe Ausdrucksstärke, Echtzeit-Inferenz und langfristige Identitätsstabilität gleichzeitig zu erreichen – eine Spannung, die wir das Performance-Trilemma nennen. Konversation ist das umfassendste Performance-Szenario, da Figuren gleichzeitig sprechen, zuhören, reagieren und Emotionen zeigen, während sie ihre Identität über die Zeit hinweg beibehalten. Um dies zu adressieren, präsentieren wir LPM 1.0 (Large Performance Model) mit Fokus auf unipersonale Vollduplex audiovisuelle Konversations-Performance. Konkret bauen wir einen multimodalen, menschenzentrierten Datensatz durch strikte Filterung, Sprechen-Zuhören Audio-Video-Paarung, Performance-Verständnis und identitätsbewusste Multi-Referenz-Extraktion auf; trainieren einen 17-Milliarden-Parameter Diffusion Transformer (Base LPM) für hochgradig kontrollierbare, identitätskonsistente Performance durch multimodale Konditionierung; und destillieren ihn in einen kausalen Streaming-Generator (Online LPM) für latenzarme, unendlich lange Interaktion. Zur Inferenzzeit generiert LPM 1.0, gegeben ein Charakterbild mit identitätsbewussten Referenzen, Zuhör-Videos aus User-Audio und Sprech-Videos aus synthetisiertem Audio, mit Text-Prompts zur Bewegungssteuerung – alles in Echtzeit mit identitätsstabiler, unendlich langer Generierung. LPM 1.0 dient somit als visuelle Engine für Konversationsagenten, Live-Streaming-Charaktere und Spiel-NSCs. Um dieses Szenario systematisch zu evaluieren, schlagen wir LPM-Bench vor, den ersten Benchmark für interaktive Charakter-Performance. LPM 1.0 erzielt state-of-the-art Ergebnisse in allen evaluierten Dimensionen bei gleichbleibender Echtzeit-Inferenz.
Personalisierte mobile Agenten, die Nutzerpräferenzen inferieren und proaktive Unterstützung kalibrieren, bergen großes Potenzial als alltägliche digitale Assistenten. Bisherige Benchmarks erfassen jedoch nicht, was dies erfordert. Bestehende Arbeiten evaluieren entweder die Präferenzermittlung aus statischen Verläufen oder die Absichtsprognose in festen Kontexten. Keiner dieser Ansätze testet, ob ein Agent fehlende Präferenzen durch Interaktion ermitteln kann oder ob er in einer live-GUI-Umgebung entscheiden kann, wann er eingreifen, Zustimmung einholen oder schweigen soll. Wir stellen KnowU-Bench vor, einen Online-Benchmark für personalisierte mobile Agenten, der auf einer reproduzierbaren Android-Emulationsumgebung aufbaut und 42 allgemeine GUI-Aufgaben, 86 personalisierte Aufgaben und 64 proaktive Aufgaben abdeckt. Im Gegensatz zu früheren Arbeiten, die Nutzerpräferenzen als statischen Kontext behandeln, verbirgt KnowU-Bench das Nutzerprofil vor dem Agenten und gibt nur Verhaltenslogs preis, was echte Präferenzinferenz anstelle von Kontextabfragen erzwingt. Um mehrschrittige Präferenzermittlung zu unterstützen, instanziiert es einen LLM-gesteuerten Nutzersimulator, der auf strukturierten Profilen basiert und realistische Klärungsdialoge sowie proaktive Zustimmungsabwicklung ermöglicht. Über Personalisierung hinaus bietet KnowU-Bench eine umfassende Evaluation der vollständigen proaktiven Entscheidungskette, einschließlich fundierter GUI-Ausführung, Zustimmungsaushandlung und Zurückhaltung nach Ablehnung, evaluiert durch ein hybrides Protokoll, das regelbasierte Verifizierung mit LLM-as-a-Judge-Bewertung kombiniert. Unsere Experimente zeigen einen frappierenden Leistungseinbruch: Agenten, die bei expliziten Aufgaben excellieren, fallen unter 50 %, wenn vage Anweisungen Präferenzinferenz oder Eingriffskalibrierung erfordern – selbst bei Spitzenmodellen wie Claude Sonnet 4.6. Die Kernengpässe liegen nicht in der GUI-Navigation, sondern in der Präferenzakquise und Eingriffskalibrierung, was eine fundamentale Lücke zwischen kompetenter Bedienung und vertrauenswürdiger persönlicher Assistenz offenlegt.
Große Sprachmodell-Agenten (LLM-Agenten) werden zunehmend weniger durch Veränderungen der Modellgewichte entwickelt als durch die Reorganisation ihrer Laufzeitumgebung. Fähigkeiten, die frühere Systeme dem Modell intern zutrauten, werden nun externalisiert – in Speichern, wiederverwendbaren Fähigkeiten, Interaktionsprotokollen und dem umgebenden Framework, das diese Module in der Praxis zuverlässig macht. Dieser Beitrag untersucht diesen Wandel aus der Perspektive der Externalisierung. Ausgehend vom Konzept der kognitiven Artefakte argumentieren wir, dass die Agenten-Infrastruktur nicht nur deshalb bedeutsam ist, weil sie Hilfskomponenten hinzufügt, sondern weil sie komplexe kognitive Lasten in Formen transformiert, die das Modell zuverlässiger bewältigen kann. Aus dieser Sicht externalisiert der Speicher Zustände über die Zeit, externalisieren Fähigkeiten prozedurales Wissen, externalisieren Protokolle die Interaktionsstruktur, und das Framework dient als Vereinheitlichungsebene, die diese zu kontrollierter Ausführung koordiniert. Wir zeichnen eine historische Entwicklung von Gewichten über Kontext zu Frameworks nach, analysieren Speicher, Fähigkeiten und Protokolle als drei distinkte, aber gekoppelte Formen der Externalisierung und untersuchen ihr Zusammenspiel innerhalb eines größeren Agentensystems. Des Weiteren diskutieren wir den Zielkonflikt zwischen parametrischen und externalisierten Fähigkeiten, identifizieren aufkommende Trends wie sich selbst weiterentwickelnde Frameworks und gemeinsame Agenten-Infrastrukturen und erörtern offene Herausforderungen in den Bereichen Evaluation, Steuerung und der langfristigen Ko-Evolution von Modellen und externer Infrastruktur. Das Ergebnis ist ein systemübergreifender Rahmen zur Erklärung, warum der praktische Fortschritt bei Agenten zunehmend nicht nur von leistungsfähigeren Modellen, sondern auch von besserer externer kognitiver Infrastruktur abhängt.
Wir stellen DMax vor, ein neues Paradigma für effiziente Diffusions-Sprachmodelle (dLLMs). Es reduziert die Fehlerakkumulation beim parallelen Decodieren und ermöglicht eine aggressive Decodier-Parallelität bei gleichbleibender Generierungsqualität. Im Gegensatz zu konventionellen maskierten dLLMs, die durch einen binären Mask-zu-Token-Übergang decodieren, formuliert DMax das Decodieren als eine progressive Selbstverbesserung von Mask-Einbettungen zu Token-Einbettungen um. Kern unseres Ansatzes ist "On-Policy Uniform Training", eine neuartige Trainingsstrategie, die maskierte und einheitliche dLLMs effizient vereinheitlicht und das Modell befähigt, saubere Tokens sowohl aus maskierten Eingaben als auch aus seinen eigenen fehlerhaften Vorhersagen wiederherzustellen. Auf dieser Grundlage aufbauend schlagen wir weiterhin "Soft Parallel Decoding" vor. Wir repräsentieren jeden Zwischendecodierzustand als eine Interpolation zwischen der vorhergesagten Token-Einbettung und der Mask-Einbettung, was iterative Selbstrevision im Einbettungsraum ermöglicht. Umfangreiche Experimente über eine Vielzahl von Benchmarks belegen die Wirksamkeit von DMax. Im Vergleich zum ursprünglichen LLaMA-2.0-mini verbessert unsere Methode den TPF auf GSM8K von 2,04 auf 5,47 bei gleichbleibender Genauigkeit. Auf MBPP steigert sie den TPF von 2,71 auf 5,86 bei vergleichbarer Leistung. Auf zwei H200-GPUs erreicht unser Modell durchschnittlich 1.338 TPS bei einer Batch-Größe von 1. Der Code ist verfügbar unter: https://github.com/czg1225/DMax
Das Aufkommen agentiver multimodaler Modelle hat Systeme in die Lage versetzt, aktiv mit externen Umgebungen zu interagieren. Allerdings leiden aktuelle Agenten unter einem tiefgreifenden metakognitiven Defizit: Sie haben Schwierigkeiten, zwischen der Nutzung internen Wissens und der Abfrage externer Hilfsmittel abzuwägen. Infolgedessen verfallen sie häufig blindem Werkzeugaufruf und greifen reflexartig auf Werkzeuge zurück, selbst wenn Anfragen aus dem unverarbeiteten visuellen Kontext lösbar wären. Dieses pathologische Verhalten führt zu erheblichen Latenzengpässen und injiziert überflüssiges Rauschen, das solide Schlussfolgerungen vereitelt. Bestehende Reinforcement-Learning-Protokolle versuchen, dies durch skalarisierte Belohnung zu mildern, die Werkzeugnutzung bestraft. Diese gekoppelte Formulierung erzeugt jedoch ein unlösbares Optimierungsdilemma: Eine aggressive Bestrafung unterdrückt essenzielle Werkzeugnutzung, während eine milde Bestrafung bei der Advantage-Normalisierung vollständig von der Varianz der Genauigkeitsbelohnung überlagert wird und somit wirkungslos gegen übermäßigen Werkzeuggebrauch bleibt. Um diesen Engpass zu überwinden, schlagen wir HDPO vor, ein Framework, das Werkzeugeffizienz von einem konkurrierenden skalaren Ziel in eine streng bedingte Anforderung umformuliert. Indem HDPO auf Skalarisierung der Belohnung verzichtet, unterhält es zwei orthogonale Optimierungskanäle: einen Genauigkeitskanal, der die Aufgabenkorrektheit maximiert, und einen Effizienzkanal, der ausschließlich in korrekten Trajektorien über bedingte Advantage-Schätzung Ausführungsökonomie durchsetzt. Diese entkoppelte Architektur induziert natürlich einen kognitiven Lehrplan – der Agent muss zunächst die Aufgabenerfüllung meistern, bevor er seine Selbstständigkeit verfeinert. Umfassende Evaluationen zeigen, dass unser resultierendes Modell Metis Werkzeugaufrufe um Größenordnungen reduziert und gleichzeitig die Schlussfolgerungsgenauigkeit steigert.
Räumliches Verständnis ist ein grundlegender Baustein menschlicher Intelligenz. Dennoch konzentriert sich die aktuelle Forschung überwiegend auf domänenspezifische Datengenerierung, was eine kritische Lücke hinterlässt: das Fehlen einer prinzipienbasierten, quelloffenen Engine, die das Potenzial hochwertiger räumlicher Daten vollständig entfesseln kann. Um diese Lücke zu schließen, erläutern wir die Designprinzipien eines robusten Datengenerierungssystems und stellen OpenSpatial vor – eine quelloffene Daten-Engine, die für hohe Qualität, umfassende Skalierbarkeit, große Aufgabenvielfalt und optimierte Effizienz entwickelt wurde. OpenSpatial verwendet 3D-Bounding-Boxen als grundlegendes Element, um eine umfassende Datenhierarchie über fünf grundlegende Aufgaben hinweg aufzubauen: Räumliche Messung (Spatial Measurement, SM), Räumliche Beziehungen (Spatial Relationship, SR), Kamerawahrnehmung (Camera Perception, CP), Multi-View-Konsistenz (Multi-view Consistency, MC) und szenenbewusstes Schließen (Scene-Aware Reasoning, SAR). Gestützt auf diese skalierbare Infrastruktur, kuratieren wir OpenSpatial-3M, einen umfangreichen Datensatz mit 3 Millionen hochauflösenden Samples. Umfangreiche Evaluationen zeigen, dass vielseitige Modelle, die auf unserem Datensatz trainiert wurden, state-of-the-art Leistung in einer breiten Palette von Benchmarks für räumliches Schließen erreichen. Bemerkenswerterweise zeigt das leistungsstärkste Modell eine substantielle durchschnittliche Verbesserung von 19 Prozent (relativ). Darüber hinaus liefern wir eine systematische Analyse darüber, wie Datenattribute die räumliche Wahrnehmung beeinflussen. Durch die Veröffentlichung sowohl der Engine als auch des 3-Millionen-Sample-Datensatzes als Open Source schaffen wir eine robuste Grundlage, um die zukünftige Forschung im Bereich der räumlichen Intelligenz zu beschleunigen.
Web-Agenten – autonome Systeme, die im Auftrag von Nutzern im Web navigieren und Aufgaben ausführen – haben das Potenzial, die Art und Weise, wie Menschen mit der digitalen Welt interagieren, grundlegend zu verändern. Allerdings basieren die leistungsfähigsten Web-Agenten heute auf proprietären Modellen mit undurchsichtigen Trainingsdaten und -verfahren, was das wissenschaftliche Verständnis, die Reproduzierbarkeit und den gemeinschaftlich getriebenen Fortschritt einschränkt. Wir sind der Überzeugung, dass Agenten für das offene Web auch offen entwickelt werden sollten. Zu diesem Zweck stellen wir vor: (1) MolmoWebMix, eine große und vielfältige Mischung aus Browser-Task-Demonstrationen und Web-GUI-Wahrnehmungsdaten, und (2) MolmoWeb, eine Familie vollständig offener multimodaler Web-Agenten. Konkret kombiniert MolmoWebMix über 100.000 synthetische Aufgabenverläufe aus mehreren komplementären Generierungspipelines mit mehr als 30.000 menschlichen Demonstrationen, atomaren Web-Skill-Verläufen und GUI-Wahrnehmungsdaten, einschließlich Referenzausdrucksverankerung (Referring Expression Grounding) und Screenshot-Fragebeantwortung. MolmoWeb-Agenten fungieren als instruktionsgesteuerte visuell-sprachliche Aktionspolitiken: Auf Basis einer Aufgabenbeschreibung und eines Webseiten-Screenshots sagen sie die nächste Browseraktion vorher, ohne Zugriff auf HTML, Barrierefreiheitsbäume (Accessibility Trees) oder spezielle APIs zu benötigen. In den Größen 4B und 8B erzielen MolmoWeb-Agenten auf Browser-Nutzungs-Benchmarks wie WebVoyager, Online-Mind2Web und DeepShop state-of-the-art Ergebnisse und übertreffen damit ähnlich große Open-Weight-Modelle wie Fara-7B, UI-Tars-1.5-7B und Holo1-7B. MolmoWeb-8B übertrifft auch Set-of-Marks (SoM)-Agenten, die auf viel größeren geschlossenen Frontier-Modellen wie GPT-4o basieren. Wir zeigen zudem konsistente Verbesserungen durch Test-Time-Scaling mittels paralleler Rollouts mit Best-of-N-Auswahl, was zu 94,7 % bzw. 60,5 % pass@4 (verglichen mit 78,2 % und 35,3 % pass@1) auf WebVoyager und Online-Mind2Web führt. Wir werden Modell-Checkpoints, Trainingsdaten, Code und eine einheitliche Evaluierungsplattform veröffentlichen, um Reproduzierbarkeit zu ermöglichen und die offene Forschung an Web-Agenten zu beschleunigen.
Die Group Relative Policy Optimization (GRPO) hat sich als de-facto Reinforcement-Learning-(RL)-Zielsetzung etabliert, die die jüngsten Fortschritte bei multimodalen großen Sprachmodellen vorantreibt. Die Übertragung dieses Erfolgs auf quelloffene multimodale Generalisten-Modelle wird jedoch nach wie vor stark durch zwei Hauptprobleme eingeschränkt: die extreme Varianz in den Reward-Topologien über verschiedene visuelle Aufgaben hinweg und die inhärente Schwierigkeit, feinkörnige Wahrnehmung mit mehrstufigen Reasoning-Fähigkeiten in Einklang zu bringen. Um diese Probleme zu adressieren, führen wir Gaussian GRPO (G²RPO) ein, eine neuartige RL-Trainingszielsetzung, die die Standard-Skalierung durch nicht-lineares Distribution-Matching ersetzt. Indem mathematisch erzwungen wird, dass die Advantage-Verteilung einer beliebigen Aufgabe streng gegen eine Standardnormalverteilung N(0,1) konvergiert, gewährleistet G²RPO theoretisch Gradientengerechtigkeit zwischen Aufgaben, mildert die Anfälligkeit für Ausreißer mit schweren Rändern und bietet symmetrische Updates für positive und negative Rewards. Gestützt auf die durch G²RPO verbesserte Trainingsstabilität führen wir zwei Mechanismen zur Aufgaben-Anpassung ein, um Wahrnehmung und Reasoning nahtlos auszubalancieren. Erstelic: Die Anpassung der Antwortlänge ruft bei komplexen Anfragen dynamisch längere Reasoning-Ketten hervor, während sie bei einfachen Anfragen direkte Ausgaben erzwingt, um die visuelle Verankerung zu stärken. Zweitens: Die Entropie-Anpassung begrenzt den Explorationsbereich des Modells streng und verhindert so effektiv sowohl Entropiekollaps als auch Entropieexplosion. Durch die Integration dieser Methodiken präsentieren wir OpenVLThinkerV2, ein äußerst robuster, allgemeiner multimodaler Modell. Umfangreiche Evaluierungen über 18 verschiedene Benchmarks hinweg demonstrieren seine überlegene Leistung im Vergleich zu starken quelloffenen und führenden proprietären Frontier-Modellen.
Die Nutzung von Fähigkeiten ist zu einer Kernkomponente moderner Agentensysteme geworden und kann die Fähigkeit von Agenten, komplexe Aufgaben zu bewältigen, erheblich verbessern. In realen Umgebungen, in denen Agenten zahlreiche persönliche Anwendungen, Webbrowser und andere Schnittstellen überwachen und mit ihnen interagieren müssen, können Fähigkeitsbibliotheken auf Tausende von wiederverwendbaren Fähigkeiten skaliert werden. Die Skalierung auf größere Fähigkeitsbibliotheken bringt jedoch zwei Hauptherausforderungen mit sich. Erstens führt das Laden des gesamten Fähigkeitssatzes zu einer Sättigung des Kontextfensters, was Token-Kosten, Halluzinationen und Latenzzeiten erhöht. In diesem Artikel stellen wir Graph of Skills (GoS) vor, eine Inferenzzeit-Struktur-Retrieval-Ebene für große Fähigkeitsbibliotheken. GoS konstruiert offline einen ausführbaren Fähigkeitsgraphen aus Fähigkeitspaketen und ruft zur Inferenzzeit ein begrenztes, abhängigkeitsbewusstes Fähigkeitsbündel durch hybride semantisch-lexikalische Initialisierung, reverse-gewichteten Personalisierten PageRank und kontextbudgetierte Hydratation ab. Auf SkillsBench und ALFWorld verbessert GoS die durchschnittliche Belohnung um 43,6 % gegenüber der einfachen Baseline mit vollständigem Fähigkeits-Laden und reduziert gleichzeitig die Eingabe-Tokens um 37,8 %. Die Methode generalisiert über drei Modellfamilien: Claude Sonnet, GPT-5.2 Codex und MiniMax. Zusätzliche Ablationsstudien über Fähigkeitsbibliotheken mit 200 bis 2.000 Fähigkeiten zeigen weiterhin, dass GoS sowohl dem einfachen Laden aller Fähigkeiten als auch einem einfachen Vektor-Retrieval konsistent darin überlegen ist, Belohnung, Token-Effizienz und Laufzeit in Balance zu halten.
Um das Paradigma des Reinforcement-Learning-Nachtrainings auf omnimodale Modelle zu erweitern, um gleichzeitig das Video-Audio-Verständnis und das kollaborative Reasoning zu stärken, schlagen wir OmniJigsaw vor – einen generischen selbstüberwachten Rahmen, der auf einer Proxy-Aufgabe zur zeitlichen Neuanordnung basiert. Dieses Paradigma konzentriert sich auf die chronologische Rekonstruktion von gemischten audiovisuellen Clips und orchestriert visuelle und auditive Signale strategisch, um eine cross-modale Integration durch drei verschiedene Strategien zu erzwingen: Gemeinsame Modalitätsintegration, Modalitätsauswahl auf Probenebene und Modalitätsmaskierung auf Clip-Ebene. Da die Wirksamkeit solcher Proxy-Aufgaben grundlegend mit der Puzzle-Qualität verbunden ist, entwerfen wir eine zweistufige Datenfilterpipeline vom Groben zum Feinen, die die effiziente Anpassung von OmniJigsaw an massive unannotierte omnimodale Daten ermöglicht. Unsere Analyse zeigt ein „bimodales Abkürzungsphänomen“ bei der gemeinsamen Modalitätsintegration und demonstriert, dass feingranulare Modalitätsmaskierung auf Clip-Ebene dieses Problem mildert und dabei die Modalitätsauswahl auf Probenebene übertrifft. Umfangreiche Auswertungen auf 15 Benchmarks zeigen substantielle Verbesserungen bei Video, Audio und kollaborativem Reasoning und validieren OmniJigsaw als skalierbares Paradigma für selbstüberwachtes omnimodales Lernen.
Frontier-LLMs können komplexe Websites navigieren, doch ihre Kosten und Abhängigkeit von Drittanbieter-APIs machen einen lokalen Einsatz unpraktikabel. Wir stellen Agent-as-Annotators vor, ein Framework, das die synthetische Generierung von Trajektorien für Web-Agenten strukturiert, analog zu menschlichen Annotatorenrollen. Es ersetzt den Task-Designer, Annotator und Supervisor durch modulare LLM-Komponenten. Mithilfe von Gemini 3 Pro als Lehrer generieren wir 3.000 Trajektorien in sechs Web-Umgebungen und feintunen einen 9-Milliarden-Parameter-Studenten mittels reinem supervised Learning auf den 2.322 Trajektorien, die das Qualitätsfiltering bestehen. Das resultierende Modell erzielt 41,5 % auf WebArena und übertrifft damit Closed-Source-Modelle wie Claude 3.5 Sonnet (36,0 %) und GPT-4o (31,5 %) unter dem gleichen Evaluierungsprotokoll. Es verdoppelt nahezu das bisher beste Open-Weight-Ergebnis (Go-Browse, 21,7 %). Die Fähigkeiten übertragen sich auf ungesehene Umgebungen, mit einem Zuwachs von 18,2 Prozentpunkten auf WorkArena L1 (eine während des Trainings ungesehene Unternehmensplattform) und konsistenten Verbesserungen in drei weiteren Benchmarks. Ablationstudien bestätigen, dass jede Pipeline-Komponente einen bedeutenden Beitrag leistet, wobei Judge-Filtering, Evaluierungshinweise und Reasoning-Traces jeweils messbare Gewinne bewirken. Diese Ergebnisse zeigen, dass strukturierte Trajektoriensynthese mit einem einzigen Frontier-Lehrer-Modell ausreicht, um wettbewerbsfähige, lokal einsetzbare Web-Agenten zu erzeugen. Projektseite: https://agent-as-annotators.github.io
Bei Virtual Try-On (VTO) geht es darum, basierend auf einem Bild einer Person und eines Kleidungsstücks ein realistisches Bild der Person zu synthetisieren, das das Kleidungsstück trägt, wobei die ursprüngliche Pose und Identität der Person erhalten bleiben. Obwohl aktuelle VTO-Methoden bei der Darstellung des Kleidungsstück-Erscheinungsbilds hervorragende Ergebnisse erzielen, übersehen sie weitgehend einen entscheidenden Aspekt des Anprobiervorgangs: die Genauigkeit der Passform – also beispielsweise, wie ein Hemd in Übergröße an einer Person mit sehr kleiner Statur aussieht. Ein Haupthindernis ist das Fehlen von Datensätzen, die präzise Größenangaben für Kleidungsstücke und Körper liefern, insbesondere für Fälle von „schlechter Passform“, bei denen Kleidungsstücke deutlich zu groß oder zu klein sind. Folglich erzeugen aktuelle VTO-Methoden standardmäßig gut sitzende Ergebnisse, unabhängig von der Größe des Kleidungsstücks oder der Person. In diesem Beitrag unternehmen wir die ersten Schritte zur Lösung dieses offenen Problems. Wir stellen FIT (Fit-Inclusive Try-on) vor, einen groß angelegten VTO-Datensatz, der über 1,13 Millionen Try-On-Bildtriplets mit präzisen Körper- und Kleidungsstückmaßen umfasst. Wir bewältigen die Herausforderungen der Datenerfassung durch eine skalierbare synthetische Strategie: (1) Wir generieren programmgesteuert 3D-Kleidungsstücke mit GarmentCode und drapieren sie mittels Physiksimulation, um eine realistische Passform zu erfassen. (2) Wir verwenden ein neuartiges Re-Texturing-Framework, um synthetische Renderings unter strikter Beibehaltung der Geometrie in fotorealistische Bilder zu verwandeln. (3) Wir integrieren die Erhaltung der Personenidentität in unser Re-Texturing-Modell, um gepaarte Personenbilder (dieselbe Person, verschiedene Kleidungsstücke) für supervidiertes Training zu erzeugen. Schließlich nutzen wir unseren FIT-Datensatz, um ein Baseline-Modell für passformbewusstes Virtual Try-On zu trainieren. Unsere Daten und Ergebnisse setzen neue Maßstäbe für passformbewusstes Virtual Try-On und bieten zudem eine robuste Benchmark für zukünftige Forschung. Wir werden alle Daten und Codes auf unserer Projektseite öffentlich zugänglich machen: https://johannakarras.github.io/FIT.
Robotic Manipulation mit verformbaren Objekten stellt ein datenintensives Regime im embodied Learning dar, bei dem sich Form, Kontakt und Topologie gemeinsam entwickeln – in einer Weise, die die Variabilität starrer Körper bei weitem übersteigt. Obwohl Simulation Abhilfe von den Kosten der Datenerfassung in der realen Welt verspricht, bleiben gängige Sim-to-Real-Pipelines in Starrkörperabstraktionen verhaftet, was zu nicht übereinstimmender Geometrie, fragilen Weichkörperdynamiken und für Stoffinteraktion ungeeigneten Bewegungsprimitive führt. Wir postulieren, dass Simulation nicht daran scheitert, synthetisch zu sein, sondern daran, unbegründet zu sein. Um dies zu adressieren, führen wir SIM1 ein, eine physikalisch-abgestimmte Real-to-Sim-to-Real-Datenengine, die die Simulation in der physischen Welt verankert. Auf der Grundlage begrenzter Demonstrationen digitalisiert das System Szenen zu metrik-konsistenten Digitalen Zwillingen, kalibriert die Deformationsdynamik durch elastische Modellierung und erweitert Verhaltensweisen mittels diffusionsbasierter Trajektoriengenerierung mit Qualitätsfilterung. Diese Pipeline transformiert spärliche Beobachtungen in skalierte synthetische Supervision mit nahezu demonstrationsgetreuer Wiedergabetreue. Experimente zeigen, dass Policies, die ausschließlich auf synthetischen Daten trainiert wurden, eine Parität mit Real-Daten-Baselines bei einem Äquivalenzverhältnis von 1:15 erreichen und dabei 90% Zero-Shot-Erfolg sowie 50% Generalisierungsgewinne im realen Einsatz erzielen. Diese Ergebnisse validieren physikalisch-abgestimmte Simulation als skalierbare Supervision für die Manipulation verformbarer Objekte und einen praktischen Pfad für dateneffizientes Policy-Learning.
Datenbanksysteme integrieren eine stetig wachsende Anzahl von Funktionen in ihre Kernel (auch bekannt als database-native Funktionen) für Szenarien wie die Unterstützung neuer Anwendungen und Geschäftsprozessmigration. Dieses Wachstum führt zu einer dringenden Nachfrage nach automatischer Synthese database-nativer Funktionen. Während aktuelle Fortschritte bei der LLM-basierten Code-Generierung (z.B. Claude Code) vielversprechend sind, sind sie für datenbankspezifische Entwicklung zu allgemein gehalten. Sie halluzinieren oft oder übersehen kritischen Kontext, da die Synthese von Datenbankfunktionen inhärent komplex und fehleranfällig ist – die Synthese einer einzelnen Funktion kann die Registrierung mehrerer Funktionseinheiten, die Verknüpfung interner Referenzen und die korrekte Implementierung der Logik erfordern. Daher schlagen wir DBCooker vor, ein LLM-basiertes System zur automatischen Synthese database-nativer Funktionen. Es besteht aus drei Komponenten. Erstens aggregiert das Funktionscharakterisierungsmodul Multi-Source-Deklarationen, identifiziert Funktionseinheiten, die spezielle Programmierung erfordern, und verfolgt übergreifende Abhängigkeiten nach. Zweitens entwerfen wir Operationen zur Bewältigung der Hauptherausforderungen der Synthese: (1) einen pseudocode-basierten Codierungsplangenerator, der strukturierte Implementierungsgerüste durch Identifizierung Schlüsselelemente wie wiederverwendbarer Referenzfunktionen konstruiert; (2) ein hybrides "Fill-in-the-Blank"-Modell, das durch probabilistische Priors und Komponentenbewusstsein geleitet wird, um Kernlogik mit wiederverwendbaren Routinen zu integrieren; und (3) eine dreistufige progressive Validierung, einschließlich Syntaxprüfung, Standardskonformität und LLM-gesteuerter semantischer Verifikation. Schließlich vereint eine adaptive Orchestrierungsstrategie diese Operationen mit bestehenden Werkzeugen und steuert sie dynamisch über den Orchestrierungsverlauf ähnlicher Funktionen. Ergebnisse zeigen, dass DBCooker andere Methoden bei SQLite, PostgreSQL und DuckDB übertrifft (durchschnittlich 34,55 % höhere Genauigkeit) und neue Funktionen synthetisieren kann, die in der neuesten SQLite-Version (v3.50) nicht vorhanden sind.
Die quadratische Rechenkomplexität standardmäßiger Aufmerksamkeitsmechanismen stellt ein schwerwiegendes Skalierbarkeitshemmnis für LLMs in Langkontext-Szenarien dar. Obwohl hybride Aufmerksamkeitsmechanismen, die Vollständige Aufmerksamkeit (FA) und Spärliche Aufmerksamkeit (SA) kombinieren, eine mögliche Lösung bieten, basieren bestehende Methoden typischerweise auf statischen Zuordnungsverhältnissen, die den variablen Abrufbedarf unterschiedlicher Aufgaben nicht abdecken können. Darüber hinaus führt dynamische Sparsity auf Ebene der Aufmerksamkeitsköpfe häufig zu erheblicher Rechenlastungleichverteilung und Synchronisations-Long-Tails, was Hardwarebeschleunigung während des autoregressiven Decodierens behindert. Um diese Lücke zu schließen, stellen wir Flux Attention vor, ein kontextbewusstes Framework, das die Aufmerksamkeitsberechnung dynamisch auf Ebene der Modellebenen optimiert. Durch die Integration eines leichten Layer Routers in eingefrorene vortrainierte LLMs leitet die vorgeschlagene Methode jede Ebene adaptiv basierend auf dem Eingabekontext zu FA oder SA weiter. Dieses schichtenweise Routing bewahrt hochpräzise Informationsabfrage und gewährleistet gleichzeitig kontinuierlichen Speicherzugriff, was theoretische Rechenreduzierungen in praktische Beschleunigungen der Echtzeit-Rechendauer umsetzt. Als parameter-effizienter Ansatz erfordert unser Framework nur 12 Stunden Training auf 8xA800-GPUs. Umfangreiche Experimente über mehrere Langkontext- und mathematische Reasoning-Benchmarks hinweg demonstrieren, dass Flux Attention im Vergleich zu Baseline-Modellen einen überlegenen Kompromiss zwischen Leistung und Inferenzgeschwindigkeit erreicht, mit Geschwindigkeitssteigerungen von bis zu 2,8-fach und 2,0-fach in der Prefill- bzw. Decode-Phase.
Vision-Language-Action (VLA)-Modelle haben die Robotermanipulation durch groß angelegtes Pre-Training vorangetrieben, doch der Einsatz in der realen Welt bleibt aufgrund von Teilbeobachtbarkeit und verzögertem Feedback eine Herausforderung. Reinforcement Learning begegnet diesem Problem mittels Wertfunktionen, die den Aufgabenfortschritt bewerten und die Verbesserung der Policy steuern. Allerdings haben bestehende, auf Vision-Language Models (VLMs) basierende Wertmodelle Schwierigkeiten, zeitliche Dynamiken zu erfassen, was zuverlässige Wertschätzung bei langfristigen Aufgaben untergräbt. In diesem Artikel stellen wir ViVa vor, ein video-generatives Wertmodell, das einen vortrainierten Video-Generator für die Wertschätzung umfunktioniert. ViVa nimmt die aktuelle Beobachtung und die Roboter-Propriozeption als Eingabe und sagt gemeinsam die zukünftige Propriozeption sowie einen skalaren Wert für den aktuellen Zustand vorher. Indem unser Ansatz räumlich-zeitliche A-priori-Informationen eines vortrainierten Video-Generators nutzt, verankert er die Wertschätzung in antizipierten Embodiment-Dynamiken und geht über statische Momentaufnahmen hinaus, um Wert intrinsisch mit Vorausschau zu koppeln. Integriert in RECAP erzielt ViVa erhebliche Verbesserungen bei der Montage von Boxen in der realen Welt. Eine qualitative Analyse über alle drei Aufgaben bestätigt, dass ViVa zuverlässigere Wertsignale erzeugt, die den Aufgabenfortschritt genau widerspiegeln. Durch die Nutzung räumlich-zeitlicher A-priori-Informationen aus Video-Korpora generalisiert ViVa auch auf neue Objekte, was das Potenzial video-generativer Modelle für die Wertschätzung unterstreicht.
Das Aufkommen großer Sprachmodelle (LLMs) hat das Potenzial für einen allgemeinen Nutzersimulator aufgezeigt. Bestehende Benchmarks beschränken sich jedoch nach wie vor auf isolierte Szenarien, eingeschränkte Aktionsräume oder synthetische Daten und erfassen nicht die Ganzheitlichkeit authentischen menschlichen Verhaltens. Um diese Lücke zu schließen, stellen wir OmniBehavior vor, den ersten Nutzersimulations-Benchmark, der vollständig auf realen Daten basiert und langfristige, szenarioübergreifende sowie heterogene Verhaltensmuster in einem einheitlichen Rahmen integriert. Auf Basis dieses Benchmarks liefern wir erstmals empirische Belege dafür, dass frühere Datensätze mit isolierten Szenarien unter Tunnelblick leiden, wohingegen reale Entscheidungsfindung auf langfristigen, szenarioübergreifenden Kausalketten beruht. Umfangreiche Auswertungen modernster LLMs zeigen, dass aktuelle Modelle Schwierigkeiten haben, diese komplexen Verhaltensweisen präzise zu simulieren – die Leistung stagniert selbst bei erweiterten Kontextfenstern. Entscheidend ist, dass ein systematischer Vergleich zwischen simuliertem und authentischem Verhalten eine grundlegende strukturelle Verzerrung aufdeckt: LLMs tendieren dazu, sich auf eine positive Durchschnittsperson zuzubewegen, wobei sie Hyperaktivität, Personenhomogenisierung und einen utopischen Bias zeigen. Dies führt zum Verlust individueller Unterschiede und von Langschwanzverhalten und unterstreicht damit entscheidende Richtungen für zukünftige Hochfidelitäts-Simulationsforschung.
Diffusionsmodelle haben bemerkenswerte Fortschritte in der Videogenerierung erzielt, doch ihre Steuerbarkeit bleibt eine wesentliche Einschränkung. Wichtige Szenenfaktoren wie Layout, Beleuchtung und Kameratrajektorie sind oft miteinander verflochten oder nur schwach modelliert, was ihre Anwendbarkeit in Bereichen wie Filmproduktion und virtueller Produktion einschränkt, in denen eine explizite Szenensteuerung entscheidend ist. Wir stellen LiVER vor, ein diffusionsbasiertes Framework für szenensteuerbare Videogenerierung. Um dies zu erreichen, führen wir ein neuartiges Framework ein, das die Videosynthese auf explizite 3D-Szeneneigenschaften konditioniert, unterstützt durch einen neuen umfangreichen Datensatz mit dichten Annotationen von Objektlayout, Beleuchtung und Kameraparametern. Unsere Methode entflocht diese Eigenschaften, indem Steuersignale aus einer einheitlichen 3D-Repräsentation gerendert werden. Wir schlagen ein leichtgewichtiges Konditionierungsmodul und eine progressive Trainingsstrategie vor, um diese Signale in ein fundamentales Videodiffusionsmodul zu integrieren und so eine stabile Konvergenz und hohe Bildtreue zu gewährleisten. Unser Framework ermöglicht eine Vielzahl von Anwendungen, einschließlich Bild-zu-Video- und Video-zu-Video-Synthese, bei der die zugrundeliegende 3D-Szene vollständig editierbar ist. Um die Benutzerfreundlichkeit weiter zu verbessern, entwickeln wir einen Szenen-Agenten, der hochrangige Benutzeranweisungen automatisch in die erforderlichen 3D-Steuersignale übersetzt. Experimente zeigen, dass LiVER state-of-the-art Fotorealismus und zeitliche Konsistenz erreicht und gleichzeitig eine präzise, entflochtene Steuerung über Szenenfaktoren ermöglicht, wodurch ein neuer Standard für kontrollierbare Videogenerierung gesetzt wird.
Auf dem Weg zu einem verkörperlichten Generalisten für reale Interaktionen leiden Multimodal Large Language Model (MLLM)-Agenten nach wie vor unter problematischer Latenz, spärlichem Feedback und irreversiblen Fehlern. Videospiele bieten eine ideale Testumgebung mit reichhaltigen visuellen Beobachtungen und geschlossenen Interaktionsschleifen, die feinkörnige Wahrnehmung, langfristige Planung und präzise Steuerung erfordern. Die systematische Evaluierung dieser Fähigkeiten wird jedoch derzeit durch heterogene Aktionsschnittstellen und heuristische Verifikation behindert. Zu diesem Zweck stellen wir GameWorld vor, einen Benchmark, der für eine standardisierte und verifizierbare Bewertung von MLLMs als generalistische Spielagenten in Browserumgebungen konzipiert ist. Es werden zwei Arten von Spielagenten-Schnittstellen untersucht: (i) Computer-Use-Agenten, die direkt Tastatur- und Maussteuerungsbefehle emittieren, und (ii) generalistische multimodale Agenten, die in einem semantischen Aktionsraum über deterministisches Semantic Action Parsing agieren. GameWorld umfasst 34 verschiedene Spiele und 170 Aufgaben, die jeweils mit zustandsverifizierbaren Metriken für eine ergebnisbasierte Evaluierung gepaart sind. Die Ergebnisse über 18 Modell-Schnittstellen-Paare hinweg deuten darauf hin, dass selbst der leistungsstärkste Agent weit davon entfernt ist, menschliche Fähigkeiten in Videospielen zu erreichen. Umfangreiche Experimente mit wiederholten kompletten Benchmark-Durchläufen demonstrieren die Robustheit des Benchmarks, während weitere Untersuchungen zu Echtzeit-Interaktion, Kontext-Gedächtnis-Empfindlichkeit und Aktionsvalidität weitere Herausforderungen für Spielagenten aufzeigen. Indem GameWorld einen standardisierten, verifizierbaren und reproduzierbaren Evaluierungsrahmen bietet, legt es eine robuste Grundlage für die Weiterentwicklung der Forschung zu multimodalen Spielagenten und darüber hinaus. Die Projektseite ist unter https://gameworld-bench.github.io zu finden.
Die Anpassung multimodaler großer Sprachmodelle (MLLMs) für stundenlange Videos wird durch Kontextlimits eingeschränkt. Dichte visuelle Datenströme überschreiten Token-Budgets und verstärken den "Lost-in-the-Middle"-Effekt. Bestehende Heuristiken wie sparse Abtastung oder uniformes Pooling opfern blind die Genauigkeit, indem sie entscheidende Momente verwerfen und Bandbreite für irrelevante Hintergründe verschwenden. Wir stellen Tempo vor, ein effizientes, abfragebewusstes Framework zur Komprimierung langer Videos für das nachgelagerte Verständnis. Tempo nutzt ein kleines Vision-Language-Model (SVLM) als lokalen temporalen Kompressor, das Token-Reduktion als frühen cross-modalen Distillationsprozess behandelt, um kompakte, intentionsausgerichtete Repräsentationen in einem einzigen Vorwärtsdurchlauf zu erzeugen. Um strikte Budgets ohne Kausalitätsbruch durchzusetzen, führen wir Adaptive Token Allocation (ATA) ein. ATA nutzt die Zero-Shot-Relevanz-Priorität und semantische Vorladung des SVLM als trainierungsfreier O(1)-Router. Es weist dichte Bandbreite abfragekritischen Segmenten zu, während Redundanzen zu minimalen temporalen Ankern komprimiert werden, um die globale Handlung zu erhalten. Umfangreiche Experimente zeigen, dass unsere 6B-Architektur State-of-the-Art-Leistung mit aggressiver dynamischer Kompression (0,5-16 Token/Frame) erreicht. Auf dem extrem langen LVBench (4101s) erzielt Tempo 52,3 Punkte unter striktem 8K-Visual-Budget und übertrifft GPT-4o und Gemini 1.5 Pro. Bei Skalierung auf 2048 Frames werden 53,7 erreicht. Entscheidend ist, dass Tempo stundenlange Videos deutlich unter theoretischen Limits komprimiert, was beweist, dass echtes Langvideo-Verständnis auf intentionsgesteuerter Effizienz beruht – nicht auf gierig aufgeblähten Kontextfenstern.
Multimodale Reasoning-Modelle (MRMs), die mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) trainiert wurden, zeigen eine verbesserte Genauigkeit auf Benchmarks für visuelles Reasoning. Wir beobachten jedoch, dass Genauigkeitsgewinne häufig auf Kosten der Reasoning-Qualität gehen: Erzeugte Chain-of-Thought (CoT)-Spuren sind oft inkonsistent mit der endgültigen Antwort und nur unzureichend in den visuellen Beweisen verankert. Wir untersuchen dieses Phänomen systematisch anhand von sieben anspruchsvollen räumlichen Reasoning-Benchmarks aus der realen Welt und stellen fest, dass es zeitgenössische MRMs wie ViGoRL-Spatial, TreeVGR sowie unsere eigenen, mit Standard-Group Relative Policy Optimization (GRPO) trainierten Modelle betrifft. Wir charakterisieren die CoT-Reasoning-Qualität entlang zweier komplementärer Achsen: "logische Konsistenz" (folgt die endgültige Antwort logisch aus dem CoT?) und "visuelle Verankerung" (beschreibt jeder Reasoning-Schritt Objekte, Attribute und räumliche Beziehungen im Bild korrekt?). Um dies zu adressieren, schlagen wir Faithful GRPO (FGRPO) vor, eine Variante von GRPO, die Konsistenz und Verankerung als Nebenbedingungen via Lagrangian Dual Ascent durchsetzt. FGRPO integriert Batch-weite Konsistenz- und Verankerungs-Nebenbedingungen in die Berechnung des Vorteils innerhalb einer Gruppe und passt die relative Bedeutung der Nebenbedingungen während der Optimierung adaptiv an. Wir evaluieren FGRPO auf Qwen2.5-VL-7B- und 3B-Backbones über sieben räumliche Datensätze hinweg. Unsere Ergebnisse zeigen, dass FGRPO die Reasoning-Qualität erheblich verbessert: Die Inkonsistenzrate sinkt von 24,5 % auf 1,7 % und die Werte für die visuelle Verankerung verbessern sich um +13 %. Gleichzeitig verbessert es die Genauigkeit der endgültigen Antwort im Vergleich zu einfachem GRPO, was demonstriert, dass vertrauenswürdiges Reasoning zu besseren Antworten führt.
Wir untersuchen, ob nachtrainierte Fähigkeiten zwischen Modellen ohne erneutes Training übertragen werden können, mit einem Schwerpunkt auf der Übertragung über verschiedene Modellgrößen hinweg. Wir stellen die Master-Key-Hypothese auf, welche besagt, dass Modellfähigkeiten Richtungen in einem niedrigdimensionalen latenten Unterraum entsprechen, die spezifische Verhaltensweisen induzieren und durch lineare Anpassung zwischen Modellen übertragbar sind. Basierend auf dieser Hypothese stellen wir UNLOCK vor, ein trainings- und labelfreies Framework, das eine Fähigkeitsrichtung durch Kontrastierung der Aktivierungen zwischen fähigkeitsbesitzenden und fähigkeitslosen Quellmodell-Varianten extrahiert, sie über eine niedrigrangige lineare Transformation mit einem Zielmodell in Einklang bringt und sie zur Inferenzzeit anwendet, um das Verhalten auszulösen. Experimente zu Reasoning-Verhalten, einschließlich Chain-of-Thought (CoT) und mathematischem Reasoning, zeigen erhebliche Verbesserungen über Modellgrößen hinweg ohne Training. Beispielsweise führt die Übertragung von CoT-Reasoning von Qwen1.5-14B auf Qwen1.5-7B zu einem Genauigkeitsgewinn von 12,1 % auf MATH, und die Übertragung einer mathematischen Reasoning-Richtung von Qwen3-4B-Base auf Qwen3-14B-Base verbessert die AGIEval Math-Genauigkeit von 61,1 % auf 71,3 % und übertrifft damit die 67,8 %, die das nachtrainierte 14B-Modell erreicht. Unsere Analyse zeigt, dass der Erfolg der Übertragung von den während des Pre-Trainings erlernten Fähigkeiten abhängt und dass unsere Intervention latente Fähigkeiten verstärkt, indem sie die Ausgabeverteilung hin zu erfolgreichen Reasoning-Pfaden verschärft.
Reinforcement Learning (RL) hat sich als wirksamer Ansatz erwiesen, um die Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) durch die strategische Integration externer Suchmaschinen zu verbessern. Allerdings stützen sich aktuelle, auf RL basierende Suchagenten häufig auf einen Prozess der stochastischen Exploration, der durch sorgfältig gestaltete Ergebnisbelohnungen gesteuert wird. Dies führt zu ineffizienten Reasoning-Pfaden und instabilem Training. Um diese Probleme zu adressieren, schlagen wir einen neuartigen Rahmen vor, Hierarchical Experience (HiExp), um die Leistung und Trainingsstabilität von Suchagenten zu steigern. Konkret extrahieren wir empirisches Wissen durch kontrastive Analyse und einen mehrstufigen Clustering-Mechanismus, wodurch rohe Reasoning-Pfade in hierarchisches Erfahrungswissen transformiert werden. Durch den Einsatz von erfahrungsbasiertem Training regularisieren wir wirksam die stochastische Exploration und entwickeln sie zu einem strategischen, erfahrungsgesteuerten Suchprozess weiter. Umfangreiche Evaluierungen auf mehreren komplexen Benchmarks für agentenbasierte Suche und mathematisches Reasoning zeigen, dass unser Ansatz nicht nur substantiale Leistungssteigerungen erzielt, sondern auch eine starke Generalisierung über Aufgaben und Algorithmen hinweg aufweist.
Jüngste Fortschritte in der generativen Videomodellierung, angetrieben durch umfangreiche Datensätze und leistungsstarke Architekturen, haben eine bemerkenswerte visuelle Realitätstreue erzielt. Jedoch deuten neuere Erkenntnisse darauf hin, dass das bloße Skalieren von Daten und Modellgröße diesen Systemen kein Verständnis der zugrundeliegenden physikalischen Gesetze verleiht, die die Dynamik der realen Welt bestimmen. Bestehende Ansätze erfassen oder erzwingen oft keine solche physikalische Konsistenz, was zu unrealistischen Bewegungen und Dynamiken führt. In unserer Arbeit untersuchen wir, ob die Integration der Inferenz latenter physikalischer Eigenschaften direkt in den Videogenerierungsprozess Modelle in die Lage versetzen kann, physikalisch plausible Videos zu erzeugen. Zu diesem Zweck schlagen wir Phantom vor, ein physik-infundiertes Videogenerierungsmodell, das visuelle Inhalte und latente physikalische Dynamik gemeinsam modelliert. Auf der Grundlage beobachteter Videobilder und abgeleiteter physikalischer Zustände sagt Phantom gemeinsam die latente physikalische Dynamik vorher und generiert zukünftige Videobilder. Phantom nutzt eine physik-sensitive Videorepräsentation, die als abstrakte, aber informative Einbettung der zugrundeliegenden Physik dient und die gemeinsame Vorhersage der physikalischen Dynamik zusammen mit dem Videoinhalt erleichtert, ohne eine explizite Spezifikation eines komplexen Satzes physikalischer Dynamiken und Eigenschaften zu erfordern. Durch die direkte Integration der Inferenz der physik-sensitiven Videorepräsentation in den Videogenerierungsprozess erzeugt Phantom Videosequenzen, die sowohl visuell realistisch als auch physikalisch konsistent sind. Quantitative und qualitative Ergebnisse sowohl auf standardisierten Videogenerierungs- als auch physik-sensitiven Benchmarks zeigen, dass Phantom bestehende Methoden nicht nur in Bezug auf die Einhaltung physikalischer Dynamik übertrifft, sondern auch eine wettbewerbsfähige perzeptive Qualität liefert.
Zero-Shot-Anomalieerkennung zielt darauf ab, abnormale Bereiche in Bildern zu erkennen und zu lokalisieren, ohne auf domänenspezifische Trainingsbilder zugreifen zu müssen. Während neuere Ansätze Vision-Language-Modelle (VLMs) wie CLIP nutzen, um hochleveliges Konzeptwissen zu transferieren, hinken Methoden, die auf reinen Vision-Foundation-Modellen (VFMs) wie DINOv2 basieren, in der Leistung hinterher. Wir argumentieren, dass diese Lücke auf zwei praktische Probleme zurückzuführen ist: (i) eine begrenzte Vielfalt in bestehenden Hilfsdatensätzen für die Anomalieerkennung und (ii) zu oberflächliche VFM-Adaptierungsstrategien. Um beide Herausforderungen zu adressieren, schlagen wir AnomalyVFM vor, einen allgemeinen und effektiven Rahmen, der jedes vortrainierte VFM in einen leistungsstarken Zero-Shot-Anomaliedetektor verwandelt. Unser Ansatz kombiniert ein robustes dreistufiges Schema zur Synthese von Datensätzen mit einem parameter-effizienten Adaptierungsmechanismus, der Low-Rank-Feature-Adapter und einen konfidenzgewichteten Pixelverlust nutzt. Gemeinsam ermöglichen diese Komponenten modernen VFMs, aktuelle state-of-the-art Methoden erheblich zu übertreffen. Konkret erzielt AnomalyVFM mit RADIO als Backbone einen durchschnittlichen bildbasierten AUROC-Wert von 94,1% über 9 verschiedene Datensätze hinweg und übertrifft damit vorherige Methoden um signifikante 3,3 Prozentpunkte. Projektseite: https://maticfuc.github.io/anomaly_vfm/
Aktuelle Arbeiten haben die Optimierung von Bildsignalverarbeitungs-Pipelines (ISP) für verschiedene Aufgaben untersucht, indem vordefinierte Module zusammengesetzt und an aufgabenspezifische Ziele angepasst wurden. Die gemeinsame Optimierung von Modulsequenzen und Parametern bleibt jedoch eine Herausforderung. Bestehende Ansätze stützen sich auf Neural Architecture Search (NAS) oder schrittweise bestärkendes Lernen (RL), wobei NAS unter einer Trainings-Inferenz-Diskrepanz leidet und schrittweises RL aufgrund stufenweiser Entscheidungsfindung zu instabilem Training und hohem Rechenaufwand führt. Wir schlagen POS-ISP vor, ein RL-Framework auf Sequenzebene, das die modulare ISP-Optimierung als globales Sequenzvorhersageproblem formuliert. Unsere Methode sagt die gesamte Modulsequenz und ihre Parameter in einem einzigen Vorwärtsdurchlauf vorher und optimiert die Pipeline unter Verwendung einer terminalen Aufgabenbelohnung, wodurch die Notwendigkeit von Zwischenüberwachung und redundanten Ausführungen entfällt. Experimente über mehrere nachgelagerte Aufgaben hinweg zeigen, dass POS-ISP die Aufgabenleistung verbessert und gleichzeitig die Rechenkosten senkt, was die Optimierung auf Sequenzebene als stabiles und effizientes Paradigma für aufgabenbewusste ISP hervorhebt. Die Projektseite ist verfügbar unter https://w1jyun.github.io/POS-ISP.
Überwachte Modelle für Low-Level-Vision basieren auf pixelweisen Verlusten gegenüber gepaarten Referenzen, doch gepaarte Trainingsdatensätze weisen paarweise photometrische Inkonsistenzen auf; beispielsweise erfordern verschiedene Bildpaare unterschiedliche globale Helligkeits-, Farb- oder Weißabgleichsabbildungen. Diese Inkonsistenz entsteht entweder durch aufgabenintrinsische photometrische Übertragung (z.B. Low-Light-Verbesserung) oder unbeabsichtigte Aufnahmeschwankungen (z.B. Entfernung von Regenartefakten) und verursacht in beiden Fällen eine Optimierungspathologie. Standard-Rekonstruktionsverluste weisen dem konfligierenden photometrischen Ziel pro Paar unverhältnismäßig viel Gradientenbudget zu und verdrängen die Inhaltswiederherstellung. In diesem Beitrag untersuchen wir dieses Problem und beweisen, dass bei einer Kleinste-Quadrate-Zerlegung die photometrischen und strukturellen Komponenten der Residuen zwischen Vorhersage und Ziel orthogonal sind und die räumlich dichte photometrische Komponente die Gradientenenergie dominiert. Motiviert durch diese Analyse schlagen wir den Photometric Alignment Loss (PAL) vor. Dieses flexible Überwachungsziel reduziert störende photometrische Diskrepanzen durch eine geschlossen lösbare affine Farbanpassung, bewahrt dabei aber die wiederherstellungsrelevante Überwachung. Es erfordert lediglich Kovarianzstatistiken und eine kleine Matrixinversion mit vernachlässigbarem Overhead. In 6 Aufgaben, 16 Datensätzen und 16 Architekturen verbessert PAL konsistent Metriken und Generalisierung. Die Implementierung befindet sich im Anhang.
Während Vision-Language-Modelle (VLMs) bemerkenswerte Fortschritte im statischen visuellen Verständnis erzielt haben, ist ihr Einsatz in komplexen 3D-Eingebetteten-Umgebungen nach wie vor stark eingeschränkt. Bestehende Benchmarks leiden unter vier kritischen Mängeln: (1) passive Wahrnehmungsaufgaben umgehen interaktive Dynamiken; (2) vereinfachte 2D-Umgebungen versagen bei der Bewertung der Tiefenwahrnehmung; (3) das Einfließen privilegierter Zustandsdaten umgeht echte visuelle Verarbeitung; und (4) menschliche Evaluation ist unverhältnismäßig teuer und nicht skalierbar. Wir stellen PokeGym vor, einen visuell gesteuerten Benchmark für langfristige Handlungssequenzen, instanziiert in Pokemon Legends: Z-A, einem visuell komplexen 3D-Open-World-Rollenspiel. PokeGym erzwingt strikte Code-Level-Isolation: Agenten operieren ausschließlich auf Basis von Roh-RGB-Beobachtungen, während ein unabhängiger Evaluator den Erfolg durch Memory-Scanning verifiziert. Dies gewährleistet rein visuell basierte Entscheidungsfindung und automatisierte, skalierbare Bewertung. Der Benchmark umfasst 30 Aufgaben (30-220 Schritte), die Navigation, Interaktion und gemischte Szenarien abdecken, mit drei Instruktionsgranularitäten (visuell geführt, schrittweise geführt, nur-zielbasiert), um visuelle Verankerung, semantisches Reasoning und autonome Explorationsfähigkeiten systematisch zu dekonstruieren. Unsere Evaluation deckt eine zentrale Schwäche aktueller VLMs auf: Die Wiederherstellung aus physikalischen Deadlocks stellt – und nicht die High-Level-Planung – den primären Engpass dar, wobei Deadlocks eine starke negative Korrelation mit dem Aufgaben-erfolg zeigen. Des Weiteren zeigen wir eine metakognitive Diskrepanz auf: Schwächere Modelle scheitern vornehmlich an "Unbewussten Deadlocks" (keine Wahrnehmung der Einschränkung), whereas fortgeschrittene Modelle "Bewusste Deadlocks" aufweisen (Erkennen der Einschränkung, aber Scheitern an der Lösung). Diese Ergebnisse unterstreichen die Notwendigkeit, explizite räumliche Intuition in VLM-Architekturen zu integrieren. Der Code und der Benchmark werden auf GitHub verfügbar sein.
Der Einsatz großer Sprachmodelle (LLM) auf heterogenen Edge-Geräten erfordert Frameworks, die Energieeffizienz, Inferenzqualität und Zuverlässigkeit gemeinsam optimieren. Unser vorheriges QEIL v1 (Kumar & Jha, 2026) erzielte eine 4,82-fache Verbesserung des IPW, basierte jedoch auf statischen Effizienzfaktoren, gieriger Optimierung und ungeprüfter Kandidatenauswahl. QEIL v2 ersetzt jede statische Heuristik durch physikalisch fundierte, laufzeitadaptive Modelle. Wir führen drei Geräte-Arbeitslast-Metriken ein: DASI (roofline-abgeleitete Rechenauslastung), CPQ (Speicherdruck aus der Allokationstheorie) und Phi (thermische Ausbeute aus der CMOS-Leckage-Physik), die eine vereinheitlichte Energiegleichung bilden, deren Koeffizienten sämtlich auf die Halbleiterphysik zurückführbar sind. Für die Optimierung minimiert PGSAM (Pareto-geführtes Simulated Annealing mit Momentum) gleichzeitig Energie, Latenz und Geräteunterauslastung. Zur Inferenzzeit bietet die EAC/ARDE-Auswahlkaskade mit CSVET-Frühstoppen eine progressive Verifizierung wiederholter Stichproben. Ausgewertet auf WikiText-103, GSM8K und ARC-Challenge über sieben Modellfamilien (125M-8B Parameter, inklusive einer vorquantisierten Variante), erreicht QEIL v2 75,7 % pass@k bei 63,8 W (IPW=0,9749) – eine 2,86-fache Verbesserung gegenüber Standard-Inferenz. Bei Anwendung auf ein 4-Bit-Llama-3.1-8B erreicht die physikalisch fundierte Routung von QEIL v2 einen IPW=1,024 bei 54,8 W – das erste Edge-Orchestrierungssystem, das die empirische Referenzmarke IPW=1,0 übertrifft, wobei der Gewinn vollständig auf die arbeitslastadaptive Gerätezuweisung von QEIL v2 bei einem Modell mit reduzierten Speicherbandbreitenanforderungen zurückzuführen ist. Die Gesamtenergie sinkt um 75,6 % gegenüber dem Standard bei 38,3 % geringerer Latenz, ohne thermische Drosselung und mit 100 % Fehlerbehebung über alle Benchmarks und Modellfamilien hinweg.
Bestehende Gedächtnis-Benchmarks für LLM-Agenten bewerten das explizite Abrufen von Fakten, übersehen jedoch das implizite Gedächtnis, bei dem Erfahrung zu automatisiertem Verhalten wird, ohne bewusste Abfrage. Diese Lücke ist kritisch: Effektive Assistenten müssen gelernte Prozeduren automatisch anwenden oder gescheiterte Aktionen ohne explizite Erinnerungen vermeiden können. Wir stellen ImplicitMemBench vor, den ersten systematischen Benchmark zur Bewertung des impliziten Gedächtnisses anhand von drei kognitiv fundierten Konstrukten, die auf standardmäßigen kognitionswissenschaftlichen Beschreibungen des nicht-deklarativen Gedächtnisses basieren: Prozedurales Gedächtnis (Einmalerwerb von Fertigkeiten nach Interferenz), Priming (themengetriebene Verzerrung durch gepaarte Experiment-/Kontrollinstanzen) und Klassische Konditionierung (Konditionierter Stimulus–Unkonditionierter Stimulus (CS–US)-Assoziationen, die erste Entscheidungen prägen). Unser 300 Items umfassender Test nutzt ein einheitliches Lern-/Priming-Interferenz-Test-Protokoll mit Bewertung nach dem ersten Versuch. Die Evaluation von 17 Modellen zeigt gravierende Einschränkungen: Kein Modell übersteigt 66 % Gesamtleistung, wobei die besten Modelle DeepSeek-R1 (65,3 %), Qwen3-32B (64,1 %) und GPT-5 (63,0 %) deutlich unter menschlichen Referenzwerten liegen. Die Analyse deckt dramatische Asymmetrien auf (Inhibition 17,6 % vs. Präferenz 75,0 %) und universelle Engpässe, die architektonische Innovationen jenseits der Parameterskalierung erfordern. ImplicitMemBench verlagert die Bewertung von "was Agenten abrufen" zu "was sie automatisch ausführen".
Jüngste Fortschritte bei Vision-Language-Modellen (VLMs) haben die Bildbeschreibung für das kulturelle Erbe verbessert. Die Ableitung strukturierter kultureller Metadaten (z. B. Urheber, Herkunft, Epoche) aus visuellen Eingaben ist jedoch nach wie vor wenig erforscht. Wir stellen einen multikategorialen, cross-kulturellen Benchmark für diese Aufgabe vor und evaluieren VLMs mit einem LLM-as-Judge-Framework, das die semantische Übereinstimmung mit Referenzannotationen misst. Um das kulturelle Reasoning zu bewerten, erfassen wir Exact-Match-, Partial-Match- und Attribute-Level-Genauigkeit über kulturelle Regionen hinweg. Die Ergebnisse zeigen, dass Modelle fragmentierte Signale erfassen und erhebliche Leistungsunterschiede zwischen Kulturen und Metadatentypen aufweisen, was zu inkonsistenten und schwach fundierten Vorhersagen führt. Diese Erkenntnisse unterstreichen die Grenzen aktueller VLMs bei der Inferenz strukturierter kultureller Metadaten, die über die reine visuelle Wahrnehmung hinausgeht.
Wir stellen RewardFlow vor, ein inversionsfreies Framework, das vortrainierte Diffusions- und Flow-Matching-Modelle zur Inferenzzeit durch Multi-Reward-Langevin-Dynamik steuert. RewardFlow vereint komplementäre differenzierbare Rewards für semantische Ausrichtung, perzeptuelle Treue, lokale Verankerung, Objektkonsistenz und menschliche Präferenzen und führt zudem einen differenzierbaren, VQA-basierten Reward ein, der feinkörnige semantische Überwachung durch Sprach-Vision-Reasoning bereitstellt. Um diese heterogenen Ziele zu koordinieren, entwickeln wir eine prompt-sensitive adaptive Strategie, die semantische Primitive aus der Anweisung extrahiert, Bearbeitungsabsichten inferiert und Reward-Gewichte sowie Schrittgrößen während des gesamten Sampling-Prozesses dynamisch moduliert. In mehreren Benchmarks für Bildbearbeitung und kompositionelle Generierung erreicht RewardFlow state-of-the-art Bearbeitungstreue und kompositionelle Übereinstimmung.
Vision-Language-Modelle (VLMs) erzielen hohe multimodale Leistungsfähigkeit, doch wie Berechnungen über Populationen von Neuronen hinweg organisiert sind, bleibt weitgehend unverstanden. In dieser Arbeit untersuchen wir VLMs durch die Linse der neuronalen Topologie, wobei wir jede Schicht als einen Within-Layer-Korrelationsgraphen darstellen, der aus Neuron-zu-Neuron-Koaktivierungen abgeleitet wird. Diese Betrachtungsweise ermöglicht es uns zu fragen, ob die populationsweite Struktur verhaltensrelevant ist, wie sie sich über Modalitäten und Tiefe hinweg verändert und ob sie kausal einflussreiche interne Komponenten unter Intervention identifiziert. Wir zeigen, dass die Korrelationstopologie ein rekonstruierbares Verhaltenssignal trägt; darüber hinaus konsolidiert sich die cross-modale Struktur mit zunehmender Tiefe fortschreitend um eine kompakte Gruppe rekurrenter Hub-Neuronen, deren gezielte Störung die Modellausgabe erheblich verändert. Neuronale Topologie erweist sich somit als eine bedeutungsvolle intermediäre Skala für die Interpretierbarkeit von VLMs: aussagekräftiger als lokale Attribuierung, handhabbarer als die vollständige Schaltkreisrekonstruktion und empirisch mit multimodalem Verhalten verknüpft. Der Code ist öffentlich verfügbar unter https://github.com/he-h/vlm-graph-probing.
Selbstüberwachte Tiefenschätzung mit Rundumsicht ermöglicht eine dichte, kostengünstige 3D-Erfassung mit einem 360°-Sichtfeld aus mehreren minimal überlappenden Bildern. Dennoch leiden die meisten bestehenden Methoden unter Tiefenschätzungen, die in überlappenden Bildern inkonsistent sind. Um diese Einschränkung zu adressieren, schlagen wir eine neuartige geometriegeführte Methode für kalibrierte, zeitsynchronisierte Multi-Kamera-Rigs vor, die dichte metrische Tiefe vorhersagt. Unser Ansatz zielt auf zwei Hauptquellen der Inkonsistenz ab: das begrenzte rezeptive Feld in Randbereichen der Einzelbild-Tiefenschätzung und die Schwierigkeit der Korrespondenzsuche. Wir mildern diese beiden Probleme, indem wir das rezeptive Feld über die Ansichten hinweg erweitern und die Aufmerksamkeit zwischen den Ansichten auf eine kleine Nachbarschaft beschränken. Zu diesem Zweck stellen wir die Nachbarschaftsbeziehungen zwischen den Bildern her, indem wir die bildspezifischen Merkmalspositionen auf einen gemeinsamen Zylinder abbilden. Basierend auf den zylindrischen Positionen wenden wir einen expliziten räumlichen Aufmerksamkeitsmechanismus mit nicht gelernten Gewichtungen an, der Merkmale über Bilder hinweg entsprechend ihrer Abstände auf dem Zylinder aggregiert. Die modulierten Merkmale werden dann für jede Ansicht in eine Tiefenkarte decodiert. Auswertungen auf den DDAD- und nuScenes-Datensätzen zeigen, dass unsere Methode sowohl die Tiefenkonsistenz zwischen den Ansichten als auch die allgemeine Tiefengenauigkeit im Vergleich zu state-of-the-art Ansätzen verbessert. Code ist verfügbar unter https://abualhanud.github.io/CylinderDepthPage.
Foundation Models bieten eine starke Wahrnehmungsleistung, sind jedoch oft zu rechenintensiv für den Einsatz, und ihre Anpassung erfordert typischerweise kostspielige Annotationen. Wir stellen ein semi-überwachtes Knowledge-Distillation-Framework (SSKD) vor, das vortrainierte Vision Foundation Models (VFMs) unter Verwendung begrenzter gelabelter und umfangreicher ungelabelter Daten in kompakte Expertensysteme komprimiert, und instanziieren es für Instanzensegmentierung, wo Pixel-Labels besonders aufwändig sind. Das Framework gliedert sich in drei Stufen: (1) Domänenanpassung der VFM(s) durch Self-Training mit kontrastiver Kalibrierung, (2) Wissenstransfer via einem vereinheitlichten Multi-Objective-Loss und (3) Studenten-Verfeinerung zur Reduzierung verbleibender Pseudo-Label-Verzerrungen. Kern unseres Ansatzes ist ein instanzenbewusster, pixelweiser Kontrastverlust, der Masken- und Klassenscores fusioniert, um informative Negative zu extrahieren und klare Inter-Instanzen-Grenzen zu erzwingen. Durch Beibehaltung dieses kontrastiven Signals sowohl bei der Anpassung als auch bei der Distillation alignieren wir Teacher- und Student-Embeddings und nutzen ungelabelte Bilder effektiver. Auf Cityscapes und ADE20K übertrifft unser ca. 11x kleinerer Student seine Zero-Shot-VFM-Teacher(s) um +11,9 bzw. +8,6 AP, übertrifft angepasste Teacher(s) um +3,4 bzw. +1,5 AP und übertrifft state-of-the-art SSKD-Methoden in Benchmarks.
Moderne Text-to-Image-Modelle (T2I) erzeugen hochwertige visuelle Inhalte, bleiben jedoch gegenüber individuellen Benutzerpräferenzen indifferent. Während bestehende Belohnungsmodelle auf den „durchschnittlichen“ menschlichen Geschmack optimieren, erfassen sie die inhärente Subjektivität ästhetischer Bewertungen nicht. In dieser Arbeit stellen wir einen neuartigen Datensatz und einen prädiktiven Rahmen namens PAMELA vor, der zur Modellierung personalisierter Bildbewertungen entwickelt wurde. Unser Datensatz umfasst 70.000 Bewertungen für 5.000 verschiedene Bilder, die von modernsten Modellen (Flux 2 und Nano Banana) generiert wurden. Jedes Bild wird von 15 verschiedenen Nutzern bewertet, was eine umfassende Verteilung subjektiver Präferenzen in Bereichen wie Kunst, Design, Mode und cinematografischer Fotografie liefert. Aufbauend auf diesen Daten schlagen wir ein personalisiertes Belohnungsmodell vor, das gemeinsam mit unseren hochwertigen Annotationen und bestehenden Teilmengen zur ästhetischen Bewertung trainiert wird. Wir zeigen, dass unser Modell individuelle Vorlieben genauer vorhersagt als die Mehrheit der aktuellen State-of-the-Art-Methoden, die auf Populationsebene optimieren. Mithilfe unseres personalisierten Prädiktors demonstrieren wir, wie einfache Prompt-Optimierungsmethoden eingesetzt werden können, um Bildgenerierungen an die Präferenzen einzelner Nutzer anzupassen. Unsere Ergebnisse unterstreichen die Bedeutung von Datenqualität und Personalisierung, um die Subjektivität von Benutzerpräferenzen zu berücksichtigen. Wir veröffentlichen unseren Datensatz und unser Modell, um standardisierte Forschung im Bereich der personalisierten T2I-Abgleichung und der subjektiven visuellen Qualitätsbewertung zu ermöglichen.