papers.description
Gedächtnis ist entscheidend für KI-Agenten, doch das weit verbreitete statische Gedächtnis, das darauf abzielt, im Voraus leicht verfügbare Erinnerungen zu schaffen, unterliegt unweigerlich einem erheblichen Informationsverlust. Um diese Einschränkung zu überwinden, schlagen wir ein neuartiges Framework namens General Agentic Memory (GAM) vor. GAM folgt dem Prinzip der „Just-in-Time (JIT)-Kompilierung“, bei dem es darauf abzielt, zur Laufzeit optimierte Kontexte für seinen Client zu erstellen, während es während der Offline-Phase nur einfache, aber nützliche Erinnerungen speichert. Zu diesem Zweck verwendet GAM ein Duo-Design mit den folgenden Komponenten. 1) Der Memorizer, der wichtige historische Informationen mithilfe eines leichtgewichtigen Gedächtnisses hervorhebt, während er vollständige historische Informationen in einem universellen Seiten-Speicher aufrechterhält. 2) Der Researcher, der nützliche Informationen aus dem Seiten-Speicher abruft und integriert, geleitet durch das vorab konstruierte Gedächtnis, um Online-Anfragen zu bearbeiten. Dieses Design ermöglicht es GAM, die agentischen Fähigkeiten und die Skalierbarkeit während der Testphase von fortschrittlichen großen Sprachmodellen (LLMs) effektiv zu nutzen, während es gleichzeitig eine end-to-end-Leistungsoptimierung durch Reinforcement Learning erleichtert. In unserer experimentellen Studie zeigen wir, dass GAM in verschiedenen gedächtnisbasierten Aufgabenbearbeitungsszenarien im Vergleich zu bestehenden Gedächtnissystemen erhebliche Verbesserungen erzielt.
Menschen passen sich natürlicherweise an diverse Umgebungen an, indem sie zugrunde liegende Regeln über Welten mit unterschiedlichen Dynamiken, Beobachtungen und Belohnungsstrukturen lernen. Im Gegensatz dazu zeigen bestehende Agenten typischerweise Verbesserungen durch selbstgesteuerte Evolution innerhalb einer einzelnen Domäne, wobei stillschweigend eine feste Umgebungsverteilung angenommen wird. Lernen über Umgebungen hinweg blieb weitgehend unvermessen: Es gibt keine Standardsammlung kontrollierbarer, heterogener Umgebungen noch eine einheitliche Methode, darzustellen, wie Agenten lernen. Wir adressieren diese Lücken in zwei Schritten. Erstens schlagen wir AutoEnv vor, ein automatisiertes Framework, das Umgebungen als faktorisierbare Verteilungen über Transitionen, Beobachtungen und Belohnungen behandelt und so die kostengünstige (durchschnittlich 4,12 USD) Erzeugung heterogener Welten ermöglicht. Mit AutoEnv erstellen wir AutoEnv-36, einen Datensatz aus 36 Umgebungen mit 358 validierten Levels, auf dem sieben Sprachmodelle eine normalisierte Belohnung von 12-49% erreichen, was die Herausforderung von AutoEnv-36 demonstriert. Zweitens formalisieren wir Agenten-Lernen als einen komponentenzentrierten Prozess, der von drei Phasen – Selektion, Optimierung und Evaluation – angetrieben wird, angewendet auf eine verbesserbare Agenten-Komponente. Mit dieser Formulierung entwerfen wir acht Lernmethoden und evaluieren sie auf AutoEnv-36. Empirisch nimmt der Nutzen jeder einzelnen Lernmethode schnell ab, sobald die Anzahl der Umgebungen steigt, was zeigt, dass feste Lernmethoden nicht über heterogene Umgebungen skalieren. Umgebungsadaptive Auswahl von Lernmethoden verbessert die Leistung erheblich, zeigt aber abnehmende Grenzerträge, wenn der Methodenraum erweitert wird. Diese Ergebnisse unterstreichen sowohl die Notwendigkeit als auch die aktuellen Grenzen des Agenten-Lernens für skalierbare generalisierte Anwendung über Umgebungen hinweg und positionieren AutoEnv und AutoEnv-36 als Testumgebung für die Erforschung agentenübergreifenden Lernens. Der Code ist verfügbar unter https://github.com/FoundationAgents/AutoEnv.
Die Pixel-Diffusion zielt darauf ab, Bilder direkt im Pixelraum auf end-to-end Weise zu erzeugen. Dieser Ansatz umgeht die Einschränkungen von VAEs bei der zweistufigen latenten Diffusion und bietet eine höhere Modellkapazität. Bestehende Pixel-Diffusionsmodelle leiden unter langsamen Trainings- und Inferenzzeiten, da sie üblicherweise sowohl hochfrequente Signale als auch niederfrequente Semantik innerhalb eines einzigen Diffusions-Transformers (DiT) modellieren. Um ein effizienteres Paradigma der Pixel-Diffusion zu verfolgen, schlagen wir den frequenzentkoppelten Pixel-Diffusionsframework vor. Ausgehend von der Intuition, die Erzeugung hoch- und niederfrequenter Komponenten zu entkoppeln, nutzen wir einen leistungsarmen Pixel-Decoder, um hochfrequente Details auf der Grundlage semantischer Vorgaben des DiT zu generieren. Dadurch wird der DiT entlastet und kann sich auf die Modellierung niederfrequenter Semantik spezialisieren. Zusätzlich führen wir einen frequenzbewussten Flow-Matching-Verlust ein, der visuell salienten Frequenzen betont und unbedeutende unterdrückt. Umfangreiche Experimente zeigen, dass DeCo eine überlegene Leistung unter Pixel-Diffusionsmodellen erzielt und auf ImageNet einen FID von 1,62 (256x256) bzw. 2,22 (512x512) erreicht, wodurch die Lücke zu latenten Diffusionsmethoden geschlossen wird. Darüber hinaus erzielt unser vortrainiertes Text-zu-Bild-Modell im systemweiten Vergleich auf GenEval einen führenden Gesamtscore von 0,86. Der Code ist öffentlich verfügbar unter https://github.com/Zehong-Ma/DeCo.
Tiefe Forschungsmodelle führen mehrstufige Recherchen durch, um langformulierte, gut belegte Antworten zu generieren. Allerdings werden die meisten offenen tiefen Forschungsmodelle anhand leicht überprüfbarer Kurzfrage-Antwort-Aufgaben mittels Verstärkendem Lernen mit überprüfbaren Belohnungen (RLVR) trainiert, was sich nicht auf realistische Langform-Aufgaben übertragen lässt. Wir adressieren dieses Problem mit Verstärkendem Lernen mit sich entwickelnden Bewertungsrastern (RLER), bei dem wir Bewertungsraster erstellen und pflegen, die sich während des Trainings gemeinsam mit dem Policy-Modell weiterentwickeln. Dies ermöglicht es den Bewertungsrastern, neu erschlossene Informationen des Modells zu integrieren und differenzierte, on-policy Rückmeldungen zu geben. Mit RLER entwickeln wir Deep Research Tulu (DR Tulu-8B), das erste offene Modell, das direkt für offene, langformulierte tiefe Recherchen trainiert wurde. In vier Langform-Benchmarks für tiefe Recherchen aus den Bereichen Wissenschaft, Gesundheitswesen und allgemeine Domänen übertrifft DR Tulu bestehende offene tiefe Forschungsmodelle erheblich und erreicht oder übertrifft proprietäre Systeme für tiefe Recherchen, obwohl es deutlich kleiner und kostengünstiger pro Abfrage ist. Um zukünftige Forschung zu ermöglichen, veröffentlichen wir alle Daten, Modelle und Code, einschließlich unserer neuen MCP-basierten Agenten-Infrastruktur für tiefe Forschungssysteme.
Computer-Use Agents (CUA) werden zunehmend fähiger, digitale Umgebungen eigenständig über grafische Benutzeroberflächen (GUI) zu bedienen. Dennoch sind die meisten GUIs nach wie vor primär für Menschen konzipiertiert – sie priorisieren Ästhetik und Benutzerfreundlichkeit – und zwingen Agenten damit zu menschenorientierten Verhaltensweisen, die für eine effiziente Aufgabenerfüllung unnötig sind. Gleichzeitig haben rasante Fortschritte bei code-orientierten Sprachmodellen (Coder) das automatische GUI-Design revolutioniert. Dies wirft eine grundlegende Frage auf: Können CUA als Richter fungieren, um Coder beim automatischen GUI-Design zu unterstützen? Um dies zu untersuchen, stellen wir AUI-Gym vor, einen Benchmark für die automatische GUI-Entwicklung, der 52 Anwendungen aus verschiedenen Domänen umfasst. Mithilfe von Sprachmodellen synthetisieren wir 1560 Aufgaben, die realistische Szenarien simulieren. Um die Zuverlässigkeit der Aufgaben zu gewährleisten, entwickeln wir weiterhin einen Verifizierer, der programmgesteuert prüft, ob jede Aufgabe in ihrer Umgebung ausführbar ist. Darauf aufbauend schlagen wir ein Coder-CUA-in-Kollaboration-Framework vor: Der Coder agiert als Designer, der Websites generiert und überarbeitet, während die CUA als Richter fungiert, die Funktionalität bewertet und Designs verfeinert. Der Erfolg wird nicht am visuellen Erscheinungsbild gemessen, sondern an der Lösbarkeit der Aufgabe und der Erfolgsrate der CUA-Navigation. Um CUA-Feedback in nutzbare Anleitungen umzuwandeln, entwerfen wir ein CUA-Dashboard, das mehrstufige Navigationsverläufe in prägnante visuelle Zusammenfassungen komprimiert und so interpretierbare Leitlinien für iterative Neugestaltung bietet. Indem wir Agenten sowohl als Designer als auch als Richter positionieren, lenkt unser Framework das Schnittstellendesign in Richtung agentennativer Effizienz und Zuverlässigkeit. Unsere Arbeit ist ein Schritt dahin, Agenten von der passiven Nutzung hin zur aktiven Teilhabe an digitalen Umgebungen zu führen. Unser Code und Datensatz sind unter https://github.com/showlab/AUI verfügbar.
Diffusion-Transformer haben kürzlich eine beeindruckende Text-zu-Bild-Generierung bei etwa 1K-Auflösung erreicht, doch wir zeigen, dass ihre Erweiterung auf native 4K-Auflösung über diverse Seitenverhältnisse hinweg einen stark gekoppelten Fehlermodus offenlegt, der Positionskodierung, VAE-Kompression und Optimierung umfasst. Die isolierte Behandlung eines dieser Faktoren lässt erhebliche Qualität ungenutzt. Daher verfolgen wir einen Data-Model-Co-Design-Ansatz und stellen UltraFlux vor, einen Flux-basierten DiT, der nativ bei 4K auf MultiAspect-4K-1M trainiert wurde – einem 4K-Korpus mit 1M Bildern, kontrollierter Multi-AR-Abdeckung, bilingualen Beschreibungen und umfangreichen VLM/IQA-Metadaten für auflösungs- und AR-bewusste Stichproben. Auf der Modellseite kombiniert UltraFlux (i) Resonance 2D RoPE mit YaRN für trainingsfenster-, frequenz- und AR-bewusste Positionskodierung bei 4K; (ii) ein einfaches, nicht-adversarielles VAE-Nachtrainingsschema, das die 4K-Rekonstruktionstreue verbessert; (iii) ein SNR-bewusstes Huber-Wavelet-Ziel, das Gradienten über Zeitschritte und Frequenzbänder hinweg neu gewichtet; und (iv) eine stufenweise ästhetische Curriculum-Learning-Strategie, die ästhetische Hochwertaufsicht auf hochverrauschte Schritte konzentriert, die durch die Modellpräferenz gesteuert werden. Zusammengenommen ergeben diese Komponenten einen stabilen, detailerhaltenden 4K-DiT, der über breite, quadratische und hohe ARs hinweg generalisiert. Im Aesthetic-Eval-Benchmark bei 4096 und Multi-AR-4K-Einstellungen übertrifft UltraFlux durchgängig starke Open-Source-Baselines in Bezug auf Treue, Ästhetik und Übereinstimmung und erreicht – mit einem LLM-Prompt-Verfeinerer – die Qualität des proprietären Seedream 4.0 oder übertrifft sie.
Große generative Videomodelle haben kürzlich beeindruckende visuelle Fähigkeiten demonstriert, die die Vorhersage zukünftiger Einzelbilder ermöglichen, die den logischen und physikalischen Hinweisen der aktuellen Beobachtung folgen. In dieser Arbeit untersuchen wir, ob solche Fähigkeiten für kontrollierbare Bild-zu-Video-Generierung genutzt werden können, indem visuelle Signale, die in den Einzelbildern eingebettet sind, als Anweisungen interpretiert werden – ein Paradigma, das wir als In-Video-Instruction bezeichnen. Im Gegensatz zur prompt-basierten Steuerung, die textuelle Beschreibungen bereitstellt, die inhärent global und grob sind, kodiert In-Video-Instruction Benutzerführung direkt in der visuellen Domäne durch Elemente wie überlagerter Text, Pfeile oder Trajektorien. Dies ermöglicht explizite, raumbewusste und eindeutige Zuordnungen zwischen visuellen Subjekten und ihren beabsichtigten Aktionen, indem verschiedenen Objekten distincte Anweisungen zugewiesen werden. Umfangreiche Experimente mit drei state-of-the-art Generatoren – Veo 3.1, Kling 2.5 und Wan 2.2 – zeigen, dass Videomodelle solche visuell eingebetteten Anweisungen zuverlässig interpretieren und ausführen können, insbesondere in komplexen Multi-Objektszenarien.
Die Skalierung von Testzeit-Berechnungen verbessert die Leistung von großen Sprachmodellen (LLMs) bei verschiedenen Aufgaben, was auch auf werkzeuggestützte Agenten ausgeweitet wurde. Bei diesen Agenten beinhaltet die Skalierung nicht nur "Denken" in Tokens, sondern auch "Handeln" durch Werkzeugaufrufe. Die Anzahl der Werkzeugaufrufe begrenzt direkt die Interaktion des Agenten mit der externen Umgebung. Wir stellen jedoch fest, dass das bloße Gewähren eines größeren Werkzeugaufruf-Budgets die Leistung nicht verbessert, da den Agenten das "Budgetbewusstsein" fehlt und sie schnell eine Leistungsgrenze erreichen. Um dieses Problem zu lösen, untersuchen wir, wie solche Agenten unter expliziten Werkzeugaufruf-Budgets effektiv skaliert werden können, mit Fokus auf Web-Such-Agenten. Zunächst führen wir den Budget-Tracker ein, ein leichtgewichtiges Plug-in, das dem Agenten kontinuierliches Budgetbewusstsein vermittelt und so eine einfache aber effektive Skalierung ermöglicht. Darauf aufbauend entwickeln wir BATS (Budget Aware Test-time Scaling), ein erweitertes Framework, das dieses Bewusstsein nutzt, um seine Planungs- und Verifikationsstrategie dynamisch anzupassen und basierend auf den verbleibenden Ressourcen zu entscheiden, ob es einer vielversprechenden Spur "weiter nachgehen" oder zu neuen Pfaden "wechseln" soll. Um die Kosten-Leistungs-Skalierung kontrolliert zu analysieren, formalisieren wir eine einheitliche Kostenmetrik, die Token- und Werkzeugverbrauch gemeinsam berücksichtigt. Wir liefern die erste systematische Studie zu budgetbeschränkten Agenten und zeigen, dass budgetbewusste Methoden günstigere Skalierungskurven erzeugen und die Kosten-Leistungs-Pareto-Grenze verschieben. Unsere Arbeit bietet empirische Einblicke für ein transparenteres und prinzipienbesseres Verständnis der Skalierung von werkzeuggestützten Agenten.
Vision-Language-Modelle (VLMs) zeichnen sich durch ihre Fähigkeiten im sprachlichen Raum aus, haben jedoch Schwierigkeiten mit perzeptivem Verständnis, das eine dichte visuelle Wahrnehmung erfordert, wie z.B. räumliches Schließen und geometrisches Bewusstsein. Diese Einschränkung rührt daher, dass aktuelle VLMs nur begrenzte Mechanismen besitzen, um dichte visuelle Informationen über räumliche Dimensionen hinweg zu erfassen. Wir stellen Chain-of-Visual-Thought (COVT) vor, einen Rahmen, der es VLMs ermöglicht, nicht nur in Worten, sondern auch durch kontinuierliche visuelle Tokens – kompakte latente Repräsentationen, die reiche perzeptive Hinweise kodieren – zu schließen. Innerhalb eines kleinen Budgets von etwa 20 Tokens destilliert COVT Wissen von leichtgewichtigen Vision-Experten und erfasst komplementäre Eigenschaften wie 2D-Erscheinungsbild, 3D-Geometrie, räumliche Anordnung und Kantenstruktur. Während des Trainings sagt das VLM mit COVT diese visuellen Tokens autoregressiv vorher, um dichte Überwachungssignale (z.B. Tiefe, Segmentierung, Kanten und DINO-Features) zu rekonstruieren. Zur Inferenzzeit schließt das Modell direkt im kontinuierlichen visuellen Token-Raum, behält dabei seine Effizienz bei und kann optional dichte Vorhersagen zur Erhöhung der Interpretierbarkeit dekodieren. Die Auswertung über mehr als zehn verschiedene Wahrnehmungs-Benchmarks, darunter CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA und HRBench, zeigt, dass die Integration von COVT in leistungsstarke VLMs wie Qwen2.5-VL und LLaVA die Leistung konsistent um 3 % bis 16 % steigert. Dies demonstriert, dass kompaktes, kontinuierliches visuelles Denken eine präzisere, fundiertere und interpretierbare multimodale Intelligenz ermöglicht.
Wir stellen HunyuanVideo 1.5 vor, ein leichtgewichtiges, leistungsstarkes Open-Source-Videogenerierungsmodell, das mit nur 8,3 Milliarden Parametern state-of-the-art visuelle Qualität und Bewegungskohärenz erreicht und eine effiziente Inferenz auf consumer-grade GPUs ermöglicht. Dieser Erfolg basiert auf mehreren Schlüsselkomponenten: einer sorgfältigen Datenkuratierung, einer fortschrittlichen DiT-Architektur mit selektiver und gleitender Kachel-Aufmerksamkeit (SSTA), verbessertem bilingualen Verständnis durch glyph-bewusste Textkodierung, progressivem Pre-Training und Post-Training sowie einem effizienten Video-Super-Resolution-Netzwerk. Durch diese Designs entwickelten wir ein einheitliches Framework, das hochwertige Text-zu-Video- und Bild-zu-Video-Generierung über mehrere Zeitdauern und Auflösungen hinweg ermöglicht. Umfangreiche Experimente belegen, dass dieses kompakte und leistungsfähige Modell einen neuen State-of-the-Art unter Open-Source-Videogenerierungsmodellen etabliert. Durch die Veröffentlichung von Code und Modellgewichten stellen wir der Community eine leistungsstarke Basis zur Verfügung, die die Einstiegshürden für Videocreation und -forschung senkt und fortgeschrittene Videogenerierung für ein breiteres Publikum zugänglich macht. Alle Open-Source-Assets sind öffentlich verfügbar unter https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
Eine zuverlässige Belohnungsfunktion ist für Reinforcement Learning (RL) in der Bildgenerierung unerlässlich. Die meisten aktuellen RL-Ansätze verlassen sich auf vortrainierte Präferenzmodelle, die skalare Belohnungen zur Approximation menschlicher Präferenzen ausgeben. Diese Belohnungen erfassen jedoch oft nicht die menschliche Wahrnehmung und sind anfällig für Reward Hacking, bei dem höhere Scores nicht mit besseren Bildern korrelieren. Um dies zu adressieren, führen wir Adv-GRPO ein, einen RL-Rahmen mit einer adversariellen Belohnung, der sowohl das Belohnungsmodell als auch den Generator iterativ aktualisiert. Das Belohnungsmodell wird unter Verwendung von Referenzbildern als positive Beispiele supervidiert und kann dadurch weitgehend vor Manipulation geschützt werden. Im Gegensatz zur KL-Regularisierung, die Parameterupdates einschränkt, leitet unsere gelernte Belohnung den Generator direkt über seine visuellen Ausgaben an, was zu hochwertigeren Bildern führt. Darüber hinaus bleiben, obwohl die Optimierung bestehender Belohnungsfunktionen Reward Hacking mildern kann, deren inhärente Verzerrungen bestehen. Beispielsweise kann PickScore die Bildqualität verschlechtern, während OCR-basierte Belohnungen oft die ästhetische Treue reduzieren. Um dies zu adressieren, behandeln wir das Bild selbst als Belohnung und nutzen Referenzbilder sowie Vision-Foundation-Modelle (z.B. DINO), um umfangreiche visuelle Belohnungen bereitzustellen. Diese dichten visuellen Signale anstelle eines einzelnen Skalars führen zu konsistenten Verbesserungen bei Bildqualität, Ästhetik und aufgabenspezifischen Metriken. Schließlich zeigen wir, dass die Kombination von Referenzbeispielen mit Foundation-Model-Belohnungen Verteilungsübertragung und flexible Stilanpassung ermöglicht. In der menschlichen Bewertung übertrifft unsere Methode Flow-GRPO und SD3 mit Gewinnraten von 70,0 % bzw. 72,4 % bei Bildqualität und Ästhetik. Code und Modelle wurden veröffentlicht.
Die Radiologie spielt eine integrale Rolle in der modernen Medizin, doch die steigenden Bildgebungsvolumen haben das Wachstum der Arbeitskräfte bei weitem übertroffen. Foundation-Modelle bieten einen Weg, um bei der gesamten Bandbreite radiologischer Aufgaben zu unterstützen, doch bestehende medizinische Modelle sind nach wie vor begrenzt: Sie verarbeiten volumetrische CT- und MRT-Daten als niederauflösende 2D-Schnitte, verwerfen kritische Graustufen-Kontrastinformationen und es fehlen ihnen Bewertungsrahmen, die die reale klinische Praxis widerspiegeln. Wir stellen Pillar-0 vor, ein radiologisches Foundation-Modell, das auf 42.990 Abdomen-Becken-CTs, 86.411 Thorax-CTs, 14.348 Schädel-CTs und 11.543 Mamma-MRTs eines großen akademischen Zentrums vortrainiert wurde, zusammen mit RATE, einem skalierbaren Framework, das mit nahezu perfekter Genauigkeit strukturierte Labels für 366 radiologische Befunde unter Verwendung von LLMs extrahiert. Über interne Testsets von 14.230 Abdomen-Becken-CTs, 10.646 Thorax-CTs, 4.906 Schädel-CTs und 1.585 Mamma-MRTs hinweg etabliert Pillar-0 eine neue Leistungsgrenze und erreicht mittlere AUROCs von 86,4, 88,0, 90,1 und 82,9, wobei es MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) und Merlin (Stanford) um 7,8–15,8 AUROC-Punkte übertrifft und in 87,2 % (319/366) der Aufgaben die beste Platzierung erreicht. Pillar-0 übertrifft ebenfalls alle Vergleichsmodelle in einer externen Validierung am Stanford Abdominal CT-Datensatz, einschließlich Merlin (82,2 vs. 80,6 AUROC). Pillar-0 erstreckt sich auf Aufgaben jenseits seines Vortrainings, wie die langfristige Lungenkrebsrisikovorhersage, bei der es den state-of-the-art Sybil auf NLST um 3,0 C-Index-Punkte verbessert und mit Gewinnen von 5,9 (MGH) und 1,9 (CGMH) generalisiert. Bei der Hirnblutungsdetektion erzielte Pillar-0 einen AUROC von >95, wobei nur 1/20 der Daten des nächstprobeneffizientesten Vergleichsmodells verwendet wurden. Pillar-0 und RATE zusammen bilden eine offene, klinisch rigorose Grundlage für den Aufbau hochleistungsfähiger radiologischer Systeme und ermöglichen Anwendungen, die zuvor aufgrund von Rechen-, Daten- und Bewertungsbeschränkungen nicht realisierbar waren.
Diffusion Transformer haben bemerkenswerte Fähigkeiten in der visuellen Synthese gezeigt, kämpfen jedoch oft mit semantischer Abstraktionsfähigkeit und langfristiger Planung. Diese Einschränkung führt häufig zu visuellen Halluzinationen und Fehlausrichtungen mit Benutzeranweisungen, insbesondere in Szenarien mit komplexem Szenenverständnis, Mensch-Objekt-Interaktionen, mehrstufigen Aktionen und kontextbezogener Bewegungsreasoning. Um diese Herausforderungen zu bewältigen, schlagen wir Plan-X vor, ein Framework, das explizit semantische Abstraktionsplanung durchsetzt, um den Videogenerierungsprozess zu steuern. Im Kern befindet sich ein Semantic Planner, ein lernbares multimodales Sprachmodell, das die Absicht des Benutzers aus Textprompts und visuellem Kontext erschließt und autoregressiv eine Sequenz von textbasierten räumlich-zeitlichen semantischen Tokens erzeugt. Diese semantischen Tokens, die die hochlevelige Textprompt-Führung ergänzen, dienen dem Videodiffusionsmodell als strukturierte "semantische Skizzen" über die Zeit, dessen Stärke in der Synthese hochdetaillierter visueller Details liegt. Plan-X integriert effektiv die Stärken von Sprachmodellen im multimodalen kontextbezogenen Reasoning und in der Planung mit den Stärken von Diffusionsmodellen in der fotorealistischen Videogenerierung. Umfangreiche Experimente belegen, dass unser Framework visuelle Halluzinationen erheblich reduziert und eine fein abgestimmte, anweisungskonforme Videogenerierung ermöglicht, die mit dem multimodalen Kontext konsistent ist.
Multi-Agent-Systeme erzielen bei allgemeinen Reasoning-Aufgaben gute Ergebnisse. Allerdings beeinträchtigt das Fehlen von Training in spezialisierten Bereichen ihre Genauigkeit. Aktuelle Trainingsmethoden trainieren ein einheitliches großes Sprachmodell (LLM) für alle Agenten im System. Dies kann die Leistung aufgrund unterschiedlicher zugrundeliegender Verteilungen für verschiedene Agenten begrenzen. Daher sollte das Training von Multi-Agenten-Systemen mit unterschiedlichen LLMs der nächste zu lösende Schritt sein. Dieser Ansatz führt jedoch zu Optimierungsherausforderungen. Beispielsweise operieren Agenten mit unterschiedlichen Frequenzen, Rollouts beinhalten variable Aufrufe von Sub-Agenten, und Agenten werden häufig auf separaten Servern bereitgestellt, was den Ende-zu-Ende-Gradientenfluss unterbricht. Um diese Probleme zu adressieren, schlagen wir M-GRPO vor, eine hierarchische Erweiterung von Group Relative Policy Optimization für vertikale Multi-Agenten-Systeme mit einem Hauptagenten (Planer) und mehreren Sub-Agenten (Multi-Turn-Werkzeugausführern). M-GRPO berechnet gruppenrelative Advantages sowohl für Haupt- als auch Sub-Agenten und bewahrt dabei die hierarchische Zuordnung von Verdienst (Credit Assignment). Es führt zudem ein Trajektorien-Alignment-Schema ein, das trotz variabler Sub-Agenten-Aufrufe Batches fester Größe erzeugt. Wir setzen eine entkoppelte Trainingspipeline ein, bei der Agenten auf separaten Servern laufen und minimale Statistiken über einen gemeinsamen Speicher austauschen. Dies ermöglicht skalierbares Training ohne Backpropagation über Server hinweg. In Experimenten mit realen Benchmarks (z.B. GAIA, XBench-DeepSearch und WebWalkerQA) übertrifft M-GRPO durchgängig sowohl Single-Agent-GRPO als auch Multi-Agent-GRPO mit eingefrorenen Sub-Agenten und zeigt verbesserte Stabilität und Stichprobeneffizienz. Diese Ergebnisse demonstrieren, dass die Ausrichtung heterogener Trajektorien und die Entkopplung der Optimierung über spezialisierte Agenten hinweg werkzeuggestützte Reasoning-Aufgaben verbessert.
Wir stellen M^3-Bench vor, den ersten Benchmark zur Bewertung der multimodalen Werkzeugnutzung unter dem Model Context Protocol. Der Benchmark zielt auf realistische, mehrstufige und multithreaded Workflows ab, die visuelle Verankerung und textuelles Reasoning, werkzeugübergreifende Abhängigkeiten sowie die Persistenz von Zwischenressourcen über mehrere Schritte hinweg erfordern. Wir führen eine ähnlichkeitsgesteuerte Alignment-Methode ein, die jeden Werkzeugaufruf serialisiert, Signaturen mit einem Sentence-Encoder einbettet und eine ähnlichkeitsgebündelte Hungarian-Matching durchführt, um überprüfbare Eins-zu-eins-Entsprechungen zu erhalten. Aufbauend auf diesem Alignment berichten wir interpretierbare Metriken, die semantische Treue von Workflow-Konsistenz entkoppeln. Der Benchmark umfasst 28 Server mit 231 Werkzeugen und bietet standardisierte Trajektorien, die durch eine Executor- & Judge-Pipeline mit menschlicher Verifikation kuratiert werden; ein Ensemble aus vier großen Sprachmodellen (LLMs) als zusätzliche Judge-Komponente bewertet die Aufgabenerfüllung (Task Completion) und Informationsverankerung. Evaluationen repräsentativer state-of-the-art multimodaler LLMs (MLLMs) zeigen anhaltende Defizite in der multimodalen MCP-Werkzeugnutzung, insbesondere bei der Argumenttreue und Strukturkonsistenz, was den Bedarf an Methoden unterstreicht, die gemeinsam über Bilder, Text und Werkzeuggraphen reasoning betreiben. Das anonymisierte Repository unseres Benchmarks befindet sich unter https://github.com/EtaYang10th/Open-M3-Bench.
Wir stellen One4D vor, ein einheitliches Framework für die 4D-Generierung und -Rekonstruktion, das dynamische 4D-Inhalte als synchronisierte RGB-Frames und Pointmaps erzeugt. Durch die konsistente Handhabung variierender Sparsity der Konditionierungsframes mittels eines Unified Masked Conditioning (UMC)-Mechanismus kann One4D nahtlos zwischen 4D-Generierung aus einem Einzelbild, 4D-Rekonstruktion aus einem vollständigen Video und gemischter Generierung und Rekonstruktion aus spärlichen Frames wechseln. Unser Framework adaptiert ein leistungsstarkes Videogenerierungsmodell für die gemeinsame Generierung von RGB- und Pointmap-Daten, mit sorgfältig gestalteten Netzwerkarchitekturen. Die häufig verwendeten Diffusion-Finetuning-Strategien für Depthmap- oder Pointmap-Rekonstruktion versagen oft bei der gemeinsamen Generierung von RGB- und Pointmap-Daten, da sie das Basis-Videomodell schnell verschlechtern. Um diese Herausforderung zu bewältigen, führen wir Decoupled LoRA Control (DLC) ein, das zwei modalspezifische LoRA-Adapter verwendet, um entkoppelte Rechenzweige für RGB-Frames und Pointmaps zu bilden. Diese sind durch leichtgewichtige, null-initialisierte Steuerungslinks verbunden, die schrittweise eine gegenseitige pixelweise Konsistenz erlernen. One4D, trainiert mit einer Mischung aus synthetischen und realen 4D-Datensätzen unter moderaten Rechenbudgets, erzeugt hochwertige RGB-Frames und präzise Pointmaps in sowohl Generierungs- als auch Rekonstruktionsaufgaben. Diese Arbeit stellt einen Schritt in Richtung einer allgemeinen, hochwertigen geometriebasierten 4D-Weltmodellierung mit Videodiffusionsmodellen dar. Projektseite: https://mizhenxing.github.io/One4D
Multiple-Choice-Fragebeantwortung (MCQA) war ein beliebtes Format zur Evaluierung und zum Reinforcement Fine-Tuning (RFT) moderner multimodaler Sprachmodelle. Ihr eingeschränktes Ausgabeformat ermöglicht eine vereinfachte, deterministische automatische Verifizierung. Wir stellen jedoch fest, dass die Antwortoptionen ausnutzbare Signale preisgeben können, was die Genauigkeitsmetriken als unzuverlässig für die Abbildung tatsächlicher Fähigkeiten macht und explizites oder implizites Raten von Antworten während des RFT fördert. Wir schlagen ReVeL (Rewrite and Verify by LLM) vor, ein Framework, das Multiple-Choice-Fragen in offene Fragen umschreibt, wobei die Antworten wann immer möglich verifizierbar bleiben. Das Framework kategorisiert Fragen nach verschiedenen Antworttypen und wendet jeweils unterschiedliche Umschreibungs- und Verifikationsschemata an. Bei der Anwendung für RFT konvertierten wir 20.000 MCQA-Beispiele und nutzten GRPO zum Finetunen von Qwen2.5-VL-Modellen. Mit ReVeL-OpenQA trainierte Modelle erreichen eine mit MCQA vergleichbare Genauigkeit auf Multiple-Choice-Benchmarks und verbessern die OpenQA-Genauigkeit um etwa sechs Prozentpunkte, was auf eine bessere Dateneffizienz und robustere Belohnungssignale als MCQA-basiertes Training hindeutet. Bei der Verwendung zur Evaluation deckt ReVeL zudem bis zu 20 Prozentpunkte Score-Inflation in MCQA-Benchmarks (relativ zu OpenQA) auf, verbessert die Bewertungsgenauigkeit und reduziert sowohl Kosten als auch Latenz. Code und Daten werden öffentlich zugänglich gemacht.
Obwohl die Qualität von Webdaten für große Sprachmodelle entscheidend ist, konzentrieren sich die meisten Bereinigungsbemühungen auf Filterung und Deduplizierung und behandeln die HTML-zu-Text-Extraktion als festen Vorverarbeitungsschritt. Bestehende Webkorpora verlassen sich auf heuristikbasierte Extraktoren wie Trafilatura, die Schwierigkeiten haben, die Dokumentstruktur zu erhalten und häufig strukturierte Elemente wie Formeln, Code und Tabellen beschädigen. Wir stellen die Hypothese auf, dass die Verbesserung der Extraktionsqualität für die nachgelagerten Leistungen ebenso wirkungsvoll sein kann wie aggressive Filterstrategien. Wir stellen MinerU-HTML vor, eine neuartige Extraktionspipeline, die Inhalts- extraktion als Sequenzetikettierungsproblem formuliert, das von einem Sprachmodell mit 0,6 Milliarden Parametern gelöst wird. Im Gegensatz zu Textdichte-Heuristiken nutzt MinerU-HTML semantisches Verständnis und verwendet eine zweistufige Formatierungspipeline, die semantische Elemente explizit kategorisiert, bevor sie in Markdown konvertiert werden. Entscheidend ist, dass sein modellbasierter Ansatz inhärent skalierbar ist, während heuristische Methoden nur begrenzte Verbesserungsmöglichkeiten bieten. Auf MainWebBench, unserem Benchmark mit 7.887 annotierten Webseiten, erreicht MinerU-HTML 81,8 % ROUGE-N F1 im Vergleich zu 63,6 % von Trafilatura, mit außergewöhnlicher Erhaltung strukturierter Elemente (90,9 % für Codeblöcke, 94,0 % für Formeln). Mit MinerU-HTML konstruieren wir AICC (AI-ready Common Crawl), ein 7,3 Billionen Token umfassendes mehrsprachiges Korpus aus zwei Common-Crawl-Snapshots. In kontrollierten Vortrainingsexperimenten, bei denen AICC und das mit Trafilatura extrahierte TfCC identischer Filterung unterzogen werden, erreichen auf AICC (62B Tokens) trainierte Modelle eine durchschnittliche Genauigkeit von 50,8 % über 13 Benchmarks hinweg und übertreffen TfCC um 1,08 Prozentpunkte – was direkte Evidenz dafür liefert, dass die Extraktionsqualität die Modellfähigkeiten signifikant beeinflusst. AICC übertrifft auch RefinedWeb und FineWeb in wichtigen Benchmarks. Wir veröffentlichen MainWebBench, MinerU-HTML und AICC öffentlich und demonstrieren, dass HTML-Extraktion eine kritische, oft unterschätzte Komponente der Webkorpuskonstruktion ist.
Diese Arbeit stellt Controllable Layer Decomposition (CLD) vor, eine Methode zur fein granularen und steuerbaren Mehrschichtentrennung von Rasterbildern. In praktischen Arbeitsabläufen erstellen und bearbeiten Designer typischerweise jede RGBA-Ebene unabhängig, bevor sie zu einem finalen Rasterbild zusammengesetzt werden. Dieser Prozess ist jedoch irreversibel: Sobald die Komposition erfolgt ist, ist eine Bearbeitung auf Ebenenebene nicht mehr möglich. Bestehende Methoden stützen sich häufig auf Image Matting und Inpainting, sind in ihrer Steuerbarkeit und Segmentierungsgenauigkeit jedoch nach wie vor eingeschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir zwei Schlüsselmodule vor: LayerDecompose-DiT (LD-DiT), das Bildelemente in verschiedene Ebenen entkoppelt und eine fein granulare Steuerung ermöglicht; und den Multi-Layer Conditional Adapter (MLCA), der Informationen des Zielbildes in Multi-Layer-Tokens injiziert, um eine präzise konditionale Generierung zu erreichen. Um eine umfassende Evaluation zu ermöglichen, erstellen wir einen neuen Benchmark und führen maßgeschneiderte Bewertungsmetriken ein. Experimentelle Ergebnisse zeigen, dass CLD bestehende Methoden sowohl in der Zerlegungsqualität als auch in der Steuerbarkeit konsistent übertrifft. Darüber hinaus können die durch CLD getrennten Ebenen direkt in gängigen Design-Tools wie PowerPoint manipuliert werden, was ihren praktischen Wert und ihre Anwendbarkeit in realen kreativen Workflows unterstreicht.
Wir schlagen einen vollständig datengesteuerten Ansatz zur Entwicklung von Schätzern für die gegenseitige Information (Mutual Information, MI) vor. Da jeder MI-Schätzer eine Funktion der beobachteten Stichprobe aus zwei Zufallsvariablen ist, parametrisieren wir diese Funktion mit einem neuronalen Netzwerk (MIST) und trainieren es end-to-end, um MI-Werte vorherzusagen. Das Training wird auf einem großen Meta-Datensatz von 625.000 synthetischen Verbundverteilungen mit bekannter Grundwahrheits-MI durchgeführt. Um variable Stichprobengrößen und Dimensionen zu handhaben, setzen wir ein zweidimensionales Attention-Schema ein, das Permutationsinvarianz über die Eingabestichproben hinweg gewährleistet. Zur Quantifizierung von Unsicherheit optimieren wir einen Quantilregressionsverlust, wodurch der Schätzer in der Lage ist, die Stichprobenverteilung der MI anzunähern, anstatt eine einzelne Punktschätzung zurückzugeben. Dieses Forschungsprogramm unterscheidet sich von früheren Arbeiten, indem es einen vollständig empirischen Weg einschlägt und universelle theoretische Garantien gegen Flexibilität und Effizienz eintauscht. Empirisch übertreffen die gelernten Schätzer klassische Baseline-Methoden über verschiedene Stichprobengrößen und Dimensionen hinweg deutlich, einschließlich bei Verbundverteilungen, die während des Trainings nicht gesehen wurden. Die resultierenden quantilbasierten Intervalle sind gut kalibriert und zuverlässiger als Bootstrap-Konfidenzintervalle, während der Inferenzvorgang um Größenordnungen schneller ist als bei bestehenden neuronalen Baseline-Methoden. Über unmittelbare empirische Verbesserungen hinaus liefert dieses Framework trainierbare, vollständig differenzierbare Schätzer, die in größere Lernpipelines eingebettet werden können. Darüber hinaus können Meta-Datensätze durch Ausnutzung der Invarianz der MI gegenüber invertierbaren Transformationen via Normalizing Flows an beliebige Datenmodalitäten angepasst werden, was ein flexibles Training für diverse Ziel-Meta-Verteilungen ermöglicht.
Informationsbeschaffung ist eine Kernfähigkeit für KI-Agenten, die es ihnen abverlangt, werkzeuggenerierte Informationen über lange Trajektorien hinweg zu sammeln und darüber zu schlussfolgern. Solche mehrstufigen Informationsbeschaffungsaufgaben stellen jedoch nach wie vor eine Herausforderung für Agenten auf Basis von Sprachmodellen dar. Während Prozess-Bewertungsmodelle (PRMs) Agenten durch das Bewerten von Kandidatenschritten zur Testzeit anleiten können, erfassen bestehende PRMs, die für kurze Schlussfolgerungen mit binären Urteilen konzipiert sind, weder reichere Dimensionen von Informationsbeschaffungsschritten – wie Werkzeuginteraktionen und Schlussfolgerungen über Werkzeugausgaben – noch bewältigen sie den schnell wachsenden Kontext in langfristigen Aufgaben. Um diese Einschränkungen zu adressieren, führen wir PRInTS ein, ein generatives PRM, das mit dualen Fähigkeiten trainiert wurde: (1) dichte Bewertung basierend auf der Schlussfolgerung des PRMs über mehrere Dimensionen der Schrittqualität (z.B. Interpretation von Werkzeugausgaben, Informationsgehalt des Werkzeugaufrufs) und (2) Trajektorienzusammenfassung, die den wachsenden Kontext komprimiert, während wesentliche Informationen für die Schrittwertung erhalten bleiben. Umfangreiche Evaluierungen über die Benchmarks FRAMES, GAIA (Level 1-3) und WebWalkerQA (einfach-schwer) an mehreren Modellen, ergänzt durch Ablationstudien, zeigen, dass Best-of-n-Sampling mit PRInTS die Informationsbeschaffungsfähigkeiten von Open-Source-Modellen sowie spezialisierten Agenten verbessert und die Leistung von Spitzenmodellen mit einem viel kleineren Basisagenten erreicht oder übertrifft, während es andere starke Bewertungsmodell-Baselines übertrifft.
Wir stellen Upsample Anything vor, einen leichtgewichtigen Test-Time-Optimierung (TTO)-Ansatz, der niedrigaufgelöste Merkmale ohne jegliches Training in hochaufgelöste, pixelgenaue Ausgaben umwandelt. Obwohl Vision Foundation Models eine starke Generalisierungsfähigkeit über diverse Downstream-Aufgaben hinweg zeigen, werden ihre Repräsentationen typischerweise um den Faktor 14x/16x (z.B. bei ViT) heruntergerechnet, was ihre direkte Verwendung in pixelbasierten Anwendungen einschränkt. Bestehende Methoden zur Merkmalsvergrößerung benötigen datensatzspezifisches Neu-Training oder aufwändige implizite Optimierung, was Skalierbarkeit und Generalisierung begrenzt. Upsample Anything adressiert diese Probleme durch eine einfache pro-Bild-Optimierung, die einen anisotropen Gauß-Kernel lernt, der räumliche und Intensitätsinformationen kombiniert und so effektiv Gauß Splatting und Joint Bilateral Upsampling verbindet. Der gelernte Kernel fungiert als universeller, kantenempfindlicher Operator, der sich nahtlos über Architekturen und Modalitäten hinweg übertragen lässt und eine präzise hochaufgelöste Rekonstruktion von Merkmalen, Tiefen- oder Wahrscheinlichkeitskarten ermöglicht. Die Methode benötigt nur ca. 0,419 s pro 224x224-Bild und erzielt state-of-the-art Ergebnisse bei semantischer Segmentierung, Tiefenschätzung sowie beim Upsampling von Tiefen- und Wahrscheinlichkeitskarten. Projektseite: https://seominseok0429.github.io/Upsample-Anything/
Vision Language Models (VLMs) zeigen gute Leistungen bei Standard-Videoaufgaben, haben jedoch Schwierigkeiten mit physikbasiertem Reasoning, das Bewegungsdynamiken und räumliche Interaktionen umfasst. Diese Einschränkung verringert ihre Fähigkeit, reale oder KI-generierte Videos (AIGC) zu interpretieren und physikalisch konsistente Inhalte zu erzeugen. Wir stellen einen Ansatz vor, der diese Lücke schließt, indem Kontextinformationen aus der physikalischen Welt in interpretierbare Repräsentationen übersetzt werden, die mit der Wahrnehmung, dem Verständnis und dem Reasoning von VLMs abgestimmt sind. Wir führen MASS-Bench ein, einen umfassenden Benchmark, der aus 4.350 Real-World- und AIGC-Videos sowie 8.361 freien Video-Frage-Antwort-Paaren für physikbezogene Verständnisaufgaben besteht, mit detaillierten Annotationen einschließlich visueller Detektionen, Sub-Segment-Grounding und 3D-Bewegungstracking von Entitäten über die gesamte Sequenz. Darüber hinaus präsentieren wir MASS, eine modellagnostische Methode, die räumlich-zeitliche Signale via tiefenbasierter 3D-Kodierung und visuellem Grounding in den Sprachraum des VLMs injiziert, gekoppelt mit einem Bewegungstracker für Objektdynamiken. Um die cross-modale Ausrichtung und das Reasoning zu stärken, wenden wir Reinforcement Fine-Tuning an. Experimente und Ablation Studies zeigen, dass unsere verfeinerten VLMs vergleichbare und größere Baseline-Modelle sowie bisherige State-of-the-Art-Modelle um 8,7 % bzw. 6,0 % übertreffen und eine Leistung erreichen, die mit der von Closed-Source-SoTA-VLMs wie Gemini-2.5-Flash im physikalischen Reasoning und Verständnis vergleichbar ist. Diese Ergebnisse validieren die Wirksamkeit unseres Ansatzes.
Langfristige robotische Manipulation bleibt für Vision-Language-Action (VLA)-Modelle trotz jüngster Fortschritte bei Null-Shot-Generalisation und Simulation-zu-Realwelt-Transfer eine Herausforderung. Aktuelle VLA-Modelle leiden unter Stufenhalluzination, bei der Agenten grobe Evaluierungssignale ausnutzen, um mehrstufige Aufgaben zu umgehen, und hohe Fortschritte melden, ohne sie tatsächlich abzuschließen. Wir stellen EvoVLA vor, einen selbstüberwachten VLA-Rahmen, der dieses Problem durch drei komplementäre Komponenten adressiert: Stage-Aligned Reward (SAR), der triplettenbasiertes kontrastives Lernen mit hart-negativen Beispielen von Gemini nutzt, um visuelle Abkürzungen zu verhindern; Pose-Based Object Exploration (POE), die Neugier auf relativen Objekt-Greifer-Posen statt Rohpixeln gründet; und Langfristiges Gedächtnis, das selektive Kontextbewahrung und gated Fusion zur Stabilisierung intrinsischer Formung während langer Rollouts verwendet. Umfangreiche Auswertungen auf Discoverse-L, einem Benchmark für langfristige Manipulation mit drei mehrstufigen Aufgaben, zeigen, dass EvoVLA den durchschnittlichen Aufgaben-Erfolg um 10,2 Prozentpunkte gegenüber der stärksten Baseline (OpenVLA-OFT) auf 69,2 Prozent steigert. EvoVLA erreicht auch eine um das Eineinhalbfache bessere Stichprobeneffizienz und reduziert Stufenhalluzination von 38,5 Prozent auf 14,8 Prozent. Der Einsatz in der Realwelt auf physischen Robotern erreicht eine durchschnittliche Erfolgsrate von 54,6 Prozent über vier Manipulationsaufgaben, übertrifft OpenVLA-OFT um 11 Punkte und demonstriert effektiven Sim-to-Real-Transfer und starke Generalisation. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
Aktuelle Flow-Modelle erreichen eine beeindruckende Qualität, erfordern jedoch langsames, iteratives Sampling. Um dies zu beschleunigen, können Flow Maps von vortrainierten Lehrermodellen destilliert werden – ein Verfahren, das konventionell das Sampling aus einem externen Datensatz erfordert. Wir argumentieren, dass diese Datenabhängigkeit ein grundsätzliches Risiko eines Teacher-Data-Mismatchs birgt, da ein statischer Datensatz möglicherweise eine unvollständige oder sogar fehlausgerichtete Repräsentation der vollen generativen Fähigkeiten des Lehrers liefert. Dies veranlasst uns zu der Frage, ob diese Abhängigkeit von Daten für eine erfolgreiche Flow-Map-Destillation tatsächlich notwendig ist. In dieser Arbeit untersuchen wir einen datenfreien Ansatz, der ausschließlich aus der Prior-Verteilung sampelt – einer Verteilung, der der Lehrer durch seine Konstruktion garantiert folgt – und so das Mismatch-Risiko vollständig umgeht. Um die praktische Umsetzbarkeit dieses Prinzips zu demonstrieren, führen wir einen methodischen Rahmen ein, der lernt, den Sampling-Pfad des Lehrers vorherzusagen und dabei aktiv seine eigenen sich aufschaukelnden Fehler korrigiert, um eine hohe Wiedergabetreue zu gewährleisten. Unser Ansatz übertrifft alle datenbasierten Gegenstücke und setzt mit deutlichem Abstand einen neuen Maßstab. Konkret erreicht unsere Methode beim Destillieren von SiT-XL/2+REPA einen beeindruckenden FID von 1,45 auf ImageNet 256x256 und 1,49 auf ImageNet 512x512, jeweils mit nur einem Sampling-Schritt. Wir hoffen, dass unsere Arbeit ein robusteres Paradigma für die Beschleunigung generativer Modelle etabliert und die breitere Anwendung von Flow-Map-Destillation ohne Daten befördert.
Während aktuelle Weltmodelle hochrealistische Videos generieren, bleibt ihre Fähigkeit zur Roboterpfadplanung unklar und unquantifiziert. Wir stellen Target-Bench vor, den ersten Benchmark, der speziell zur Bewertung von Weltmodellen für kartenlose Pfadplanung zu semantischen Zielen in realen Umgebungen entwickelt wurde. Target-Bench bietet 450 robotergenerierte Videosequenzen aus 45 semantischen Kategorien mit SLAM-basierten Ground-Truth-Trajektorien. Unsere Evaluierungspipeline rekonstruiert die Kamerabewegung aus generierten Videos und misst die Planungsleistung anhand von fünf komplementären Metriken, die die Zielerreichungsfähigkeit, Trajektoriengenauigkeit und Richtungskonsistenz quantifizieren. Wir evaluieren state-of-the-art Modelle, darunter Sora 2, Veo 3.1 und die Wan-Serie. Das beste verfügbare Modell (Wan2.2-Flash) erreicht nur einen Gesamtscore von 0,299, was erhebliche Grenzen aktueller Weltmodelle für robotische Planungsaufgaben aufzeigt. Wir demonstrieren, dass das Feinabstimmen eines Open-Source-Modells mit 5B Parametern an nur 325 Szenarien unseres Datensatzes einen Gesamtscore von 0,345 erreicht – eine Verbesserung von über 400 % gegenüber der Basisversion (0,066) und 15 % höher als das beste verfügbare Modell. Wir werden den Code und den Datensatz open-source bereitstellen.
Wir stellen eine Methode zur Extraktion monosemantischer Neuronen vor, die als latente Dimensionen definiert sind, die mit kohärenten und interpretierbaren Konzepten übereinstimmen, aus Nutzer- und Item-Embeddings in Recommender-Systemen. Unser Ansatz verwendet ein Sparse Autoencoder (SAE), um die semantische Struktur innerhalb vortrainierter Repräsentationen aufzudecken. Im Gegensatz zu Arbeiten an Sprachmodellen muss die Monosemantizität in der Empfehlungssystemforschung die Interaktionen zwischen separaten Nutzer- und Item-Embeddings bewahren. Um dies zu erreichen, führen wir ein prädiktionsbewusstes Trainingsziel ein, das durch ein eingefrorenes Empfehlungssystem zurückpropagiert und die gelernte latente Struktur mit den Affinitätsvorhersagen des Modells für Nutzer-Item-Paare in Einklang bringt. Die resultierenden Neuronen erfassen Eigenschaften wie Genre, Popularität und zeitliche Trends und unterstützen post-hoc-Steuerungsoperationen, einschließlich gezielter Filterung und Inhaltsförderung, ohne das Basismodell zu verändern. Unsere Methode verallgemeinert über verschiedene Empfehlungsmodelle und Datensätze hinweg und bietet ein praktisches Werkzeug für interpretierbare und steuerbare Personalisierung. Code und Evaluierungsressourcen sind verfügbar unter https://github.com/DeltaLabTLV/Monosemanticity4Rec.
Erklärungstreue, die misst, wie genau eine Erklärung die tatsächliche Entscheidungsfindung eines Modells widerspiegelt, ist in Recommender-Systemen nach wie vor kritisch unerforscht. Wir stellen SPINRec (Stochastic Path Integration for Neural Recommender Explanations) vor, einen modellagnostischen Ansatz, der Pfadintegrations-Techniken an die spärliche und implizite Natur von Empfehlungsdaten anpasst. Um die Grenzen früherer Methoden zu überwinden, setzt SPINRec auf stochastisches Baseline-Sampling: Anstatt von einer festen oder unrealistischen Baseline aus zu integrieren, werden mehrere plausible Benutzerprofile aus der empirischen Datenverteilung gezogen und der pfadtreueste Attributionspfad ausgewählt. Dieses Design erfasst den Einfluss sowohl beobachteter als auch unbeobachteter Interaktionen und liefert so stabilere und personalisiertere Erklärungen. Wir führen die bislang umfassendste Treuebewertung durch, die drei Modelle (MF, VAE, NCF), drei Datensätze (ML1M, Yahoo! Music, Pinterest) und eine Reihe von kontrafaktischen Metriken, einschließlich AUC-basierter Perturbationskurven und Fixed-Length-Diagnosen, umfasst. SPINRec übertrifft durchgängig alle Baseline-Methoden und setzt damit einen neuen Maßstab für verlässliche Erklärbarkeit in der Empfehlungsforschung. Code und Auswertungswerkzeuge sind öffentlich unter https://github.com/DeltaLabTLV/SPINRec verfügbar.
Die Generierung von Hand-Objekt-Interaktionen (HOI) spielt eine entscheidende Rolle für die Weiterentwicklung von Anwendungen in den Bereichen Animation und Robotik. Aktuelle videobasierte Methoden sind überwiegend einseitig (Single-View), was eine umfassende 3D-Geometrieerfassung behindert und häufig zu geometrischen Verzerrungen oder unrealistischen Bewegungsmustern führt. Während 3D-HOI-Ansätze dynamisch plausible Bewegungen erzeugen können, schränkt ihre Abhängigkeit von hochwertigen 3D-Daten, die in kontrollierten Laborumgebungen erfasst werden, ihre Generalisierbarkeit auf reale Szenarien stark ein. Um diese Einschränkungen zu überwinden, stellen wir SyncMV4D vor, das erste Modell, das synchronisierte Multi-View-HOI-Videos und 4D-Bewegungen gemeinsam generiert, indem es visuelle Priors, Bewegungsdynamik und Multi-View-Geometrie vereint. Unser Framework zeichnet sich durch zwei zentrale Innovationen aus: (1) ein Multi-View Joint Diffusion (MJD)-Modell, das HOI-Videos und Zwischenbewegungen ko-generiert, und (2) einen Diffusion Points Aligner (DPA), der die groben Zwischenbewegungen zu global ausgerichteten 4D-metrischen Punktverfolgungen verfeinert. Um die 2D-Darstellung eng mit der 4D-Dynamik zu koppeln, etablieren wir einen geschlossenen, sich gegenseitig verstärkenden Kreislauf. Während des Diffusions-Denoising-Prozesses konditioniert das generierte Video die Verfeinerung der 4D-Bewegung, während die ausgerichteten 4D-Punktverfolgungen rückprojiziert werden, um die gemeinsame Generierung im nächsten Schritt zu steuern. Experimentell zeigt unsere Methode eine überlegene Leistung im Vergleich zu modernen Alternativen in Bezug auf visuelle Realitätsnähe, Bewegungsplausibilität und Multi-View-Konsistenz.
Große Sprachmodelle (LLMs) werden häufig für faktische Aufgaben eingesetzt, wie etwa "Was hilft gegen Asthma?" oder "Was ist die Hauptstadt von Lettland?". Es ist jedoch nach wie vor unklar, wie stabil LLMs die Unterscheidung zwischen wahren, falschen und weder-wahren-noch-falschen Inhalten in ihren internen probabilistischen Repräsentationen kodieren. Wir führen den Begriff der Repräsentationsstabilität ein, der die Robustheit der Wahrheitsrepräsentationen eines LLM gegenüber Störungen in der operationalen Definition von Wahrheit beschreibt. Wir bewerten die Repräsentationsstabilität, indem wir (i) einen linearen Klassifikator auf den Aktivierungen eines LLM trainieren, um wahre von nicht-wahren Aussagen zu trennen, und (ii) messen, wie sich dessen gelernte Entscheidungsgrenze unter kontrollierten Änderungen der Labels verschiebt. Unter Verwendung von Aktivierungen aus sechzehn Open-Source-Modellen und drei faktischen Domänen vergleichen wir zwei Arten von "weder-noch"-Aussagen. Die erste Art sind faktisch anmutende Behauptungen über Entitäten, von denen wir annehmen, dass sie in keinen Trainingsdaten vorkommen. Wir bezeichnen diese als *unvertraute* "weder-noch"-Aussagen. Die zweite Art sind nicht-faktische Behauptungen aus bekannten fiktionalen Kontexten. Wir bezeichnen diese als *vertraute* "weder-noch"-Aussagen. Die unvertrauten Aussagen verursachen die größten Grenzverschiebungen und führen in fragilen Domänen (wie z.B. Wortdefinitionen) zu bis zu 40 % geänderten Wahrheitsurteilen, während vertraute fiktionale Aussagen kohärenter gruppiert bleiben und kleinere Änderungen (≤ 8,2 %) bewirken. Diese Ergebnisse deuten darauf hin, dass Repräsentationsstabilität eher von epistemischer Vertrautheit als von der sprachlichen Form abhängt. Im weiteren Sinne bietet unser Ansatz ein Diagnosewerkzeug, um LLMs zu überprüfen und zu trainieren, damit sie kohärente Wahrheitszuweisungen unter semantischer Unsicherheit bewahren, anstatt nur auf Ausgabegenauigkeit zu optimieren.
Die Erkennung von getarnten Objekten ist eine aufstrebende und anspruchsvolle Aufgabe im Bereich Computer Vision, bei der Objekte identifiziert und segmentiert werden müssen, die sich aufgrund hoher Ähnlichkeit in Farbe, Textur und Größe nahtlos in ihre Umgebung einfügen. Diese Aufgabe wird durch schwierige Lichtverhältnisse, partielle Verdeckungen, geringe Objektgrößen, komplexe Hintergrundmuster und mehrere Objekte zusätzlich erschwert. Obwohl bereits viele ausgefeilte Methoden für diese Aufgabe vorgeschlagen wurden, haben bestehende Ansätze nach wie vor Schwierigkeiten, getarnte Objekte in komplexen Szenarien präzise zu erkennen – insbesondere bei kleinen und multiplen Objekten –, was auf Verbesserungspotenzial hindeutet. Wir schlagen ein Multi-Scale Recursive Network vor, das über ein Pyramid Vision Transformer-Backbone Merkmale auf mehreren Skalen extrahiert und diese über spezielle Attention-Based Scale Integration Units kombiniert, wodurch eine selektive Merkmalsfusion ermöglicht wird. Für eine präzisere Objekterkennung verfeinert unser Decoder die Merkmale rekursiv durch den Einsatz von Multi-Granularity Fusion Units. Eine neuartige rekursiv-rückgekoppelte Decodierungsstrategie wurde entwickelt, um das globale Kontextverständnis zu verbessern und das Modell bei der Bewältigung der Herausforderungen dieser Aufgabe zu unterstützen. Durch die gemeinsame Nutzung von Multi-Scale-Lernen und rekursiver Merkmalsoptimierung erzielt unsere Methode Leistungssteigerungen und erkennt erfolgreich kleine und multiple getarnte Objekte. Unser Modell erreicht state-of-the-art Ergebnisse auf zwei Benchmark-Datensätzen zur Erkennung getarnter Objekte und belegt auf den beiden verbleibenden Datensätzen den zweiten Platz. Unsere Codes, Modellgewichte und Ergebnisse sind unter https://github.com/linaagh98/MSRNet verfügbar.