papers.description
Das Gedächtnis hat sich als eine zentrale Fähigkeit von Agenten auf Basis von Fundamentalmodellen etabliert und wird dies auch weiterhin bleiben. Während die Forschung zum Agentengedächtnis rapide expandiert und beispiellose Aufmerksamkeit auf sich zieht, wird das Feld zunehmend fragmentierter. Bestehende Arbeiten, die unter den Oberbegriff des Agentengedächtnisses fallen, unterscheiden sich oft erheblich in ihrer Motivation, Implementierung und Evaluierungsmethodik, während die Verbreitung von lose definierten Gedächtnisbegriffen die konzeptionelle Klarheit weiter verschleiert. Traditionelle Taxonomien wie Langzeit-/Kurzzeitgedächtnis haben sich als unzureichend erwiesen, um die Vielfalt moderner Agentengedächtnissysteme zu erfassen. Diese Arbeit zielt darauf ab, einen aktuellen Überblick über die Forschung zum Agentengedächtnis zu geben. Wir beginnen mit einer klaren Abgrenzung des Anwendungsbereichs des Agentengedächtnisses und unterscheiden es von verwandten Konzepten wie LLM-Gedächtnis, Retrieval-Augmented Generation (RAG) und Kontextengineering. Anschließend betrachten wir das Agentengedächtnis durch die vereinheitlichten Linsen von Formen, Funktionen und Dynamiken. Aus der Perspektive der Formen identifizieren wir drei dominante Realisierungen des Agentengedächtnisses: Token-Level-, parametrisches und latentes Gedächtnis. Aus der Perspektive der Funktionen schlagen wir eine feiner granulierte Taxonomie vor, die zwischen Faktengedächtnis, Erfahrungsgedächtnis und Arbeitsgedächtnis unterscheidet. Aus der Perspektive der Dynamiken analysieren wir, wie Gedächtnis über die Zeit gebildet, weiterentwickelt und abgerufen wird. Um die praktische Entwicklung zu unterstützen, erstellen wir eine umfassende Zusammenfassung von Gedächtnis-Benchmarks und Open-Source-Frameworks. Über die Konsolidierung hinaus skizzieren wir eine vorausschauende Perspektive auf neu entstehende Forschungsfronten, einschließlich Gedächtnisautomatisierung, Reinforcement-Learning-Integration, multimodalem Gedächtnis, Multi-Agenten-Gedächtnis und Vertrauenswürdigkeitsfragen. Wir hoffen, dass dieser Survey nicht nur als Referenz für bestehende Arbeiten dient, sondern auch als konzeptionelle Grundlage, um Gedächtnis als First-Class-Primitive im Design zukünftiger agentenbasierter Intelligenz neu zu denken.
Wir stellen QwenLong-L1.5 vor, ein Modell, das durch systematische Post-Training-Innovationen überlegene Fähigkeiten im Long-Context Reasoning erreicht. Die wichtigsten technischen Durchbrüche von QwenLong-L1.5 sind folgende: (1) Long-Context Data Synthesis Pipeline: Wir entwickeln einen systematischen Synthese-Framework, der anspruchsvolle Reasoning-Aufgaben generiert, die mehrstufige Verankerung in global verteilten Beweisen erfordern. Durch die Dekonstruktion von Dokumenten in atomare Fakten und deren zugrundeliegende Beziehungen und die anschließende programmatische Zusammensetzung verifizierbarer Reasoning-Fragen erzeugt unser Ansatz hochwertige Trainingsdaten in großem Maßstab und geht damit deutlich über einfache Retrieval-Aufgaben hinaus, um echte Long-Range Reasoning-Fähigkeiten zu ermöglichen. (2) Stabilisiertes Reinforcement Learning für Long-Context-Training: Um die kritische Instabilität im Long-Context-RL zu überwinden, führen wir task-balanced Sampling mit aufgabenspezifischer Advantage-Schätzung ein, um Reward-Bias zu mildern, und schlagen Adaptive Entropy-Controlled Policy Optimization (AEPO) vor, die die Exploration-Exploitation-Abwägung dynamisch reguliert. (3) Speichererweiterte Architektur für ultra-lange Kontexte: In der Erkenntnis, dass selbst erweiterte Kontextfenster nicht beliebig lange Sequenzen aufnehmen können, entwickeln wir ein Speicherverwaltungsframework mit mehrstufigem Fusions-RL-Training, das Single-Pass-Reasoning nahtlos mit iterativer speicherbasierter Verarbeitung für Aufgaben mit über 4M Tokens integriert. Basierend auf Qwen3-30B-A3B-Thinking erreicht QwenLong-L1.5 eine Leistung, die mit GPT-5 und Gemini-2.5-Pro auf Long-Context Reasoning Benchmarks vergleichbar ist und ihren Baseline-Wert im Durchschnitt um 9,90 Punkte übertrifft. Bei ultra-langen Aufgaben (1M~4M Tokens) erzielt QwenLong-L1.5 mit seinem Memory-Agent-Framework einen Gewinn von 9,48 Punkten gegenüber der Agent-Baseline. Zusätzlich überträgt sich die erworbene Long-Context Reasoning-Fähigkeit auf eine verbesserte Leistung in allgemeinen Domänen wie wissenschaftlichem Reasoning, der Nutzung von Speicherwerkzeugen und erweiterten Dialogen.
Die Qualität des latenten Raums in visuellen Tokenizern (z.B. VAEs) ist entscheidend für moderne generative Modelle. Das standardmäßige, rekonstruktionsbasierte Trainingsparadigma erzeugt jedoch einen latenten Raum, der zu Low-Level-Informationen hin verzerrt ist, was zu einem grundlegenden Fehler führt: Bessere Pixelgenauigkeit führt nicht zu höherer Generierungsqualität. Dies impliziert, dass der Aufwand umfangreicher Rechenressourcen für das Pre-Training visueller Tokenizer nur geringfügig zu verbesserter Generierungsleistung beiträgt. Wir identifizieren dies als das "Pre-Training-Scaling-Problem" und schlagen einen notwendigen Paradigmenwechsel vor: Um effektiv für die Generierung zu sein, muss ein latenter Raum hochlevelige Semantik prägnant repräsentieren. Wir stellen VTP vor, ein vereinheitlichtes Pre-Training-Framework für visuelle Tokenizer, das Pionierarbeit bei der gemeinsamen Optimierung von Bild-Text-Kontrastiv-, Self-Supervised- und Rekonstruktionsverlusten leistet. Unsere großangelegte Studie offenbart zwei Haupterkenntnisse: (1) Semantisches Verständnis ist ein Schlüsseltreiber für Generierung und (2) deutlich bessere Skalierungseigenschaften, bei denen die Generierungsleistung effektiv mit den für das Pre-Training des visuellen Tokenizers aufgewendeten Rechenoperationen, Parametern und Daten skaliert. Nach großvolumigem Pre-Training weist unser Tokenizer ein wettbewerbsfähiges Profil auf (78,2 % Zero-Shot-Genauigkeit und 0,36 rFID auf ImageNet) und eine 4,1-fach schnellere Konvergenz bei der Generierung im Vergleich zu fortgeschrittenen Distillationsmethoden. Noch wichtiger ist, dass er effektiv skaliert: Ohne Modifikation der standardmäßigen DiT-Trainingsspezifikationen erzielt allein die Investition von mehr FLOPS in das Pre-Training von VTP eine 65,8 %ige FID-Verbesserung in der nachgelagerten Generierung, während konventionelle Autoencoder bereits sehr früh bei 1/10 der FLOPS stagnieren. Unsere vortrainierten Modelle sind verfügbar unter https://github.com/MiniMax-AI/VTP.
Autoregressive Modelle (ARMs) werden durch langsame sequentielle Inferenz behindert. Während maskierte Diffusionsmodelle (MDMs) eine parallele Alternative bieten, leiden sie unter entscheidenden Nachteilen: hohem Rechenaufwand durch den Ausschluss von Key-Value (KV)-Caching und inkohärenter Generierung aufgrund des Lernens von Abhängigkeiten über einem nicht handhabbaren Raum von Token-Kombinationen. Um diese Einschränkungen zu adressieren, führen wir ReFusion ein, ein neuartiges maskiertes Diffusionsmodell, das durch die Erhöhung der parallelen Dekodierung von der Token-Ebene auf eine höhere Slot-Ebene überlegene Leistung und Effizienz erreicht, wobei jeder Slot eine feste Länge aufweisende, zusammenhängende Teilsequenz ist. Dies wird durch einen iterativen „Plan-and-Infill“-Dekodierungsprozess erreicht: Ein diffusionsbasierter Planungsschritt identifiziert zunächst eine Menge schwach abhängiger Slots, und ein autoregressiver Infilling-Schritt dekodiert diese ausgewählten Slots dann parallel. Das slotbasierte Design ermöglicht gleichzeitig die vollständige Wiederverwendung des KV-Caches mit einem einheitlichen kausalen Framework und reduziert die Lernkomplexität vom Raum der Token-Kombinationen auf einen handhabbaren Raum von Slot-Permutationen. Umfangreiche Experimente auf sieben verschiedenen Benchmarks zeigen, dass ReFusion nicht nur frühere MDMs mit durchschnittlich 34 % Leistungssteigerung und einer mehr als 18-fachen Beschleunigung deutlich übertrifft, sondern auch die Leistungslücke zu starken ARMs schließt und dabei eine durchschnittliche 2,33-fache Beschleunigung beibehält.
Der Aufbau von Video-Weltmodellen auf Basis vortrainierter Videogenerierungssysteme stellt einen wichtigen, jedoch herausfordernden Schritt auf dem Weg zu einer allgemeinen raumzeitlichen Intelligenz dar. Ein Weltmodell sollte drei wesentliche Eigenschaften besitzen: Steuerbarkeit, langfristige visuelle Qualität und zeitliche Konsistenz. Zu diesem Zweck verfolgen wir einen progressiven Ansatz – zunächst wird die Steuerbarkeit verbessert und dann auf langfristige, hochwertige Generierung erweitert. Wir präsentieren LongVie 2, ein end-to-end autoregressives Framework, das in drei Stufen trainiert wird: (1) Multimodale Führung, die dichte und spärliche Steuersignale integriert, um implizite Überwachung auf Weltebene bereitzustellen und die Steuerbarkeit zu verbessern; (2) Degradationsbewusstes Training des Eingabebildes, das die Lücke zwischen Training und langfristiger Inferenz schließt, um eine hohe visuelle Qualität zu erhalten; und (3) Historien-Kontextführung, die kontextuelle Informationen über benachbarte Clips hinweg abstimmt, um zeitliche Konsistenz zu gewährleisten. Wir führen außerdem LongVGenBench ein, einen umfassenden Benchmark, der 100 hochauflösende Ein-Minuten-Videos umfasst, die verschiedene reale und synthetische Umgebungen abdecken. Umfangreiche Experimente zeigen, dass LongVie 2 state-of-the-art Leistung in langreichweitiger Steuerbarkeit, zeitlicher Kohärenz und visueller Treue erreicht und kontinuierliche Videogenerierung von bis zu fünf Minuten Dauer unterstützt, was einen bedeutenden Schritt in Richtung eines vereinheitlichten Video-Weltmodellierens darstellt.
Wir stellen einen Finanz- und Rechnungswesen-Benchmark (Finch) vor, um KI-Agenten anhand realer, unternehmensweiter professioneller Workflows zu evaluieren – mit verzahnten Aufgaben wie Dateneingabe, Strukturierung, Formatierung, Websuche, dateiübergreifender Abfrage, Berechnung, Modellierung, Validierung, Übersetzung, Visualisierung und Berichterstattung. Finch stammt aus authentischen Unternehmensarbeitsumgebungen bei Enron (15.000 Tabellenkalkulationen und 500.000 E-Mails von 150 Mitarbeitern) sowie anderen Finanzinstituten und bewahrt die reale Unordnung über multimodale Artefakte (Text, Tabellen, Formeln, Diagramme, Code und Bilder) hinweg, wobei diverse Domänen wie Budgetierung, Handel und Vermögensverwaltung abgedeckt werden. Wir schlagen einen Workflow-Konstruktionsprozess vor, der KI-gestützte Entdeckung mit Expertenannotation kombiniert: (1) KI-gestützte, expertengeprüfte Ableitung von Workflows aus realen E-Mail-Threads und Versionsverläufen von Tabellenkalkulationsdateien sowie (2) sorgfältige Expertenannotation für Workflows, die über 700 Stunden Arbeit von Domain-Experten erforderte. Dies ergibt 172 zusammengesetzte Workflows mit 384 Aufgaben, die 1.710 Tabellenkalkulationen mit 27 Millionen Zellen sowie PDFs und andere Artefakte umfassen und die inhärent chaotische, langfristige, wissensintensive und kollaborative Natur realer Unternehmensarbeit abbilden. Wir führen sowohl menschliche als auch automatisierte Evaluationen führender KI-Systeme durch, darunter GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 und Qwen 3 Max. GPT 5.1 Pro benötigt insgesamt 48 Stunden, besteht jedoch nur 38,4 % der Workflows, während Claude Sonnet 4.5 lediglich 25,0 % besteht. Umfassende Fallstudien verdeutlichen weiterhin die Herausforderungen, die reale Unternehmensworkflows für KI-Agenten darstellen.
Jüngste Fortschritte bei programmierenden Agenten deuten auf rasante Fortschritte in Richtung autonomer Softwareentwicklung hin, doch bestehende Benchmarks bewerten die langfristigen Fähigkeiten, die für den Aufbau kompletter Softwaresysteme erforderlich sind, nicht rigoros. Die meisten bisherigen Evaluierungen konzentrieren sich auf lokalisierte Codegenerierung, gerüstgestützte Vervollständigung oder kurzfristige Reparaturaufgaben. Daher bleibt die Frage offen, ob Agenten kohärentes Denken, Planen und Ausführen über die langen Zeithorizonte hinweg aufrechterhalten können, die der Aufbau realer Repositorys erfordert. Um diese Lücke zu schließen, präsentieren wir NL2Repo Bench, einen Benchmark, der explizit zur Bewertung der Fähigkeit von Programmieragenten zur langfristigen Repository-Generierung entwickelt wurde. Ausgehend lediglich von einem einzigen natürlichkeitssprachlichen Anforderungsdokument und einem leeren Arbeitsbereich müssen Agenten autonom die Architektur entwerfen, Abhängigkeiten verwalten, multimodale Logik implementieren und eine vollständig installierbare Python-Bibliothek erstellen. Unsere Experimente mit modernsten Open-Source- und Closed-Source-Modellen zeigen, dass die langfristige Repository-Generierung größtenteils ungelöst bleibt: Selbst die leistungsstärksten Agenten erreichen durchschnittliche Testbestandenraten von unter 40 % und vollenden nur selten ein gesamtes Repository korrekt. Detaillierte Analysen decken grundlegende Fehlermodi bei langen Zeithorizonten auf, darunter vorzeitiger Abbruch, Verlust der globalen Kohärenz, fragile dateiübergreifende Abhängigkeiten und unzureichende Planung über hunderte von Interaktionsschritten hinweg. NL2Repo Bench etabliert eine rigorose, verifizierbare Testumgebung zur Messung nachhaltiger agentenbasierter Kompetenz und identifiziert langfristiges Schlussfolgern als zentrales Hindernis für die nächste Generation autonomer Programmieragenten.
Avatarbasierte Videogenerierungsmodelle haben in den letzten Jahren bemerkenswerte Fortschritte erzielt. Bisherige Arbeiten zeigen jedoch eine begrenzte Effizienz bei der Erzeugung langandauernder hochauflösender Videos, wobei sie unter zeitlicher Drift, Qualitätsverschlechterung und schwacher Befehlsbefolgung mit zunehmender Videolänge leiden. Um diese Herausforderungen zu bewältigen, schlagen wir KlingAvatar 2.0 vor, ein raumzeitliches Kaskadenframework, das eine Hochskalierung sowohl in der räumlichen Auflösung als auch in der zeitlichen Dimension vornimmt. Das Framework erzeugt zunächst niedrigaufgelöste Blueprint-Videokeyframes, die globale Semantik und Bewegung erfassen, und verfeinert diese dann unter Verwendung einer First-Last-Frame-Strategie zu hochauflösenden, zeitlich kohärenten Teilclips, wobei gleichzeitig fließende zeitliche Übergänge in langen Videos erhalten bleiben. Um die cross-modale Befehlsfusion und -ausrichtung in längeren Videos zu verbessern, führen wir einen Co-Reasoning Director ein, der aus drei modalitätsspezifischen Large Language Model (LLM)-Experten besteht. Diese Experten analysieren Modalitätsprioritäten und legen zugrunde liegende Benutzerabsichten durch mehrstufige Dialoge offen, um Eingaben in detaillierte Handlungsstränge umzuwandeln. Ein Negative Director verfeinert negative Prompts weiter, um die Befehlsausrichtung zu verbessern. Aufbauend auf diesen Komponenten erweitern wir das Framework zur Unterstützung einer IDspezifischen Multi-Charakter-Steuerung. Umfangreiche Experimente belegen, dass unser Modell die Herausforderungen einer effizienten, multimodal ausgerichteten Generierung langandauernder hochauflösender Videos effektiv adressiert und eine verbesserte visuelle Klarheit, realistische Lippen-Zähne-Darstellung mit präziser Lippensynchronisation, starke Identitätserhaltung und kohärente multimodale Befehlsbefolgung liefert.
Lineare Aufmerksamkeit und State Space Models (SSMs) versprechen, den Engpass der quadratischen Kosten in Sprachmodellen mit langem Kontext, die Softmax-Aufmerksamkeit verwenden, zu lösen. Wir stellen Error-Free Linear Attention (EFLA) vor, eine numerisch stabile, vollständig parallelisierbare und verallgemeinerte Formulierung der Delta-Regel. Konkret formulieren wir das Online-Lern-Update als ein dynamisches System in kontinuierlicher Zeit und beweisen, dass dessen exakte Lösung nicht nur erreichbar, sondern auch in linearer Zeit mit vollständiger Parallelisierbarkeit berechenbar ist. Durch Ausnutzung der Rang-1-Struktur der Dynamikmatrix leiten wir direkt die exakte geschlossene Lösung ab, die effektiv der Runge-Kutta-Methode unendlicher Ordnung entspricht. Dieser Aufmerksamkeitsmechanismus ist theoretisch frei von Fehlerakkumulation, erfasst die kontinuierliche Dynamik perfekt und bewahrt dabei die lineare Zeitkomplexität. Mittels einer umfangreichen Reihe von Experimenten zeigen wir, dass EFLA eine robuste Leistung in rauschbehafteten Umgebungen ermöglicht und dabei eine geringere Perplexität bei der Sprachmodellierung sowie eine überlegene Leistung in Downstream-Benchmarks im Vergleich zu DeltaNet erreicht, ohne zusätzliche Parameter einzuführen. Unsere Arbeit legt eine neue theoretische Grundlage für den Aufbau hochpräziser, skalierbarer Linear-Time-Attention-Modelle.
Psychische Erkrankungen betreffen weltweit Hunderte von Millionen Menschen, und das Internet dient heute als primäres Medium für den Zugang zu Unterstützung, Informationen und Diagnostik. Große Sprachmodelle (LLMs) bieten skalierbare und zugängliche Hilfe, doch ihr Einsatz im psychischen Gesundheitsbereich bleibt riskant, wenn ihre Schlussfolgerungen unvollständig, inkonsistent oder unbegründet sind. Bestehende psychologische LLMs konzentrieren sich auf emotionales Verständnis oder Wissensabruf, vernachlässigen jedoch die schrittweise, klinisch ausgerichtete Argumentation, die für Beurteilung, Diagnose, Interventionsplanung, Abstraktion und Verifizierung erforderlich ist. Um diese Probleme anzugehen, führen wir MentraSuite ein, einen einheitlichen Rahmen zur Förderung zuverlässiger psychischer Gesundheitsreasoning. Wir schlagen MentraBench vor, einen umfassenden Benchmark, der fünf Kernaspekte des Reasoning, sechs Aufgaben und 13 Datensätze umfasst und sowohl die Aufgabenleistung als auch die Qualität der Argumentation in fünf Dimensionen bewertet: Prägnanz, Kohärenz, Vermeidung von Halluzinationen, Aufgabenverständnis und interne Konsistenz. Weiterhin präsentieren wir Mindora, ein nachtrainiertes Modell, das durch einen hybriden SFT-RL-Rahmen optimiert wurde, mit einer Belohnungsfunktion zur Inkonsistenzerkennung, um treues und schlüssiges Reasoning zu gewährleisten. Zur Unterstützung des Trainings konstruieren wir hochwertige Trajektorien mittels einer neuartigen Strategie zur Generierung von Reasoning-Pfaden, die schwierige Proben strategisch filtert und einen strukturierten, konsistenzorientierten Umschreibungsprozess anwendet, um prägnante, lesbare und ausgewogene Pfade zu erzeugen. Unter 20 evaluierten LLMs erzielt Mindora die höchste Durchschnittsleistung auf MentraBench und zeigt bemerkenswerte Leistungen in der Zuverlässigkeit des Reasoning, was seine Wirksamkeit für komplexe Szenarien der psychischen Gesundheit demonstriert.
Der BEHAVIOR-Challenge 2025 wurde konzipiert, um den Fortschritt bei der Lösung langfristiger Aufgaben durch physische Agenten in simulierten Umgebungen rigoros zu verfolgen. BEHAVIOR-1K konzentriert sich auf alltägliche Haushaltsaufgaben, bei denen Menschen sich am meisten Roboterunterstützung wünschen. Diese Aufgaben stellen langfristige Herausforderungen der mobilen Manipulation in realistischen Umgebungen dar und überbrücken so die Lücke zwischen aktueller Forschung und realen, menschenzentrierten Anwendungen. Dieser Bericht stellt unsere Lösung für den BEHAVIOR-Challenge 2025 vor, mit der wir einen knappen zweiten Platz belegten und die übrigen Einreichungen deutlich übertrafen. Aufbauend auf π_{0,5} konzentrieren wir uns darauf, unsere Lösung systematisch durch die Untersuchung der Auswirkungen von Trainingstechniken und Daten aufzubauen. Durch sorgfältige Ablationen demonstrieren wir die Skalierbarkeit in Pre-Training- und Post-Training-Phasen für wettbewerbsfähige Leistung. Wir fassen unsere praktischen Erkenntnisse und Gestaltungsempfehlungen zusammen, von denen wir hoffen, dass sie der breiteren Community der embodied KI umsetzbare Einsichten bieten, wenn leistungsstarke Foundation-Modelle an komplexe embodied Szenarien angepasst werden.
Vision-Language-Action (VLA)-Modelle bieten ein vielversprechendes Paradigma für das Robotik-Lernen, indem sie visuelle Wahrnehmung mit sprachgesteuertem Policy-Lernen verbinden. Die meisten bestehenden Ansätze stützen sich jedoch auf 2D-Visuelleingaben, um Aktionen in 3D-Physikumgebungen auszuführen, was eine erhebliche Lücke zwischen Wahrnehmung und Aktionsverankerung schafft. Um diese Lücke zu schließen, schlagen wir ein räumlich bewusstes VLA-Vortrainingsparadigma vor, das während des Vortrainings eine explizite Ausrichtung zwischen visuellem Raum und physikalischem Raum vornimmt. Dies ermöglicht es Modellen, ein 3D-Raumverständnis zu erwerben, bevor das Robotik-Policy-Lernen beginnt. Ausgehend von vortrainierten Vision-Language-Modellen nutzen wir groß angelegte menschliche Demonstrationsvideos, um 3D-Visual- und 3D-Aktionsannotationen zu extrahieren. Diese bilden eine neue Aufsichtsquelle, die 2D-Visualbeobachtungen mit 3D-räumlicher Schlussfolgerung in Einklang bringt. Wir instanziieren dieses Paradigma mit VIPA-VLA, einer Dual-Encoder-Architektur, die einen 3D-Visualencoder integriert, um semantische Visuadarstellungen mit 3D-bewussten Merkmalen anzureichern. Bei der Anpassung an nachgelagerte Robotikaufgaben erreicht VIPA-VLA eine signifikant verbesserte Verankerung zwischen 2D-Vision und 3D-Aktion, was zu robusteren und generalisierbareren Robotik-Policies führt.
LLM-basierte Agenten arbeiten oft auf gierige, schrittweise Weise und wählen Aktionen ausschließlich auf Basis der aktuellen Beobachtung aus, ohne langfristige Konsequenzen oder alternative Pfade zu berücksichtigen. Dieser Mangel an Weitsicht ist besonders problematisch in Webumgebungen, die nur teilweise beobachtbar sind – beschränkt auf browser-sichtbare Inhalte (z.B. DOM und UI-Elemente) –, wo ein einziger Fehler oft komplexe und anfällige Navigation erfordert, um ihn rückgängig zu machen. Ohne einen expliziten Backtracking-Mechanismus haben Agenten Schwierigkeiten, Fehler zu korrigieren oder alternative Pfade systematisch zu erkunden. Tree-Search-Methoden bieten einen prinzipienbasierten Rahmen für eine solche strukturierte Exploration, aber bestehenden Ansätzen fehlen Mechanismen für sicheres Backtracking, was sie anfällig für unbeabsichtigte Nebenwirkungen macht. Sie gehen zudem davon aus, dass alle Aktionen reversibel sind, und ignorieren das Vorhandensein irreversibler Aktionen – Einschränkungen, die ihre Wirksamkeit in realistischen Webaufgaben verringern. Um diese Herausforderungen zu adressieren, führen wir WebOperator ein, einen Tree-Search-Rahmen, der zuverlässiges Backtracking und strategische Exploration ermöglicht. Unsere Methode integriert eine Best-First-Search-Strategie, die Aktionen sowohl nach Belohnungsschätzungen als auch nach Sicherheitserwägungen bewertet, sowie einen robusten Backtracking-Mechanismus, der die Machbarkeit zuvor besuchter Pfade überprüft, bevor sie wiedergegeben werden, um unbeabsichtigte Nebenwirkungen zu verhindern. Um die Exploration weiter zu steuern, generiert WebOperator Aktionskandidaten aus mehreren, unterschiedlichen Reasoning-Kontexten, um eine vielfältige und robuste Exploration zu gewährleisten, und kuratiert anschließend einen hochwertigen Aktionssatz, indem ungültige Aktionen vor der Ausführung herausgefiltert und semantisch äquivalente zusammengeführt werden. Experimentelle Ergebnisse auf WebArena und WebVoyager demonstrieren die Wirksamkeit von WebOperator. Auf WebArena erzielt WebOperator mit gpt-4o eine state-of-the-art Erfolgsrate von 54,6 % und unterstreicht damit den kritischen Vorteil der Integration von strategischer Weitsicht mit sicherer Ausführung.
Wir stellen Interactive Intelligence vor, ein neuartiges Paradigma digitaler Menschen, das zu persönlichkeitskonformer Ausdrucksweise, adaptiver Interaktion und Selbstentwicklung befähigt ist. Zur Umsetzung präsentieren wir Mio (Multimodal Interactive Omni-Avatar), ein End-to-End-Framework aus fünf spezialisierten Modulen: Denker, Sprecher, Gesichtsanimator, Körperanimator und Renderer. Diese vereinheitlichte Architektur integriert kognitive Reasoning-Fähigkeiten mit Echtzeit-Multimodalität, um flüssige, konsistente Interaktionen zu ermöglichen. Des Weiteren etablieren wir einen neuen Benchmark zur rigorosen Evaluierung der Fähigkeiten interaktiver Intelligenz. Umfangreiche Experimente belegen, dass unser Framework state-of-the-art-Methoden in allen evaluierten Dimensionen übertrifft. Diese Beiträge führen gemeinsam dazu, dass digitale Menschen sich über oberflächliche Nachahmung hinaus zu intelligenter Interaktion weiterentwickeln.
Obwohl multimodale große Sprachmodelle (MLLMs) starke Fähigkeiten in verschiedenen Domänen gezeigt haben, ist ihre Anwendung zur Erzeugung feingranularer 3D-Wahrnehmungs- und Vorhersageausgaben im autonomen Fahren noch wenig erforscht. In diesem Artikel stellen wir DrivePI vor, ein neuartiges raumbewusstes 4D-MLLM, das als einheitliches Vision-Language-Action (VLA) Framework dient und auch mit Vision-Action (VA) Modellen kompatibel ist. Unsere Methode führt räumliches Verständnis, 3D-Wahrnehmung (d.h. 3D-Occupancy), Vorhersage (d.h. Occupancy Flow) und Planung (d.h. Aktionsausgaben) parallel durch End-to-End-Optimierung durch. Um sowohl präzise geometrische Informationen als auch reiche visuelle Erscheinung zu erhalten, integriert unser Ansatz Punktwolken, Multi-View-Bilder und Sprachinstruktionen innerhalb einer einheitlichen MLLM-Architektur. Wir entwickeln weiterhin eine Data Engine, um Text-Occupancy- und Text-Flow-Frage-Antwort-Paare für 4D-räumliches Verständnis zu generieren. Bemerkenswerterweise übertrifft oder erreicht DrivePI als ein einzelnes einheitliches Modell mit nur einem 0,5B Qwen2.5-Modell als MLLM-Backbone sowohl bestehende VLA-Modelle als auch spezialisierte VA-Modelle. Konkret übertrifft DrivePI im Vergleich zu VLA-Modellen OpenDriveVLA-7B um 2,5 % mittlere Genauigkeit auf nuScenes-QA und reduziert die Kollisionsrate um 70 % gegenüber ORION (von 0,37 % auf 0,11 %) auf nuScenes. Im Vergleich zu spezialisierten VA-Modellen übertrifft DrivePI FB-OCC um 10,3 RayIoU für 3D-Occupancy auf OpenOcc, reduziert den mAVE von 0,591 auf 0,509 für Occupancy Flow auf OpenOcc und erzielt einen 32 % geringeren L2-Fehler als VAD (von 0,72 m auf 0,49 m) für die Planung auf nuScenes. Code wird verfügbar sein unter https://github.com/happinesslz/DrivePI.
Vision Language Models (VLMs) sind hervorragend im visuellen Frage-Antworten (VQA), bleiben jedoch auf die Momentaufnahmen-Vision beschränkt, bei der aus statischen Bildern geschlussfolgert wird. Im Gegensatz dazu benötigen verkörperte Agenten eine ambulante Vision, bei der sie sich aktiv bewegen, um informativeren Sichtweisen zu erhalten. Wir führen Visually Grounded Active View Selection (VG-AVS) ein, eine Aufgabe, die den informativsten nächsten Blickwinkel aussucht, wobei nur die visuellen Informationen des aktuellen Bildes genutzt werden, ohne auf Szenengedächtnis oder externes Wissen zurückzugreifen. Um diese Aufgabe zu unterstützen, erstellen wir einen synthetischen Datensatz mit automatisch generierten gepaarten Query-Target-Ansichten und Frage-Antwort-Prompts. Wir schlagen außerdem ein Framework vor, das vortrainierte VLMs durch Supervised Fine-Tuning (SFT) gefolgt von einer RL-basierten Policy-Optimierung anpasst. Unser Ansatz erreicht eine hohe Frage-Antwort-Leistung basierend auf der Blickauswahl und verallgemeinert robust auf ungesehene synthetische und reale Szenen. Darüber hinaus verbessert die Integration unseres gelernten VG-AVS-Frameworks in bestehende, auf Szenenerkundung basierende EQA-Systeme die Genauigkeit des nachgelagerten Frage-Antwortens.
Während viele Vision-Language-Modelle (VLMs) darauf ausgelegt sind, klar definierte, einfache Fragen mit spezifischen Zielen zu beantworten, wie in den meisten Benchmarks, scheitern sie in der Praxis häufig an komplexen, offenen Aufgaben, die üblicherweise mehrstufige Exploration und Reasoning im visuellen Raum erfordern. Solche visuellen Denkpfade bieten nicht nur eine schrittweise Erkundung und Verifikation ähnlich einem KI-Detektiv, sondern liefern auch bessere Interpretationen der finalen Antworten. Diese Pfade sind jedoch aufgrund des großen Suchraums der Zwischenschritte schwer zu evaluieren. Um diese Lücke zu schließen, entwickeln wir eine Evaluierungssuite, „Visual Reasoning with multi-step EXploration (V-REX)“, die aus einem Benchmark anspruchsvoller visueller Reasoning-Aufgaben mit inhärenter Mehrschritt-Exploration und einem Evaluierungsprotokoll besteht. V-REX deckt vielfältige Anwendungsszenarien across verschiedenen Domänen ab. V-REX fasst das mehrstufige explorative Reasoning als eine Chain-of-Questions (CoQ) auf und unterteilt die Fähigkeiten von VLMs in (1) Planung: Zerlegung einer offenen Aufgabe durch Auswahl einer Kette explorativer Fragen; und (2) Befolgung: sequentielle Beantwortung kuratierter CoQ zur Informationssammlung für die finale Antwort. Durch die Bereitstellung endlicher Frage- und Antwortoptionen pro Schritt ermöglicht V-REX eine zuverlässige quantitative und feingranulare Analyse der Zwischenschritte. Durch die Evaluierung state-of-the-art proprietärer und quelloffener VLMs zeigen wir konsistente Skalierungstrends, signifikante Unterschiede zwischen Planungs- und Befolgungskompetenzen sowie erheblichen Verbesserungsbedarf im mehrstufigen explorativen Reasoning auf.
Diffusionsmodelle können unbeabsichtigt Trainingsbeispiele reproduzieren, was Datenschutz- und Urheberrechtsbedenken aufwirft, da diese Systeme zunehmend in großem Maßstab eingesetzt werden. Bestehende Methoden zur Minderung dieser Effekte zur Inferenzzeit manipulieren typischerweise den klassifikatorfreien Führungsmechanismus (CFG) oder stören Prompt-Einbettungen; jedoch haben sie oft Schwierigkeiten, Memorierung zu reduzieren, ohne die Ausrichtung an den konditionierenden Prompt zu beeinträchtigen. Wir stellen CAPTAIN vor, ein trainierungsfreies Framework, das Memorierung mildert, indem es latente Merkmale während der Entrauschung direkt modifiziert. CAPTAIN wendet zunächst eine frequenzbasierte Rauschinitialisierung an, um die Tendenz zur Replikation memorierter Muster früh im Entrauschungsprozess zu verringern. Anschließend identifiziert es die optimalen Entrauschungs-Zeitschritte für Merkmalsinjektion und lokalisiert memorierte Regionen. Schließlich injiziert CAPTAIN semantisch passende Merkmale aus nicht-memorierten Referenzbildern in lokalisierte latente Regionen, unterdrückt so Memorierung und erhält dabei Prompt-Treue und visuelle Qualität. Unsere Experimente zeigen, dass CAPTAIN im Vergleich zu CFG-basierten Baseline-Methoden eine wesentliche Verringerung der Memorierung erreicht und gleichzeitig eine starke Ausrichtung am beabsichtigten Prompt beibehält.
Vision-Language-Action (VLA)-Modelle haben bemerkenswerte Fähigkeiten bei der Generalisierung über verschiedene Robotermanipulationsaufgaben hinweg demonstriert. Die Bereitstellung dieser Modelle in unstrukturierten Umgebungen bleibt jedoch eine Herausforderung, da die gleichzeitige Einhaltung von Aufgaben und die Gewährleistung von Sicherheit, insbesondere die Verhinderung potenzieller Kollisionen während physischer Interaktionen, von entscheidender Bedeutung ist. In dieser Arbeit stellen wir eine Vision-Language-Safe Action (VLSA)-Architektur namens AEGIS vor, die eine Plug-and-Play-Sicherheitsbeschränkungsschicht (Safety Constraint, SC) enthält, die mittels Control Barrier Functions formuliert ist. AEGIS lässt sich direkt in bestehende VLA-Modelle integrieren, um die Sicherheit mit theoretischen Garantien zu verbessern, während die ursprüngliche Leistungsfähigkeit zur Befolgung von Anweisungen erhalten bleibt. Um die Wirksamkeit unserer Architektur zu bewerten, erstellen wir einen umfassenden sicherheitskritischen Benchmark, SafeLIBERO, der verschiedene Manipulationsszenarien abdeckt, die sich durch unterschiedliche Grade räumlicher Komplexität und Hinderniseinwirkung auszeichnen. Umfangreiche Experimente belegen die Überlegenheit unserer Methode gegenüber modernen Baseline-Ansätzen. Bemerkenswerterweise erzielt AEGIS eine Verbesserung der Hindernisvermeidungsrate um 59,16 % und steigert gleichzeitig die Erfolgsrate der Aufgabenausführung erheblich um 17,25 %. Um Reproduzierbarkeit und zukünftige Forschung zu ermöglichen, stellen wir unseren Code, die Modelle und die Benchmark-Datensätze öffentlich unter https://vlsa-aegis.github.io/ zur Verfügung.
Repräsentationsausrichtung (REPA) leitet generatives Training durch Destillation von Repräsentationen aus einem starken, vortrainierten Vision-Encoder zu intermediären Diffusionsmerkmalen. Wir untersuchen eine grundlegende Frage: Welcher Aspekt der Zielrepräsentation ist für die Generierung entscheidend – ihre globale semantische Information (z.B. gemessen an ImageNet-1K-Genauigkeit) oder ihre räumliche Struktur (d.h. paarweise Kosinusähnlichkeit zwischen Patch-Tokens)? Die vorherrschende Meinung geht davon aus, dass eine stärkere globale semantische Leistung zu besserer Generierung als Zielrepräsentation führt. Um dies zu untersuchen, führen wir zunächst eine groß angelegte empirische Analyse über 27 verschiedene Vision-Encoder und verschiedene Modellgrößen hinweg durch. Die Ergebnisse sind überraschend; die räumliche Struktur – nicht die globale Leistung – treibt die Generierungsleistung einer Zielrepräsentation an. Zur vertieften Untersuchung führen wir zwei einfache Modifikationen ein, die gezielt den Transfer räumlicher Information betonen. Wir ersetzen die standardmäßige MLP-Projektionsschicht in REPA durch eine einfache Faltungsschicht und führen eine räumliche Normalisierungsschicht für die externe Repräsentation ein. Überraschenderweise verbessert unsere einfache Methode (implementiert in <4 Codezeilen), genannt iREPA, konsistent die Konvergenzgeschwindigkeit von REPA über eine Vielzahl von Vision-Encodern, Modellgrößen und Trainingsvarianten hinweg (wie REPA, REPA-E, Meanflow, JiT usw.). Unsere Arbeit motiviert eine Neubetrachtung des grundlegenden Wirkmechanismus von Repräsentationsausrichtung und wie diese für verbessertes Training generativer Modelle genutzt werden kann. Der Code und die Projektseite sind verfügbar unter https://end2end-diffusion.github.io/irepa.
Während effektives Nachtraining überwachtes Feintuning (SFT) und bestärkendes Lernen (RL) integriert, bleibt der optimale Mechanismus zur Nutzung von Expertentrajektorien ungeklärt. Wir schlagen das Plasticity-Ceiling Framework vor, um dieses Landschaft theoretisch zu fundieren, indem wir die Leistung in fundamentale SFT-Leistung und nachfolgende RL-Plastizität zerlegen. Durch umfangreiche Benchmarking-Studien etablieren wir die sequenzielle SFT-dann-RL-Pipeline als überlegenen Standard, der die Stabilitätsdefizite synchronisierter Ansätze überwindet. Darüber hinaus leiten wir präzise Skalierungsrichtlinien ab: (1) Der Übergang zu RL in der SFT-Stabilen oder Leichten Overfitting-Subphase maximiert die finale Obergrenze, indem die fundamentale SFT-Leistung gesichert wird, ohne die RL-Plastizität zu beeinträchtigen; (2) Widerlegung der „Weniger-ist-Mehr“-Hypothese im Kontext der SFT-dann-RL-Skalierung zeigen wir, dass der Datenumfang das primäre Nachtraining-Potenzial bestimmt, während die Trajektorienschwierigkeit als Leistungsmultiplikator wirkt; und (3) Identifikation, dass der minimale SFT-Validierungsverlust als robuster Indikator für die Auswahl von Expertentrajektorien dient, die die finale Leistungsobergrenze maximieren. Unsere Ergebnisse liefern umsetzbare Leitlinien zur Maximierung des aus Expertentrajektorien extrahierten Werts.
Der langsame Inferenzprozess von Bilddiffusionsmodellen beeinträchtigt interaktive Benutzererfahrungen erheblich. Um dies zu adressieren, führen wir Diffusion Preview ein, ein neuartiges Paradigma, das schnelles Sampling mit wenigen Schritten nutzt, um vorläufige Ergebnisse zur Benutzerbewertung zu generieren und die Verfeinerung mit voller Schrittzahl aufzuschieben, bis die Vorschau als zufriedenstellend bewertet wird. Bestehende Beschleunigungsmethoden – einschließlich trainingsfreier Solver und Post-Training-Distillation – liefern nur unzureichend hochwertige Vorschauen oder garantieren keine Konsistenz zwischen Vorschau und Endergebnissen. Wir schlagen ConsistencySolver vor, abgeleitet aus allgemeinen linearen Mehrschrittverfahren, einen leichtgewichtigen, trainierbaren Solver höherer Ordnung, der durch Reinforcement Learning optimiert wird und sowohl die Vorschauqualität als auch die Konsistenz verbessert. Experimentelle Ergebnisse zeigen, dass ConsistencySolver die Generierungsqualität und Konsistenz in Szenarien mit wenigen Schritten signifikant steigert, was ihn ideal für effiziente Vorschau-und-Verfeinern-Arbeitsabläufe macht. Bemerkenswerterweise erreicht er FID-Werte, die mit Multistep DPM-Solver vergleichbar sind, jedoch mit 47 % weniger Schritten, und übertrifft dabei Distillations-Baselines. Darüber hinaus zeigen Benutzerstudien, dass unser Ansatz die gesamte Benutzerinteraktionszeit um fast 50 % reduziert, bei gleichbleibender Generierungsqualität. Code ist verfügbar unter https://github.com/G-U-N/consolver.
Ein physikalisches Fahrweltmodell ist entscheidend für Fahrplanung, die Synthese von Out-of-Distribution-Daten und Closed-Loop-Evaluierung. Bisherige Methoden nutzen jedoch oft ein einziges Diffusionsmodell, um Fahrmanöver direkt auf Videos abzubilden, was das Lernen erschwert und zu physikalisch inkonsistenten Ergebnissen führt. Um diese Herausforderungen zu bewältigen, schlagen wir GenieDrive vor, ein neuartiges Framework für die physikalisch fundierte Erzeugung von Fahrvideos. Unser Ansatz beginnt mit der Generierung von 4D-Occupancy, die als physikalisch informierte Grundlage für die nachfolgende Videogenerierung dient. 4D-Occupancy enthält umfassende physikalische Informationen, einschließlich hochauflösender 3D-Strukturen und Dynamiken. Um eine effektive Komprimierung dieser hochauflösenden Occupancy zu ermöglichen, schlagen wir ein VAE vor, das Occupancy in eine latente Triplane-Repräsentation kodiert und die latente Größe auf nur 58 % der in früheren Methoden verwendeten Größe reduziert. Wir führen weiterhin Mutual Control Attention (MCA) ein, um den Einfluss der Steuerung auf die Occupancy-Entwicklung präzise zu modellieren, und trainieren das VAE und das nachgeschaltete Prognosemodul gemeinsam end-to-end, um die Vorhersagegenauigkeit zu maximieren. Diese Konzepte führen gemeinsam zu einer Verbesserung des Prognose-mIoU um 7,2 % bei einer Inferenzgeschwindigkeit von 41 FPS, während nur 3,47 M Parameter verwendet werden. Zusätzlich wird im Videogenerierungsmodell eine Normalized Multi-View Attention eingeführt, um multiview-Fahrvideos unter Anleitung unserer 4D-Occupancy zu erzeugen, was die Videoqualität bei einer Reduzierung des FVD um 20,7 % erheblich verbessert. Experimente zeigen, dass GenieDrive eine hochgradig steuerbare, multiview-konsistente und physikalisch fundierte Erzeugung von Fahrvideos ermöglicht.
Eine übermäßige Ausrichtung von Bildgenerierungsmodellen an einem verallgemeinerten ästhetischen Präferenzmodell steht im Widerspruch zur Nutzerabsicht, insbesondere wenn aus künstlerischen oder kritischen Gründen explizit „anti-ästhetische“ Ergebnisse angefordert werden. Diese Ausrichtung priorisiert entwicklerzentrierte Werte und beeinträchtigt sowohl die Nutzerautonomie als auch den ästhetischen Pluralismus. Wir testen diese Verzerrung, indem wir ein Breitband-Ästhetik-Datenset konstruieren und state-of-the-art Generierungs- und Bewertungsmodelle evaluieren. Wir zeigen, dass ästhetisch ausgerichtete Generierungsmodelle häufig standardmäßig konventionell schöne Ergebnisse liefern und damit Anweisungen für niedrigqualitative oder negative Bildinhalte nicht ausreichend umsetzen. Entscheidend ist, dass Bewertungsmodelle anti-ästhetische Bilder bestrafen, selbst wenn diese exakt der expliziten Nutzeranfrage entsprechen. Wir bestätigen diese systemische Verzerrung durch Bild-zu-Bild-Bearbeitung und Evaluation anhand realer abstrakter Kunstwerke.
Moderne neuronale Architekturen zur Verarbeitung von 3D-Punktwolken enthalten sowohl Faltungsschichten als auch Attention-Blöcke, doch die beste Art, diese zu kombinieren, ist nach wie vor unklar. Wir analysieren die Rolle verschiedener Berechnungsblöcke in 3D-Punktwolken-Netzwerken und finden ein intuitives Verhalten: Faltungen eignen sich gut, um niedrigstufige Geometrie mit hoher Auflösung in frühen Schichten zu extrahieren, wo Attention ohne Vorteile zu bringen zu rechenaufwändig ist; Attention erfasst hochstufige Semantik und Kontext in tiefen Schichten mit niedriger Auflösung effizienter. Angeleitet von diesem Designprinzip schlagen wir ein neues, verbessertes 3D-Punktwolken-Backbone vor, das in frühen Stufen Faltungen einsetzt und in tieferen Schichten zu Attention wechselt. Um den Verlust von räumlichen Layout-Informationen beim Entfernen redundanter Faltungsschichten zu vermeiden, führen wir eine neuartige, trainingsfreie 3D-Positionskodierung ein, PointROPE. Das resultierende LitePT-Modell hat 3,6-mal weniger Parameter, ist 2-mal schneller und verbraucht 2-mal weniger Speicher als der state-of-the-art Point Transformer V3, übertrifft oder erreicht dessen Leistung jedoch bei einer Reihe von Aufgaben und Datensätzen. Code und Modelle sind verfügbar unter: https://github.com/prs-eth/LitePT.
Diffusionsdistillation hat die klassenkonditionierte Bildsynthese erheblich beschleunigt, doch ihre Anwendbarkeit auf die offene Text-zu-Bild (T2I)-Generierung ist nach wie vor unklar. Wir präsentieren die erste systematische Studie, die state-of-the-art Distillationstechniken auf ein starkes T2I-Lehrermodell, FLUX.1-lite, anpasst und vergleicht. Indem wir bestehende Methoden in einen einheitlichen Rahmen einordnen, identifizieren wir die Hauptprobleme, die beim Übergang von diskreten Klassenbezeichnungen zu freien Sprachprompts auftreten. Neben einer gründlichen methodischen Analyse bieten wir praktische Leitlinien zur Eingabeskalierung, Netzwerkarchitektur und Hyperparameteroptimierung, ergänzt durch eine Open-Source-Implementierung und vortrainierte Schülermodelle. Unsere Ergebnisse schaffen eine solide Grundlage für den Einsatz schneller, hochpräziser und ressourceneffizienter Diffusionsgeneratoren in realen T2I-Anwendungen. Der Code ist verfügbar unter github.com/alibaba-damo-academy/T2I-Distill.
Die Erstellung von Musik-zu-Video (M2V) Generierungen für komplette Songs steht vor erheblichen Herausforderungen. Bestehende Methoden erzeugen kurze, zusammenhanglose Clips, die es nicht schaffen, die Bildsprache an die musikalische Struktur, den Beat oder den Songtext anzupassen, und es mangelt ihnen an zeitlicher Konsistenz. Wir stellen AutoMV vor, ein Multi-Agenten-System, das direkt aus einem Song komplette Musikvideos (MVs) generiert. AutoMV wendet zunächst Musikverarbeitungstools an, um musikalische Attribute wie Struktur, Gesangsspuren und zeitlich ausgerichtete Songtexte zu extrahieren, und konstruiert diese Merkmale als kontextuelle Eingaben für die nachfolgenden Agenten. Der Drehbuch-Agent und der Regie-Agent nutzen diese Informationen dann, um ein kurzes Skript zu entwerfen, Charakterprofile in einer gemeinsamen externen Datenbank zu definieren und Kameraanweisungen festzulegen. Anschließend rufen diese Agenten den Bildgenerator für Keyframes und verschiedene Videogeneratoren für "Story"- oder "Sänger"-Szenen auf. Ein Verifikations-Agent bewertet ihre Ausgabe, was eine Multi-Agenten-Kollaboration ermöglicht, um einen kohärenten Langform-MV zu produzieren. Um die M2V-Generierung zu bewerten, schlagen wir außerdem einen Benchmark mit vier übergeordneten Kategorien (Musikinhalt, Technik, Postproduktion, Kunst) und zwölf feingranularen Kriterien vor. Dieser Benchmark wurde angewendet, um kommerzielle Produkte, AutoMV und von Menschen erstellte MVs mit Expert:innen als Bewerter zu vergleichen: AutoMV übertrifft die aktuellen Baseline-Modelle in allen vier Kategorien signifikant und verringert die Lücke zu professionellen MVs. Abschließend untersuchen wir den Einsatz großer multimodaler Modelle als automatische MV-Bewerter; obwohl vielversprechend, liegen sie noch hinter menschlichen Expert:innen zurück, was Raum für zukünftige Arbeiten aufzeigt.
Visuelle Tokenizer spielen eine entscheidende Rolle in Diffusionsmodellen. Die Dimensionalität des latenten Raums bestimmt sowohl die Rekonstruktionsgenauigkeit als auch die semantische Ausdruckskraft der latenten Merkmale. Allerdings besteht ein grundlegender Zielkonflikt zwischen Dimensionalität und Erzeugungsqualität, der bestehende Methoden auf niedrigdimensionale latente Räume beschränkt. Obwohl neuere Arbeiten Vision-Foundation-Models nutzen, um die Semantik visueller Tokenizer zu bereichern und die Konvergenz zu beschleunigen, schneiden hochdimensionale Tokenizer immer noch schlechter ab als ihre niedrigdimensionalen Gegenstücke. In dieser Arbeit schlagen wir RecTok vor, das die Grenzen hochdimensionaler visueller Tokenizer durch zwei zentrale Innovationen überwindet: Flow-Semantik-Distillation und Rekonstruktions-Alignment-Distillation. Unser zentraler Ansatz ist es, den Vorwärts-Flow im Flow Matching semantisch reichhaltig zu gestalten, der als Trainingsraum für Diffusions-Transformer dient, anstatt sich wie in früheren Arbeiten auf den latenten Raum zu konzentrieren. Konkret distilliert unsere Methode die semantischen Informationen aus VFMs in die Vorwärts-Flow-Trajektorien des Flow Matchings. Zusätzlich verbessern wir die Semantik durch eine maskierte Merkmalsrekonstruktionsverlustfunktion. Unser RecTok erzielt eine überlegene Bildrekonstruktion, Erzeugungsqualität und diskriminative Leistung. Es erreicht state-of-the-art Ergebnisse auf gFID-50K sowohl mit als auch ohne Classifier-Free Guidance, bei gleichzeitiger Beibehaltung einer semantisch reichhaltigen latenten Raumstruktur. Darüber hinaus beobachten wir konsistente Verbesserungen mit steigender latenter Dimensionalität. Code und Modelle sind verfügbar unter https://shi-qingyu.github.io/rectok.github.io.
Große Sprachmodelle (LLMs) können vor ihrer endgültigen Antwort Reasoning-Tokens generieren, um die Leistung bei komplexen Aufgaben zu steigern. Obwohl diese Sequenzen menschlichen Denkprozessen ähneln, zeigen empirische Belege, dass sie keine authentische Erklärung des tatsächlichen Reasoning-Prozesses des Modells darstellen. Um diese Kluft zwischen Anschein und Funktion zu überbrücken, führen wir den konzeptionellen Rahmen "State over Tokens" (SoT) ein. SoT betrachtet Reasoning-Tokens nicht als sprachliche Narration, sondern als externalisierten Rechenzustand – den einzigen persistenten Informationsträger über die zustandslosen Generierungszyklen des Modells hinweg. Dies erklärt, wie die Tokens korrektes Reasoning antreiben können, ohne als Text gelesen eine authentische Erklärung zu sein, und wirft bisher übersehene Forschungsfragen zu diesen Tokens auf. Wir argumentieren, dass die Forschung, um den Prozess, den LLMs durchlaufen, wirklich zu verstehen, über das Lesen der Reasoning-Tokens als Text hinausgehen und sich darauf konzentrieren muss, sie als Zustand zu decodieren.
Generalisierung bleibt die zentrale Herausforderung für die interaktive 3D-Szenengenerierung. Bisherige lernbasierte Ansätze verankern das räumliche Verständnis in begrenzten Szenendatensätzen, was die Generalisierung auf neue Layouts einschränkt. Stattdessen reprogrammieren wir einen vortrainierten 3D-Instanzgenerator, um als Szenenlerner zu agieren, und ersetzen datensatzgebundene Supervision durch modellzentrierte räumliche Aufsicht. Diese Reprogrammierung erschließt das übertragbare räumliche Wissen des Generators und ermöglicht die Generalisierung auf ungesehene Layouts und neuartige Objektkompositionen. Bemerkenswerterweise entsteht räumliches Reasoning selbst dann, wenn die Trainingsszenen aus zufällig zusammengesetzten Objekten bestehen. Dies zeigt, dass die übertragbare Szenenpräferenz des Generators ein reichhaltiges Lernsignal für das Ableiten von Nähe, Stützung und Symmetrie aus rein geometrischen Hinweisen liefert. Anstelle des weit verbreiteten kanonischen Raums setzen wir diese Erkenntnis mit einer sichtzentrierten Formulierung des Szenenraums um, was einen vollständig vorwärtsgerichteten, generalisierbaren Szenengenerator ergibt, der räumliche Beziehungen direkt vom Instanzmodell lernt. Quantitative und qualitative Ergebnisse zeigen, dass ein 3D-Instanzgenerator ein impliziter räumlicher Lerner und Reasoner ist und den Weg zu Foundation-Modellen für interaktives 3D-Szenenverständnis und -generierung weist. Projektseite: https://luling06.github.io/I-Scene-project/
Wir stellen Flowception vor, ein neuartiges nicht-autoregressives Framework zur Erzeugung von Videos variabler Länge. Flowception erlernt einen Wahrscheinlichkeitspfad, der diskrete Frame-Einfügungen mit kontinuierlicher Frame-Entrauschung verschachtelt. Im Vergleich zu autoregressiven Methoden mildert Flowception die Fehlerakkumulation und -drift, da der Frame-Einfügemechanismus während des Samplings als effiziente Kompressionsmethode zur Handhabung langfristiger Kontexte dient. Verglichen mit Flows für vollständige Sequenzen reduziert unsere Methode die FLOPs für das Training um das Dreifache, ist zudem besser für Varianten mit lokaler Aufmerksamkeit geeignet und ermöglicht es, die Länge von Videos gemeinsam mit ihrem Inhalt zu erlernen. Quantitative experimentelle Ergebnisse zeigen verbesserte FVD- und VBench-Metriken gegenüber autoregressiven und Vollsequenz-Baselines, was durch qualitative Ergebnisse weiter untermauert wird. Schließlich integriert Flowception durch das Erlernen des Einfügens und Entrauschens von Frames in einer Sequenz nahtlos verschiedene Aufgaben wie Bild-zu-Video-Generierung und Video-Interpolation.
Das Verständnis von Bewegung ist grundlegend für physikalisches Schließen, da es Modellen ermöglicht, Dynamiken abzuleiten und zukünftige Zustände vorherzusagen. Allerdings haben state-of-the-art Modelle auf aktuellen Bewegungs-Benchmarks nach wie vor Schwierigkeiten, was hauptsächlich auf die Knappheit an groß angelegten, feingranularen Bewegungsdatensätzen zurückzuführen ist. Bestehende Bewegungsdatensätze werden oft durch kostspielige manuelle Annotation erstellt, was die Skalierbarkeit erheblich einschränkt. Um diese Herausforderung zu bewältigen, stellen wir FoundationMotion vor, eine vollständig automatisierte Datenkuratierungspipeline, die groß angelegte Bewegungsdatensätze erstellt. Unser Ansatz erkennt und verfolgt zunächst Objekte in Videos, um ihre Trajektorien zu extrahieren, und nutzt dann diese Trajektorien sowie Videobilder zusammen mit Large Language Models (LLMs), um feingranulare Beschreibungen und diverse Frage-Antwort-Paare zu Bewegung und räumlichem Schließen zu generieren. Mit durch diese Pipeline erzeugten Datensätzen feintunen wir Open-Source-Modelle, darunter NVILA-Video-15B und Qwen2.5-7B, und erzielen dabei erhebliche Verbesserungen im Bewegungsverständnis, ohne die Leistung bei anderen Aufgaben zu beeinträchtigen. Bemerkenswerterweise übertreffen unsere Modelle starke Closed-Source-Baselines wie Gemini-2.5 Flash und große Open-Source-Modelle wie Qwen2.5-VL-72B auf verschiedenen Datensätzen und Benchmarks für Bewegungsverständnis. FoundationMotion bietet somit eine skalierbare Lösung zur Kuratierung feingranularer Bewegungsdatensätze, die ein effektives Feintunen verschiedener Modelle ermöglicht, um deren Fähigkeiten im Bewegungsverständnis und räumlichen Schließen zu verbessern.
Wir stellen FIN-bench-v2 vor, eine einheitliche Benchmark-Suite zur Bewertung großer Sprachmodelle für Finnisch. FIN-bench-v2 konsolidiert finnische Versionen weit verbreiteter Benchmarks zusammen mit einer aktualisierten und erweiterten Version des ursprünglichen FIN-bench zu einer einzigen, einheitlich formatierten Sammlung, die Multiple-Choice- und generative Aufgaben in den Bereichen Leseverständnis, Common-Sense-Reasoning, Sentimentanalyse, Weltwissen und Alignment abdeckt. Alle Datensätze werden in das HuggingFace-Datasets-Format konvertiert, das sowohl Cloze- als auch Multiple-Choice-Prompt-Formulierungen mit fünf Varianten pro Aufgabe umfasst, und wir integrieren menschliche Annotation oder Überprüfung für maschinell übersetzte Ressourcen wie GoldenSwag und XED. Um robuste Aufgaben auszuwählen, pretrainieren wir eine Reihe von decoder-only-Modellen mit 2,15 Milliarden Parametern und verwenden deren Lernkurven, um Monotonie, Signal-Rausch-Verhältnis, nicht-zufällige Leistung und Konsistenz der Modellreihenfolge zu berechnen, wobei nur Aufgaben beibehalten werden, die alle Kriterien erfüllen. Wir evaluieren weiterhin eine Reihe größerer instruktionsfinetunter Modelle, um die Leistung über verschiedene Aufgaben und Prompt-Formulierungen hinweg zu charakterisieren. Alle Datensätze, Prompts und Evaluierungskonfigurationen sind öffentlich über unseren Fork des Language Model Evaluation Harness unter https://github.com/LumiOpen/lm-evaluation-harness verfügbar. Ergänzende Ressourcen werden in einem separaten Repository unter https://github.com/TurkuNLP/FIN-bench-v2 veröffentlicht.
Szenen in der realen Welt bestehen oft aus mehreren statischen und dynamischen Objekten. Die Erfassung ihrer 4-dimensionalen Strukturen, Zusammensetzung und raumzeitlichen Konfiguration unter natürlichen Bedingungen ist zwar äußerst interessant, aber ebenso schwierig. Daher konzentrieren sich bestehende Arbeiten oft auf jeweils ein Objekt und stützen sich dabei auf kategoriespezifische parametrische Formmodelle für dynamische Objekte. Dies kann zu inkonsistenten Szenenkonfigurationen führen und ist zudem auf die modellierten Objektkategorien beschränkt. Wir schlagen COM4D (Compositional 4D) vor, eine Methode, die konsistent und gemeinsam die Struktur und raumzeitliche Konfiguration von 4D/3D-Objekten allein unter Verwendung von statischer Multi-Objekt- oder dynamischer Single-Object-Supervision vorhersagt. Wir erreichen dies durch ein sorgfältig gestaltetes Training von räumlichen und zeitlichen Attention-Mechanismen auf 2D-Videoeingaben. Das Training wird entflochten in das Lernen von Objektkompositionen einerseits und der Dynamik einzelner Objekte im Videoverlauf andererseits, wodurch die Abhängigkeit von 4D-Kompositionstrainingsdaten vollständig vermieden wird. Zum Inferenzzeitpunkt kombiniert unser vorgeschlagener Attention-Mixing-Mechanismus diese unabhängig gelernten Attention-Mechanismen, ohne dass 4D-Kompositionsbeispiele erforderlich sind. Durch abwechselndes räumliches und zeitliches Reasoning rekonstruiert COM4D vollständige und persistente 4D-Szenen mit mehreren interagierenden Objekten direkt aus monokularen Videos. Darüber hinaus erzielt COM4D state-of-the-art Ergebnisse in bestehenden Teilproblemen der 4D-Objekt- und zusammengesetzten 3D-Rekonstruktion, obwohl es rein datengesteuert ist.
Das Verständnis von Diagrammen ist entscheidend für den Einsatz multimodaler großer Sprachmodelle (MLLMs) in realen Anwendungsszenarien wie der Analyse wissenschaftlicher Publikationen und technischer Berichte. Im Gegensatz zu natürlichen Bildern kombinieren Diagramme ein strukturiertes visuelles Layout (räumliche Eigenschaft) mit einer zugrundeliegenden Datenrepräsentation (textuelle Eigenschaft) – das Erfassen beider Aspekte ist für präzises, feingranulares Diagrammverständnis unerlässlich. Ausgehend von dieser Beobachtung schlagen wir START vor: Spatial and Textual learning for chART understanding. Konkret führen wir (i) Diagramm-Element-Lokalisierung und (ii) Diagramm-zu-Code-Generierung ein, um das Verständnis eines MLLMs für sowohl das visuelle Layout als auch die Datendetails von Diagrammen zu stärken. Um räumliches und textuelles Lernen zu ermöglichen, entwickeln wir den START-Datensatz mittels einer neuartigen Datengenerierungspipeline, die zunächst ein MLLM nutzt, um echte Diagrammbilder in ausführbaren Diagrammcode zu übersetzen. Dies stellt die zugrundeliegende Datenrepräsentation wieder her und bewahrt gleichzeitig die visuelle Verteilung realer Diagramme. Anschließend wird der Code mit einem großen Sprachmodell (LLM) weiterentwickelt, um die Positionen von Diagrammelementen zu bestimmen, die die visuelle Struktur des Diagramms erfassen. Dieser Ansatz adressiert Herausforderungen, die bestehende Methoden nicht bewältigen können. Um die Fähigkeit eines Modells zur Erfassung räumlicher Diagrammstrukturen zu evaluieren, schlagen wir den Chart Spatial Understanding Benchmark (CS-Bench) vor, der eine kritische Lücke in der umfassenden Bewertung des Diagrammverständnisses schließt. Durch die Nutzung räumlichen und textuellen Lernens erzielt START konsistente Verbesserungen über Modellgrößen und Benchmarks hinweg gegenüber den Basismodellen und übertrifft vorherige State-of-the-Art-Verfahren mit deutlichem Abstand. Code, Daten und Modelle werden öffentlich verfügbar sein.
Videodiffusionsmodelle haben die generative Videosynthese revolutioniert, sind jedoch unpräzise, langsam und können während der Generierung undurchsichtig sein – was Nutzer über längere Zeit im Unklaren lässt. In dieser Arbeit stellen wir DiffusionBrowser vor, ein modellagnostisches, leichtgewichtiges Decoder-Framework, das es Nutzern ermöglicht, interaktiv Vorschauen an beliebigen Punkten (Zeitschritt oder Transformer-Block) während des Denoising-Prozesses zu generieren. Unser Modell kann multimodale Vorschau-Repräsentationen erzeugen, die RGB- und Szenenintrinsika bei mehr als 4-facher Echtzeitgeschwindigkeit (weniger als 1 Sekunde für ein 4-Sekunden-Video) umfassen und dabei konsistentes Erscheinungsbild und Bewegung zum endgültigen Video vermitteln. Mit dem trainierten Decoder zeigen wir, dass eine interaktive Steuerung der Generierung in intermediären Rauschschritten durch Stochastizitäts-Reinjektion und modale Lenkung möglich ist, was eine neue Steuerungsfähigkeit eröffnet. Darüber hinaus untersuchen wir das Modell systematisch mithilfe der gelernten Decoder und zeigen auf, wie Szenen, Objekte und andere Details während des ansonsten black-box Denoising-Prozesses komponiert und zusammengesetzt werden.
Jüngste Fortschritte bei großen multimodalen Modellen deuten darauf hin, dass explizite Reasoning-Mechanismen eine entscheidende Rolle bei der Verbesserung von Modellzuverlässigkeit, Interpretierbarkeit und cross-modaler Abstimmung spielen. Während sich solche reasoning-zentrierten Ansätze bei Sprach- und Vision-Aufgaben als wirksam erwiesen haben, ist ihre Erweiterung auf 3D-Bereiche noch unterentwickelt. CoRe3D stellt ein einheitliches Reasoning-Framework für 3D-Verständnis und -Generierung vor, das gemeinsam über semantische und räumliche Abstraktionen operiert und es ermöglicht, dass hochrangige Absichten aus Sprache direkt die niederrangige 3D-Inhaltsformation steuern. Zentrale Elemente dieses Designs sind eine räumlich verankerte Reasoning-Repräsentation, die den 3D-Latenzraum in lokalisierte Regionen zerlegt, sowie die Fähigkeit des Modells, geometrische Zusammenhänge auf compositionelle und prozedurale Weise zu erfassen. Durch die enge Kopplung semantischer Ketten-Schlussfolgerungen mit strukturiertem räumlichem Reasoning erzeugt CoRe3D 3D-Ergebnisse mit starker lokaler Konsistenz und treuer Ausrichtung an sprachlichen Beschreibungen.
Textual Inversion (TI) ist ein effizienter Ansatz zur Text-zu-Bild-Personalisierung, scheitert jedoch häufig an komplexen Prompts. Wir führen diese Fehler auf eine Einbettungsnorm-Inflation zurück: Erlernte Tokens entfernen sich zu außerhalb der Verteilung liegenden Größenordnungen, was die Prompt-Konditionierung in Pre-Norm-Transformatoren verschlechtert. Empirisch zeigen wir, dass Semantik im CLIP-Token-Raum primär durch die Richtung kodiert wird, während aufgeblähte Normen die Kontextualisierung beeinträchtigen; theoretisch analysieren wir, wie große Beträge Positionsinformationen abschwächen und Residual-Updates in Pre-Norm-Blöcken behindern. Wir schlagen Directional Textual Inversion (DTI) vor, das den Betrag der Einbettung auf eine innerhalb der Verteilung liegende Skala fixiert und nur die Richtung auf der Hyperkugel mittels Riemann-SGD optimiert. Wir formulieren das Richtungslernen als MAP mit einem von-Mises-Fisher-Prior, was einen konstanten Richtungs-Prior-Gradienten ergibt, der einfach und effizient zu integrieren ist. Über verschiedene Personalisierungsaufgaben hinweg verbessert DTI die Texttreue gegenüber TI und TI-Varianten, während die Subjektähnlichkeit erhalten bleibt. Entscheidend ist, dass die hypersphärische Parametrisierung von DTI eine glatte, semantisch kohärente Interpolation zwischen gelernten Konzepten (Slerp) ermöglicht – eine Fähigkeit, die im standardmäßigen TI fehlt. Unsere Ergebnisse deuten darauf hin, dass eine rein richtungsbasierte Optimierung ein robuster und skalierbarer Weg für prompt-getreue Personalisierung ist.
Weltmodelle haben beeindruckende Leistungen bei Robotik-Lernaufgaben gezeigt. Viele dieser Aufgaben erfordern inhärent multimodales Reasoning; zum Beispiel ist die visuelle Information allein beim Befüllen einer Flasche mit Wasser mehrdeutig oder unvollständig, was eine Schlussfolgerung über die zeitliche Entwicklung des Audiosignals unter Berücksichtigung seiner zugrundeliegenden physikalischen Eigenschaften und Tonhöhenverläufe erfordert. In diesem Artikel schlagen wir ein generatives latentes Flow-Matching-Modell vor, um zukünftige Audio-Beobachtungen vorherzusagen, was dem System ermöglicht, langfristige Konsequenzen zu berücksichtigen, wenn es in eine Roboterpolitik integriert wird. Wir demonstrieren die überlegenen Fähigkeiten unseres Systems anhand zweier Manipulationsaufgaben, die die Wahrnehmung von Audio- oder Musiksignalen in unstrukturierten Umgebungen erfordern, im Vergleich zu Methoden ohne Vorausschau. Wir betonen weiterhin, dass erfolgreiches Roboter-Aktionslernen für diese Aufgaben nicht nur auf multimodaler Eingabe beruht, sondern entscheidend von der präzisen Vorhersage zukünftiger Audiozustände abhängt, die intrinsische rhythmische Muster verkörpern.
Genau Fischereidaten sind entscheidend für ein effektives und nachhaltiges Management mariner Ressourcen. Durch die zunehmende Einführung von elektronischen Überwachungssystemen (Electronic Monitoring, EM) werden mehr Videodaten erfasst, als manuell ausgewertet werden können. Diese Arbeit stellt sich dieser Herausforderung, indem sie eine optimierte Deep-Learning-Pipeline für die automatische Wiedererkennung von Fischen (Re-Identification, Re-ID) entwickelt, die auf dem neuartigen AutoFish-Datensatz basiert. Dieser simuliert EM-Systeme mit Förderbändern und sechs optisch ähnlichen Fischarten. Wir zeigen, dass wichtige Re-ID-Kennzahlen (R1 und mAP@k) erheblich verbessert werden, indem Hard-Triplet-Mining zusammen mit einer maßgeschneiderten Bildtransformations-Pipeline eingesetzt wird, die eine datensatzspezifische Normalisierung beinhaltet. Durch die Anwendung dieser Strategien demonstrieren wir, dass die auf dem Vision Transformer basierende Swin-T-Architektur durchgängig besser abschneidet als das auf einem Faltungsnetzwerk (CNN) basierende ResNet-50 und Spitzenwerte von 41,65 % mAP@k und 90,43 % Rank-1-Genauigkeit erreicht. Eine eingehende Analyse zeigt, dass die größte Herausforderung in der Unterscheidung optisch ähnlicher Individuen derselben Art liegt (Intra-Spezies-Fehler), wobei sich Inkonsistenzen im Blickwinkel als deutlich hinderlicher erweisen als partielle Verdeckungen. Der Quellcode und die Dokumentation sind verfügbar unter: https://github.com/msamdk/Fish_Re_Identification.git
Altersbedingte Makuladegeneration (AMD) und Erkrankungen im Zusammenhang mit choroidaler Neovaskularisation (CNV) sind weltweit führende Ursachen für Sehverlust, wobei die optische Kohärenztomographie (OCT) als Eckpfeiler für die Früherkennung und Behandlung dient. Der Einsatz modernster Deep-Learning-Modelle wie ConvNeXtV2-Large in klinischen Umgebungen wird jedoch durch deren hohen Rechenbedarf erschwert. Daher ist es wünschenswert, effiziente Modelle zu entwickeln, die eine hohe diagnostische Leistung beibehalten und gleichzeitig einen Echtzeiteinsatz ermöglichen. In dieser Studie wird ein neuartiges Knowledge-Distillation-Framework, bezeichnet als KD-OCT, vorgeschlagen, um ein leistungsstarkes ConvNeXtV2-Large-Lehrermodell – angereichert mit erweiterten Augmentierungen, Stochastic Weight Averaging und Focal Loss – in ein leichtgewichtiges EfficientNet-B2-Schülermodell zu komprimieren, um normale Fälle, Drusen und CNV-Fälle zu klassifizieren. KD-OCT nutzt Echtzeit-Distillation mit einem kombinierten Loss, der den Transfer des weichen Lehrerwissens und die harte Ground-Truth-Überwachung ausbalanciert. Die Wirksamkeit der vorgeschlagenen Methode wird auf dem Noor Eye Hospital (NEH)-Datensatz mittels patientenspezifischer Kreuzvalidierung evaluiert. Experimentelle Ergebnisse zeigen, dass KD-OCT vergleichbare OCT-Klassifikatoren mit Multi-Scale- oder Feature-Fusion-Ansätzen in der Balance zwischen Effizienz und Genauigkeit übertrifft und eine dem Lehrermodell nahekommende Leistung bei erheblich reduzierter Modellgröße und Inferenzzeit erzielt. Trotz der Kompression übertrifft das Schülermodell die meisten existierenden Frameworks und erleichtert so den Edge-Einsatz für das AMD-Screening. Der Code ist verfügbar unter https://github.com/erfan-nourbakhsh/KD-OCT.