papers.description
Mehr-Agenten-Systeme (MAS) erweitern große Sprachmodelle (LLMs) von unabhängiger Einzelmodell-Argumentation zu koordinierter Systemintelligenz. Während bestehende LLM-Agenten auf textbasierte Vermittlung für Schlussfolgerungen und Kommunikation angewiesen sind, gehen wir einen Schritt weiter, indem wir Modelle zur direkten Zusammenarbeit im kontinuierlichen latenten Raum befähigen. Wir stellen LatentMAS vor, ein end-to-end trainingsfreies Framework, das reine latente Kollaboration zwischen LLM-Agenten ermöglicht. In LatentMAS führt jeder Agent zunächst auto-regressive Erzeugung latenter Gedanken durch Hidden Embeddings der letzten Schicht durch. Ein gemeinsamer latenter Arbeitsspeicher bewahrt und überträgt dann die internen Repräsentationen jedes Agenten und gewährleistet thereby verlustfreien Informationsaustausch. Wir liefern theoretische Analysen, die belegen, dass LatentMAS höhere Ausdruckskraft und verlustfreie Informationserhaltung bei deutlich geringerer Komplexität als herkömmliche textbasierte MAS erreicht. Darüber hinaus zeigen empirische Auswertungen über 9 umfassende Benchmarks in den Bereichen mathematisch-naturwissenschaftliches Denken, Common-Sense-Verständnis und Code-Generierung, dass LatentMAS konsistent starke Einzelmodell- und textbasierte MAS-Baselines übertrifft – mit bis zu 14,6 % höherer Genauigkeit, reduzierter Ausgabetoken-Nutzung um 70,8 %–83,7 % und 4-fach bis 4,3-fach schnellerer End-to-End-Inferenz. Diese Ergebnisse demonstrieren, dass unser neues Framework latenter Kollaboration die Qualität der Systemargumentation steigert und gleichzeitig erhebliche Effizienzgewinne ohne zusätzliches Training bietet. Code und Daten sind vollständig unter https://github.com/Gen-Verse/LatentMAS quelloffen verfügbar.
Multimodale große Sprachmodelle (MLLMs) stehen derzeit im Mittelpunkt der Forschung und zeigen rasante Fortschritte in Bezug auf Umfang und Fähigkeiten, dennoch sind ihre Intelligenz, Grenzen und Risiken nach wie vor unzureichend verstanden. Um diese Probleme anzugehen, insbesondere im Kontext der russischen Sprache, für die derzeit keine multimodalen Benchmarks existieren, stellen wir Mera Multi vor, ein offenes multimodales Evaluierungsframework für russischsprachige Architekturen. Der Benchmark ist instruktionsbasiert und umfasst die Standardmodalitäten Text, Bild, Audio und Video. Er besteht aus 18 neu konstruierten Evaluierungsaufgaben für sowohl allgemeine Modelle als auch modalspezifische Architekturen (Bild-zu-Text, Video-zu-Text und Audio-zu-Text). Unsere Beiträge umfassen: (i) eine universelle Taxonomie multimodaler Fähigkeiten; (ii) 18 von Grund auf neu erstellte Datensätze mit besonderer Berücksichtigung der russischen kulturellen und sprachlichen Spezifika, vereinheitlichten Prompts und Metriken; (iii) Baseline-Ergebnisse für sowohl proprietäre als auch Open-Source-Modelle; (iv) eine Methodik zur Verhinderung von Benchmark-Leaks, einschließlich Wasserzeichen und Lizenzen für private Datensätze. Obwohl unser derzeitiger Fokus auf Russisch liegt, bietet der vorgeschlagene Benchmark eine replizierbare Methodik zur Konstruktion multimodaler Benchmarks für typologisch diverse Sprachen, insbesondere innerhalb der slawischen Sprachfamilie.
Weltmodelle fungieren als zentrale Simulatoren für Bereiche wie agentenbasierte KI, verkörperte KI und Gaming, die in der Lage sind, lange, physikalisch realistische und interaktive hochwertige Videos zu generieren. Darüber hinaus könnte die Skalierung dieser Modelle emergente Fähigkeiten in visueller Wahrnehmung, Verständnis und logischem Schlussfolgern freisetzen und den Weg für ein neues Paradigma ebnen, das über die aktuellen LLM-zentrierten Vision-Foundation-Modelle hinausgeht. Ein entscheidender Durchbruch, der sie ermöglicht, ist das semi-autoregressive (Block-Diffusion-) Dekodierungsparadigma, das die Stärken von Diffusions- und autoregressiven Methoden vereint, indem es Videotokens blockweise generiert – dabei wird Diffusion innerhalb jedes Blocks angewendet, während auf vorherige Blöcke konditioniert wird, was kohärentere und stabilere Videosequenzen ergibt. Entscheidend ist, dass es die Grenzen standardmäßiger Videodiffusion überwindet, indem es LLM-artiges KV-Cache-Management wieder einführt und so effiziente, variabel lange und hochwertige Generierung ermöglicht. Daher ist Inferix speziell als eine Inference-Engine der nächsten Generation konzipiert, um immersive Weltsynthese durch optimierte semi-autoregressive Dekodierungsprozesse zu ermöglichen. Dieser gezielte Fokus auf Weltsimulation unterscheidet es deutlich von Systemen, die für Hochparallelitäts-Szenarien entwickelt wurden (wie vLLM oder SGLang), und von klassischen Videodiffusionsmodellen (wie xDiTs). Inferix erweitert sein Angebot weiter durch interaktives Video-Streaming und Profiling, was Echtzeitinteraktion und realistische Simulation ermöglicht, um Weltdynamiken präzise zu modellieren. Zusätzlich unterstützt es effizientes Benchmarking durch nahtlose Integration von LV-Bench, einem neuen feingranularen Evaluierungsbenchmark, der für minutenlange Videogenerierungsszenarien maßgeschneidert ist. Wir hoffen, dass die Community zusammenarbeiten wird, um Inferix voranzutreiben und die Erforschung von Weltmodellen zu fördern.
Die Synthese synchronisierter audiovisueller Inhalte stellt eine zentrale Herausforderung in der generativen KI dar, wobei Open-Source-Modelle mit Schwierigkeiten bei der robusten Audio-Video-Ausrichtung konfrontiert sind. Unsere Analyse zeigt, dass dieses Problem auf drei grundlegende Herausforderungen des gemeinsamen Diffusionsprozesses zurückzuführen ist: (1) Korrespondenzdrift, bei der sich gleichzeitig entwickelnde verrauschte Latents einen stabilen Erwerb der Ausrichtung verhindern; (2) ineffiziente globale Aufmerksamkeitsmechanismen, die feinkörnige zeitliche Hinweise nicht erfassen können; und (3) die intramodale Verzerrung der konventionellen klassifikatorfreien Führung (CFG), die die Konditionalität verbessert, jedoch nicht die crossmodale Synchronisation. Um diese Herausforderungen zu bewältigen, stellen wir Harmony vor, ein neuartiges Framework, das audiovisuelle Synchronisation mechanistisch erzwingt. Wir schlagen zunächst ein Cross-Task-Synergie-Trainingsparadigma vor, um die Drift durch die Nutzung starker Aufsichtssignale aus audio-gesteuerter Video- und video-gesteuerter Audioerzeugung zu mildern. Anschließend entwerfen wir ein Global-Local Decoupled Interaction Module für eine effiziente und präzise zeitliche Stilausrichtung. Schließlich präsentieren wir eine neuartige synchronisationsverstärkte CFG (SyncCFG), die das Ausrichtungssignal während der Inferenz explizit isoliert und verstärkt. Umfangreiche Experimente belegen, dass Harmony einen neuen State-of-the-Art etabliert und bestehende Methoden sowohl in der Erzeugungstreue als auch, entscheidend, bei der Erreichung feinkörniger audiovisueller Synchronisation signifikant übertrifft.
Wir stellen Nemotron-Parse-1.1 vor, ein leichtgewichtiges Modell zur Dokumentenanalyse und Texterkennung (OCR), das die Fähigkeiten seines Vorgängers Nemoretriever-Parse-1.0 erweitert. Nemotron-Parse-1.1 bietet verbesserte Leistungsfähigkeit in den Bereichen allgemeine OCR, Markdown-Formatierung, Analyse strukturierter Tabellen sowie Textextraktion aus Bildern, Diagrammen und Schaubildern. Zudem unterstützt es eine längere Ausgabesequenzlänge für visuell dichte Dokumente. Wie sein Vorgänger extrahiert es Begrenzungsrahmen von Textsegmenten sowie die entsprechenden semantischen Klassen. Nemotron-Parse-1.1 folgt einer Encoder-Decoder-Architektur mit 885 Millionen Parametern, einschließlich eines kompakten Sprach-Decoders mit 256 Millionen Parametern. Es erreicht eine wettbewerbsfähige Genauigkeit auf öffentlichen Benchmarks und stellt damit eine leistungsstarke, leichtgewichtige OCR-Lösung dar. Wir veröffentlichen die Modellgewichte öffentlich auf Huggingface, sowie einen optimierten NIM-Container, zusammen mit einem Teil der Trainingsdaten als Bestandteil des umfassenderen Nemotron-VLM-v2-Datensatzes. Zusätzlich veröffentlichen wir Nemotron-Parse-1.1-TC, das mit einer reduzierten Länge an Vision-Tokens arbeitet und eine 20 %ige Geschwindigkeitssteigerung bei minimalem Qualitätsverlust bietet.
Einheitliche multimodale Modelle (UMMs) haben beeindruckende Leistungen sowohl im Verständnis als auch in der Generierung mit einer einzigen Architektur gezeigt. Jedoch weisen UMMs nach wie vor eine grundlegende Inkonsistenz auf: Das Verständnis begünstigt kompakte Einbettungen, während die Generierung rekonstruktionsreiche Repräsentationen bevorzugt. Dieser strukturelle Zielkonflikt führt zu fehlausgerichteten Entscheidungsgrenzen, verminderter cross-modaler Kohärenz und erhöhter Anfälligkeit unter Distributions- und Adversarial-Shifts. In diesem Artikel stellen wir UniGame vor, einen selbst-adversarialen Nachtrainierungsrahmen, der direkt auf diese Inkonsistenzen abzielt. Durch Anwendung eines leichtgewichtigen Perturbers an der gemeinsamen Token-Schnittstelle ermöglicht UniGame dem Generierungszweig, aktiv fragiles Verständnis zu suchen und herauszufordern, wodurch das Modell zu seinem eigenen Gegner wird. Experimente zeigen, dass UniGame die Konsistenz signifikant verbessert (+4,6%). Zudem erzielt es auch substanzielle Verbesserungen im Verständnis (+3,6%), in der Generierung (+0,02) sowie in der Out-of-Distribution- und Adversarial-Robustheit (+4,8% bzw. +6,2% auf NaturalBench und AdVQA). Der Rahmen ist architekturunabhängig, führt weniger als 1% zusätzliche Parameter ein und ist komplementär zu bestehenden Nachtrainierungsmethoden. Diese Ergebnisse positionieren adversariales Selbstspiel als ein allgemeines und effektives Prinzip zur Verbesserung der Kohärenz, Stabilität und einheitlichen Kompetenz zukünftiger multimodaler Basismodelle. Der offizielle Code ist verfügbar unter: https://github.com/AIFrontierLab/UniGame
Wir untersuchen, wie gut große Sprachmodelle (LLMs) über verschiedene Aufgabenschwierigkeitsgrade hinweg generalisieren – eine Schlüsselfrage für effektives Datencurating und Evaluation. Die bisherige Forschung liefert uneinheitliche Ergebnisse darüber, ob das Training mit einfacheren oder schwierigeren Daten zu besseren Ergebnissen führt und ob diese Verbesserungen bei einfacheren oder schwierigeren Testdaten auftreten. Wir gehen dieser Frage nach, indem wir eine systematische Evaluation der Generalisierung von LLMs über Modelle, Datensätze und fein abgestufte Gruppen von Beispielschwierigkeiten hinweg durchführen. Wir ordnen Beispiele aus sechs Datensätzen anhand der Ausgaben Tausender verschiedener LLMs und der Item-Response-Theorie (IRT), einer etablierten Metrik für Schwierigkeit im Bildungstestwesen. Im Gegensatz zu früheren Arbeiten werden unsere Schwierigkeitsbewertungen somit ausschließlich anhand der Fähigkeiten vieler verschiedener LLMs bestimmt, wodurch menschliche Einschätzungen der Schwierigkeit ausgeschlossen werden. Durch eine objektivere, umfangreichere und feiner abgestufte Analyse zeigen wir, dass die Generalisierung über Schwierigkeitsgrade hinweg oft begrenzt ist; Training mit entweder einfachen oder schwierigen Daten führt nicht zu konsistenten Verbesserungen über das gesamte Schwierigkeitsspektrum. Diese Ergebnisse verdeutlichen die Bedeutung einer Bandbreite an Schwierigkeitsgraden sowohl in Trainings- als auch in Evaluationsdaten für LLMs und dass Abkürzungen in Bezug auf die Schwierigkeit riskant sind.
"Denken mit Bildern" hat sich als effektives Paradigma zur Weiterentwicklung des visuellen Denkens etabliert, das über rein textbasierte Gedankenketten hinausgeht, indem visuelle Evidenz in Zwischenschritte des Schlussfolgerns eingebracht wird. Bisherige Methoden erreichen jedoch kein menschenähnliches abstraktes visuelles Denken, da ihre Flexibilität grundlegend durch externe Werkzeuge begrenzt ist. In dieser Arbeit stellen wir Monet vor, ein Trainingsframework, das multimodalen großen Sprachmodellen (MLLMs) ermöglicht, direkt im latenten visuellen Raum zu schlussfolgern, indem sie kontinuierliche Einbettungen erzeugen, die als intermediäre visuelle Gedanken fungieren. Wir identifizieren zwei zentrale Herausforderungen beim Training von MLLMs für latentes visuelles Denken: hohe Rechenkosten bei der Latent-Vision-Ausrichtung und unzureichende Überwachung der latenten Einbettungen, und adressieren diese mit einer dreistufigen, distillationsbasierten Supervised Fine-Tuning (SFT)-Pipeline. Wir zeigen weiterhin eine Limitation der Anwendung von GRPO auf latentes Denken auf: Es verbessert primär textbasiertes Denken anstatt latentes Denken. Um dies zu überwinden, schlagen wir VLPO (Visual-latent Policy Optimization) vor, eine Reinforcement-Learning-Methode, die latente Einbettungen explizit in Policy-Gradient-Updates einbezieht. Zur Unterstützung von SFT haben wir Monet-SFT-125K konstruiert, einen hochwertigen, textbild-verschränkten CoT-Datensatz mit 125K Real-World-, Diagramm-, OCR- und Geometrie-CoTs. Unser Modell, Monet-7B, zeigt konsistenten Zugewinn über Real-World-Wahrnehmungs- und Reasoning-Benchmarks hinweg und weist eine starke Out-of-Distribution-Generalisation bei anspruchsvollen Aufgaben zum abstrakten visuellen Denken auf. Wir analysieren zudem empirisch die Rolle jeder Trainingskomponente und diskutieren unsere früheren erfolglosen Versuche, um Erkenntnisse für zukünftige Entwicklungen im visuellen latenten Denken zu liefern. Unser Modell, die Daten und der Code sind verfügbar unter https://github.com/NOVAglow646/Monet.
Wir stellen Terminal Velocity Matching (TVM) vor, eine Verallgemeinerung von Flow Matching, die hochauflösendes generatives Modellieren in einem oder wenigen Schritten ermöglicht. TVM modelliert den Übergang zwischen zwei beliebigen Diffusions-Zeitschritten und regularisiert sein Verhalten zum Endzeitpunkt und nicht zum Anfangszeitpunkt. Wir beweisen, dass TVM eine obere Schranke für die 2-Wasserstein-Distanz zwischen Daten- und Modellverteilungen liefert, sofern das Modell Lipschitz-stetig ist. Da Diffusion Transformer diese Eigenschaft jedoch nicht aufweisen, führen wir minimale architektonische Änderungen ein, die ein stabiles, einstufiges Training ermöglichen. Um TVM in der Praxis effizient zu gestalten, entwickeln wir einen fusionierten Attention-Kernel, der Backward-Passes für Jacobi-Vektor-Produkte unterstützt, die gut mit Transformer-Architekturen skalieren. Auf ImageNet-256x256 erreicht TVM einen FID-Wert von 3,29 mit einer einzigen Funktionsauswertung (NFE) und 1,99 FID mit 4 NFE. Ebenso erreicht es 4,32 FID mit 1 NFE und 2,94 FID mit 4 NFE auf ImageNet-512x512, was state-of-the-art Leistung für Ein- und Wenigschritt-Modelle aus reinem Training darstellt.
Vision-Language Models (VLMs) zeigen nach wie vor Schwächen in der räumlichen Intelligenz, was sich in einer geringen Leistung bei Aufgaben zum räumlichen Verständnis und Schlussfolgern äußert. Wir führen diese Lücke auf das Fehlen eines visuellen Geometrielernprozesses zurück, der in der Lage ist, den 3D-Raum aus 2D-Bildern zu rekonstruieren. Wir stellen G^2VLM vor, ein geometriebasiertes Vision-Language-Modell, das zwei grundlegende Aspekte der räumlichen Intelligenz verbindet: die räumliche 3D-Rekonstruktion und das räumliche Verständnis. G^2VLM nutzt native gelernte visuelle 3D-Geometriemerkmale, um direkt 3D-Attribute vorherzusagen und räumliche Reasoning-Aufgaben durch In-Context-Lernen und verschachteltes Reasoning zu verbessern. Unser einheitlicher Ansatz ist hochskalierbar für das räumliche Verständnis: Er trainiert mit umfangreichen Multi-View-Bild- und Videodaten und nutzt gleichzeitig die Vorteile visueller 3D-Priors, die typischerweise nur aus schwer zu erhebenden Annotationen abgeleitet werden. Experimentelle Ergebnisse zeigen, dass G^2VLM in beiden Aufgabenbereichen kompetent ist, vergleichbare Ergebnisse mit state-of-the-art Forward-3D-Rekonstruktionsmodellen erzielt und bessere oder wettbewerbsfähige Ergebnisse über verschiedene Aufgaben zum räumlichen Verständnis und Reasoning hinweg erreicht. Indem wir ein semantisch starkes VLM mit Low-Level-3D-Vision-Aufgaben vereinen, hoffen wir, dass G^2VLM als starke Baseline für die Community dienen und zukünftig weitere Anwendungen, wie die Bearbeitung von 3D-Szenen, ermöglichen kann.
Die block-kausale Videogenerierung steht vor einem deutlichen Geschwindigkeits-Qualitäts-Kompromiss: Kleine 1,3B-Modelle erreichen nur 16 FPS, während große 14B-Modelle mit 4,5 FPS extrem langsam sind, was Nutzer zur Wahl zwischen Reaktionsfähigkeit und Qualität zwingt. Block Cascading mildert diesen Kompromiss erheblich durch trainierungsfreie Parallelisierung. Unsere zentrale Erkenntnis: Zukünftige Videoblöcke benötigen keine vollständig entrauschten aktuellen Blöcke, um mit der Generierung zu beginnen. Indem wir die Blockgenerierung mit teilweise enträuschtem Kontext aus Vorgängerblöcken starten, wandeln wir sequenzielle Pipelines in parallele Kaskaden um, in denen mehrere Blöcke gleichzeitig entrauscht werden. Mit 5 GPUs, die temporäre Parallelität nutzen, erreichen wir eine ~2-fache Beschleunigung über alle Modellgrößen hinweg: 1,3B-Modelle beschleunigen von 16 auf 30 FPS, 14B-Modelle von 4,5 auf 12,5 FPS. Neben der Inferenzgeschwindigkeit eliminiert Block Cascading Overhead durch KV-Re-Caching (~200 ms) während Kontextwechseln für interaktive Generierung. Umfangreiche Evaluierungen gegen mehrere block-kausale Pipelines belegen keinen signifikanten Qualitätsverlust beim Wechsel von block-kausalen zu Block-Cascading-Pipelines für die Inferenz. Projektseite: https://hmrishavbandy.github.io/block_cascading_page/
Die Umsetzung natürlicher Sprachinstruktionen in kontinuierliche Steuerung für vierbeinige Roboter bleibt eine grundlegende Herausforderung im Bereich Vision-Language-Action. Bestehende Methoden scheitern oft daran, semantische Hochlevel-Planung mit Low-Level-Aktorik zu verbinden, was zu instabiler Umsetzung und schwacher Generalisierung in realen Umgebungen führt. Um diese Probleme zu adressieren, stellen wir MobileVLA-R1 vor – ein einheitliches Vision-Language-Action-Framework, das explizites Reasoning und kontinuierliche Steuerung für vierbeinige Roboter ermöglicht. Wir erstellen MobileVLA-CoT, einen groß angelegten Datensatz mit multi-granularen Chain-of-Thought (CoT) für verkörperte Trajektorien, der strukturierte Reasoning-Aufsicht für die Ausrichtung bereitstellt. Auf dieser Grundlage führen wir ein zweistufiges Trainingsparadigma ein, das überwachte CoT-Ausrichtung mit GRPO-Verstärkungslernen kombiniert, um Reasoning-Konsistenz, Steuerungsstabilität und langfristige Ausführung zu verbessern. Umfangreiche Auswertungen auf VLN- und VLA-Aufgaben zeigen eine überlegene Leistung gegenüber starken Baselines mit einer Verbesserung von etwa 5 %. Der Einsatz in der realen Welt auf einem vierbeinigen Roboter validiert die robuste Leistung in komplexen Umgebungen. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
Zeitschritt-Distillation ist ein effektiver Ansatz zur Verbesserung der Erzeugungseffizienz von Diffusionsmodellen. Das Konsistenzmodell (CM) zeigt als trajektorienbasiertes Framework aufgrund seiner soliden theoretischen Grundlage und hochwertigen Few-Step-Generierung ein erhebliches Potenzial. Dennoch sind aktuelle Kontinuierlich-Zeit-Konsistenzdistillationsverfahren nach wie vor stark von Trainingsdaten und Rechenressourcen abhängig, was ihren Einsatz in ressourcenbeschränkten Szenarien behindert und ihre Skalierbarkeit auf verschiedene Domänen einschränkt. Um dieses Problem zu lösen, schlagen wir das Trajektorien-Rückwärts-Konsistenzmodell (TBCM) vor, das die Abhängigkeit von externen Trainingsdaten beseitigt, indem latente Repräsentationen direkt aus der Generierungstrajektorie des Lehrermodells extrahiert werden. Im Gegensatz zu konventionellen Methoden, die VAE-Codierung und große Datensätze erfordern, verbessert unser eigenständiges Distillationsparadigma sowohl die Effizienz als auch die Einfachheit erheblich. Darüber hinaus überbrücken die trajektorienextrahierten Samples natürlicherweise die Distributionslücke zwischen Training und Inferenz, was einen effektiveren Wissenstransfer ermöglicht. Empirisch erreicht TBCM 6,52 FID und 28,08 CLIP-Scores auf MJHQ-30k unter Ein-Schritt-Generierung, reduziert gleichzeitig die Trainingszeit um etwa 40 % im Vergleich zu Sana-Sprint und spart erhebliche GPU-Speicherressourcen, was eine überlegene Effizienz ohne Qualitätseinbußen demonstriert. Wir beleuchten weiterhin die Diffusions-Generierungs-Raum-Diskrepanz bei der Kontinuierlich-Zeit-Konsistenzdistillation und analysieren, wie Sampling-Strategien die Distillationsleistung beeinflussen, um Erkenntnisse für zukünftige Distillationsforschung zu liefern. GitHub-Link: https://github.com/hustvl/TBCM.
Vision-Language-Action (VLA)-Policies zeichnen sich durch eine hohe Übereinstimmung von Sprache, Wahrnehmung und Robotersteuerung aus. Die meisten VLA-Modelle werden jedoch rein durch Imitation trainiert, was zu einer Überanpassung an die Demonstrationsdaten führt und bei Verteilungsverschiebungen instabil ist. Reinforcement Learning (RL) optimiert direkt die Aufgabenbelohnung und behebt somit diese Fehlausrichtung, jedoch sind Interaktionen mit realen Robotern kostspielig und konventionelle Simulatoren sind schwer zu entwickeln und zu übertragen. Wir adressieren sowohl Dateneffizienz als auch Optimierungsstabilität beim VLA-Nachtraining mittels eines gelernten Weltmodells und eines speziell auf flow-basierte Aktionsköpfe zugeschnittenen RL-Verfahrens. Konkret führen wir Prophet ein, eine einheitliche Aktions-zu-Video-Roboteraktuation, die vorab auf großen, heterogenen Roboterdaten trainiert wird, um wiederverwendbare Aktions-Ergebnis-Dynamiken zu erlernen. Es kann sich few-shot an neue Roboter, Objekte und Umgebungen anpassen und liefert einen einsatzbereiten Simulator. Aufbauend auf Prophet verstärken wir Aktionspolitiken mit Flow-action-GRPO (FA-GRPO), das Flow-GRPO für den Betrieb mit VLA-Aktionen anpasst, und mit FlowScale, einer schrittweisen Neugewichtung, die die Gradienten pro Schritt im Flow-Kopf neu skaliert. Zusammen bilden Prophet, FA-GRPO und FlowScale ProphRL, einen praktischen, daten- und recheneffizienten Weg für das VLA-Nachtraining. Experimente zeigen Erfolgssteigerungen von 5–17 % auf öffentlichen Benchmarks und 24–30 % auf realen Robotern über verschiedene VLA-Varianten hinweg.
Vision Foundation Models (VFMs) extrahieren räumlich herunterskaliierte Repräsentationen, was Herausforderungen für Pixel-basierte Aufgaben darstellt. Bestehende Upsampling-Ansätze stehen vor einem grundlegenden Zielkonflikt: Klassische Filter sind schnell und breit anwendbar, basieren jedoch auf festen Formen, während moderne Upsampler durch lernbare, VFM-spezifische Formen eine überlegene Genauigkeit erreichen – allerdings um den Preis einer Neuberechnung für jedes VFM. Wir stellen Neighborhood Attention Filtering (NAF) vor, das diese Lücke schließt, indem es adaptive raum- und inhaltsbasierte Gewichtungen durch Cross-Scale Neighborhood Attention und Rotary Position Embeddings (RoPE) lernt, geleitet ausschließlich durch das hochaufgelöste Eingabebild. NAF arbeitet Zero-Shot: Es skaliert Features jedes VFM ohne Neuberechnung hoch und ist damit die erste VFM-agnostische Architektur, die VFM-spezifische Upsampler übertrifft und state-of-the-art Leistung in mehreren Downstream-Aufgaben erzielt. Es behält eine hohe Effizienz bei, skaliert auf 2K-Feature-Maps und rekonstruiert Karten mittlerer Auflösung mit 18 FPS. Über Feature-Upsampling hinaus zeigt NAF starke Leistung in der Bildrestaurierung, was seine Vielseitigkeit unterstreicht. Code und Checkpoints sind verfügbar unter https://github.com/valeoai/NAF.
Wir stellen Sphinx vor, eine synthetische Umgebung für visuelle Wahrnehmung und logisches Denken, die grundlegende kognitive Primitive adressiert. Sphinx erzeugt prozedural Rätsel unter Verwendung von Motiven, Kacheln, Diagrammen, Ikonen und geometrischen Primitiven, die jeweils mit überprüfbaren Ground-Truth-Lösungen versehen sind. Dies ermöglicht sowohl eine präzise Evaluation als auch die Erstellung umfangreicher Datensätze. Der Benchmark umfasst 25 Aufgabentypen, die Symmetrieerkennung, geometrische Transformationen, räumliches Denken, Diagramminterpretation und Sequenzvorhersage abdecken. Die Evaluation aktueller großer visuell-sprachlicher Modelle (LVLMs) zeigt, dass selbst das modernste GPT-5 nur eine Genauigkeit von 51,1 % erreicht und damit deutlich unter der menschlichen Leistung liegt. Abschließend demonstrieren wir, dass Verstärkendes Lernen mit überprüfbaren Belohnungen (RLVR) die Modellgenauigkeit bei diesen Aufgaben erheblich steigert und auch Verbesserungen auf externen Benchmarks für visuelles Denken bewirkt, was sein Potenzial für die Weiterentwicklung multimodalen Denkens unterstreicht.
Reinforcement Learning from Human Feedback (RLHF) wird häufig zur Abstimmung großer Sprachmodelle eingesetzt, doch Praktiker stehen vor einem anhaltenden Rätsel: Verbesserungen der Sicherheit verringern oft die Fairness, die Skalierung auf diverse Bevölkerungsgruppen wird rechentechnisch unlösbar, und die Erhöhung der Robustheit verstärkt häufig Mehrheitsverzerrungen. Wir formalisieren diesen Zielkonflikt als Alignment-Trilemma: Kein RLHF-System kann gleichzeitig (i) Epsilon-Repräsentativität über diverse menschliche Werte hinweg, (ii) polynomielle Handhabbarkeit in Stichproben- und Rechenkomplexität sowie (iii) Delta-Robustheit gegen adversarielle Störungen und Distributionsverschiebungen erreichen. Durch eine komplexitätstheoretische Analyse, die statistische Lerntheorie und robuste Optimierung integriert, beweisen wir, dass das Erreichen sowohl von Repräsentativität (Epsilon ≤ 0,01) als auch von Robustheit (Delta ≤ 0,001) für globale Bevölkerungsgruppen Omega(2^{d_Kontext}) Operationen erfordert, was super-polynomiell in der Kontextdimensionalität ist. Wir zeigen, dass aktuelle RLHF-Implementierungen dieses Trilemma durch den Verzicht auf Repräsentativität auflösen: Sie erfassen nur 10³–10⁴ Stichproben aus homogenen Annotator-Pools, während 10⁷–10⁸ Stichproben für eine wirklich globale Repräsentation erforderlich wären. Unser Rahmenwerk bietet eine einheitliche Erklärung für dokumentierte RLHF-Pathologien, einschließlich Präferenzkollaps, Sykophantie und systematischer Verzerrungsverstärkung. Wir schließen mit konkreten Ansätzen, um diese fundamentalen Zielkonflikte durch strategische Lockerungen der Abstimmungsanforderungen zu bewältigen.
Die Erzeugung von 3D-Stadtmodellen in Stadtmaßstab ist von großer Bedeutung für die Entwicklung von verkörpertter Intelligenz und Weltmodellen. Bestehende Methoden stehen jedoch vor erheblichen Herausforderungen in Bezug auf Qualität, Detailtreue und Skalierbarkeit bei der Generierung von 3D-Welten. Daher schlagen wir RAISECity vor, eine wirklichkeitsgetreue intelligente Synthese-Engine, die detaillierte 3D-Welten im Stadtmaßstab erzeugt. Wir führen ein agentenbasiertes Framework ein, das diverse multimodale Basistechnologien nutzt, um reales Weltwissen zu erfassen, robuste Zwischendarstellungen beizubehalten und komplexe 3D-Szenen zu konstruieren. Dieses agentenbasierte Design mit dynamischer Datenverarbeitung, iterativer Selbstreflexion und Verfeinerung sowie dem Aufruf fortschrittlicher multimodaler Werkzeuge minimiert kumulative Fehler und verbessert die Gesamtleistung. Umfangreiche quantitative Experimente und qualitative Analysen bestätigen die überlegene Leistung von RAISECity bei Realitätstreue, Formgenauigkeit, Texturqualität und ästhetischem Niveau, wobei eine Gewinnrate von über 90 % gegenüber existierenden Baseline-Modellen in der Gesamtwahrnehmungsqualität erreicht wird. Diese Kombination aus 3D-Qualität, Realitätstreue, Skalierbarkeit und nahtloser Kompatibilität mit Computergrafik-Pipelines macht RAISECity zu einer vielversprechenden Grundlage für Anwendungen in immersiven Medien, verkörpertter Intelligenz und Weltmodellen.
Eine genaue Vorhersage der verbleibenden Nutzungsdauer (RUL) hängt von der Qualität von Gesundheitsindikatoren (HIs) ab, doch bestehende Methoden scheitern oft daran, komplexe Degradationsmechanismen in Multi-Sensor-Systemen zu entwirren oder die Unsicherheit in der HI-Zuverlässigkeit zu quantifizieren. Dieses Papier stellt einen neuartigen Rahmen für die Konstruktion von HIs vor und leistet drei wesentliche Beiträge. Erstens adaptieren wir Reconstruction along Projected Pathways (RaPP) erstmals als Gesundheitsindikator (HI) für die RUL-Vorhersage und zeigen, dass dieser traditionelle Rekonstruktionsfehlermetriken übertrifft. Zweitens zeigen wir, dass die Erweiterung von RaPP-abgeleiteten HIs um aleatorische und epistemische Unsicherheitsquantifizierung (UQ) mittels Monte-Carlo-Dropout und probabilistischen latenten Räumen die Robustheit der RUL-Vorhersage signifikant verbessert. Drittens und entscheidend schlagen wir Indikatorengruppen vor, ein Paradigma, das Sensoruntergruppen isoliert, um systemspezifische Degradationen zu modellieren, was zu unserer neuartigen Methode I-GLIDE führt, die interpretierbare, mechanismspezifische Diagnosen ermöglicht. Evaluierungen an Daten aus Luft- und Raumfahrt sowie Fertigungssystemen zeigen, dass unser Ansatz im Vergleich zu modernsten HI-Methoden deutliche Verbesserungen in Genauigkeit und Generalisierbarkeit erzielt, während er gleichzeitig umsetzbare Einblicke in Systemausfallpfade bietet. Diese Arbeit schließt die Lücke zwischen Anomalieerkennung und Prognostik und bietet einen prinzipienbasierten Rahmen für unsicherheitsbewusste Degradationsmodellierung in komplexen Systemen.
Obwohl 3D Gaussian Splatting (3DGS) in den meisten Konfigurationen hervorragende Ergebnisse erzielt, fehlt es ihm an Generalisierungsfähigkeit über neuartige Blickwinkel in einem Few-Shot-Szenario, da es zu stark an die spärlichen Beobachtungen überangepasst wird. Wir betrachten die 3DGS-Optimierung aus einer Machine-Learning-Perspektive neu und formulieren die Synthese neuartiger Ansichten als ein Generalisierungsproblem für ungesehene Blickwinkel – eine bisher wenig erforschte Richtung. Wir schlagen Frequency-Adaptive Sharpness Regularization (FASR) vor, welches das 3DGS-Trainingsziel neu formuliert und dadurch 3DGS dazu anleitet, sich einer besseren Generalisierungslösung anzunähern. Obwohl Sharpness-Aware Minimization (SAM) ebenfalls die Schärfe des Loss-Landscape reduziert, um die Generalisierung von Klassifikationsmodellen zu verbessern, ist dessen direkte Anwendung auf 3DGS suboptimal aufgrund der Diskrepanz zwischen den Aufgaben. Konkret verhindert es aufgrund übermäßiger Regularisierung die Rekonstruktion hochfrequenter Details, während eine Reduzierung seiner Stärke zu einer unzureichenden Bestrafung der Schärfe führt. Um dies zu adressieren, spiegeln wir die lokale Frequenz der Bilder wider, um das Regularisierungsgewicht und den Nachbarschaftsradius bei der Schätzung der lokalen Schärfe festzulegen. Dies verhindert Floater-Artefakte in neuen Blickwinkeln und rekonstruiert feine Details, die SAM tendenziell zu stark glättet. Über Datensätze mit verschiedenen Konfigurationen hinweg verbessert unsere Methode konsequent eine breite Palette von Baselines. Der Code wird unter https://bbangsik13.github.io/FASR verfügbar sein.