Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Reasoning-Fähigkeiten gezeigt, leiden jedoch häufig an Überdenken, bei dem sie überflüssige Rechenschritte für einfache Probleme aufwenden, oder an Unterdenken, bei dem sie trotz inhärenter Fähigkeiten nicht ausreichend viele Reasoning-Pfade erkunden. Diese Probleme führen zu Ineffizienzen und potenziellen Ungenauigkeiten, was den praktischen Einsatz in ressourcenbeschränkten Umgebungen einschränkt. Bestehende Methoden zur Minderung von Überdenken, wie die Unterdrückung reflektierender Schlüsselwörter oder die Anpassung der Reasoning-Länge, können unbeabsichtigt Unterdenken verursachen und dadurch die Genauigkeit beeinträchtigen. Daher schlagen wir ReBalance vor, ein trainingsfreies Framework, das effizientes Reasoning durch ausgewogenes Denken erreicht. ReBalance nutzt Konfidenz als kontinuierlichen Indikator für die Reasoning-Dynamik, identifiziert Überdenken durch hohe Konfidenzvarianz und Unterdenken durch konsistente Überkonfidenz. Durch die Aggregation versteckter Zustände aus einem kleinen Datensatz zu Reasoning-Modus-Prototypen berechnen wir einen Steuerungsvektor, um die Reasoning-Trajektorien der LRMs zu lenken. Eine dynamische Kontrollfunktion moduliert Stärke und Richtung dieses Vektors basierend auf Echtzeit-Konfidenz, reduziert Redundanzen während Überdenkens und fördert die Exploration während Unterdenkens. Umfangreiche Experimente mit vier Modellen von 0,5B bis 32B sowie über neun Benchmarks in mathematischem Reasoning, allgemeiner Fragebeantwortung und Coding-Aufgaben demonstrieren, dass ReBalance effektiv Ausgaberedundanzen reduziert und gleichzeitig die Genauigkeit verbessert. Dies bietet eine allgemeine, trainingsfreie und Plug-and-Play-Strategie für den effizienten und robusten Einsatz von LRMs. Code ist verfügbar unter https://github.com/yu-lin-li/ReBalance.
Große Sprachmodell (LLM)-Agenten werden zunehmend für komplexe Aufgaben eingesetzt, doch eingesetzte Agenten bleiben oft statisch und passen sich nicht an die sich entwickelnden Benutzeranforderungen an. Dies erzeugt eine Spannung zwischen der Notwendigkeit eines kontinuierlichen Betriebs und der Notwendigkeit, Fähigkeiten zu aktualisieren, um sich an sich verschiebende Aufgabenverteilungen anzupassen. Auf Plattformen wie OpenClaw, die diverse Workloads über 20+ Kanäle verarbeiten, speichern bestehende Methoden entweder Roh-Trajektorien ohne Wissensextraktion, pflegen statische Fähigkeitsbibliotheken oder erfordern unterbrechungsbehaftete Ausfallzeiten für Neutrainings. Wir stellen MetaClaw vor, einen kontinuierlichen Meta-Learning-Framework, der gemeinsam eine Basis-LLM-Policy und eine Bibliothek wiederverwendbarer Verhaltensfähigkeiten weiterentwickelt. MetaClaw nutzt zwei komplementäre Mechanismen. Fähigkeitsgetriebene schnelle Anpassung analysiert Fehlschlag-Trajektorien via eines LLM-Evolvers, um neue Fähigkeiten zu synthetisieren, und ermöglicht so sofortige Verbesserung ohne Ausfallzeiten. Opportunistische Policy-Optimierung führt gradientenbasierte Updates via Cloud-LoRA-Fine-Tuning und Reinforcement Learning mit einem Process Reward Model (RL-PRM) durch. Dies wird während nutzerinaktiver Zeitfenster durch den Opportunistic Meta-Learning Scheduler (OMLS) ausgelöst, der Systeminaktivität und Kalenderdaten überwacht. Diese Mechanismen verstärken sich gegenseitig: Eine verfeinerte Policy generiert bessere Trajektorien für die Fähigkeitssynthese, während umfangreichere Fähigkeiten höherwertige Daten für die Policy-Optimierung liefern. Um Datenkontamination zu verhindern, trennt ein Versionierungsmechanismus Support- und Query-Daten. Auf einer Proxy-basierten Architektur aufbauend, skaliert MetaClaw auf Produktionsgrößen-LLMs ohne lokale GPUs. Experimente auf MetaClaw-Bench und AutoResearchClaw zeigen, dass fähigkeitsgetriebene Anpassung die Genauigkeit um bis zu 32 % relativ verbessert. Die vollständige Pipeline steigert die Kimi-K2.5-Genauigkeit von 21,4 % auf 40,6 % und erhöht die zusammengesetzte Robustheit um 18,3 %. Code ist verfügbar unter https://github.com/aiming-lab/MetaClaw.
Trotz der Fortschritte bei der Anwendung von MLLMs für verschiedene Videoaufgaben bleibt die Vorhersage von Videoreignissen (Video Event Prediction, VEP) relativ unerforscht. VEP erfordert, dass das Model eine feinkörnige zeitliche Modellierung von Videos durchführt und logische Beziehungen zwischen Videos und zukünftigen Ereignissen herstellt, womit aktuelle MLLMs nach wie vor Schwierigkeiten haben. In dieser Arbeit stellen wir zunächst eine umfassende Evaluierung aktueller führender MLLMs für die VEP-Aufgabe vor, die die Gründe für ihre ungenauen Vorhersagen aufdeckt, darunter mangelnde logische Schlussfolgerungsfähigkeit für die Vorhersage zukünftiger Ereignisse und unzureichende Nutzung visueller Informationen. Um diese Herausforderungen zu bewältigen, schlagen wir das Paradigma der Ereigniskette (Chain of Events, CoE) vor, das zeitliche Ereignisketten konstruiert, um MLLMs implizit zu zwingen, sich auf den visuellen Inhalt und die logischen Verbindungen zwischen Videos und zukünftigen Ereignissen zu konzentrieren und so die Schlussfolgerungsfähigkeit des Models mit mehreren Trainingsprotokollen zu fördern. Experimentelle Ergebnisse auf öffentlichen Benchmarks zeigen, dass unsere Methode sowohl führende Open-Source- als auch kommerzielle MLLMs übertrifft und einen neuen State-of-the-Art auf der VEP-Aufgabe etabliert. Codes und Modelle werden in Kürze veröffentlicht.
Video-Diffusionsmodelle entwickeln sich über kurze, plausible Clips hinaus zu Weltsimulatoren, die unter Kamerabewegung, Wiederbesuchen und Eingriffen konsistent bleiben müssen. Dennoch bleibt räumliches Gedächtnis ein zentraler Engpass: Explizite 3D-Strukturen können reprojektionsbasierte Konsistenz verbessern, haben aber Schwierigkeiten, bewegte Objekte darzustellen, während implizite Gedächtnisse oft ungenaue Kamerabewegungen erzeugen, selbst bei korrekten Posen. Wir schlagen Mosaic Memory (MosaicMem) vor, einen hybriden räumlichen Speicher, der Patches in 3D überführt, um zuverlässige Lokalisierung und gezielten Abruf zu ermöglichen, während die native Konditionierung des Modells genutzt wird, um promptgesteuerte Generierung beizubehalten. MosaicMem komponiert räumlich ausgerichtete Patches in der angefragten Ansicht über eine Patch-and-Compose-Schnittstelle, bewahrt, was bestehen bleiben soll, und ermöglicht es dem Modell, sich entwickelnde Bereiche zu inpainten. Mit PRoPE-Kamerakonditionierung und zwei neuen Methoden zur Gedächtnisausrichtung zeigen Experimente verbesserte Poseneinhaltung im Vergleich zu implizitem Gedächtnis und stärkere Dynamikmodellierung als explizite Baselines. MosaicMem ermöglicht zudem Navigation auf Minutenebene, speicherbasierte Szenenbearbeitung und autoregressives Rollout.
Die Nachjustierung (Alignment) von Sprachmodellen optimiert diese anhand von menschlichen Präferenzsignalen, jedoch ist dieses Ziel nicht gleichbedeutend mit der Modellierung tatsächlich beobachteten menschlichen Verhaltens. Wir vergleichen 120 Basis- und alignierte Modellpaare anhand von mehr als 10.000 echten menschlichen Entscheidungen in mehrrundigen strategischen Spielen – Verhandeln, Überzeugen, Verhandlungen und wiederholten Matrixspielen. In diesen Settings übertreffen Basismodelle ihre alignierten Gegenstücke bei der Vorhersage menschlicher Entscheidungen um fast 10:1, und dies robust über Modellfamilien, Prompt-Formulierungen und Spielkonfigurationen hinweg. Dieses Muster kehrt sich jedoch in Situationen um, in denen menschliches Verhalten eher normativen Vorhersagen folgt: Alignierte Modelle dominieren bei Einmal-„Lehrbuch“-Spielen über alle 12 getesteten Typen hinweg sowie bei nicht-strategischen Lotterieentscheidungen – und sogar innerhalb der mehrrundigen Spiele selbst, in Runde eins, bevor sich eine Interaktionshistorie aufbaut. Dieses Grenzbedingungsmuster deutet darauf hin, dass Alignment eine normative Verzerrung induziert: Es verbessert die Vorhersage, wenn menschliches Verhalten relativ gut durch normative Lösungen erfasst wird, verschlechtert sie jedoch in mehrrundigen strategischen Settings, in welchen das Verhalten durch deskriptive Dynamiken wie Reziprozität, Vergeltung und verlaufsabhängige Anpassung geprägt wird. Diese Ergebnisse offenbaren einen fundamentalen Zielkonflikt zwischen der Optimierung von Modellen für die menschliche Nutzung und ihrer Verwendung als Stellvertreter für menschliches Verhalten.
Reinforcement Learning (RL) hat sich als leistungsstarkes Paradigma für das Training von LLM-basierten Agenten etabliert, bleibt jedoch durch eine geringe Stichprobeneffizienz eingeschränkt. Diese resultiert nicht nur aus spärlichem Ergebnis-Feedback, sondern auch aus der Unfähigkeit des Agenten, frühere Erfahrungen über Episoden hinweg zu nutzen. Während die Erweiterung von Agenten um historische Erfahrungen einen vielversprechenden Ansatz darstellt, leiden bestehende Methoden unter einer entscheidenden Schwäche: Die aus der Vergangenheit destillierte Erfahrung wird entweder statisch gespeichert oder entwickelt sich nicht gemeinsam mit dem sich verbessernden Akteur weiter. Dies führt zu einer fortschreitenden Fehlausrichtung zwischen der Erfahrung und den sich entwickelnden Fähigkeiten des Akteurs, was deren Nützlichkeit im Trainingsverlauf mindert. Inspiriert von komplementären Lernsystemen in den Neurowissenschaften stellen wir Complementary RL vor, um eine nahtlose Ko-Evolution eines Erfahrungsextraktors und eines Policy-Akteurs innerhalb des RL-Optimierungsloops zu erreichen. Konkret wird der Akteur über spärliche, ergebnisbasierte Belohnungen optimiert, während der Erfahrungsextraktor danach optimiert wird, ob seine destillierten Erfahrungen nachweislich zum Erfolg des Akteurs beitragen. Dadurch entwickelt sich seine Erfahrungsmanagement-Strategie im Gleichschritt mit den wachsenden Fähigkeiten des Akteurs. Empirisch übertrifft Complementary RL ergebnisbasierte, agentenbasierte RL-Baselines, die nicht aus Erfahrung lernen, und erzielt eine 10 %ige Leistungssteigerung in Einzelaufgaben-Szenarien sowie eine robuste Skalierbarkeit in Multi-Task-Umgebungen. Diese Ergebnisse etablieren Complementary RL als ein Paradigma für effizientes, erfahrungsgestütztes Agentenlernen.
Kann KI über einen Krieg nachdenken, bevor sein Verlauf historisch offensichtlich wird? Die Analyse dieser Fähigkeit ist schwierig, da retrospektive geopolitische Vorhersagen stark durch das Problem der Datenlecks im Trainingsdatensatz verzerrt werden. Wir begegnen dieser Herausforderung mit einer zeitlich verankerten Fallstudie zu den frühen Phasen des Nahost-Konflikts von 2026, der sich nach dem Trainingszeitende aktueller Frontier-Modelle entfaltete. Wir konstruieren 11 kritische zeitliche Knotenpunkte, 42 knotenpunktspezifische überprüfbare Fragen und 5 allgemeine explorative Fragen, die von den Modellen verlangen, ausschließlich auf der Basis von Informationen zu argumentieren, die zu jedem Zeitpunkt öffentlich verfügbar gewesen wären. Dieses Design mildert Bedenken bezüglich von Datenlecks im Trainingsdatensatz erheblich ab, schafft einen Rahmen, der gut geeignet ist, um zu untersuchen, wie Modelle eine sich entfaltende Krise im "Nebel des Krieges" analysieren, und liefert unseres Wissens nach die erste zeitlich verankerte Analyse der Argumentationsfähigkeit von LLMs in einem andauernden geopolitischen Konflikt. Unsere Analyse ergibt drei Haupterkenntnisse. Erstens zeigen aktuelle state-of-the-art Large Language Models oft einen bemerkenswerten Grad an strategischem Realismus, indem sie über die oberflächliche Rhetorik hinaus zu tieferliegenden strukturellen Anreizen argumentieren. Zweitens ist diese Fähigkeit je nach Domäne ungleich ausgeprägt: Modelle sind in wirtschaftlich und logistisch strukturierten Kontexten zuverlässiger als in politisch mehrdeutigen Umgebungen mit mehreren Akteuren. Schließlich entwickeln sich die Modellnarrative im Zeitverlauf und wechseln von frühen Erwartungen einer schnellen Eindämmung hin zu systemischeren Darstellungen regionaler Verfestigung und erschöpfender Deeskalation. Da der Konflikt zum Zeitpunkt der Abfassung noch andauert, kann diese Arbeit als eine archivierte Momentaufnahme der Modellargumentation während einer sich entfaltenden geopolitischen Krise dienen und zukünftige Studien ermöglichen, ohne den Rückblick-Bias retrospektiver Analysen.
World-Action-Modelle (WAM), die mit vortrainierten Videogenerierungs-Backbones initialisiert werden, haben ein bemerkenswertes Potenzial für das Erlernen von Robotik-Policies gezeigt. Bestehende Ansätze stehen jedoch vor zwei kritischen Engpässen, die Leistung und Einsatzfähigkeit beeinträchtigen. Erstens verursacht die gemeinsame Betrachtung zukünftiger visueller Dynamiken und entsprechender Aktionen einen erheblichen Inferenz-Overhead. Zweitens führt die gemeinsame Modellierung oft zu einer Vermischung visueller und Bewegungsrepräsentationen, wodurch die Genauigkeit der Bewegungsvorhersage stark von der Qualität der zukünftigen Videovorhersagen abhängt. Um diese Probleme zu adressieren, stellen wir GigaWorld-Policy vor, ein aktionszentriertes WAM, das 2D-Pixel-Aktions-Dynamiken erlernt und gleichzeitig eine effiziente Aktionsdekodierung mit optionaler Videogenerierung ermöglicht. Konkret gliedern wir das Policy-Training in zwei gekoppelte Komponenten: Das Modell sagt zukünftige Aktionssequenzen auf Basis der aktuellen Beobachtung vorher und generiert gleichzeitig zukünftige Videos, die auf den vorhergesagten Aktionen und derselben Beobachtung basieren. Die Policy wird durch sowohl Aktionsvorhersage als auch Videogenerierung überwacht, was reichhaltigere Lernsignale liefert und physikalisch plausible Aktionen durch visuell-dynamische Randbedingungen fördert. Durch einen kausalen Aufbau, der verhindert, dass zukünftige Video-Tokens Aktions-Tokens beeinflussen, ist die explizite Generierung zukünftiger Videos zum Inferenzzeitpunkt optional, was eine schnellere Aktionsvorhersage während des Einsatzes erlaubt. Um dieses Paradigma zu unterstützen, haben wir einen diversen, großangelegten Robotik-Datensatz kuratiert, um ein aktionszentriertes Videogenerierungsmodell vorzutrainieren, das dann als Backbone für das Robotik-Policy-Lernen adaptiert wird. Experimentelle Ergebnisse auf realen Robotik-Plattformen zeigen, dass GigaWorld-Policy 9-mal schneller läuft als der führende WAM-Baseline, Motus, und dabei die Aufgaben-Erfolgsrate um 7 % steigert. Darüber hinaus verbessert GigaWorld-Policy die Leistung im Vergleich zu pi-0,5 auf RoboTwin 2.0 um 95 %.
Tokenisierung ist eine grundlegende Technik im generativen Modellieren verschiedener Modalitäten. Insbesondere spielt sie eine entscheidende Rolle in autoregressiven (AR) Modellen, die sich kürzlich als vielversprechende Option für die 3D-Generierung erwiesen haben. Die optimale Tokenisierung von 3D-Formen bleibt jedoch eine offene Frage. State-of-the-Art (SOTA) Methoden stützen sich hauptsächlich auf geometrische Detailgrad-Hierarchien (Level-of-Detail, LoD), die ursprünglich für Rendering und Kompression entwickelt wurden. Diese räumlichen Hierarchien sind oft token-ineffizient und weisen für die AR-Modellierung eine mangelnde semantische Kohärenz auf. Wir schlagen eine Tokenisierung nach semantischem Detailgrad (Level-of-Semantics Tokenization, LoST) vor, die Token nach ihrer semantischen Salienz anordnet, sodass frühe Präfixe zu vollständigen, plausiblen Formen mit Hauptsemantik decodiert werden, während nachfolgende Token instanzspezifische geometrische und semantische Details verfeinern. Um LoST zu trainieren, führen wir Relational Inter-Distance Alignment (RIDA) ein, eine neuartige 3D-semantische Ausrichtungsverlustfunktion, die die relationale Struktur des 3D-Form-Latenzraums mit der des semantischen DINO-Merkmalsraums in Einklang bringt. Experimente zeigen, dass LoST eine state-of-the-art Rekonstruktion erreicht und frühere, auf LoD basierende 3D-Form-Tokenizer bei geometrischen und semantischen Rekonstruktionsmetriken mit großem Abstand übertrifft. Darüber hinaus ermöglicht LoST eine effiziente, hochwertige AR-3D-Generierung und unterstützt nachgelagerte Aufgaben wie semantische Retrieval, während nur 0,1 %–10 % der Token benötigt werden, die von früheren AR-Modellen erforderlich waren.
Vision-Language-Action (VLA)-Modelle haben sich kürzlich als vielversprechendes Paradigma für die robotische Manipulation erwiesen, bei dem die Zuverlässigkeit der Aktionsvorhersage entscheidend von der genauen Interpretation und Integration visueller Beobachtungen abhängt, die durch Sprachinstruktionen konditioniert sind. Obwohl neuere Arbeiten versucht haben, die visuellen Fähigkeiten von VLA-Modellen zu verbessern, behandeln die meisten Ansätze das LLM-Rückgrat als Blackbox und bieten nur begrenzte Einblicke, wie visuelle Informationen in die Aktionsgenerierung eingebunden werden. Daher führen wir eine systematische Analyse mehrerer VLA-Modelle über verschiedene Aktionsgenerierungsparadigmen hinweg durch und beobachten, dass die Sensitivität für visuelle Tokens in tieferen Schichten während der Aktionsgenerierung progressiv abnimmt. Aufbauend auf dieser Beobachtung schlagen wir DeepVision-VLA vor, das auf einem Vision-Language Mixture-of-Transformers (VL-MoT)-Framework basiert. Dieses Framework ermöglicht eine geteilte Aufmerksamkeit zwischen dem Vision Foundation Model und dem VLA-Rückgrat und injiziert mehrstufige visuelle Merkmale des Vision-Experten in tiefere Schichten des VLA-Rückgrats, um visuelle Repräsentationen für präzise und komplexe Manipulation zu verbessern. Zusätzlich führen wir Action-Guided Visual Pruning (AGVP) ein, das Aufmerksamkeitsmechanismen flacher Schichten nutzt, um irrelevante visuelle Tokens zu entfernen und aufgabenrelevante beizubehalten, wodurch kritische visuelle Hinweise für die Manipulation mit minimalem Rechenaufwand verstärkt werden. DeepVision-VLA übertrifft bisherige State-of-the-Art-Methoden um 9,0 % bzw. 7,5 % bei simulierten und realen Aufgaben und liefert neue Erkenntnisse für das Design visuell verbesserter VLA-Modelle.
Große Sprachmodelle (LLMs) speichern zunehmend Nutzerpräferenzen in persistenter Erinnerung, um Personalisierung über Interaktionen hinweg zu unterstützen. In Kommunikationskontexten mit Dritten, die durch soziale und institutionelle Normen geregelt sind, kann die Anwendung einiger Nutzerpräferenzen jedoch unangemessen sein. Wir stellen BenchPreS vor, das bewertet, ob erinnerungsbasierte Nutzerpräferenzen in verschiedenen Kommunikationskontexten angemessen angewendet oder unterdrückt werden. Unter Verwendung zweier komplementärer Metriken, der Fehlanwendungsrate (Misapplication Rate, MR) und der Angemessenen-Anwendungsrate (Appropriate Application Rate, AAR), stellen wir fest, dass selbst führende LLMs Schwierigkeiten haben, Präferenzen kontextsensitiv anzuwenden. Modelle mit stärkerer Präferenzbefolgung weisen höhere Raten von Überanwendung auf, und weder Reasoning-Fähigkeiten noch prompt-basierte Abwehrmechanismen lösen dieses Problem vollständig. Diese Ergebnisse deuten darauf hin, dass aktuelle LLMs personalisierte Präferenzen eher als global durchsetzbare Regeln behandeln denn als kontextabhängige normative Signale.
Multimodale große Sprachmodelle (MLLMs) werden typischerweise in mehreren Stufen trainiert, wobei die auf Videos basierende überwachte Feinabstimmung (Video-SFT) einen entscheidenden Schritt zur Verbesserung des visuellen Verständnisses darstellt. Dennoch ist ihre Wirkung auf die feinkörnige Entwicklung visueller Fähigkeiten, insbesondere das Gleichgewicht zwischen räumlichem und zeitlichem Verständnis, kaum verstanden. In diesem Artikel untersuchen wir systematisch, wie Video-SFT visuelle Fähigkeiten in MLLMs umgestaltet. Über Architekturen, Parameterskalen und Frame-Sampling-Einstellungen hinweg beobachten wir ein konsistentes Muster: Video-SFT verbessert zuverlässig die Videoleistung, führt aber oft nur zu begrenzten Gewinnen oder sogar zu Verschlechterungen bei Benchmarks für statische Bilder. Wir zeigen weiter, dass dieser Kompromiss eng mit dem zeitlichen Budget zusammenhängt: Eine Erhöhung der Anzahl der abgetasteten Frames verbessert generell die Videoleistung, verbessert aber die Leistung bei statischen Bildern nicht zuverlässig. Angeregt durch diese Erkenntnis untersuchen wir eine anweisungsbewusste Hybrid-Frame-Strategie, die Frame-Anzahlen adaptiv zuweist und den Bild-Video-Kompromiss teilweise mildert. Unsere Ergebnisse zeigen, dass Video-SFT kein kostenloser Zugewinn für MLLMs ist und die Bewahrung des räumlichen Verständnisses eine zentrale Herausforderung beim gemeinsamen Bild-Video-Training bleibt.
Ein aktueller Trend bei Vision-Sprach-Modellen (VLMs) ist die Verbesserung ihres räumlichen Verständnisses für eingebettete Anwendungsbereiche. Trotz Fortschritten waren bestehende Evaluierungen sowohl in ihrer Methodik als auch in ihrer Abdeckung begrenzt, was eine rasche, iterative Modellentwicklung behinderte. Um diese Einschränkungen zu adressieren, schlagen wir ESPIRE vor, einen diagnostischen Benchmark für räumliches Schlussfolgern in eingebetteten Systemen. ESPIRE bietet eine simulierte Welt, die VLMs physikalisch verankert und sie an robotischen Aufgaben mit Fokus auf räumliches Schlussfolgern evaluiert, wodurch die Lücke zwischen Evaluation und realem Einsatz verringert wird. Um VLMs für robotische Aufgaben anzupassen, zerlegen wir jede Aufgabe in Lokalisierung und Ausführung und formulieren beide als generative Probleme – im starken Gegensatz zu vorherrschenden diskriminativen Evaluierungen (z.B. mittels visueller Fragebeantwortung), die auf Ablenkoptionen setzen und die Ausführung vernachlässigen. Diese Zerlegung ermöglicht zudem eine fein granulare Analyse, die über passives räumliches Schlussfolgern hinaus hin zum schlussfolgernden Handeln geht. Wir gestalten ESPIRE systematisch sowohl auf Instruktionsebene als auch auf Umgebungsebene, um eine breite Abdeckung räumlicher Schlussfolgerszenarien zu gewährleisten. Wir nutzen ESPIRE, um eine Reihe modernster VLMs zu diagnostizieren und liefern eine tiefgehende Analyse ihres räumlichen Schlussfolgerungsverhaltens.
Wir stellen V-JEPA 2.1 vor, eine Familie von selbstüberwachten Modellen, die dichte, hochwertige visuelle Repräsentationen sowohl für Bilder als auch für Videos lernen und dabei ein starkes globales Szenenverständnis beibehalten. Der Ansatz kombiniert vier Schlüsselkomponenten. Erstens verwendet ein dichter prädiktiver Verlust ein auf Maskierung basierendes Ziel, bei dem sowohl sichtbare als auch maskierte Token zum Trainingssignal beitragen, was eine explizite räumliche und zeitliche Verankerung fördert. Zweitens wendet tiefe Selbstüberwachung das selbstüberwachte Ziel hierarchisch über mehrere Zwischenebenen des Encoders an, um die Repräsentationsqualität zu verbessern. Drittens ermöglichen multimodale Tokenizer ein vereinheitlichtes Training über Bilder und Videos hinweg. Schließlich profitiert das Modell von effektiver Skalierung sowohl der Modellkapazität als auch der Trainingsdaten. Zusammengenommen erzeugen diese Designentscheidungen Repräsentationen, die räumlich strukturiert, semantisch kohärent und zeitlich konsistent sind. Empirisch erzielt V-JEPA 2.1 state-of-the-art Leistung in mehreren anspruchsvollen Benchmarks, darunter 7,71 mAP bei Ego4D für die kurzfristige Antizipation von Objektinteraktionen und 40,8 Recall@5 bei EPIC-KITCHENS für die Antizipation von High-Level-Aktionen, sowie eine Verbesserung der Greiferfolgsrate bei Echtzeit-Robotern um 20 Punkte gegenüber V-JEPA-2 AC. Das Modell zeigt auch starke Leistung in der robotischen Navigation (5,687 ATE auf TartanDrive), der Tiefenschätzung (0,307 RMSE auf NYUv2 mit einer linearen Sonde) und der globalen Erkennung (77,7 auf Something-Something-V2). Diese Ergebnisse zeigen, dass V-JEPA 2.1 den State of the Art im dichten visuellen Verständnis und der Weltmodellierung erheblich voranbringt.
Wir stellen StereoWorld vor, ein kamera-konditioniertes Stereo-Weltmodell, das Erscheinungsbild und binokulare Geometrie für end-to-end Stereo-Videogenerierung gemeinsam erlernt. Im Gegensatz zu monokularen RGB- oder RGBD-Ansätzen arbeitet StereoWorld ausschließlich innerhalb der RGB-Modalität, während es Geometrie direkt aus der Disparität ableitet. Um konsistente Stereo-Generierung effizient zu erreichen, führt unser Ansatz zwei Schlüsseldesigns ein: (1) eine einheitliche Kamerarahmen-RoPE, die latente Tokens mit kamera-aware rotary positional encoding erweitert und so relative, blickpunkt- und zeitkonsistente Konditionierung ermöglicht, während vortrainierte Video-Priors durch eine stabile Attention-Initialisierung bewahrt werden; und (2) eine stereo-aware Attention-Zerlegung, die volle 4D-Attention in 3D-Intra-View-Attention plus horizontale Zeilen-Attention faktorisiert, indem sie die epipolare Voraussetzung nutzt, um disparitätsausgerichtete Korrespondenzen mit deutlich geringerer Rechenlast zu erfassen. In Benchmarks verbessert StereoWorld die Stereo-Konsistenz, Disparitätsgenauigkeit und Kamerabewegungstreue gegenüber starken Monokular-dann-Konvertier-Pipelines und erreicht mehr als 3-mal schnellere Generierung mit einem zusätzlichen Gewinn von 5 % in der Blickpunktkonsistenz. Über Benchmarks hinaus ermöglicht StereoWorld end-to-end binokulares VR-Rendering ohne Tiefenschätzung oder Inpainting, verbessert das Lernen verkörperter Politik durch metrische Tiefenverankerung und ist kompatibel mit Langvideo-Distillation für erweiterte interaktive Stereo-Synthese.
Große Sprachmodell-Agenten (LLM) greifen zunehmend auf externen Speicher zurück, um langfristige Interaktionen, personalisierte Assistenz und mehrstufige Schlussfolgerungen zu unterstützen. Allerdings stehen bestehende Speichersysteme nach wie vor vor drei zentralen Herausforderungen: Sie stützen sich oft zu stark auf semantische Ähnlichkeit, was für ein nutzerzentriertes Verständnis entscheidende Beweise übersehen kann; sie speichern verwandte Erfahrungen häufig als isolierte Fragmente, was die zeitliche und kausale Kohärenz schwächt; und sie verwenden typischerweise statische Speichergranularitäten, die sich nicht gut an die Anforderungen verschiedener Fragen anpassen. Wir schlagen AdaMem vor, ein adaptives, nutzerzentriertes Speicherframework für Agenten in langfristigen Dialogen. AdaMem organisiert den Dialogverlauf in Arbeits-, Episoden-, Personen- und Graph-Speicher, was es dem System ermöglicht, recenten Kontext, strukturierte Langzeiterfahrungen, stabile Nutzermerkmale und relationsbewusste Verbindungen innerhalb eines einheitlichen Frameworks zu bewahren. Zum Inferenzzeitpunkt löst AdaMem zunächst den Zielteilnehmer auf, erstellt dann eine fragengesteuerte Abfrage-Route, die semantische Abfrage mit relationsbewusster Grapherweiterung nur bei Bedarf kombiniert, und erzeugt schließlich die Antwort durch eine rollenspezialisierte Pipeline zur Beweissynthese und Antwortgenerierung. Wir evaluieren AdaMem auf den Benchmarks LoCoMo und PERSONAMEM für langfristiges Reasoning und Nutzermodellierung. Experimentelle Ergebnisse zeigen, dass AdaMem auf beiden Benchmarks state-of-the-art Leistung erzielt. Der Code wird bei Annahme der Arbeit veröffentlicht.
Offline-Post-Training passt eine vortrainierte Roboterpolitik durch überwachte Regression auf aufgezeichnete Aktionen an einen Zieldatensatz an. In der Praxis sind Roboterdatensätze heterogen: Sie vermischen verschiedene Embodiments, Kamerakonfigurationen und Demonstrationen unterschiedlicher Qualität, sodass viele Trajektorien Korrekturverhalten, inkonsistente Fähigkeiten des Operators oder schwach informative Supervision widerspiegeln. Uniformes Post-Training misst allen Stichproben den gleichen Einfluss bei und kann daher über widersprüchliche oder datenarme Stichproben mitteln. Wir schlagen Posterior-Transition Reweighting (PTR) vor, eine belohnungsfreie und konservative Post-Training-Methode, die entscheidet, wie stark jede Trainingsstichprobe die überwachte Aktualisierung beeinflussen soll. Für jede Stichprobe kodiert PTR die beobachtete Folge nach der Aktion als latentes Ziel, fügt sie in einen Kandidatenpool nicht übereinstimmender Ziele ein und verwendet einen separaten Transitionsbewerter, um ein softmax-Identifikationsposterior über die Zielindizes zu schätzen. Das Posterior-zu-Uniform-Verhältnis definiert den PTR-Score, der in ein beschnittenes und gemischtes Gewicht umgewandelt und durch selbstnormalisierte gewichtete Regression auf das ursprüngliche Aktionsziel angewendet wird. Diese Konstruktion erfordert keine handhabbare Politiklokelihood und ist sowohl mit Diffusions- als auch mit Flow-Matching-Aktionsköpfen kompatibel. Anstatt allen aufgezeichneten Supervisionen blind zu vertrauen, verteilt PTR den Einfluss neu, basierend darauf, wie stark die Folge nach der Aktion jeder Stichprobe unter der aktuellen Repräsentation zurechenbar ist, und verbessert so die konservative Offline-Anpassung an heterogene Roboterdaten.
Wir entwickeln einen Online-Lernalgorithmus, der die Dateneffizienz von Reinforcement Learning from Human Feedback (RLHF) erheblich verbessert. Unser Algorithmus aktualisiert schrittweise Belohnungs- und Sprachmodelle, sobald Auswahldaten eingehen. Das Belohnungsmodell wird an die Auswahldaten angepasst, während das Sprachmodell durch eine Variante von REINFORCE aktualisiert wird, wobei die Verstärkungssignale vom Belohnungsmodell bereitgestellt werden. Mehrere Merkmale ermöglichen die Effizienzsteigerungen: ein kleiner positiver Impuls, der jedem Verstärkungssignal hinzugefügt wird, ein epistemisches neuronales Netzwerk, das die Belohnungsunsicherheit modelliert, sowie informationsgesteuerte Exploration. Mit Gemma Large Language Models (LLMs) erreicht unser Algorithmus die Leistung von offline RLHF, das mit 200.000 Labels trainiert wurde, unter Verwendung von weniger als 20.000 Labels – was einer mehr als 10-fachen Steigerung der Dateneffizienz entspricht. Extrapoliert aus unseren Ergebnissen erwarten wir, dass unser mit 1 Million Labels trainierter Algorithmus die Leistung von offline RLHF mit 1 Milliarde Labels erreicht. Dies entspricht einer 1.000-fachen Steigerung. Nach unserem Wissen sind dies die ersten Ergebnisse, die demonstrieren, dass derart große Verbesserungen möglich sind.
Token-Pruning ist entscheidend, um die Recheneffizienz von Vision-Language-Modellen (VLMs) zu steigern, insbesondere bei videobasierten Aufgaben, bei denen zeitliche Redundanz häufig auftritt. Bisherige Ansätze beschneiden Tokens typischerweise entweder (1) ausschließlich innerhalb des Vision Transformers (ViT) für unimodale Wahrnehmungsaufgaben wie Aktionserkennung und Objektsegmentierung, ohne Anpassung an nachgelagerte Vision-Language-Aufgaben, oder (2) nur innerhalb der LLM, während die ViT-Ausgabe unverändert bleibt, was oft komplexe textkonditionierte Token-Auswahlmechanismen erfordert. In dieser Arbeit stellen wir Spatio-Temporal Token Scoring (STTS) vor, ein einfaches und leichtgewichtiges Modul, das Vision-Tokens sowohl im ViT als auch in der LLM ohne Textkonditionierung oder Token-Zusammenführung beschneidet und vollständig mit End-to-End-Training kompatibel ist. Indem STTS durch einen auxiliary Loss zeitliches und durch LLM-Gradienten der nachgelagerten Aufgabe räumliches Scoring erlernt – unterstützt durch unseren effizienten Packalgorithmus –, werden 50 % der Vision-Tokens throughout the entire architecture entfernt. Dies führt zu einer 62 %igen Effizienzsteigerung während Training und Inferenz bei nur einem Leistungsabfall von 0,7 % im Durchschnitt über 13 Video-QA-Aufgaben für kurze und lange Videos. Die Effizienzgewinne steigen mit mehr pro Video abgetasteten Frames. Die Anwendung von Test-Time-Scaling für Long-Video-QA erzielt im Vergleich zur Baseline weitere Leistungssteigerungen von 0,5–1 %. Insgesamt stellt STTS eine neuartige, einfache und dennoch effektive Technik für einheitliches, architekturweites Vision-Token-Pruning dar.
Token-Choice Mixture-of-Experts (TC-MoE) leitet jedes Token an eine feste Anzahl von Experten weiter, was die dynamische Berechnungszuweisung einschränkt und Hilfsverluste zur Aufrechterhaltung der Lastverteilung erfordert. Wir schlagen Expert Threshold (ET) Routing vor, bei dem jeder Experte einen exponentiell gleitenden Durchschnittsschwellenwert (EMA) verwaltet, der aus der globalen Token-Verteilung geschätzt wird. Sowohl während des Trainings als auch des Inferenzprozesses wird jedes Token unabhängig an einen Experten weitergeleitet, wenn sein Wert den Schwellenwert des Experten überschreitet. Dies ermöglicht eine dynamische Berechnungszuweisung bei gleichzeitiger Erzielung einer Lastverteilung ohne Hilfsverluste. Dieser vollständig kausale Mechanismus beseitigt die Abhängigkeit von anderen Token im Batch, was ihn besonders für autoregressive Sprachmodellierung geeignet macht. In Pretraining-Experimenten, die auf 2,4 Mrd. Parameter auf FineWeb-Edu skaliert wurden, erzielt ET einen um 0,067 niedrigeren Kreuzentropieverlust als TC-MoE, was dem Erreichen derselben Leistung mit 1,6-mal weniger Token entspricht.
Post-Training-Quantisierung ist entscheidend für den Einsatz großer Sprachmodelle (LLMs) auf ressourcenbeschränkter Hardware. Allerdings erzwingen aktuelle State-of-the-Art-Methoden einheitliche Bitbreiten über alle Schichten hinweg, was zu suboptimalen Kompromissen zwischen Genauigkeit und Effizienz führt. Wir stellen RAMP (Reinforcement Adaptive Mixed Precision) vor, ein Off-Policy-Soft-Actor-Critic-Framework, das für jede Schicht eine Bitbreiten-Zuweisung lernt, um die Perplexität unter einem globalen Bit-Budget zu minimieren. Die Policy basiert auf einem 11-dimensionalen Embedding von Aktivierungsstatistiken, Gewichtungseigenschaften und strukturellen Deskriptoren, was Zero-Shot-Transfer über Modellfamilien und -skalen hinweg ermöglicht. Um eine stabile Quantisierung unter 4 Bit zu ermöglichen, führen wir Scale Folding ein, eine Vorbereitungstechnik, die Ausreißer in den Aktivierungen durch kanalweise Skalierung und Kompensation von Normalisierungsschichten in die Gewichte verlagert. Eine qualitätspriorisierte Belohnungsfunktion mit asymmetrischen Strafen und Budget-„Klippen“ sorgt für eine schnelle Konvergenz. Bei Llama 2 7B erreicht RAMP eine Perplexität von 5,54 bei 3,68 GB (3,65 effektive Bits) und übertrifft damit die einheitliche 4-Bit-AWQ-Quantisierung (5,60 bei 3,90 GB) sowie GPTQ um 6 % in der Größe und 1 % bis 3 % in der Qualität. Entscheidend ist, dass eine Policy, die ausschließlich auf Llama 2 7B trainiert wurde, Zero-Shot auf Llama 2 13B und Mistral 7B generalisiert und dabei oft sogar aufgabenspezifisches Training übertrifft. Dies unterstützt die Hypothese, dass die Quantisierungsempfindlichkeit primär architekturbedingt ist. Die HALO-Pipeline exportiert die Zuweisungen ins GGUF-Format für kernel-freie Inferenz auf CPUs, GPUs und Edge-Geräten und behält dabei 99,5 % der Common-Sense-Reasoning-Leistung von FP16 bei.
Die Erstellung von Mediendesign-Ebenen ermöglicht die Generierung vollständig bearbeitbarer, geschichteter Designdokumente wie Poster, Flyer und Logos allein durch natürliche Sprachbefehle. Bestehende Methoden beschränken entweder die Ausgaben auf eine festgelegte Anzahl von Ebenen oder erfordern, dass jede Ebene nur räumlich zusammenhängende Regionen enthält, was zu einer linearen Skalierung der Ebenenanzahl mit der Designkomplexität führt. Wir stellen LaDe (Layered Media Design) vor, ein latentes Diffusionsframework, das eine flexible Anzahl semantisch bedeutungsvoller Ebenen generiert. LaDe kombiniert drei Komponenten: einen LLM-basierten Prompt-Expander, der kurze Benutzerabsichten in strukturierte Beschreibungen pro Ebene umwandelt, die die Generierung steuern; einen Latent Diffusion Transformer mit einem 4D-RoPE-Positionskodierungsmechanismus, der gemeinsam das vollständige Mediendesign und seine RGBA-Komponentenebenen erzeugt; sowie ein RGBA-VAE, das jede Ebene mit voller Alphakanalunterstützung dekodiert. Durch Konditionierung auf Ebenenbeispiele während des Trainings unterstützt unser vereinheitlichtes Framework drei Aufgaben: Text-zu-Bild-Generierung, Text-zu-Ebenen-Mediendesign-Generierung und Mediendesign-Zerlegung. Wir vergleichen LaDe mit Qwen-Image-Layered bei Text-zu-Ebenen- und Bild-zu-Ebenen-Aufgaben auf dem Crello-Testdatensatz. LaDe übertrifft Qwen-Image-Layered bei der Text-zu-Ebenen-Generierung durch verbesserte Text-Ebenen-Übereinstimmung, was durch zwei VLM-as-a-Judge-Evaluatoren (GPT-4o mini und Qwen3-VL) validiert wird.
Große Sprachmodelle (LLMs) zeigen latente Fähigkeiten zur Vorhersage mehrerer Token (Multi-Token Prediction, MTP), obwohl sie ausschließlich für die Generierung des nächsten Tokens trainiert wurden. Wir schlagen einen einfachen, trainingsfreien MTP-Ansatz vor, der ein LLM mittels dynamisch eingefügter Mask-Token aus seinem Einbettungsraum abfragt. Dies ermöglicht die parallele Vorhersage zukünftiger Token, ohne die Modellgewichte zu verändern oder auf zusätzliche Draft-Modelle angewiesen zu sein. Unsere Methode konstruiert einen spekulativen Token-Baum, indem Top-K-Kandidaten aus den Logits der Mask-Token gesampelt werden, und wendet eine leichtgewichtige Beschneidungsstrategie an, um wahrscheinliche Fortsetzungen beizubehalten. Während der Decodierung werden die Kandidatenvorhersagen parallel verifiziert, was zu einem verlustfreien Generierungsprozess führt und gleichzeitig die Anzahl der Modellaufrufe deutlich reduziert sowie den Token-Durchsatz erhöht. In Benchmarks übertrifft unsere auf Abfrage basierende MTP-Methode durchgängig bestehende trainingsfreie Baselines, steigert die Akzeptanzlänge um circa 12 % bei LLaMA3 und 8–12 % bei Qwen3 und erzielt Durchsatzsteigerungen von bis zu 15–19 %. Abschließend liefern wir theoretische Einblicke und empirische Belege, die zeigen, dass Decoder-Schichten die Repräsentationen von Mask-Token natürlich mit den Zuständen für den nächsten Token in Einklang bringen, was eine präzise Mehrschritt-Vorhersage ohne Neutraining oder Hilfsmodelle ermöglicht.
Der Erfolg von CLIP-artigen Vision-Language-Modellen (VLMs) bei natürlichen Bildern hat medizinische Pendants inspiriert, doch bestehende Ansätze bewegen sich weitgehend in zwei Extremen: Spezialistenmodelle, die auf Einzeldomaniendaten trainiert wurden und domänenspezifische Details erfassen, jedoch schlecht generalisieren, sowie generalistische medizinische VLMs, die auf Multidomaniendaten trainiert wurden und breite Semantik beibehalten, aber feinkörnige diagnostische Hinweise verwässern. Die Überbrückung dieses Spezialisierungs-Generalisierungskompromisses bleibt eine Herausforderung. Um dieses Problem zu adressieren, schlagen wir ACE-LoRA vor, einen parameter-effizienten Adaptionsrahmen für generalistische medizinische VLMs, der eine robuste Zero-Shot-Generalisierung beibehält. ACE-LoRA integriert Low-Rank-Adaptation (LoRA)-Module in eingefrorene Bild-Text-Encoder und führt ein aufmerksamkeitsbasiertes Context Enhancement Hypergraph Neural Network (ACE-HGNN)-Modul ein, das kontextuelle Interaktionen höherer Ordnung jenseits paarweiser Ähnlichkeit erfasst, um globale Repräsentationen mit lokalisierten diagnostischen Hinweisen anzureichern. Dies behebt eine zentrale Schwäche früherer Parameter-Efficient Fine-Tuning (PEFT)-Methoden, die feinkörnige Details vernachlässigen. Um die cross-modale Ausrichtung weiter zu verbessern, formulieren wir einen label-geführten InfoNCE-Loss, um falsche Negative zwischen semantisch verwandten Bild-Text-Paaren effektiv zu unterdrücken. Obwohl nur 0,95M trainierbare Parameter hinzugefügt werden, übertrifft ACE-LoRA durchgängig state-of-the-art medizinische VLMs und PEFT-Baselines in Zero-Shot-Klassifikations-, Segmentierungs- und Detektionsbenchmarks über mehrere Domänen hinweg. Unser Code ist unter https://github.com/icon-lab/ACE-LoRA verfügbar.
Wir stellen Distribution Contractractive Reinforcement Learning (DICE-RL) vor, einen Rahmen, der Verstärkungslernen (RL) als "Distributionskontraktions"-Operator zur Verfeinerung vortrainierter generativer Robotik-Policies nutzt. DICE-RL verwandelt eine vortrainierte Verhaltenspräferenz in eine hochleistungsfähige "Pro"-Policy, indem es erfolgsreiche Verhaltensweisen anhand von Online-Feedback verstärkt. Wir trainieren zunächst eine diffusions- oder flussbasierte Policy für eine breite Verhaltensabdeckung vor und feintunen sie anschließend mit einem stabilen, probeneffizienten residualen Off-Policy-RL-Rahmen, der selektive Verhaltensregularisierung mit wertgesteuerter Aktionsauswahl kombiniert. Umfangreiche Experimente und Analysen zeigen, dass DICE-RL die Leistung zuverlässig mit hoher Stabilität und Probeneffizienz verbessert. Es ermöglicht die Beherrschung komplexer Manipulationsfertigkeiten mit langem Zeithorizont direkt aus hochdimensionalen Pixeleingaben, sowohl in der Simulation als auch auf einem echten Roboter. Projektwebsite: https://zhanyisun.github.io/dice.rl.2026/.
Die Erweiterung von Sprachmodellen auf Videos stellt zwei Herausforderungen dar: Repräsentation, bei der bestehende Methoden auf verlustbehaftete Approximationen zurückgreifen, und Langzeitkontext, bei dem caption- oder agentenbasierte Pipelines Videos in Text komprimieren und dabei die visuelle Detailtreue verlieren. Um dies zu überwinden, führen wir VideoAtlas ein, eine aufgabenagnostische Umgebung, die Videos als hierarchisches Raster darstellt, das gleichzeitig verlustfrei, navigierbar, skalierbar sowie frei von Beschriftungen und Vorverarbeitung ist. Eine Übersicht über das Video ist auf einen Blick verfügbar, und jede Region kann rekursiv herangezoomt werden, wobei dieselbe visuelle Repräsentation einheitlich für das Video, Zwischenuntersuchungen und das Gedächtnis des Agenten verwendet wird, was verlustbehaftete Textkonvertierung end-to-end eliminiert. Diese hierarchische Struktur gewährleistet, dass die Zugriffstiefe nur logarithmisch mit der Videolänge wächst. Für Langzeitkontext boten Rekursive Sprachmodelle (RLMs) kürzlich eine leistungsstarke Lösung für lange Texte, doch ihre Erweiterung auf den visuellen Bereich erfordert eine strukturierte Umgebung, in die rekursiv eingetaucht werden kann – was VideoAtlas bereitstellt. VideoAtlas als Markov-Entscheidungsprozess ermöglicht Video-RLM: eine parallele Master-Worker-Architektur, bei der ein Master die globale Exploration koordiniert, während Worker gleichzeitig in zugewiesene Regionen eindringen, um verlustfreie visuelle Evidenz zu sammeln. Wir demonstrieren drei zentrale Erkenntnisse: (1)~logarithmisches Rechenwachstum mit der Videodauer, verstärkt durch eine multimodale Cache-Trefferrate von 30–60 %, die aus der Wiederverwendung der Rasterstruktur resultiert. (2)~Umgebungsbudgetierung, bei der die Begrenzung der maximalen Explorationstiefe einen prinzipienbasierten Hyperparameter für Rechenaufwand und Genauigkeit bietet. (3)~Emergente adaptive Rechenzuweisung, die mit der Granularität der Frage skaliert. Beim Skalieren von 1-Stunden- auf 10-Stunden-Benchmarks bleibt Video-RLM die robusteste Methode in Bezug auf die Dauer mit minimalem Genauigkeitsverlust, was zeigt, dass die Navigation in strukturierten Umgebungen ein praktikables und skalierbares Paradigma für das Videoverständnis ist.
Multimodale große Sprachmodelle (MLLMs) leiden unter Halluzinationen, insbesondere bei feingranularen Anfragen – eine Herausforderung, die von bestehenden Benchmarks, die sich auf grobe bildbezogene Fragen konzentrieren, unterrepräsentiert wird. Wir stellen FIne-grained NEgative queRies (FINER) vor, zusammen mit zwei Benchmarks: FINER-CompreCap und FINER-DOCCI. Mit FINER analysieren wir Halluzinationen in vier Settings: Multi-Objekt, Multi-Attribut, Multi-Relation und „Was“-Fragen. Unsere Benchmarks zeigen, dass MLLMs halluzinieren, wenn feingranulare Fehlanpassungen zusammen mit tatsächlich im Bild vorhandenen Elementen auftreten. Um dies zu adressieren, schlagen wir FINER-Tuning vor, das Direct Preference Optimization (DPO) auf FINER-inspirierten Daten nutzt. Das Finetuning von vier führenden MLLMs mit FINER-Tuning führt zu Verbesserungen von bis zu 24,2 % (InternVL3.5-14B) bei Halluzinationen in unseren Benchmarks, verbessert gleichzeitig die Leistung in acht bestehenden Halluzinations-Testreihen und steigert die allgemeinen multimodalen Fähigkeiten über sechs Benchmarks hinweg. Code, Benchmark und Modelle sind verfügbar unter https://explainableml.github.io/finer-project/.
Die Anpassung großskaliger Vision-Language-Modelle (VLMs) wie CLIP an nachgelagerte Aufgaben leidet häufig unter einem architektonischen "Einheitsansatz", bei dem visuelle und textuelle Token einheitlich durch breite, generische Adapter verarbeitet werden. Wir argumentieren, dass diese Homogenität die unterschiedliche strukturelle Natur der Modalitäten ignoriert – räumliche Lokalität in Bildern versus semantische Dichte in Text. Um dies zu adressieren, schlagen wir HeBA (Heterogeneous Bottleneck Adapter) vor, einen vereinheitlichten architektonischen Rahmen, der modalitätsspezifische strukturelle Induktionsverzerrungen einführt. HeBA weicht durch drei wesentliche architektonische Innovationen von konventionellen Designs ab: (1) Heterogenität: Es verarbeitet visuelle Token mittels 2D-Tiefenweise-Trennbaren Faltungen, um räumliche Korrelationen zu erhalten, während Text-Token distinctiv durch dichte lineare Projektionen verarbeitet werden, um semantische Beziehungen zu erfassen; (2) Bottleneck-Regularisierung: Im Gegensatz zu standardmäßig erweiternden Adaptern verwendet HeBA einen Kompressions-Engpass (D -> D/4), der das Modell explizit zwingt, kompakte, robuste Merkmale zu lernen und als struktureller Regularisierer wirkt; und (3) Aktive Gradienteninitialisierung: Wir hinterfragen das restriktive Null-Initialisierungs-Paradigma und nutzen eine Kaiming-Initialisierungsstrategie, die einen ausreichenden anfänglichen Gradientenfluss sicherstellt, um die Konvergenz zu beschleunigen, ohne das vortrainierte Wissen des eingefrorenen Backbones zu beeinträchtigen. Umfangreiche Experimente belegen, dass HeBAs architektonisch spezialisiertes Design überlegene Stabilität und Genauigkeit erreicht und einen neuen State-of-the-Art auf 11 Few-Shot-Benchmarks etabliert. Der Code ist verfügbar unter https://github.com/Jahid12012021/VLM-HeBA.
Mit dem Aufkommen von KI-Agenten ist die automatische wissenschaftliche Entdeckung zu einem erreichbaren Ziel geworden. Zahlreiche aktuelle Arbeiten entwickeln agentenbasierte Systeme, die maschinelles Lernen erforschen können, bieten aber keine prinzipielle Methode zum Training solcher Agenten – und aktuelle LLMs generieren oft plausibel wirkende, aber ineffektive Ideen. Um Fortschritte beim Training von Agenten zu erzielen, die durch praktische Erfahrung lernen können, stellen wir eine neuartige Pipeline zur Generierung synthetischer Umgebungen für maschinelle Lernagenten vor. Unsere Pipeline synthetisiert automatisch maschinelle Lernherausforderungen, die mit dem SWE-Agent-Framework kompatibel sind, und deckt Themenabtastung, Datensatzvorschlag und Codegenerierung ab. Die resultierenden synthetischen Aufgaben sind 1) in realen Datensätzen des maschinellen Lernens verankert, da die vorgeschlagenen Datensätze gegen die Huggingface-API verifiziert werden, und 2) durch eine Selbstdebugging-Schleife auf höhere Qualität überprüft. Um die Wirksamkeit unserer synthetischen Aufgaben zu validieren, verwenden wir MLGym, einen Benchmark für maschinelle Lernaufgaben. Aus den synthetischen Aufgaben stichproben wir Trajektorien eines Lehrermodells (GPT-5) und nutzen diese Trajektorien zum Training eines Schülermodells (Qwen3-4B und Qwen3-8B). Die mit unseren synthetischen Aufgaben trainierten Schülermodelle erzielen eine verbesserte Leistung in MLGym und steigern die AUP-Metrik um 9 % für Qwen3-4B und 12 % für Qwen3-8B.
Frozen-Backbone-Transfer mit Vision Transformern steht vor zwei kaum beachteten Problemen: Optimierungsinstabilität bei naiver Einfügung von Adaptern in einen festen Merkmalsextraktor und das Fehlen prinzipieller Leitlinien zur Bestimmung der Adapterkapazität. Wir stellen AdapterTune vor, das jeden Transformer-Block um einen residualen Low-Rank-Flaschenhals erweitert, dessen Up-Projektion nullinitialisiert ist. Dies gewährleistet, dass das adaptierte Netzwerk exakt bei der vortrainierten Funktion startet und Frühphasen-Repräsentationsdrift eliminiert. Analytisch formalisieren wir den Adapter-Rang als Kapazitätsbudget zur Approximation von Taskshifts im Merkmalsraum. Die resultierende Excess-Risk-Zerlegung sagt monotone, aber abnehmende Genauigkeitsgewinne mit steigendem Rang voraus – ein „Elbow“-Verhalten, das wir durch kontrollierte Sweeps bestätigen. Wir evaluieren auf 9 Datensätzen und 3 Backbone-Größen mit durchgängiger Mehrfach-Seed-Berichterstattung. Auf einem Kern-Transfer-Set von 5 Datensätzen verbessert AdapterTune die Top-1-Genauigkeit gegenüber Head-Only-Transfer im Durchschnitt um +14,9 Punkte, trainiert dabei nur 0,92 % der Parameter von Full Fine-Tuning und übertrifft Full Fine-Tuning in 10 von 15 Datensatz-Backbone-Paaren. Im gesamten Benchmark übertrifft AdapterTune Head-Only-Transfer bei jedem getesteten Datensatz-Backbone-Paar. Ablationen zu Rang, Platzierung und Initialisierung isolieren jede Entwurfsentscheidung. Der Code ist verfügbar unter: https://github.com/salimkhazem/adaptertune
Jüngste Fortschritte bei 3D-Foundation-Modellen haben das Interesse an der Rekonstruktion von Menschen und ihrer Umgebung verstärkt. Die meisten bestehenden Ansätze konzentrieren sich jedoch auf monokulare Eingaben, und ihre Erweiterung auf Multi-View-Szenarien erfordert zusätzliche Overhead-Module oder vorverarbeitete Daten. Daher präsentieren wir CHROMM, einen einheitlichen Rahmen, der gemeinsam Kameras, Szenen-Punktwolken und humane Meshes aus Multi-Personen-Multi-View-Videos schätzt, ohne auf externe Module oder Vorverarbeitung angewiesen zu sein. Wir integrieren starke geometrische und humane Priors aus Pi3X und Multi-HMR in eine einzige trainierbare neuronale Netzarchitektur und führen ein Skalenanpassungsmodul ein, um die Skalendiskrepanz zwischen Menschen und der Szene zu lösen. Zudem führen wir eine Multi-View-Fusionsstrategie ein, um Einzelansichtsschätzungen zur Laufzeit in eine einheitliche Repräsentation zu aggregieren. Schließlich schlagen wir eine geometriebasierte Multi-Personen-Assoziationsmethode vor, die robuster ist als ansichtsbasierte Ansätze. Experimente auf EMDB, RICH, EgoHumans und EgoExo4D zeigen, dass CHROMM eine wettbewerbsfähige Performance bei globaler humaner Bewegung und Multi-View-Posenschätzung erreicht und dabei über 8-mal schneller läuft als bisherige optimierungsbasierte Multi-View-Ansätze. Projektseite: https://nstar1125.github.io/chromm.
Wir stellen PRISM vor, eine umfassende empirische Studie zu Designentscheidungen während des Mid-Trainings großer Sprachmodelle. Durch kontrollierte Experimente mit sieben Basismodellen aus vier Modellfamilien (Granite, LLaMA, Mistral, Nemotron-H), zwei Architekturtypen (dichter Transformer und Attention-Mamba-Hybrid) und Parametergrößen von 3B bis 24B zeigen wir, dass ein Mid-Training mit etwa 27B hochwertigen Tokens konsistente Verbesserungen von +15 bis +40 Punkten in Mathematik, +5 bis +12 Punkten in Code und +6 bis +13 Punkten in wissenschaftlichen Benchmarks erzielt, während die allgemeine Leistung erhalten bleibt. Die vollständige PRISM-zu-RL-Pipeline verbessert den Makrodurchschnitt über sechs Reasoning-Benchmarks von unter 12 auf 29–42 (eine 3- bis 4-fache Verbesserung), während RL, das direkt auf die meisten Basismodelle angewendet wird, deutlich weniger effektiv bleibt, mit AIME-Werten nahe null. Die Datenkomposition ist während des Mid-Trainings entscheidend, nicht beim RL: Die Aufnahme wissenschaftlicher Daten während des Mid-Trainings ermöglicht GPQA-Diamond-Verbesserungen von +17 bis +28 Punkten während des RL, während Änderungen der RL-Zusammensetzung zu Unterschieden von weniger als 2 Punkten führen. Mechanistisch betrachtet strukturiert das Mid-Training über 90 % der Modellgewichte dicht um, während RL spärliche, vorab geladene Verfeinerungen an etwa 5 % der Parameter vornimmt. Eine Repräsentationsanalyse (CKA) bestätigt, dass RL die repräsentative Geometrie des Mid-Trainings (über 0,998 CKA) architekturübergreifend konserviert. Entscheidend ist, dass RL unabhängig vom Startpunkt identische Gewichtsänderungen anwendet, jedoch nur bei mid-trainierten Modellen erfolgreich ist, was konsistent damit ist, dass Mid-Training das Modell in eine Konfiguration bringt, von der aus RL die Leistung effektiv steigern kann. Unsere Ergebnisse demonstrieren, dass retentionsbewusstes Mid-Training hochwirksam für eine zuverlässige Verbesserung des logischen Denkens ist, und bieten praktische Leitlinien für den Entwurf robuster Mid-Training-Pipelines.
Große Sprachmodelle (LLMs) können Fragen zum religiösen Wissen flüssig beantworten, neigen jedoch häufig zu Halluzinationen und fehlerhaften Quellenzuschreibungen – ein besonders folgenreiches Problem in islamischen Kontexten, wo Nutzer eine Verankerung in kanonischen Texten (Koran und Hadith) und juristischer (fiqh) Nuance erwarten. Retrieval-augmented Generation (RAG) verringert einige dieser Einschränkungen, indem sie die Generierung auf externe Belege stützt. Eine einzelne „Retrieve-then-Generate“-Pipeline ist jedoch nur begrenzt in der Lage, mit der Vielfalt islamischer Anfragen umzugehen. Nutzer können wortgetreue Schriftzitate, fatwa-ähnliche Anleitungen mit Quellenangaben oder regelbasierte Berechnungen wie Zakat und Erbschaft anfragen, die strenge arithmetische und rechtliche Invarianten erfordern. In dieser Arbeit stellen wir einen zweisprachigen (Arabisch/Englisch) multi-agenten islamischen Assistenten namens Fanar-Sadiq vor, eine Kernkomponente der Fanar-AI-Plattform. Fanar-Sadiq leitet islambezogene Anfragen an spezialisierte Module innerhalb einer agentenbasierten, werkzeugnutzenden Architektur weiter. Das System unterstützt intentionsbasiertes Routing, retrieval-gestützte Fiqh-Antworten mit deterministischer Quellenormalisierung und Verifizierungsnachweisen, exakte Versabfragen mit Zitatvalidierung sowie deterministische Rechner für sunnitische Zakat- und Erbschaftsberechnungen mit madhhab-sensitivem Verzweigungsverhalten. Wir evaluieren das vollständige End-to-End-System anhand öffentlicher islamischer QA-Benchmarks und demonstrieren dessen Wirksamkeit und Effizienz. Unser System ist derzeit öffentlich und kostenfrei über eine API und eine Webanwendung zugänglich und wurde in weniger als einem Jahr etwa 1,9 Millionen Mal aufgerufen.