Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Während große Sprachmodelle (LLMs) vielversprechend für wissenschaftliche Entdeckungen sind, konzentriert sich die bestehende Forschung auf Inferenz oder feedback-gesteuertes Training, wodurch die direkte Modellierung des generativen Reasoning-Prozesses P(Hypothese|Hintergrundwissen) (P(h|b)) unerforscht bleibt. Wir zeigen, dass das direkte Training von P(h|b) mathematisch nicht handhabbar ist, bedingt durch die kombinatorische Komplexität (O(N^k)), die der Abfrage und Zusammensetzung von Inspirationen aus einer riesigen Wissensbasis innewohnt. Um diese Barriere zu überwinden, führen wir MOOSE-Star ein, einen einheitlichen Rahmen, der handhabbares Training und skalierbare Inferenz ermöglicht. Im besten Fall reduziert MOOSE-Star die Komplexität von exponentiell auf logarithmisch (O(log N)), indem (1) auf zerlegte Teilaufgaben trainiert wird, die aus der probabilistischen Gleichung der Entdeckung abgeleitet sind, (2) ein motivationsgeleiteter hierarchischer Suchansatz eingesetzt wird, um logarithmische Abfrage zu ermöglichen und irrelevante Teilräume auszuschließen, und (3) eine begrenzte Komposition für Robustheit gegenüber Abfragefehlern genutzt wird. Um dies zu ermöglichen, veröffentlichen wir TOMATO-Star, einen Datensatz mit 108.717 zerlegten wissenschaftlichen Arbeiten (38.400 GPU-Stunden) für das Training. Des Weiteren zeigen wir, dass, während Brute-Force-Sampling auf eine "Komplexitätsmauer" stößt, MOOSE-Star kontinuierliches Skalieren zur Testzeit aufweist.
Aktuelle KI-Agenten können Werkzeuge flexibel aufrufen und komplexe Aufgaben ausführen, doch ihr langfristiger Fortschritt wird durch das Fehlen systematischer Ansammlung und Übertragung von Fähigkeiten behindert. Ohne einen einheitlichen Mechanismus zur Konsolidierung von Fähigkeiten „erfinden Agenten das Rad häufig neu“, indem sie Lösungen in isolierten Kontexten wiederentdecken, ohne auf frühere Strategien zurückzugreifen. Um diese Einschränkung zu überwinden, stellen wir SkillNet vor, eine offene Infrastruktur zur Erstellung, Bewertung und Organisation von KI-Fähigkeiten im großen Maßstab. SkillNet strukturiert Fähigkeiten innerhalb einer einheitlichen Ontologie, die die Erstellung von Fähigkeiten aus heterogenen Quellen unterstützt, reichhaltige relationale Verbindungen herstellt und mehrdimensionale Bewertungen in den Bereichen Sicherheit, Vollständigkeit, Ausführbarkeit, Wartbarkeit und Kostenbewusstsein vornimmt. Unsere Infrastruktur integriert ein Repository mit über 200.000 Fähigkeiten, eine interaktive Plattform und ein vielseitiges Python-Toolkit. Experimentelle Auswertungen auf ALFWorld, WebShop und ScienceWorld zeigen, dass SkillNet die Leistung von Agenten erheblich verbessert, indem die durchschnittlichen Belohnungen um 40 % gesteigert und die Ausführungsschritte über mehrere Backbone-Modelle hinweg um 30 % reduziert werden. Indem Fähigkeiten als sich entwickelnde, kombinierbare Assets formalisiert werden, bietet SkillNet eine robuste Grundlage für Agenten, um von vorübergehender Erfahrung zu dauerhafter Meisterschaft zu gelangen.
Große Sprachmodell-Agenten (LLM) können Datenwissenschafts-Workflows automatisieren, doch viele rigorose statistische Methoden, die in R implementiert sind, bleiben untergenutzt, weil LLMs mit statistischem Wissen und Tool-Retrieval Schwierigkeiten haben. Bestehende retrieval-augmentierte Ansätze konzentrieren sich auf Funktionssemantik und ignorieren Datenverteilungen, was zu suboptimalen Treffern führt. Wir schlagen DARE (Distribution-Aware Retrieval Embedding) vor, ein leichtgewichtiges Plug-and-Play-Retrieval-Modell, das Datenverteilungsinformationen in Funktionsrepräsentationen für R-Package-Retrieval integriert. Unsere Hauptbeiträge sind: (i) RPKB, eine kuratierte R-Package-Wissensbasis, abgeleitet aus 8.191 hochwertigen CRAN-Packages; (ii) DARE, ein Embedding-Modell, das Verteilungsmerkmale mit Funktionsmetadaten fusioniert, um die Relevanz des Retrievals zu verbessern; und (iii) RCodingAgent, ein R-orientierter LLM-Agent zur zuverlässigen R-Code-Generierung sowie eine Suite von statistischen Analyseaufgaben zur systematischen Evaluation von LLM-Agenten in realistischen Analyseszenarien. Empirisch erreicht DARE einen NDCG@10 von 93,47% und übertrifft state-of-the-art Open-Source-Embedding-Modelle beim Package-Retrieval um bis zu 17%, bei deutlich geringerer Parameterzahl. Die Integration von DARE in RCodingAgent führt zu signifikanten Verbesserungen bei nachgelagerten Analyseaufgaben. Diese Arbeit hilft, die Lücke zwischen LLM-Automatisierung und dem ausgereiften R-Statistik-Ökosystem zu verringern.
Multimodale Agenten in der Praxis lösen mehrstufige Arbeitsabläufe, die auf visuellen Beweisen basieren. Ein Agent kann beispielsweise ein Gerät reparieren, indem er ein Verkabelungsfoto mit einem Schaltplan verknüpft und die Reparatur mit Online-Dokumentation validiert, oder eine Reise planen, indem er einen Fahrplan interpretiert und Verbindungen unter Berücksichtigung von Routenbedingungen prüft. Bestehende multimodale Benchmarks bewerten jedoch hauptsächlich einstufiges visuelles Reasoning oder spezifische Werkzeugfähigkeiten und erfassen nicht vollständig den Realismus, die visuelle Detailtiefe und die langfristige Werkzeugnutzung, die praktische Agenten erfordern. Wir stellen AgentVista vor, einen Benchmark für generalistische multimodale Agenten, der 25 Teilbereiche aus 7 Kategorien umfasst und realistische, detailreiche visuelle Szenarien mit natürlicher hybrider Werkzeugnutzung kombiniert. Die Aufgaben erfordern langfristige Werkzeuginteraktionen über Modalitäten hinweg, einschließlich Websuche, Bildersuche, Seitennavigation und codebasierter Operationen sowohl für Bildverarbeitung als auch allgemeine Programmierung. Eine umfassende Evaluation modernster Modelle zeigt erhebliche Lücken in ihrer Fähigkeit zur langfristigen multimodalen Werkzeugnutzung auf. Selbst das beste Modell in unserer Evaluation, Gemini-3-Pro mit Werkzeugen, erreicht nur eine Gesamtgenauigkeit von 27,3 %, und schwierige Instanzen können mehr als 25 Werkzeugaufrufe erfordern. Wir erwarten, dass AgentVista die Entwicklung leistungsfähigerer und zuverlässigerer multimodaler Agenten für realistische und äußerst anspruchsvolle Problemlösungen beschleunigen wird.
Die Skalierung von Imitationslernen ist grundsätzlich durch die Effizienz der Datenerfassung begrenzt. Obwohl Handheld-Schnittstellen als skalierbare Lösung für die Datenerfassung in unkontrollierten Umgebungen aufgetaucht sind, arbeiten sie überwiegend open-loop: Operatoren erfassen Demonstrationen blind, ohne die Schwachstellen der zugrundeliegenden Policy zu kennen, was zu einer ineffizienten Abdeckung kritischer Zustandsverteilungen führt. Im Gegensatz dazu adressieren interaktive Methoden wie DAgger den Kovariaten-Shift effektiv, setzen jedoch auf die physische Ausführung durch den Roboter, die kostspielig und schwer zu skalieren ist. Um diesen Zielkonflikt zu lösen, stellen wir RoboPocket vor, ein portables System, das roboterfreie sofortige Policy-Iteration mit einzelnen Consumer-Smartphones ermöglicht. Seine Kerninnovation ist ein Remote-Inference-Framework, das die vorhergesagte Trajektorie der Policy mittels Augmented Reality (AR) Visual Foresight darstellt. Dieses immersive Feedback ermöglicht es Datensammlern, potenzielle Fehler proaktiv zu identifizieren und die Datenerfassung auf die Schwachstellen der Policy zu fokussieren, ohne einen physischen Roboter zu benötigen. Darüber hinaus implementieren wir eine asynchrone Online-Finetuning-Pipeline, die die Policy kontinuierlich mit eingehenden Daten aktualisiert und so den Lernloop innerhalb von Minuten schließt. Umfangreiche Experimente zeigen, dass RoboPocket den Datenskalerungsgesetzen folgt und die Dateneffizienz im Vergleich zu Offline-Skalierungsstrategien verdoppelt, wodurch ihr langjähriger Effizienzengpass überwunden wird. Darüber hinaus steigert unser sofortiger Iterationsloop auch die Stichprobeneffizienz in verteilten Umgebungen um bis zum 2-fachen bei einer geringen Anzahl interaktiver Korrekturen pro Person. Projektseite und Videos: https://robo-pocket.github.io.
Mensch-Produkt-Bilder, die die Integration von Menschen und Produkten darstellen, spielen eine entscheidende Rolle in der Werbung, im E-Commerce und im digitalen Marketing. Die zentrale Herausforderung bei der Generierung solcher Bilder liegt in der hochpräzisen Erhaltung von Produktdetails. Unter den bestehenden Paradigmen bietet referenzbasiertes Inpainting eine zielgerichtete Lösung, indem es Produktreferenzbilder nutzt, um den Inpainting-Prozess zu steuern. Allerdings bestehen in drei Schlüsselbereichen weiterhin Einschränkungen: das Fehlen umfangreicher, diverser Trainingsdaten, die Schwierigkeit aktueller Modelle, sich auf die Bewahrung von Produktdetails zu konzentrieren, und die Unzulänglichkeit grober Überwachungsmechanismen für eine präzise Steuerung. Um diese Probleme zu adressieren, schlagen wir HiFi-Inpaint vor, ein neuartiges, hochpräzises, referenzbasiertes Inpainting-Framework, das speziell für die Generierung von Mensch-Produkt-Bildern entwickelt wurde. HiFi-Inpaint führt eine Shared Enhancement Attention (SEA) ein, um feinkörnige Produktmerkmale zu verfeinern, und einen Detail-Aware Loss (DAL), um eine präzise Überwachung auf Pixelebene mittels Hochfrequenzkarten zu gewährleisten. Zusätzlich haben wir einen neuen Datensatz, HP-Image-40K, erstellt, dessen Proben aus selbstsynthetisierten Daten kuratiert und mit automatischer Filterung aufbereitet wurden. Experimentelle Ergebnisse zeigen, dass HiFi-Inpaint state-of-the-art Leistung erzielt und detailerhaltende Mensch-Produkt-Bilder liefert.
Welches multimodale Modell sollten wir für die Klassifizierung verwenden? Bisherige Studien legen nahe, dass die Antwort in CLIP-ähnlichen kontrastiven Vision-Language-Modellen (VLMs) liegt, aufgrund ihrer bemerkenswerten Leistung bei der Zero-Shot-Klassifizierung. Im Gegensatz dazu sind Large Multimodal Models (LMMs) besser für komplexere Aufgaben geeignet. In dieser Arbeit argumentieren wir, dass diese Antwort eine wichtige Fähigkeit von LMMs übersieht: In-Context-Learning. Wir benchmarken state-of-the-art LMMs auf diversen Datensätzen für Closed-World-Klassifizierung und stellen fest, dass – obwohl ihre Zero-Shot-Leistung niedriger ist als die von CLIP – LMMs mit wenigen In-Context-Beispielen kontrastive VLMs mit Cache-basierten Adaptern (ihr "In-Context"-Äquivalent) erreichen oder sogar übertreffen können. Wir erweitern diese Analyse auf das Open-World-Setting, in dem die generative Natur von LMMs sie besser für die Aufgabe geeignet macht. In diesem anspruchsvollen Szenario scheitern LMMs jedoch, wenn sie mit unvollständigen Kontextinformationen versorgt werden. Um dieses Problem zu adressieren, schlagen wir CIRCLE vor, eine einfache, trainingsfreie Methode, die In-Context-Beispielen Pseudolabels zuweist und diese iterativ mit dem verfügbaren Kontext selbst verfeinert. Durch umfangreiche Experimente zeigen wir, dass CIRCLE eine robuste Baseline für Open-World-Klassifizierung etabliert, VLM-Pendants übertrifft und das Potenzial von LMMs unterstreicht, als vereinheitlichte Klassifikatoren und flexible Alternative zu spezialisierten Modellen zu dienen.
Standard-Benchmarks sind aufgrund von Sättigung, Subjektivität und schlechter Generalisierung zunehmend unzuverlässig geworden. Wir vertreten die Auffassung, dass die Bewertung der Fähigkeit eines Modells, aktiv Informationen zu erwerben, wichtig ist, um seine Intelligenz zu beurteilen. Wir schlagen Interactive Benchmarks vor, ein einheitliches Bewertungsparadigma, das die Denkfähigkeit eines Modells in einem interaktiven Prozess unter Budgetbeschränkungen bewertet. Wir setzen diesen Rahmen in zwei Settings um: Interactive Proofs, bei denen Modelle mit einem Richter interagieren, um objektive Wahrheiten oder Antworten in Logik und Mathematik abzuleiten; und Interactive Games, bei denen Modelle strategisch denken, um langfristige Nutzen zu maximieren. Unsere Ergebnisse zeigen, dass interaktive Benchmarks eine robuste und authentische Bewertung der Modellintelligenz bieten und verdeutlichen, dass in interaktiven Szenarien noch erhebliches Verbesserungspotenzial besteht. Projektseite: https://github.com/interactivebench/interactivebench
Trotz beeindruckender Fortschritte in der Videogenerierung bleiben bestehende Modelle auf oberflächliche Plausibilität beschränkt und verfügen nicht über ein kohärentes und einheitliches Verständnis der Welt. Bisherige Ansätze integrieren typischerweise nur eine einzige Form von Weltwissen oder verlassen sich auf starre Alignment-Strategien, um zusätzliches Wissen einzuführen. Die Ausrichtung an einem einzelnen Weltwissen ist jedoch unzureichend, um ein Weltmodell zu bilden, das die gemeinsame Modellierung mehrerer heterogener Dimensionen erfordert (z. B. physikalisches Alltagswissen, 3D- und zeitliche Konsistenz). Um diese Einschränkung zu adressieren, stellen wir DreamWorld vor, einen einheitlichen Rahmen, der komplementäres Weltwissen über ein *Joint World Modeling Paradigm* in Videogeneratoren integriert. Dieses Paradigma sagt gemeinsam Videopixel und Features von Foundation-Modellen vorher, um zeitliche Dynamik, räumliche Geometrie und semantische Konsistenz zu erfassen. Eine naive Optimierung dieser heterogenen Ziele kann jedoch zu visueller Instabilität und zeitlichem Flackern führen. Um dieses Problem zu mildern, schlagen wir *Consistent Constraint Annealing* (CCA) vor, um weltbezogene Constraints während des Trainings progressiv zu regulieren, sowie eine *Multi-Source Inner-Guidance*, um gelernte Welt-Priors beim Inferenzvorgang durchzusetzen. Umfangreiche Auswertungen zeigen, dass DreamWorld die Weltkonsistenz verbessert und Wan2.1 auf VBench um 2.26 Punkte übertrifft. Der Code wird unter https://github.com/ABU121111/DreamWorld{mypink{Github}} öffentlich verfügbar gemacht.
Niedrigbit-Aufmerksamkeit, wie beispielsweise SageAttention, hat sich als effektiver Ansatz zur Beschleunigung der Modellinferenz erwiesen, doch ihre Anwendbarkeit auf das Training ist nach wie vor wenig verstanden. In vorhergehenden Arbeiten haben wir SageBwd vorgestellt, eine trainierbare INT8-Aufmerksamkeit, die sechs von sieben Aufmerksamkeitsmatrix-Multiplikationen quantisiert, ohne die Feinabstimmungsleistung zu beeinträchtigen. Allerdings wies SageBwd während des Vorabtrainings eine anhaltende Leistungslücke zur Vollpräzisions-Aufmerksamkeit (FPA) auf. In dieser Arbeit untersuchen wir, warum diese Lücke auftritt, und zeigen, dass SageBwd während des Vorabtrainings mit der Vollpräzisions-Aufmerksamkeit gleichzieht. Durch Experimente und theoretische Analysen gelangen wir zu einigen wichtigen Erkenntnissen und Schlussfolgerungen: (i) QK-Norm ist für stabiles Training bei vielen Token pro Schritt notwendig, (ii) Quantisierungsfehler entstehen hauptsächlich aus dem Score-Gradienten dS im Rückwärtsdurchlauf, (iii) eine Reduzierung der Token pro Schritt ermöglicht es SageBwd, die FPA-Leistung im Vorabtraining zu erreichen, und (iv) K-Glättung bleibt für die Trainingsstabilität entscheidend, während Q-Glättung während des Vorabtrainings nur begrenzten Nutzen bietet.
Wir stellen Timer-S1 vor, ein leistungsstarkes Mixture-of-Experts (MoE)-Zeitreihen-Foundation-Modell mit 8,3 Mrd. Gesamtparametern, 0,75 Mrd. aktivierten Parametern pro Token und einer Kontextlänge von 11.500 Token. Um den Skalierbarkeitsengpass bei bestehenden vortrainierten Zeitreihen-Foundation-Modellen zu überwinden, führen wir ein serielles Skalieren in drei Dimensionen durch: Modellarchitektur, Datensatz und Trainingspipeline. Timer-S1 integriert sparse TimeMoE-Blöcke und generische TimeSTP-Blöcke für Serial-Token Prediction (STP), ein generisches Trainingsziel, das der seriellen Natur von Prognosen folgt. Das vorgeschlagene Paradigma führt serielle Berechnungen ein, um Langzeitprognosen zu verbessern und gleichzeitig rechenintensives Rolling-Forecasting sowie ausgeprägte Fehlerakkumulation in der standardmäßigen Next-Token-Prediction zu vermeiden. Im Streben nach einem hochwertigen und verzerrungsfreien Trainingsdatensatz haben wir TimeBench kuratiert, ein Korpus mit einer Billion Zeitpunkten, und wenden sorgfältige Datenanreicherung an, um Prognoseverzerrungen zu mindern. Wir führen zudem eine Nachtrainingsphase ein, einschließlich fortgesetztem Vortraining und Long-Context-Extension, um die Kurzzeit- und Langkontextleistung zu steigern. Ausgewertet auf dem groß angelegten GIFT-Eval-Leaderboard erzielt Timer-S1 state-of-the-art Prognoseleistungen und erreicht als vortrainiertes Modell die besten MASE- und CRPS-Werte. Timer-S1 wird veröffentlicht, um die weitere Forschung zu erleichtern.
Aktuelle Videogenerierungsmodelle können physikalische Konsequenzen von 3D-Aktionen wie Kräfte und robotische Manipulationen nicht simulieren, da ihnen das strukturelle Verständnis dafür fehlt, wie Aktionen 3D-Szenen beeinflussen. Wir stellen RealWonder vor, das erste Echtzeitsystem zur aktionsbedingten Videogenerierung aus einem einzelnen Bild. Unser zentraler Ansatz ist die Nutzung von Physiksimulation als Zwischenbrücke: Anstatt kontinuierliche Aktionen direkt zu encodieren, übersetzen wir sie durch Physiksimulation in visuelle Repräsentationen (optischen Fluss und RGB), die Videomodelle verarbeiten können. RealWonder integriert drei Komponenten: 3D-Rekonstruktion aus Einzelbildern, Physiksimulation und einen destillierten Videogenerator, der nur 4 Diffusionsschritte benötigt. Unser System erreicht 13,2 FPS bei 480x832 Auflösung und ermöglicht die interaktive Erforschung von Kräften, Roboteraktionen und Kamerasteuerungen an starren Objekten, deformierbaren Körpern, Flüssigkeiten und granularen Materialien. Wir sehen in RealWonder neue Möglichkeiten, Videomodelle in immersiven Erfahrungen, AR/VR und Robotik-Lernen einzusetzen. Unser Code und unsere Modellgewichte sind auf unserer Projektwebseite öffentlich verfügbar: https://liuwei283.github.io/RealWonder/
Post-Training-Quantisierung (PTQ) mit Recheninvarianz für Large Language Models (LLMs) hat bemerkenswerte Fortschritte gezeigt, doch ihre Anwendung auf Multimodale Large Language Models (MLLMs) birgt erhebliche Herausforderungen. In diesem Artikel analysieren wir SmoothQuant als Fallstudie und identifizieren zwei kritische Probleme: Smoothing-Misalignment und Cross-Modale Recheninvarianz. Um diese Probleme zu adressieren, schlagen wir Modality-Aware Smoothing Quantization (MASQuant) vor, ein neuartiges Framework, das (1) Modality-Aware Smoothing (MAS) einführt, das separate, modalitätsspezifische Glättungsfaktoren lernt, um Smoothing-Misalignment zu verhindern, und (2) Cross-Modale Kompensation (CMC), die Cross-Modale Recheninvarianz durch SVD-Whitening behandelt, um multimodale Aktivierungsunterschiede in niedrigrangige Formen zu transformieren und so eine einheitliche Quantisierung über Modalitäten hinweg zu ermöglichen. MASQuant zeigt stabile Quantisierungsleistung sowohl bei dual-modalen als auch tri-modalen MLLMs. Experimentelle Ergebnisse belegen, dass MASQuant mit modernsten PTQ-Algorithmen wettbewerbsfähig ist. Quellcode: https://github.com/alibaba/EfficientAI.
Greifen ist eine grundlegende Fähigkeit für Roboter, um mit der physischen Welt zu interagieren. Menschen, die mit zwei Händen ausgestattet sind, wählen autonom geeignete Greifstrategien basierend auf Form, Größe und Gewicht von Objekten, was ein robustes Greifen und anschließende Manipulation ermöglicht. Im Gegensatz dazu sind aktuelle robotische Greifsysteme nach wie vor eingeschränkt, insbesondere in Mehrstrategie-Umgebungen. Obwohl erhebliche Anstrengungen auf das Greifen mit Parallelgreifern und Einhand-Greifsystemen abzielten, bleibt das geschickte Greifen für bimanuelle Roboter untererforscht, wobei Daten ein primärer Engpass sind. Die Realisierung von physikalisch plausiblen und geometrisch anpassungsfähigen Griffen, die externen Kräften und Momenten standhalten können, stellt erhebliche Herausforderungen dar. Um diese Probleme zu adressieren, führen wir UltraDexGrasp ein, ein Framework für universelles geschicktes Greifen mit bimanuellen Robotern. Die vorgeschlagene Daten-Generierungs-Pipeline integriert optimierungsbasierte Griff-Synthese mit planungsbasierter Demonstrationsgenerierung und erzeugt hochwertige und diverse Trajektorien über mehrere Greifstrategien hinweg. Mit diesem Framework kuratieren wir UltraDexGrasp-20M, einen großen, mehrstrategischen Greifdatensatz, der 20 Millionen Frames über 1.000 Objekte umfasst. Basierend auf UltraDexGrasp-20M entwickeln wir weiter eine einfache, aber effektive Greifpolitik, die Punktwolken als Eingabe verwendet, Szenenmerkmale über unidirektionale Attention aggregiert und Steuerbefehle vorhersagt. Die Politik, die ausschließlich auf synthetischen Daten trainiert wurde, erreicht einen robusten Zero-Shot Sim-to-Real-Transfer und ist bei neuartigen Objekten mit unterschiedlichen Formen, Größen und Gewichten durchgängig erfolgreich, was eine durchschnittliche Erfolgsrate von 81,2 % beim universellen geschickten Greifen in der realen Welt erreicht. Um zukünftige Forschung zum Greifen mit bimanuellen Robotern zu fördern, stellen wir die Daten-Generierungs-Pipeline unter https://github.com/InternRobotics/UltraDexGrasp als Open Source zur Verfügung.
Vision Transformer haben durch die Nutzung globaler Self-Attention zur Erfassung langreichweitiger Abhängigkeiten bemerkenswerte Erfolge in der Klassifikation erzielt. Derselbe Mechanismus kann jedoch feinkörnige räumliche Details verschleiern, die für Aufgaben wie Segmentierung entscheidend sind. In dieser Arbeit streben wir eine Verbesserung der Segmentierungsleistung von Vision Transformern nach einem Standardtraining auf Bildebene an. Konkret stellen wir ein einfaches, aber effektives Add-on vor, das die Leistung bei Segmentierungsaufgaben verbessert und gleichzeitig die bildbezogenen Erkennungsfähigkeiten der Vision Transformer erhält. In unserem Ansatz modulieren wir die Self-Attention mit einem lernbaren Gauß-Kernel, der die Aufmerksamkeit auf benachbarte Patches lenkt. Wir verfeinern weiterhin die Patch-Repräsentationen, um bessere Einbettungen an Patch-Positionen zu lernen. Diese Modifikationen ermutigen Tokens, sich auf die lokale Umgebung zu konzentrieren und stellen aussagekräftige Repräsentationen an räumlichen Positionen sicher, wobei die Fähigkeit des Modells, globale Informationen zu integrieren, erhalten bleibt. Experimente belegen die Wirksamkeit unserer Modifikationen, die durch deutliche Segmentierungsgewinne auf drei Benchmarks belegt wird (z.B. über 6 % bzw. 4 % auf ADE20K für ViT Tiny und Base), ohne Änderungen am Trainingsregime oder Einbußen bei der Klassifikationsleistung. Der Code ist verfügbar unter https://github.com/sinahmr/LocAtViT/.
Reasoning-Modelle denken laut nach, doch ein Großteil ihrer Aussagen ist Rauschen. Wir stellen OPSDC (On-Policy Self-Distillation for Reasoning Compression) vor, eine Methode, die Modelle lehrt, prägnanter zu schlussfolgern, indem sie ihr eigenes prägnantes Verhalten wieder in sich selbst destilliert. Der gesamte Ansatz lässt sich auf eine einfache Idee reduzieren: Man konditioniert dasselbe Modell mit einer "Sei prägnant"-Anweisung, um Lehrer-Logits zu erhalten, und minimiert die reverse KL-Divergenz pro Token auf den eigenen Rollouts des Schülers. Keine Ground-Truth-Antworten, keine Token-Budgets, keine Schwierigkeitsschätzer. Einfach Selbst-Distillation. Doch diese Einfachheit verbirgt eine überraschende Raffinesse: OPSDC komprimiert einfache Probleme automatisch stark, bewahrt aber die notwendige Bedachtsamkeit für schwierige Probleme. Bei Qwen3-8B und Qwen3-14B erreichen wir eine Token-Reduktion von 57–59 % auf MATH-500 bei gleichzeitiger Steigerung der Genauigkeit um 9–16 Punkte absolut. Auf AIME 2024 verbessert sich das 14B-Modell um 10 Punkte bei 41 % Kompression. Das Geheimnis? Ein Großteil dessen, was Reasoning-Modelle produzieren, ist nicht nur redundant – es ist aktiv schädlich, da jeder unnötige Token Fehler verstärkt.
Wir stellen ein System zum Training von Enterprise-Suchagenten mittels Reinforcement Learning vor, das state-of-the-art Leistung über eine vielfältige Suite schwer zu verifizierender agentenbasierter Suchaufgaben erzielt. Unsere Arbeit leistet vier zentrale Beiträge. Erstens führen wir KARLBench ein, eine Bewertungssuite mit multiplen Fähigkeiten, die sechs distincte Suchregime umfasst, einschließlich constraint-gesteuerter Entitätensuche, dokumenübergreifender Reportsynthese, tabellarischem numerischem Reasoning, exhaustiver Entitätenrückgewinnung, prozeduralem Reasoning über technische Dokumentation und Faktenaggregation über interne Unternehmensnotizen. Zweitens zeigen wir, dass Modelle, die über heterogene Suchverhalten trainiert werden, wesentlich besser generalisieren als solche, die für einen einzelnen Benchmark optimiert sind. Drittens entwickeln wir eine agentenbasierte Synthese-Pipeline, die langfristiges Reasoning und Werkzeugnutzung einsetzt, um diverse, fundierte und hochwertige Trainingsdaten zu generieren, mit iterativem Bootstrapping aus zunehmend leistungsfähigeren Modellen. Viertens schlagen wir ein neues Post-Training-Paradigma basierend auf iterativem Off-Policy-Reinforcement-Learning mit großen Batches vor, das probeneffizient, robust gegenüber Trainings-Inferenz-Engine-Diskrepanzen ist und sich natürlich auf Multi-Task-Training mit Out-of-Distribution-Generalisierung erweitern lässt. Im Vergleich zu Claude 4.6 und GPT 5.2 ist KARL auf KARLBench Pareto-optimal über Kosten-Qualitäts- und Latenz-Qualitäts-Abwägungen hinweg, einschließlich Aufgaben, die während des Trainings Out-of-Distribution waren. Mit ausreichender Rechenleistung zur Testzeit übertrifft es die stärksten Closed-Modelle. Diese Ergebnisse zeigen, dass maßgeschneiderte synthetische Daten in Kombination mit Multi-Task-Reinforcement-Learning kosteneffiziente und leistungsstarke Wissensagenten für fundiertes Reasoning ermöglichen.
Während Datensätze für das Videoverständnis auf stundenlange Aufnahmen skaliert wurden, bestehen diese typischerweise aus dicht aneinandergereihten Clips, die sich von natürlichem, unscriptetem Alltagsgeschehen unterscheiden. Um diese Lücke zu schließen, stellen wir MM-Lifelong vor, einen Datensatz für multimodales lebenslanges Verständnis (Multimodal Lifelong Understanding). Mit 181,1 Stunden Filmmaterial ist er auf Tages-, Wochen- und Monatsebene strukturiert, um unterschiedliche zeitliche Dichten zu erfassen. Umfangreiche Auswertungen zeigen zwei kritische Fehlermodi aktueller Paradigmen: End-to-End-MLLMs leiden unter einem Arbeitsgedächtnis-Engpass (Working Memory Bottleneck) aufgrund von Kontextsättigung, während repräsentative agentenbasierte Baseline-Modelle einen Global-Localization-Collapse erleiden, wenn sie spärliche, monatelange Zeitleisten navigieren. Als Lösung schlagen wir den Rekursiven Multimodalen Agenten (ReMA) vor, der dynamisches Speichermanagement einsetzt, um einen rekursiven Überzeugungszustand (Belief State) iterativ zu aktualisieren, und existierende Methoden signifikant übertrifft. Abschließend etablieren wir Datensatzaufteilungen, die darauf ausgelegt sind, temporale Verzerrungen und Domänenverzerrungen zu isolieren, und schaffen so eine rigorose Grundlage für zukünftige Forschung im supervidierten Lernen und in der Out-of-Distribution-Generalisation.
Multimodale Objekt-Re-Identifikation (ReID) zielt darauf ab, komplementäre Informationen aus verschiedenen Modalitäten zur Wiederauffindung spezifischer Objekte zu nutzen. Bisherige Methoden stützen sich jedoch häufig auf hartes Token-Filtering oder einfache Fusionsstrategien, was zum Verlust diskriminativer Merkmale und verstärkter Hintergrundinterferenz führen kann. Um diese Herausforderungen zu bewältigen, schlagen wir STMI vor, ein neuartiges multimodales Lernframework, das aus drei Schlüsselkomponenten besteht: (1) Das segmentierungsgesteuerte Merkmalmodulationsmodul (SFM) nutzt SAM-generierte Masken, um Vordergrundrepräsentationen zu verstärken und Hintergrundrauschen durch lernbare Aufmerksamkeitsmodulation zu unterdrücken; (2) Das semantische Token-Reallokationsmodul (STR) verwendet lernbare Abfragetokens und einen adaptiven Reallokationsmechanismus, um kompakte und informative Repräsentationen zu extrahieren, ohne Tokens zu verwerfen; (3) Das cross-modale Hypergraph-Interaktionsmodul (CHI) konstruiert einen vereinheitlichten Hypergraphen über Modalitäten hinweg, um semantische Beziehungen höherer Ordnung zu erfassen. Umfangreiche Experimente auf öffentlichen Benchmarks (d.h. RGBNT201, RGBNT100 und MSVR310) demonstrieren die Wirksamkeit und Robustheit unseres vorgeschlagenen STMI-Frameworks in multimodalen ReID-Szenarien.
Wir stellen Latent Particle World Model (LPWM) vor, ein selbstüberwachtes, objektzentriertes Weltmodell, das für reale Multi-Objekt-Datensätze skaliert und in der Entscheidungsfindung anwendbar ist. LPWM entdeckt autonom Keypoints, Bounding Boxes und Objektmasken direkt aus Videodaten, wodurch es reichhaltige Szenenzerlegungen ohne Überwachung erlernen kann. Unsere Architektur wird rein end-to-end aus Videos trainiert und unterstützt flexible Konditionierung auf Aktionen, Sprache und Bildziele. LPWM modelliert stochastische Partikeldynamiken über ein neuartiges latentes Aktionsmodul und erzielt state-of-the-art Ergebnisse auf verschiedenen realen und synthetischen Datensätzen. Über die stochastische Videomodellierung hinaus ist LPWM direkt in der Entscheidungsfindung anwendbar, einschließlich zielkonditioniertem Imitationslernen, wie wir in der Arbeit demonstrieren. Code, Daten, vortrainierte Modelle und Video-Rollouts sind verfügbar: https://taldatech.github.io/lpwm-web
Das Training großer Sprachmodelle zum schlussfolgernden Denken mit Suchmaschinen mittels Verstärkungslernen wird durch ein grundlegendes Kreditzuweisungsproblem behindert: bestehende Methoden wie Search-R1 bieten nur eine spärliche Ergebnisbelohnung nach einer gesamten mehrstufigen Trajektorie, was es unmöglich macht, Erfolg oder Misserfolg einzelnen Schlussfolgerungs- und Abrufentscheidungen zuzuordnen. Prozessbelohnungsmethoden wie StepSearch mildern dies durch die Einführung von Überwachung auf Schrittebene, basieren jedoch auf heuristischen Belohnungen wie TF-IDF-Überlappung mit Golddokumenten und sampeln weiterhin k vollständige Trajektorien pro Beispiel, was eine hohe Gradientenvarianz beibehält. Wir schlagen SLATE vor, ein Framework, das auf zwei komplementären Ideen aufbaut: (1) *truncated step-level sampling*, das k Trajektorien erzeugt, die ein gemeinsames Präfix teilen und sich nur im nächsten Schritt unterscheiden, und (2) dichte *LLM-as-judge*-Belohnungen, die heuristische Bewertung durch einen leistungsfähigen LLM-Evaluator ersetzen, der die Qualität jedes Denkschritts, jeder Suchanfrage und jeder Antwort bewertet und so eine reichhaltigere und zuverlässigere Überwachung bietet. Wir beweisen theoretisch, dass bei gleicher dichter Belohnungsstruktur das abgeschnittene Sampling die Varianz von Vorteilsschätzungen für T-stufige Trajektorien um bis zu einem Faktor T im Vergleich zum Sampling vollständiger Trajektorien reduziert, was zu Policy-Gradienten mit geringerer Varianz und besserer Zielausrichtung führt. Experimente auf sieben QA-Benchmarks bestätigen, dass SLATE durchgängig sowohl Baseline-Methoden mit spärlicher Belohnung als auch mit Prozessbelohnung übertrifft, mit den größten Verbesserungen bei schwierigeren Multi-Hop-Aufgaben und kleineren Modellen.
Tool-augmented Large Language Model (LLM)-Agenten versprechen eine Vereinigung von wissenschaftlichem Denken und Berechnung, doch ihr Einsatz in hochriskanten Bereichen wie der Wirkstoffentwicklung wird durch zwei kritische Hindernisse eingeschränkt: unkontrollierte Werkzeugnutzung und mangelnde Zuverlässigkeit bei langfristigen Aufgaben. In stark vernetzten pharmazeutischen Prozessketten neigen autonome Agenten oft zu nicht reproduzierbaren Abläufen, bei denen sich Halluzinationen aus frühen Phasen multiplikativ zu Fehlschlägen in nachgelagerten Stufen aufschaukeln. Um dies zu überwinden, stellen wir Mozi vor – eine Architektur mit zwei Ebenen, die die Flexibilität generativer KI mit der deterministischen Strenge der computerbasierten Biologie verbindet. Ebene A (Kontroll-Ebene) etabliert eine kontrollierte Supervisor-Worker-Hierarchie, die rollenbasierte Werkzeugisolation durchsetzt, die Ausführung auf eingeschränkte Aktionsräume begrenzt und reflektionsbasiertes Neuplanung antreibt. Ebene B (Ablauf-Ebene) operationalisiert kanonische Phasen der Wirkstoffentwicklung – von der Target-Identifikation bis zur Lead-Optimierung – als zustandsbehaftete, zusammensetzbare Fähigkeitsgraphen. Diese Ebene integriert strikte Datenverträge und strategische Human-in-the-Loop (HITL)-Kontrollpunkte, um die wissenschaftliche Validität an Entscheidungsgrenzen mit hoher Unsicherheit zu gewährleisten. Basierend auf dem Designprinzip „Freiform-Denken für sichere Aufgaben, strukturierte Ausführung für langfristige Prozessketten“ bietet Mozi eingebaute Robustheitsmechanismen und Rückverfolgbarkeit auf Verfolgungsebene, um Fehlerakkumulation vollständig zu vermeiden. Wir evaluieren Mozi anhand von PharmaBench, einem kuratierten Benchmark für biomedizinische Agenten, und demonstrieren eine überlegene Orchestrierungsgenauigkeit gegenüber existierenden Baseline-Verfahren. Darüber hinaus zeigen wir in end-to-end therapeutischen Fallstudien Mozi's Fähigkeit, massive chemische Räume zu navigieren, strenge Toxizitätsfilter durchzusetzen und hochgradig wettbewerbsfähige *in-silico*-Kandidaten zu generieren. Damit verwandelt Mozi das LLM effektiv von einem anfälligen Gesprächspartner in einen zuverlässigen, kontrollierten Forschungspartner.
Das Erlernen eines Transportmodells, das eine Quellverteilung auf eine Zielverteilung abbildet, ist ein grundlegendes Problem im maschinellen Lernen. Wissenschaftliche Anwendungen erfordern jedoch zunehmend Modelle, die auf während des Trainings ungesehene Quell- und Zielverteilungen verallgemeinern können. Wir stellen distributionskonditionierten Transport (DCT) vor, einen Rahmen, der Transportabbildungen auf gelernten Einbettungen von Quell- und Zielverteilungen konditioniert und so eine Verallgemeinerung auf ungesehene Verteilungspaare ermöglicht. DCT erlaubt auch semi-überwachtes Lernen für Verteilungsvorhersageprobleme: Da es von beliebigen Verteilungspaaren lernt, kann es Verteilungen, die nur unter einer Bedingung beobachtet wurden, nutzen, um die Transportvorhersage zu verbessern. DCT ist agnostisch gegenüber dem zugrundeliegenden Transportmechanismus und unterstützt Modelle, die von Flow Matching bis hin zu modellbasierten Verteilungsdivergenzen (z.B. Wasserstein, MMD) reichen. Wir demonstrieren die praktischen Leistungsvorteile von DCT an synthetischen Benchmarks und vier biologischen Anwendungen: Batch-Effekt-Transfer in der Einzelzellgenomik, Perturbationsvorhersage aus Massenzytometriedaten, das Lernen klonaler transkriptioneller Dynamiken in der Hämatopoese und die Modellierung der T-Zell-Rezeptor-Sequenzevolution.
Roboter, die in gemeinsamen menschlichen Umgebungen agieren, müssen nicht nur ihre Umgebung navigieren, interagieren und erfassen, sondern auch dynamische und oft unvorhersehbare menschliche Verhaltensweisen interpretieren und darauf reagieren. Obwohl jüngste Fortschritte vielversprechend für die Verbesserung der robotischen Wahrnehmung und Befolgung von Anweisungen durch Vision-Language-Modelle (VLMs) sind, bleiben sie in der Bewältigung der Komplexität multimodaler Mensch-Roboter-Interaktionen (HRI) begrenzt. Angespornt durch diese Herausforderung stellen wir ein leichtgewichtiges Sprach-zu-Vision-Feedback-Modul vor, das die Schleife zwischen einem LLM und dem Vision-Encoder in VLMs schließt. Das Modul projiziert versteckte Zustände von Bild-Token über ein gated Multi-Layer Perceptron (MLP) zurück in den Encoder-Eingang, was einen zweiten Durchlauf auslöst, der die Szene im Textkontext neu interpretiert. Wir evaluieren diesen Ansatz an drei roboterzentrierten Aufgaben: Navigation in einer simulierten Umgebung (Habitat), sequenzielle Szenenbeschreibung (Mementos-Robotics) und Erkennung menschlicher Absichten (unser HRI-Datensatz). Die Ergebnisse zeigen, dass unsere Methode Qwen 2.5 (7B) um 3,3 % (geringere Distanz), +0,057 Beschreibungspunktzahl und +2,93 % Genauigkeit verbessert, mit weniger als 3 % zusätzlichen Parametern; Gemma 3 (4B) und LLaVA OV 1.5 (4B) zeigen gemischte Navigationsergebnisse, aber Verbesserungen von +0,111 / +0,055 und +10,81 % / +4,79 % bei den beiden letztgenannten Aufgaben. Der Code ist verfügbar unter https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.