Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Routenplanung im öffentlichen Nahverkehr stützt sich traditionell auf strukturierte Karteninfrastrukturen und komplexe Routing-Engines. Bislang existiert kein Datensatz, der das Training von Modellen zur Umgehung dieser Abhängigkeit ermöglicht. Wir stellen TransitLM vor, einen groß angelegten Datensatz mit über 13 Millionen Routenplanungsdatensätzen des öffentlichen Nahverkehrs aus vier chinesischen Städten, der 120.845 Haltestellen und 13.666 Linien umfasst. Der Datensatz wird als Korpus für kontinuierliches Vortraining sowie als Benchmark-Daten für drei Evaluationsaufgaben mit komplementären Metriken veröffentlicht. Experimente zeigen, dass ein auf TransitLM trainierter LLM strukturell gültige Routen mit hoher Genauigkeit erzeugt und beliebige GPS-Koordinaten implizit den entsprechenden Haltestellen zuordnet – ohne explizite Kartierung. Diese Ergebnisse belegen, dass eine Routenplanung im öffentlichen Nahverkehr vollständig aus Daten erlernbar ist, was eine end-to-end-, kartenfreie Routengenerierung direkt aus Start-Ziel-Informationen ermöglicht. Der Datensatz und die Benchmark sind verfügbar unter https://huggingface.co/datasets/GD-ML/TransitLM, der Evaluationscode unter https://github.com/HotTricker/TransitLM.
Multimodale Große Sprachmodelle (MLLMs) werden zunehmend in menschenbezogenen Rollen eingesetzt, in denen die Wahrnehmung von Persönlichkeit entscheidend ist. Dennoch evaluieren bestehende Benchmarks diese Fähigkeit ausschließlich anhand der numerischen Vorhersage von Big-Five-Werten und lassen offen, ob Modelle Persönlichkeit tatsächlich durch Verhaltensverständnis wahrnehmen oder lediglich durch oberflächliches Mustererkennen vorschnell beurteilen. Wir schließen diese Lücke mit drei Beiträgen: (i) Eine neue Aufgabe: Wir formalisieren Grounded Personality Reasoning (GPR), das von MLLMs verlangt, jede Big-Five-Bewertung durch eine Kette aus Bewertung, Begründung und Verankerung in beobachtbaren Evidenzen zu fundieren. (ii) Ein neuer Datensatz: Wir veröffentlichen MM-OCEAN (1.104 Videos, 5.320 Multiple-Choice-Fragen), erstellt durch eine Multi-Agenten-Pipeline mit menschlicher Verifikation, versehen mit zeitgestempelten Verhaltensbeobachtungen, evidenzbasierten Eigenschaftsanalysen und sieben Kategorien von Hinweisverankerungs-Multiple-Choice-Fragen. (iii) Benchmark und Analyse: Wir entwickeln eine dreistufige Evaluation (Bewertung, Begründung, Verankerung) sowie vier stichprobenbezogene Fehlermodusmetriken: Vorurteilsrate (PR), Konfabulationsrate (CR), Integrationsfehlerrate (IR) und Ganzheitliche Verankerungsrate (HR). Wir benchmarken 27 MLLMs (13 geschlossene, 14 offene). Die Analyse deckt eine auffällige Vorurteilslücke auf: Über das gesamte Feld hinweg sind 51 % der korrekten Bewertungen nicht in abgerufenen Hinweisen verankert, und die Ganzheitliche Verankerungsrate liegt lediglich zwischen 0 % und 33,5 %. Diese Ergebnisse offenbaren einen Bruch zwischen dem Erzielen der richtigen Bewertung und dem Begründen aus den richtigen Gründen und zeichnen einen Fahrplan für verankerte soziale Kognition in MLLMs.
Verstärkungslernen aus überprüfbaren Belohnungen (RLVR) hat sich zu einer zentralen Technik zur Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle entwickelt. Trotz seiner Wirksamkeit ist noch wenig darüber bekannt, wie sich Belohnungen auf Antwortebene in Wahrscheinlichkeitsänderungen auf Tokenebene übersetzen. Wir führen eine Diskriminatorperspektive auf RLVR-Updates ein und zeigen, dass die Policy-Gradient-Update-Richtung implizit als linearer Diskriminator über Token-Gradient-Vektoren wirkt und somit bestimmt, welche Token-Wahrscheinlichkeiten während des Lernens erhöht oder verringert werden. Unter dem standardmäßigen sequenzbezogenen RLVR wird dieser Diskriminator aus Zentroiden auf der positiven und negativen Seite konstruiert, die durch eine vorteilsgewichtete Mittelung von Token-Gradient-Vektoren gebildet werden. Eine solche Zentroidkonstruktion kann jedoch von gemeinsamen hochfrequenten Mustern wie Formatierungstoken dominiert werden, wodurch spärliche, aber diskriminative Richtungen verwässert werden, die hoch belohnte Antworten besser von niedrig belohnten unterscheiden. Um diese Einschränkung zu beheben, schlagen wir DelTA vor, eine diskriminative Token-Kreditzuweisungsmethode, die Token-Koeffizienten schätzt, um seiten-spezifische Token-Gradienten-Richtungen zu verstärken und gemeinsame oder schwach diskriminative zu herunterzugewichten. Diese Koeffizienten gewichten einen selbstnormalisierten RLVR-Surrogate neu, wodurch die effektiven seitenweisen Zentroiden kontrastiver werden und somit die RLVR-Update-Richtung umgestaltet wird. Auf sieben mathematischen Benchmarks übertrifft DelTA die stärksten gleichskaligen Baselines um durchschnittlich 3,26 bzw. 2,62 Punkte auf Qwen3-8B-Base und Qwen3-14B-Base. Weitere Ergebnisse zur Codegenerierung, einem anderen Backbone und evaluations außerhalb des Anwendungsbereichs belegen zudem die Generalisierungsfähigkeit von DelTA.
Die Entwicklung persönlicher Assistenten, wie z. B. OpenClaw, verdeutlicht das wachsende Potenzial großer Sprachmodelle, Nutzer im Alltag und Beruf zu unterstützen. Eine zentrale Herausforderung in diesen Szenarien ist die proaktive Assistenz, da Nutzer häufig mit unzureichend spezifizierten Anfragen beginnen und wichtige Bedürfnisse, Einschränkungen oder Präferenzen unerwähnt lassen. Bisherige Benchmarks bewerten jedoch selten, ob Agenten solche verborgenen Absichten erkennen und darauf reagieren können, bevor sie explizit geäußert werden – insbesondere in längerfristigen, mehrschrittigen Interaktionen, in denen sich Nutzerbedürfnisse allmählich entwickeln. Um diese Lücke zu schließen, führen wir π-Bench ein, einen Benchmark für proaktive Assistenz, der 100 mehrschrittige Aufgaben über fünf domänenspezifische Nutzer-Personas umfasst. Durch die Integration verborgener Nutzerabsichten, aufgabenübergreifender Abhängigkeiten und kontinuierlicher Sitzungsverläufe bewertet π-Bench die Fähigkeit von Agenten, Nutzerbedürfnisse über ausgedehnte Interaktionen hinweg vorherzusehen und zu adressieren. Dabei werden Proaktivität und Aufgabenerfüllung gemeinsam in langfristigen Verläufen gemessen, die reale Anwendungsszenarien besser widerspiegeln. Experimente zeigen, (1) dass proaktive Assistenz weiterhin herausfordernd ist, (2) eine deutliche Unterscheidung zwischen Aufgabenerfüllung und Proaktivität besteht und (3) vorherige Interaktionen für die proaktive Absichtsauflösung in späteren Aufgaben wertvoll sind.
Die Inferenz bei langen Kontexten in großen Sprachmodellen wird durch die quadratischen Kosten der vollständigen Aufmerksamkeit (Full Attention) zum Engpass. Bestehende effiziente Alternativen basieren häufig entweder auf nativem spärlichem Training oder auf heuristischem Token-Eviction, was einen unerwünschten Kompromiss zwischen Effizienz, Trainingskosten und Genauigkeit schafft. In dieser Arbeit zeigen wir, dass Full-Attention-LLMs bereits intrinsisch spärlich sind und mit nur minimaler Anpassung in hochspärliche Modelle transformiert werden können. Unser Ansatz beruht auf drei Beobachtungen: (1) nur eine kleine Teilmenge der Attention-Heads benötigt tatsächlich eine vollständige Verarbeitung langer Kontexte; (2) der Abruf über große Reichweiten wird hauptsächlich durch einen niedrigdimensionalen Unterraum bestimmt, sodass relevante Token effizient mit einem 16-dimensionalen Indexer abgerufen werden können; (3) das nutzbare Token-Budget ist stark abfrageabhängig, was eine dynamische Top-p-Auswahl besser geeignet macht als eine feste Top-k-Verschlankung. Basierend auf diesen Erkenntnissen schlagen wir RTPurbo vor, das den vollständigen KV-Cache nur für Retrieval-Heads beibehält und einen leichten Token-Indexer für spärliche Aufmerksamkeit einführt. Durch die Ausnutzung der intrinsischen Spärlichkeit des Modells erreicht RTPurbo eine Verschlankung mit nur wenigen hundert Trainingsschritten. Experimente mit Long-Context-Benchmarks und Reasoning-Aufgaben zeigen, dass RTPurbo eine nahezu verlustfreie Genauigkeit beibehält und gleichzeitig erhebliche Effizienzsteigerungen erzielt, darunter eine bis zu 9,36-fache Beschleunigung der Prefill-Phase bei einem Kontext von 1 Mio. Token und eine etwa 2,01-fache Beschleunigung der Decode-Phase. Diese Ergebnisse legen nahe, dass eine starke spärliche Inferenz durch standardmäßiges Full-Attention-Training ohne teures natives spärliches Vortraining erreicht werden kann.
Die jüngste Entwicklung von Agenten hat die Nachfrage nach der Fähigkeit großer Sprachmodelle (LLMs) zum Denken über lange Kontexte hinweg erneuert. Das Training von LLMs für diese Fähigkeit erfordert jedoch kostspielige langwierige Dokumentenkuratierung oder heuristische Kontextsynthese. Wir beobachten, dass Agenten bei der Lösung von Problemen umfangreiche Trajektorien erzeugen, dabei Werkzeuge aufrufen und Umgebungsbeobachtungen über viele Interaktionen hinweg erhalten. Die zum Beantworten der ursprünglichen Frage erforderlichen Informationen sind daher über diese Interaktionen verstreut, was die Integration entfernter Kontextsegmente erfordert. Dennoch maskiert das standardmäßige überwachte Feintuning (SFT) von Agenten die Antworten der Werkzeuge und trainiert nur die werkzeugbezogene Auswahl auf Interaktionsebene, wodurch eine Überwachungslücke entsteht, in der diese verstreuten Signale ungenutzt bleiben. Wir schlagen die Agent Context Compilation (ACC) vor, die Trajektorien von Such-, Softwareentwicklungs- und Datenbankabfrageagenten in Paare von langen Kontexten und Fragen umwandelt, die die ursprüngliche Frage mit über mehrere Interaktionen hinweg gesammelten Werkzeugantworten und Umgebungsbeobachtungen kombinieren, und das Modell darauf trainiert, direkt ohne Werkzeugnutzung zu antworten. Dies macht die Abhängigkeiten zwischen der Frage und den Informationen explizit und ermöglicht direkte Überwachung des Denkens über lange Kontexte hinweg über entfernte Segmente hinweg ohne zusätzliche Annotation. ACC ist ein einfacher, aber effektiver Ansatz, der mit jeder bestehenden Methode zur Kontexterweiterung oder zum Training kombiniert werden kann und skalierbare überwachte Feintuning-Daten bereitstellt. Wir validieren ACC anhand von Aufgaben zur Modellierung von Fernabhängigkeiten mittels MRCR und GraphWalks, anspruchsvollen Benchmarks, die eine über mehrere Interaktionen hinweggehende Koreferenzauflösung und Graphentraversierung über ausgedehnte Kontexte hinweg erfordern. Das Training von Qwen3-30B-A3B mit ACC erreicht 68,3 bei MRCR (+18,1) und 77,5 bei GraphWalks (+7,6), Ergebnisse, die mit Qwen3-235B-A22B vergleichbar sind, während die allgemeinen Fähigkeiten bei GPQA, MMLU-Pro, AIME und IFEval erhalten bleiben. Weitere Mechanismusanalysen zeigen, dass das mit ACC trainierte Modell eine aufgabenadaptive Neuausrichtung der Aufmerksamkeit und Spezialisierung von Experten aufweist.
Simulationsbereite physische 3D-Assets haben sich aufgrund ihrer breiten Anwendbarkeit in nachgelagerten Aufgaben als vielversprechende Richtung erwiesen. Die meisten bestehenden 3D-Generierungsmethoden vernachlässigen jedoch entweder physikalische Eigenschaften oder sind auf eine einzelne Asset-Kategorie beschränkt, z. B. starre, verformbare oder gelenkige Objekte. Um diese Einschränkungen zu adressieren, führen wir PhysX-Omni ein, ein einheitliches Framework für die simulationsbereite physische 3D-Generierung über verschiedene Asset-Typen hinweg. Konkret entwickeln wir eine neuartige und effiziente Geometrierepräsentation, die speziell auf Sprach-Bild-Modelle zugeschnitten ist und hochauflösende 3D-Strukturen ohne Komprimierung direkt kodiert, wodurch die Generierungsleistung erheblich verbessert wird. Darüber hinaus erstellen wir den ersten allgemeinen simulationsbereiten 3D-Datensatz, PhysXVerse, der verschiedene Innen- und Außenkategorien abdeckt. Um sowohl generative als auch verständnisbasierte Fähigkeiten in freier Wildbahn umfassend und flexibel zu evaluieren, schlagen wir PhysX-Bench vor, das sechs zentrale Attribute umfasst: Geometrie, absolute Skalierung, Material, Affordanz, Kinematik und Funktionsbeschreibung. Umfangreiche Experimente mit konventionellen Metriken und PhysX-Bench zeigen, dass PhysX-Omni sowohl bei der Generierung als auch beim Verständnis starke Leistungen erbringt. Darüber hinaus bestätigen zusätzliche Studien das Potenzial von PhysX-Omni für Anwendungen in der simulationsbereiten Szenengenerierung und im robotischen Policylernen. Wir glauben, dass PhysX-Omni ein breites Spektrum nachgelagerter Anwendungen erheblich voranbringen kann, insbesondere in der verkörperten KI und der physikbasierten Simulation.
Eine gemeinsame audio-visuelle Schlussfolgerung ist für ein omnimodales Verständnis unerlässlich, dennoch haben aktuelle multimodale Large Language Models (MLLMs) weiterhin Schwierigkeiten, wenn für die Schlussfolgerung feinkörnige Evidenzen aus beiden Modalitäten erforderlich sind. Eine zentrale Einschränkung besteht darin, dass die explizite textbasierte Chain-of-Thought (CoT) kontinuierliche audio-visuelle Signale in diskrete Tokens komprimiert, wodurch die zeitliche Verankerung geschwächt und die Zwischenschlussfolgerung in Richtung sprachlicher Prioritäten verschoben wird. Wir argumentieren, dass ein einheitlicher latenter Raum ein besseres Medium für eine solche Schlussfolgerung darstellt, da er dichte sensorische Informationen bewahrt und gleichzeitig mit autoregressiver Generierung kompatibel bleibt. Basierend auf dieser Erkenntnis schlagen wir LatentOmni vor, ein cross-modales Reasoning-Framework, das textuelle Schlussfolgerungen mit audio-visuellen latenten Zuständen verschränkt. LatentOmni führt eine Supervision auf Merkmalsebene ein, um latente Reasoning-Zustände mit aufgabenrelevanten sensorischen Merkmalen abzugleichen, und verwendet die Omni-Sync Position Embedding (OSPE), um die zeitliche Konsistenz zwischen latenten Audio- und visuellen Zuständen aufrechtzuerhalten. Darüber hinaus erstellen wir LatentOmni-Instruct-35K, einen Datensatz mit audio-visuellen verschränkten Reasoning-Trajektorien zur Supervision des latenten Reasoning. Eine umfassende Evaluierung über mehrere Audio-Visual-Reasoning-Benchmarks hinweg zeigt, dass LatentOmni die beste Leistung unter den evaluierten Open-Source-Modellen erzielt und durchgängig die explizite Text-CoT-Baseline übertrifft, was das gemeinsame latente Reasoning als vielversprechenden Weg zu einem stärkeren omnimodalen Verständnis unterstützt.
Tabellenkalkulationssysteme (z. B. Microsoft Excel, Google Sheets) spielen eine zentrale Rolle in modernen datenzentrierten Arbeitsabläufen. Da KI-Agenten zunehmend in der Lage sind, komplexe Aufgaben wie die Steuerung von Computern und die Erstellung von Präsentationen zu automatisieren, hat sich die Entwicklung eines KI-gesteuerten Tabellenkalkulationsagenten als vielversprechende Forschungsrichtung herauskristallisiert. Die meisten bestehenden Tabellenkalkulationsagenten stützen sich auf spezialisiertes Prompting über allgemeine große Sprachmodelle (LLMs); während dieses Design bei einfachen Tabellenkalkulationsoperationen Potenzial hat, fällt es ihm schwer, die komplexen, mehrschrittigen Arbeitsabläufe zu bewältigen, die für reale Anwendungen typisch sind. Wir stellen Spreadsheet-RL vor, ein Framework zur Feinabstimmung mittels Bestärkendem Lernen (RL), das darauf ausgelegt ist, spezialisierte Tabellenkalkulationsagenten in einer realistischen Microsoft Excel-Umgebung zu trainieren. Spreadsheet-RL umfasst eine automatisierte Pipeline zur skalierbaren Sammlung gepaarter Start-Ziel-Tabellen aus Online-Foren sowie domänenspezifische Evaluierungsaufgaben in Bereichen wie Finanzen und Lieferkettenmanagement, die wir im neuen Benchmark-Datensatz Domain-Spreadsheet zusammenfassen. Es enthält außerdem eine Spreadsheet-Gym-Umgebung für mehrschrittiges RL: Spreadsheet Gym legt umfangreiche Excel-Funktionen über eine Python-Sandbox offen, zusammen mit einem verfeinerten Rahmenwerk, das einen umfassenden Werkzeugsatz und sorgfältig entworfene Werkzeug-Routing-Regeln für Tabellenkalkulationsaufgaben beinhaltet. Durch umfassende Experimente zeigen wir, dass Spreadsheet-RL die Leistung von KI-Agenten sowohl bei allgemeinen als auch bei domänenspezifischen Tabellenkalkulationsaufgaben erheblich verbessert: Es steigert den Pass@1 von Qwen3-4B-Thinking-2507 auf SpreadsheetBench von 12,0 % auf 23,4 % und erhöht den Pass@1 auf unserem kuratierten Domain-Spreadsheet-Datensatz von 8,4 % auf 17,2 %. Diese Ergebnisse unterstreichen das starke Potenzial von Spreadsheet-RL für die Generalisierung und den Einsatz in der realen Tabellenkalkulationsautomatisierung sowie allgemein seine vielversprechende Rolle bei der Weiterentwicklung LLM-basierter Interaktionen mit Datenschnittstellen im Arbeitsalltag.
Autoregressive Videodiffusionsmodelle haben eine echtzeitfähige, aktionskonditionierte Welterzeugung ermöglicht. Allerdings bleibt die Aufrechterhaltung einer persistenten Welt, in der das erneute Aufsuchen eines zuvor gesehenen Blickwinkels konsistente Inhalte liefert, ein offenes Problem. Die vollständige KV-Cache-Attention bewahrt diese Konsistenz, verletzt jedoch die Echtzeitanforderungen: Der Speicherbedarf und die Attention-Kosten wachsen linear mit der Rollout-Länge. Die Gleitfenster-Inferenz stellt den Durchsatz wieder her, gibt aber die Langzeitkonsistenz auf. Wir stellen WorldKV vor, ein trainingsfreies Framework mit zwei Komponenten: World Retrieval und World Compression. World Retrieval speichert entfernte KV-Cache-Blöcke im GPU-/CPU-Speicher und ruft szenenrelevante Blöcke selektiv über eine Kamera-/Aktionskorrespondenz ab, um sie ohne Neukodierung wieder in das native Attention-Fenster einzufügen. World Compression entfernt redundante Tokens innerhalb jedes Blocks durch Key-Key-Ähnlichkeit zu einem Ankerframe, halbiert den Speicher pro Block und ermöglicht so die Unterbringung der doppelten Historie innerhalb eines festen Budgets. Auf Matrix-Game-2.0 und LingBot-World-Fast erreicht oder übertrifft WorldKV die Speichertreue des vollständigen KV-Caches bei etwa dem doppelten Durchsatz und ist konkurrenzfähig mit speichertrainierten Baselines, ohne dass ein Feintuning erforderlich ist. Projektseite: https://cvlab-kaist.github.io/WorldKV/
Künstliche Intelligenz (KI) wird zunehmend in wissenschaftliche Entdeckungen eingebettet, doch ob sie wissenschaftlichen Fortschritt vorhersagen kann, bleibt unklar. Um diese Frage zu untersuchen, führen wir einen zeitlich verankerten Bewertungsrahmen zur Vorhersage wissenschaftlichen Fortschritts unter kontrollierten Wissensbeschränkungen ein. Wir stellen CUSP (Cutoff-conditioned Unseen Scientific Progress) vor, einen multidisziplinären und ereignisbasierten Benchmark, der wissenschaftliche Vorhersagen in KI-Systemen durch Machbarkeitsbewertung, mechanistisches Denken, generatives Lösungsdesign und zeitliche Vorhersage bewertet. Über 4.760 wissenschaftliche Ereignisse hinweg beobachten wir systematische und bereichsabhängige Einschränkungen in aktuellen Spitzenmodellen. Während Modelle plausible Forschungsrichtungen aus konkurrierenden Kandidaten identifizieren können, sind sie nicht in der Lage, zuverlässig vorherzusagen, ob wissenschaftliche Fortschritte realisiert werden, und schätzen systematisch falsch ein, wann sie eintreten werden. Die Leistung ist über die Bereiche hinweg sehr heterogen, wobei der Zeitpunkt des KI-Fortschritts vorhersagbarer ist als Fortschritte in Biologie, Chemie und Physik. Die Leistung ist weitgehend unempfindlich gegenüber der Frage, ob Ereignisse vor oder nach dem Trainings-Cutoff auftreten, was darauf hindeutet, dass diese Einschränkungen nicht allein durch die Wissensexposition in den Trainingsdaten erklärt werden können. Unter kontrolliertem Informationszugang verbessert zusätzliches Vor-Cutoff-Wissen die Leistung, schließt jedoch die Lücke zu Vollinformationsumgebungen nicht, die bei hochzitierten Fortschritten stärker ausgeprägt ist. Modelle zeigen zudem systematische Überconfidence und starke Antwortverzerrungen, was auf eine unzuverlässige Unsicherheitsschätzung hindeutet. Insgesamt bleiben aktuelle KI-Systeme als Vorhersagewerkzeuge für wissenschaftlichen Fortschritt hinter den Erwartungen zurück. Der Zugang zu Vorwissen führt nicht zu zuverlässigen Vorhersagen, und die Leistung profitiert mehr von Informationen nach dem Ereignis als von zukunftsgerichteter Vorhersage.
Diffusions-Transformer (DiTs) haben sich als dominante Architektur für die Text-zu-Bild-Generierung etabliert, jedoch sinkt ihre Leistung bei der Erzeugung von Auflösungen jenseits des Trainingsbereichs. Bestehende trainingsfreie Ansätze mildern dies durch Modifikation des Inferenz-Aufmerksamkeitsverhaltens, häufig mittels Extrapolation der Rotary Position Embeddings (RoPE) in Kombination mit Aufmerksamkeitsskalierung. Allerdings wenden diese Strategien eine gleichmäßige und inhaltsunabhängige Skalierung auf RoPE-Komponenten mit unterschiedlichen Frequenzcharakteristiken an, was zu einem Zielkonflikt zwischen der Bewahrung globaler Struktur und der Wiederherstellung feiner Details führt. Wir stellen SEGA vor, eine trainingsfreie Methode, die die Aufmerksamkeit über RoPE-Komponenten hinweg dynamisch entsprechend der räumlich-frequentiellen Struktur der latenten Repräsentation in jedem Entrauschungsschritt skaliert. Diese adaptive Skalierung verbessert sowohl die strukturelle Kohärenz als auch die Detailtreue. Experimente zeigen, dass SEGA die hochauflösende Synthese über mehrere Zielauflösungen hinweg konsistent verbessert und dabei die modernsten trainingsfreien Basislinien übertrifft.
Robustes Training und Validierung von Autonomen Fahrsystemen (ADS) erfordern massive, vielfältige Datensätze. Proprietäre Daten, die von Flotten autonomer Fahrzeuge (AV) erfasst werden, sind zwar von hoher Genauigkeit, jedoch in Bezug auf Umfang, Vielfalt der Sensorkonfigurationen sowie geografische Abdeckung und Abdeckung von seltenen Verhaltensweisen (Long-Tail-Verhalten) begrenzt. Im Gegensatz dazu bieten In-the-Wild-Daten aus Quellen wie Dashcams einen enormen Umfang und eine große Vielfalt, da sie kritische Long-Tail-Szenarien und neuartige Umgebungen erfassen. Allerdings sind diese unstrukturierten In-the-Wild-Videodaten nicht kompatibel mit ADS, die für Validierung und Training strukturierte, multimodale Sensoreingaben erwarten. Um diese Datenlücke zu schließen, schlagen wir Sensor2Sensor vor, ein neuartiges generatives Modellierungsparadigma, das In-the-Wild-Monokular-Dashcam-Videos in einen hochgenauen, multimodalen Sensorsatz (AV-Logs) übersetzt, der Multiview-Kamerabilder und LiDAR-Punktwolken umfasst. Eine zentrale Herausforderung ist das Fehlen gepaarter Trainingsdaten. Wir adressieren dies, indem wir reale AV-Logs durch 4D-Gaussian-Splatting-Rekonstruktion (4DGS) und Novel-View-Rendering in Dashcam-ähnliche Videos umwandeln. Sensor2Sensor nutzt dann eine Diffusionsarchitektur zur Durchführung der generativen Konvertierung. Wir führen umfassende quantitative Bewertungen der Genauigkeit und Realitätsnähe der generierten Sensordaten durch. Wir demonstrieren den praktischen Nutzen von Sensor2Sensor, indem wir anspruchsvolles Internet- und Dashcam-Material aus der realen Welt in realistische, multimodale Datenformate konvertieren und so riesige externe Datenquellen für die AV-Entwicklung erschließen.
Die Erweiterung des Generierungshorizonts von Videodiffusionsmodellen auf lange Sequenzen bleibt eine langjährige und wichtige Herausforderung. Bestehende trainingsfreie Ansätze fallen in zwei Kategorien: Erweiterungen bidirektionaler Modelle, die eng an spezifische Architekturen gebunden sind und über lange Horizonte hinweg unter Qualitätsverschlechterung leiden, sowie autoregressive Modelle, die aufgrund von Exposure Bias Driftfehler akkumulieren und tendenziell sich wiederholende Bewegungsmuster erzeugen. Um diese Probleme zu adressieren, schlagen wir einen neuartigen, aber einfachen Inferenzansatz zur Generierung langer Videos vor, der architekturunabhängig ist und kein zusätzliches Training erfordert. Unsere Methode erzeugt lange Videos mittels überlappender gleitender Fenster, wobei vorhergesagte saubere Stichproben benachbarter Fenster durch Tweedie-Matching gemischt werden, um sowohl die Mannigfaltigkeitsbedingung als auch die zeitliche Konsistenz über Überlappungsbereiche hinweg zu gewährleisten. Stochastisches Frühphasen-Sampling synchronisiert anschließend die Trajektorien der einzelnen Fenster, indem nach jeder Tweedie-Matching-Korrektur in der Hochrauschphase frisches Rauschen injiziert wird, bevor zu deterministischem ODE-Sampling übergegangen wird, um eine feinkörnige visuelle Wiedergabetreue zu bewahren. Angewandt auf verschiedene Videogenerierungsmodelle erzeugt unsere Methode Videos, die um ein Vielfaches länger sind als die native Fensterlänge, und übertrifft dabei sowohl trainingsfreie als auch autoregressive Basislinien in zeitlicher Konsistenz und visueller Qualität. Darüber hinaus lässt sich die Methode ohne jegliches Feintuning auf die gemeinsame Audio-Video-Generierung sowie auf Text-zu-3DGS erweitern.
Multimodale große Sprachmodelle (MLLMs) haben rapide Fortschritte in der räumlichen Intelligenz gemacht, doch bestehende Benchmarks für räumliches Denken gehen weitgehend von makellosen visuellen Eingaben aus und übersehen die Beeinträchtigungen, die im realen Einsatz häufig auftreten, wie Bewegungsunschärfe, schwaches Licht, widrige Wetterbedingungen, Linsenverzerrung und Kompressionsartefakte. Dies wirft eine grundlegende Frage auf: Wie robust ist die räumliche Intelligenz aktueller MLLMs, wenn visuelle Beobachtungen unvollkommen sind? Um diese Frage zu beantworten, stellen wir SpaceDG vor, den ersten groß angelegten Datensatz für beeinträchtigungsbewusstes räumliches Verständnis. Er wurde mit einer physikalisch fundierten Engine zur Synthese von Beeinträchtigungen erstellt, die den Entstehungsprozess von Beeinträchtigungen in das Rendering mit 3D Gaussian Splatting (3DGS) einbettet und so eine realistische Simulation von neun Beeinträchtigungsarten ermöglicht. Der resultierende Datensatz enthält etwa 1 Million Frage-Antwort-Paare aus fast 1.000 Innenraumszenen. Darüber hinaus führen wir SpaceDG-Bench ein, einen von Menschen verifizierten Benchmark mit 1.102 Fragen aus 11 Denkkategorien und 9 visuellen Beeinträchtigungsarten, was über 10.000 VQA-Instanzen ergibt. Die Evaluierung von 25 Open- und Closed-Source-MLLMs zeigt, dass visuelle Beeinträchtigungen das räumliche Denken durchweg und erheblich beeinträchtigen, was eine kritische Robustheitslücke offenlegt. Schließlich zeigen wir, dass das Feintuning auf SpaceDG die Robustheit gegenüber Beeinträchtigungen deutlich verbessert und unter beeinträchtigten Bedingungen sogar die menschliche Leistung übertreffen kann, ohne Einbußen bei sauberen Bildern, was das Potenzial eines beeinträchtigungsbewussten Trainings für robuste räumliche Intelligenz unterstreicht.
Die Verbreitung großer Sprachmodelle (LLMs) und modularer Fähigkeiten hat autonome Agenten mit zunehmend leistungsfähigeren Fähigkeiten ausgestattet. Bestehende Frameworks verlassen sich typischerweise auf monolithische LLMs und feste Logik, um mit diesen Fähigkeiten zu interagieren. Dies führt zu einem kritischen Engpass: Verschiedene LLMs bieten in unterschiedlichen Bereichen deutliche Vorteile, doch aktuelle Frameworks nutzen die komplementären Stärken von Modellen und Fähigkeiten nicht aus, was ihre Leistung bei nachgelagerten Aufgaben einschränkt. In diesem Paper stellen wir Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration) vor, einen durch Reinforcement Learning (RL) gesteuerten Orchestrierungsrahmen, der heterogene multimodale Aufgaben als sequentiellen Entscheidungsprozess über ein hierarchisches Modell-Fähigkeiten-Register auffasst. Anstatt alles Wissen in einem einzigen Modell zu bündeln, trainiert Maestro eine leichtgewichtige Policy, um dynamisch Ensembles aus eingefrorenen Expertenmodellen und einer zweistufigen Fähigkeitsbibliothek zu komponieren. Dabei wird bei jedem Schritt entschieden, ob ein externer Experte aufgerufen werden soll, welches Modell-Fähigkeiten-Paar auszuwählen ist und wann die Interaktion beendet wird. Die Policy wird mittels ergebnisbasiertem RL optimiert, das keine schrittweise Überwachung erfordert. Wir evaluieren Maestro anhand von zehn repräsentativen multimodalen Benchmarks, die mathematisches Denken, Diagrammverständnis, hochauflösende Wahrnehmung und domänenspezifische Analysen abdecken. Mit einem nur 4B großen Orchestrator erreicht Maestro eine durchschnittliche Genauigkeit von 70,1 % und übertrifft damit sowohl GPT-5 (69,3 %) als auch Gemini-2.5-Pro (68,7 %). Entscheidend ist, dass die erlernte Koordinationspolitik ohne Nachtraining auf unbekannte Modelle und Fähigkeiten generalisiert: Die Erweiterung des Registers mit domänenfremden Experten ergibt einen Durchschnitt von 59,5 % bei vier anspruchsvollen Benchmarks und übertrifft damit alle proprietären Baselines. Maestro behält zudem eine hohe Recheneffizienz bei niedriger Latenz. Der Quellcode ist verfügbar unter https://github.com/jinyangwu/Maestro.
Autoregressive Video-Diffusionsmodelle (ARVDs) haben sich als vielversprechende Architektur für die Erzeugung von Streaming-Videos etabliert und ebnen den Weg für interaktive Echtzeit-Videogenerierung und Weltmodellierung. Trotz ihres Potenzials bleiben die erheblichen Inferenzkosten von ARVDs ein Haupthindernis für den praktischen Einsatz, was die Modellquantisierung als naheliegenden Ansatz zur Effizienzsteigerung erscheinen lässt. Allerdings ist die Quantisierung von ARVDs bislang weitgehend unerforscht. Unsere empirische Analyse zeigt, dass die direkte Anwendung bestehender Quantisierungsverfahren, die für Standard-Diffusionstransformatoren entwickelt wurden, auf ARVDs zu suboptimaler Leistung führt und dabei Quantisierungsverhalten offenbart, das sich von dem in bidirektionalen Diffusionsmodellen beobachteten unterscheidet. In diesem Artikel identifizieren wir zwei kritische Herausforderungen bei der Quantisierung von ARVDs: (C1) Hochgradig ungleichgewichtete frame-bezogene Quantisierungsempfindlichkeit. Fehlerakkumulation während der autoregressiven Erzeugung kann eine stark verzerrte Quantisierungsempfindlichkeit über Frames hinweg hervorrufen, die einem exponentiell abklingenden Muster folgt. (C2) Ausgeprägte und heterogene Ausreißermuster in Gewichten. Gewichtsverteilungen weisen ausgeprägte Ausreißerkanäle auf, deren Muster je nach Schichttyp und Blocktiefe erheblich variieren. Um diese Probleme zu adressieren, schlagen wir Q-ARVD vor, ein neuartiges Framework für die präzise Quantisierung von ARVDs. (S1) Zur Bewältigung der hochgradig ungleichgewichteten frame-bezogenen Empfindlichkeit integriert Q-ARVD einen auf die endgültige Qualität ausgerichteten Frame-Gewichtungsmechanismus in das Quantisierungsziel. (S2) Um zu verhindern, dass heterogene Ausreißer die Leistung beeinträchtigen, führt Q-ARVD eine ausreißerbewusste adaptive Dual-Skalen-Quantisierung ein, die das Vorhandensein und die Anzahl von Ausreißerkanälen für eine beliebige Schicht automatisch erkennt und diese isoliert, um normale Kanäle zu schützen. Umfangreiche Experimente belegen die Überlegenheit von Q-ARVD.
Prozess-Belohnungsmodelle (PRMs) sind ein leistungsfähiger Mechanismus zur Steuerung des Reasoning großer Sprachmodelle, indem sie eine feinkörnige Überwachung auf Schritt-Ebene bieten. Diese Effektivität geht jedoch mit erheblichen Kosten einher: PRMs erfordern Expertenannotationen für jeden einzelnen Reasoning-Schritt, was sie teuer und schwer skalierbar macht. Hier schlagen wir eine Methode zum Training unüberwachter PRMs (uPRM) vor, die keinerlei menschliche Überwachung benötigt – weder auf der Ebene von Schritt-für-Schritt-Annotationen noch durch die Verifikation von endgültigen Antworten mittels Ground Truth. Die Kernidee unseres Ansatzes besteht darin, eine Bewertungsfunktion zu definieren, die aus den nächste-Token-Wahrscheinlichkeiten von LLMs abgeleitet wird und gemeinsam Kandidatenpositionen für die ersten fehlerhaften Schritte über einen Stapel von Reasoning-Trajektorien hinweg beurteilt. Wir demonstrieren die Wirksamkeit von uPRM in verschiedenen Szenarien: (i) uPRM erzielt absolute Verbesserungen von bis zu 15% gegenüber dem LLM-as-a-Judge bei der Identifizierung erster fehlerhafter Schritte im ProcessBench-Datensatz; (ii) als Verifikator für die Skalierung zur Testzeit schneidet uPRM vergleichbar mit überwachten PRMs ab und übertrifft die Mehrheitsabstimmungs-Baseline um bis zu 6,9%; (iii) als Belohnungssignal im Reinforcement Learning ermöglicht uPRM eine robustere Politikoptimierung während des gesamten Trainings im Vergleich zu einem überwachten PRM, das mit Ground-Truth-Labeln trainiert wurde. Insgesamt eröffnen unsere Ergebnisse einen Weg zu skalierbarem Belohnungsmodellieren für komplexe Reasoning-Aufgaben.
Lineare Aufmerksamkeit ersetzt den unbegrenzten Cache der Softmax-Aufmerksamkeit durch einen rekurrenten Zustand fester Größe, wodurch das Sequenzmischen auf lineare Zeit und das Dekodieren auf konstanten Speicher reduziert wird. Der schwierige Teil ist nicht nur, was vergessen werden soll, sondern wie dieser komprimierte Speicher bearbeitet werden kann, ohne bestehende Assoziationen zu stören. Delta-Regel-Modelle subtrahieren den aktuellen Lesevorgang, bevor ein neuer Wert geschrieben wird, und Kimi Delta Attention (KDA) verschärft das Vergessen mit kanalweisem Zerfall. Aber die aktive Bearbeitung verwendet immer noch ein einzelnes skalares Gate, um zwei verschiedene Dinge zu steuern: wie viel alter Inhalt auf der Schlüsselseite gelöscht werden soll und wie viel neuer Inhalt auf der Wertseite festgeschrieben werden soll. Wir stellen Gated DeltaNet-2 vor, das sowohl Gated DeltaNet als auch KDA verallgemeinert, indem es adaptives Vergessen und kanalweisen Zerfall erbt, während es deren gemeinsame Einschränkung, die skalare Verknüpfung zwischen Löschen und Schreiben, behebt. Gated Delta Rule-2 trennt diese Rollen mit einem kanalweisen Lösch-Gate b_t und einem kanalweisen Schreib-Gate w_t, was auf KDA reduziert wird, wenn beide Gates auf denselben Skalar zusammenfallen, und auf Gated DeltaNet, wenn auch der Zerfall zusammenfällt. Wir leiten eine Sichtweise der schnellen Gewichtsaktualisierung ab, einen chunkweisen WY-Algorithmus mit kanalweisem Zerfall, der in asymmetrische Löschfaktoren absorbiert wird, und einen gatebewussten Rückwärtsdurchlauf, der ein effizientes paralleles Training bewahrt. Mit 1,3 Milliarden Parametern, trainiert auf 100 Milliarden FineWeb-Edu-Tokens, erzielt Gated DeltaNet-2 die insgesamt stärksten Ergebnisse unter den Varianten von Mamba-2, Gated DeltaNet, KDA und Mamba-3 in den Bereichen Sprachmodellierung, Common-Sense-Schlussfolgern und Informationsabruf. Sein Vorteil zeigt sich am deutlichsten bei den Long-Context-RULER-Nadel-im-Heuhaufen-Benchmarks, wo es die evaluierte Multi-Key-Retrieval-Einstellung verbessert und sowohl in rekurrenten als auch hybriden Einstellungen stark bleibt. Der Code ist verfügbar unter https://github.com/NVlabs/GatedDeltaNet-2.
Offene Bildgenerierung ist kein reines Prompt-zu-Bild-Problem mehr. Hochwertige Generierung erfordert oft einen Agenten, der die internen Generierungsfähigkeiten eines Modells mit externen Ressourcen kombiniert. Da die Anforderungen vielfältiger und anspruchsvoller werden, streben wir die Entwicklung eines allgemeinen Bildgenerierungsagenten an, der sich durch Trajektorien selbst weiterentwickeln und Werkzeuge über verschiedene Generierungsherausforderungen hinweg effektiver einsetzen kann. Zu diesem Zweck schlagen wir GenEvolve vor, ein selbstentwickelndes Framework auf Basis der Werkzeug-orchestrierten Destillation visueller Erfahrungen. In GenEvolve wird jeder Generierungsversuch als eine werkzeug-orchestrierte Trajektorie modelliert, bei der der Agent Beweise sammelt, Referenzen auswählt, Generierungsfähigkeiten aufruft und sie zu einem Prompt-Referenz-Programm zusammenstellt. Im Gegensatz zu bestehenden agentenbasierten Generierungsmethoden, die hauptsächlich auf skalaren Belohnungen auf Bildebene basieren, vergleicht GenEvolve mehrere Trajektorien für dieselbe Anfrage und abstrahiert die besten-schlechtesten Unterschiede in strukturierte visuelle Erfahrungen, die nur einem privilegierten Lehrerzweig bereitgestellt werden. Inspiriert von der On-Policy-Selbstdestillation bietet die Destillation visueller Erfahrungen eine dichte Überwachung auf Token-Ebene, die dem Schüler hilft, bessere Suche, Wissensaktivierung, Referenzauswahl und Prompt-Konstruktion zu verinnerlichen. Wir erstellen außerdem GenEvolve-Data und GenEvolve-Bench. Experimente auf öffentlichen Benchmarks und GenEvolve-Bench zeigen erhebliche Verbesserungen gegenüber starken Baselines und erzielen eine Spitzenleistung unter den aktuellen Bildgenerierungsframeworks. Unsere Website lautet wie folgt: https://ephemeral182.github.io/GenEvolve/
LLMs werden weitgehend in der Produktion eingesetzt und treiben Inferenzsysteme an ihre Grenzen. Das disaggregierte LLM Serving (z.B. PD-Trennung und KV-Zustandsdisaggregation) verbessert die Skalierbarkeit und Kosteneffizienz, macht KV jedoch zu einer expliziten Nutzlast, die Netz- und Speichergrenzen überschreitet, wodurch KV zu einem dominanten Ende-zu-Ende-Engpass wird. Existierende KV-Komprimierungen sind typischerweise statische Laufzeitkonfigurationen, obwohl der Produktionsdienstkontext je nach Arbeitslastmischung, Bandbreite und SLO/Qualitätsbudgets über die Zeit variiert. Infolgedessen kann eine feste Wahl suboptimal sein oder sogar die Latenz erhöhen. Wir stellen \emph{KVServe} vor, das erste servicebewusste und adaptive KV-Kommunikationskomprimierungsframework für disaggregiertes LLM Serving: KVServe (1) vereinheitlicht die KV-Komprimierung in einen modularen Strategieraum mit neuen Komponenten und methodenübergreifender Rekomposition; (2) führt eine Bayes'sche Profiling-Engine ein, die diesen Raum effizient durchsucht und einen 3D-Pareto-Kandidatensatz destilliert, wodurch der Offline-Suchaufwand um das $50\times$ reduziert wird; und (3) setzt einen servicebewussten Online-Controller ein, der ein analytisches Latenzmodell mit einem leichtgewichtigen Banditen kombiniert, um Profile unter Nebenbedingungen auszuwählen und das Offline-zu-Online-Mismatch zu korrigieren. Integriert in vLLM und evaluiert über Datensätze, Modelle, GPUs und Netzwerke hinweg, erreicht KVServe eine bis zu $9,13\times$ schnellere JCT im PD-getrennten Serving und eine bis zu $32,8\times$ geringere TTFT im KV-disaggregierten Serving.
Fortschritte in der Entwicklung von Sprachmodellen werden oft durch vergleichende Entscheidungen vorangetrieben: welche Architektur man verwenden, welches Vortrainingskorpus man nutzen oder welches Trainingsrezept man anwenden soll. Diese Entscheidungen gut zu treffen, erfordert zuverlässige Leistungsprognosen, doch die beiden üblicherweise verwendeten Signale sind grundlegend eingeschränkt. Der Kreuzentropieverlust ist schlecht mit den nachgelagerten Fähigkeiten abgestimmt, und die direkte nachgelagerte Evaluierung ist teuer, spärlich und in frühen Trainingsstadien oft wenig aussagekräftig. Stattdessen schlagen wir vor, Proxy-Metriken zu konstruieren, indem wir token-basierte Statistiken wie Entropie, Top-k-Genauigkeit und Experten-Token-Rang aus der Nächster-Token-Verteilung eines Kandidatenmodells über von Experten geschriebene Lösungen aggregieren. In drei Szenarien übertreffen unsere Proxys konsistent die auf Verlust und Rechenaufwand basierenden Baselines: 1) Bei der modellübergreifenden Auswahl bewerten sie eine heterogene Population von Reasoning-Modellen mit einem mittleren Spearman-Rho von 0,81 (vs. Rho = 0,36 für den Kreuzentropieverlust); 2) Bei der Auswahl von Vortrainingsdaten bewerten sie zuverlässig 25 Kandidatenkorpora für ein Zielmodell mit etwa 10.000-mal weniger Rechenaufwand als direkte Evaluierung und verschieben die Pareto-Grenze über bestehende Methoden hinaus; und 3) Bei der Vorhersage während des Trainings extrapolieren sie die nachgelagerte Genauigkeit über einen 18-fachen Rechenhorizont mit etwa der Hälfte des Fehlers bestehender Alternativen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass Experten-Trajektorien eine breit nutzbare Signalquelle zur Bewertung von Modellfähigkeiten darstellen und zuverlässige Leistungsprognosen während des gesamten Modellentwicklungszyklus ermöglichen.
Bestehende Ansätze zur Produktion digitaler Kurzdramen basieren typischerweise auf einmalig von LLMs generierten Drehbüchern und lose gekoppelten Pipelines, die drei wesentliche Anforderungen der Kurzdramen-Generierung nicht erfüllen: (1) Erzähltempo, was zu schwachen Spannungsbögen, unzureichender Steigerung und unattraktiven Enden führt; (2) räumliche Konsistenz, die zu driftenden Szenenlayouts und inkonsistenten Figurenpositionen über einzelne Clips hinweg führt; und (3) produktionsreife Qualitätskontrolle, die umfangreiche manuelle Überprüfungen und Korrekturen in den Drehbuch- und visuellen Phasen erfordert. Wir präsentieren *One Sentence, One Drama*, ein hierarchisches Multi-Agenten-Framework, das die Ein-Satz-Idee eines Nutzers durch strukturierte Zwischenmodule und iterative Verfeinerung in ein vollständig produziertes Kurzdrama verwandelt. Unser Ansatz basiert auf drei Schlüsselkomponenten: (1) einem auf Multi-Agenten-Debatten basierenden Geschichtengenerierungsmodul, das das Erzähltempo und die narrative Kohärenz von Kurzdramen sicherstellt; (2) einem 3D-gestützten Erstbildgenerierungsmechanismus, der eine gemeinsame räumliche Referenz für konsistente Figurenpositionierung und Szenenlayouts über Clips hinweg etabliert; und (3) mehrstufigen Prüfschleifen, die eine umfassende Fehlererkennung und gezielte Überarbeitung in den Drehbuch-, visuellen und Videogenerierungsphasen durchführen. Wir führen zudem szenenbezogenes BGM-Matching und Szenenübergangsplanung ein, um das Eintauchen des Publikums zu verbessern. Zur systematischen Evaluierung dieser Aufgabe stellen wir *Short-Drama-Bench* vor, einen Benchmark, der standardmäßige Videoqualitätsmetriken um kurzdramaspezifische Kriterien erweitert. Experimentelle Ergebnisse zeigen, dass unsere Methode bestehende Pipelines in narrativer Qualität, konsistenzübergreifender Konsistenz und Gesamtschauerlebnis deutlich übertrifft.
Große Sprachmodelle (Large Language Models, LLMs) und agentische Systeme haben Potenzial für die klinische Entscheidungsunterstützung gezeigt, doch bestehende Arbeiten gehen weitgehend davon aus, dass Evidenz bereits kuratiert und dem Modell übergeben wurde. Reale klinische Arbeitsabläufe erfordern hingegen, dass Agenten aktiv suchen, iterativ planen und multimodale Evidenz aus heterogenen Quellen synthetisieren. In diesem Beitrag stellen wir ClinSeekAgent vor, ein automatisiertes agentisches Framework zur dynamischen multimodalen Evidenzsuche, das das Paradigma von passivem Evidenzkonsum zu aktivem Evidenzerwerb verschiebt. Ausgehend lediglich von einer klinischen Anfrage und Zugang zu Rohdatenquellen sammelt ClinSeekAgent Evidenz durch Abfragen medizinischer Wissensdatenbanken, Navigieren in rohen elektronischen Patientenakten (EHRs) und Aufrufen medizinischer Bildgebungswerkzeuge; verfeinert seine Hypothesen, während neue Informationen auftauchen; und integriert die gesammelte Evidenz in fundierte klinische Entscheidungen. ClinSeekAgent dient sowohl als Agent zur Inferenzzeit für führende LLMs als auch als Pipeline zur Trainingszeit, um qualitativ hochwertige Agent-Trajektorien in kompakte Open-Source-Modelle zu destillieren. Zur Validierung seiner Effektivität zur Inferenzzeit konstruieren wir ClinSeek-Bench, das Reasoning auf Basis kuratierter Eingaben aus fest vorgewählter Evidenz mit automatisierter Evidenzsuche über rohe klinische Daten paart. Bei rein textbasierten EHR-Aufgaben verbessert ClinSeekAgent Claude Opus 4.6 von 60,0 auf 63,2 im gesamten F1-Wert und MiniMax M2.5 von 43,1 auf 47,3, mit positiven Risikovorhersagegewinnen in 7 von 9 evaluierten Host-Modellen. Bei multimodalen Aufgaben steigert ClinSeekAgent Claude Opus 4.6 von 47,5 auf 62,6 (+15,1); alle evaluierten Modelle verbessern sich in den drei Röntgen-Thorax-bezogenen Aufgabengruppen. Wir validieren ClinSeekAgent weiterhin als Trainingspipeline, indem wir agentische Evidenzsuch-Trajektorien in ClinSeek-35B-A3B destillieren, das einen durchschnittlichen F1-Wert von 34,0 auf dem bestehenden AgentEHR-Bench erreicht, eine Verbesserung um +11,9 Punkte gegenüber seiner Qwen3.5-35B-A3B-Baseline und eine Annäherung an Claude Opus 4.6.
Während die meisten Frames in langformatigen Videos redundant sind, liegt die entscheidende Information in temporalen Überraschungen: Momenten, in denen die tatsächlichen visuellen Merkmale von ihrer vorhergesagten Entwicklung abweichen. Inspiriert von der prädiktiven Kodierung des menschlichen Gehirns stellen wir Swift Sampling vor, einen eleganten, trainingsfreien Frame-Auswahlalgorithmus, der automatisch Momente mit hohem Informationsgehalt in einem Video identifiziert. Konkret modellieren wir ein Video als differenzierbare Trajektorie im visuellen latenten Raum und berechnen die Geschwindigkeit und Beschleunigung seiner Merkmale. Anschließend wenden wir die Taylor-Entwicklung an, um den erwarteten Verlauf nachfolgender Frames zu projizieren. Frames, die stark von dieser vorhergesagten Mannigfaltigkeit abweichen, werden als temporal überraschende Frames identifiziert und zur Stichprobenentnahme ausgewählt. Im Gegensatz zu früheren trainingsfreien Methoden, die auf Hilfsnetzwerken oder videospezifischer Hyperparameter-Abstimmung beruhen, ist Swift Sampling äußerst leichtgewichtig und verursacht nur einen zusätzlichen Rechenaufwand von 0,02x gegenüber der Basismethode, was einer 30-mal geringeren Kostensteigerung im Vergleich zu führenden Basislinien entspricht. In drei Benchmarks für Langvideo-Frage-Antwort-Aufgaben und 10 verschiedenen nachgelagerten Aufgaben übertrifft Swift Sampling sowohl gleichmäßige Stichprobenentnahme als auch frühere abfrageagnostische Basislinien. Besonders wirkungsvoll ist es bei langen Videos mit begrenztem Frame-Budget, wo es die Genauigkeit um bis zu +12,5 Prozentpunkte verbessert.
Modellkarten beschreiben das Modellverhalten durch eine Mischung aus Textbeschreibungen und strukturierten Artefakten, darunter Leistungs-, Konfigurations- und Datensatztabellen. Bestehende Modellsuchsysteme stützen sich vorwiegend auf semantische Ähnlichkeit über Text, was zu homogenen Ergebnismengen führen und die Erkundung von Alternativen einschränken kann. Wir argumentieren, dass die Modellsuche inhärent vergleichend ist: Nutzer wünschen Modelle, die aufgabenorientiert, aber in messbarer Weise differenziert sind. Wir stellen die Hypothese auf, dass dieses Gleichgewicht einen Abruf über komprimierte, hochwertige Evidenz erfordert – anstelle ausführlicher Beschreibungen – und dass ein Großteil dieser Evidenz in strukturierten Tabellen konzentriert ist. Wir präsentieren StructuredSemanticSearch, ein tabellengesteuertes Modellsuch-Rahmenwerk, das auf dem ModelTables-Benchmark aufbaut. StrukturiertSemanticSearch kombiniert zu einer Abfrage eine semantische Basislinie für Aufgabenausrichtung mit einer strukturbewussten Pipeline, die abfragebezogene Modellkarten-Tabellen mithilfe von Tabellenentdeckungsoperatoren wie Unionierbarkeit, Joinierbarkeit und Stichwortsuche aufspürt. Abgerufene Tabellen werden unter einem kontrollierten Top-k-Budget auf Modellkarten zurückgeführt, was einen fairen Vergleich zwischen textbasiertem und tabellenbasiertem Abruf ermöglicht. Über den Abruf hinaus passt StructuredSemanticSearch die Tabellenintegration an die Modelltabellen-Domäne durch orientierungsbewusste Integration an und erzeugt kompakte integrierte Ansichten von Tabellen aus teilweise überlappenden und manchmal transponierten Evidenztabellen. Zur Evaluierung führen wir ein nuggetbasiertes, auditierbares Protokoll ein, das kompakte Evidenzitems aus Modellkarten extrahiert, Abfragen mit bedingungs- oder absichtsspezifischen Nuggets abgleicht und die Evidenzabdeckung und -diversität über abgerufene Modellkarten-Kandidatensets misst. Dieses Protokoll bietet zudem einen skalierbaren Weg hin zu approximativer, evidenzbasierter Kennzeichnung in dynamischen Modellseen. Experimente mit 597 Modellenpfehlungsanfragen zeigen eine verbesserte Nugget-Abdeckung der strukturbewussten Pipeline gegenüber der semantischen Basislinie.
Wie sollte ein Agent entscheiden, wann und wie er plant? Ein dominanter Ansatz konstruiert Agenten als reaktive Strategien mit adaptiver Berechnung (z. B. Gedankenkette), die Ende-zu-Ende trainiert werden, in der Erwartung, dass Planung implizit entsteht. Ohne Kontrolle über das Vorhandensein, die Struktur oder den Horizont der Planung erhöhen diese Systeme die Länge des Reasoning drastisch, was zu ineffizienter Token-Nutzung ohne zuverlässige Genauigkeitsgewinne führt. Wir argumentieren, dass effizientes agentisches Reasoning von der Zerlegung der Entscheidungsfindung in drei Systeme profitiert: Simulatives Denken (System II), das die deliberation in der Vorhersage zukünftiger Zustände mittels eines Weltmodells verankert; Selbstregulation (System III), die mithilfe eines gelernten Konfigurators entscheidet, wann und wie tief geplant werden soll; und reaktive Ausführung (System I), die feingranulare Aktionen übernimmt. Simulatives Denken bietet eine einheitliche Planung über verschiedene Aufgaben hinweg ohne domänenspezifische Entwicklung, während die Selbstregulation sicherstellt, dass der Planer nur bei Bedarf aufgerufen wird. Um dies zu testen, entwickeln wir SR²AM (Self-Regulated Simulative Reasoning Agentic LLM), das beide als separate Phasen innerhalb der Gedankenkette eines LLM realisiert, wobei das LLM als Weltmodell fungiert. Wir untersuchen zwei Instanziierungen: Aufzeichnung von Entscheidungen eines per Prompting gesteuerten Multi-Modul-Systems (v0.1) und Rekonstruktion strukturierter Pläne aus Spuren vortrainierter Reasoning-LLMs (v1.0), trainiert durch überwachtes Lernen und anschließendes Verstärkungslernen (RL). In den Bereichen Mathematik, Naturwissenschaften, Tabellenanalyse und Websuche erreichen v0.1-8B und v1.0-30B Pass@1, das mit Systemen mit 120-355B bzw. 685B-1T Parametern konkurrieren kann, während v1.0-30B 25,8-95,3 % weniger Reasoning-Tokens als vergleichbare agentische LLMs verwendet. RL erhöht den durchschnittlichen Planungshorizont um 22,8 %, während die Planungsfrequenz nur um 2,0 % steigt, was zeigt, dass es lernt, weiter im Voraus zu planen, anstatt häufiger zu planen. Allgemeiner gesagt, verkörpert erlernte Selbstregulation ein Prinzip, von dem wir erwarten, dass es über die Planung hinaus auf die Art und Weise ausgedehnt wird, wie Agenten ihr eigenes Lernen und ihre Anpassung steuern.
Herkömmliche Methoden der visuellen Objektverfolgung (VOT) stützen sich typischerweise auf aufgabenspezifisches überwachtes Training, was ihre Generalisierbarkeit auf ungesehene Objekte und anspruchsvolle Szenarien mit Störfaktoren, Okklusion und nichtlinearer Bewegung einschränkt. Aktuelle visuelle Grundlagenmodelle, wie beispielsweise SAM 2, lernen durch großangelegtes Vortraining starke Prioritäten für das Videoverständnis und bieten eine vielversprechende Grundlage für die Entwicklung robusterer und generalisierbarer Tracker. Allerdings bleibt die direkte Anwendung von SAM 2 auf die VOT suboptimal, da es die Dynamik der Zielbewegung nicht explizit modelliert und keine geometrische und semantische Konsistenz zwischen den Bildern erzwingt, beides wesentliche Voraussetzungen für zuverlässiges Tracking. Um dieses Problem zu lösen, schlagen wir SAMOSA vor, ein neues Tracking-Framework, das SAM 2 an komplexe VOT-Szenarien anpasst, indem es explizit Bewegungs-, Geometrie- und semantische Hinweise nutzt. Konkret führen wir einen leichtgewichtigen nichtlinearen Bewegungsprädiktor ein, um die Zieldynamik zu modellieren und die Maskenauswahl sowie die Speicherfilterung zu steuern. Darüber hinaus nutzen wir semantische Hinweise, um Zielverschiebungen zu erkennen und sich von Tracking-Fehlern zu erholen, während geometrische Hinweise als strukturelle Einschränkungen einbezogen werden, um die Tracking-Stabilität zu verbessern. Auf diese Weise überbrückt SAMOSA die Kluft zwischen der impliziten Priorität des Videoverständnisses von SAM 2 und der expliziten trackingorientierten Modellierung. Umfangreiche Experimente zeigen, dass SAMOSA auf allgemeinen Benchmarks durchweg besser abschneidet als modernste auf SAM 2 basierende Ansätze, eine stärkere Generalisierung als überwachte VOT-Methoden aufweist und auf Anti-UAV-Datensätzen, die typische komplexe nichtlineare Bewegungsszenarien darstellen, erhebliche Verbesserungen erzielt. Unser Code ist verfügbar unter https://github.com/DurYi/SAMOSA.
Multimodale große Sprachmodelle (MLLMs) und Diffusionsmodelle haben jeweils eine bemerkenswerte Reife erreicht: MLLMs zeichnen sich durch logisches Schlussfolgern über heterogene multimodale Eingaben mit starker semantischer Verankerung aus, während Diffusionsmodelle Bilder und Videos mit fotorealistischer Wiedergabetreue synthetisieren. Wir argumentieren, dass diese beiden Familien durch eine einfache Arbeitsteilung vereinheitlicht werden können: MLLMs übernehmen die semantische Planung, während Diffusionsmodelle Pixel auf der Grundlage einer semantischen Anleitung auf hoher Ebene und visueller Merkmale auf niedriger Ebene rendern. Aufbauend auf dieser Idee schlagen wir Bernini vor, ein einheitliches Framework für die Videogenerierung und -bearbeitung. Ein auf MLLM basierender Planer sagt die Ziel-Semantik direkt im ViT-Einbettungsraum vorher, und ein auf DiT basierender Renderer synthetisiert Pixel, die von diesem Plan abhängen, ergänzt durch Textmerkmale und, bei der Bearbeitung, durch Quell-VAE-Merkmale zur Detailerhaltung. Da Semantik als Schnittstelle dient, können Planer und Renderer getrennt trainiert und nur leicht gemeinsam trainiert werden, wodurch die vortrainierten Stärken beider Komponenten erhalten bleiben und das Training effizient bleibt. Um mehrere visuelle Eingaben besser zu verarbeiten, führen wir die segmentbewusste 3D-Rotationspositions-Einbettung (SA-3D RoPE) ein und integrieren außerdem eine Chain-of-Thought-Argumentation im Planer, um das Verständnis besser in die Generierung zu übertragen. Bernini erzielt Spitzenleistungen bei einer Vielzahl von Benchmark-Aufgaben zur Videogenerierung und -bearbeitung, wobei das vortrainierte Verständnis des MLLM in eine starke Generalisierung bei anspruchsvollen Bearbeitungsaufgaben mündet.
Viele öffentliche Gebäude stellen Grundrisse mit einem „Sie sind hier“-Indikator zur Verfügung, um Besuchern die Orientierung zu erleichtern. Die Grundrisslokalisierung zielt darauf ab, diese Fähigkeit rechnerisch zu replizieren, indem bestimmt wird, wo visuelle Aufnahmen innerhalb eines Grundrisses aufgenommen wurden. Bestehende Methoden gehen jedoch typischerweise von kontrollierten, kleinräumigen Umgebungen und präzisen vektorisierten Grundrissen aus, was ihre Anwendbarkeit in großen Gebäuden und bei gerasterten Grundrissen einschränkt. In dieser Arbeit stellen wir einen Ansatz zur Grundrisslokalisierung in freier Wildbahn vor, indem wir die Aufgabe in einer rekonstruierten 3D-Darstellung der Szene verankern. Ausgehend von einer uneingeschränkten Bildsammlung rekonstruiert unsere Methode eine schwerkraftausgerichtete 3D-Szene und projiziert sie in eine 2D-Dichtekarte, die als Grundriss-Proxy dient. Die Grundrisslokalisierung wird dann als Ausrichtung dieses Proxys mit dem Eingabegrundriss mithilfe einer 2D-Ähnlichkeitstransformation formuliert. Um die Erscheinungslücke zwischen Dichtekarten und architektonischen Grundrissen zu überbrücken, passen wir ein 2D-Grundlagenmodell an, um cross-modale Korrespondenzen zu lernen, und führen ein Feinabstimmungsschema ein, das semantisch ausgerichtete Übereinstimmungen fördert und gleichzeitig die strukturelle Konsistenz bewahrt. Umfangreiche Experimente zeigen erhebliche Verbesserungen gegenüber früheren Methoden, auch in extrem dünnbesetzten Szenarien mit lediglich einem einzigen Eingabebild. Unser Code und unsere Daten werden öffentlich verfügbar sein.
Die Ausrichtung von Text-zu-Bild (T2I)-Generierungsmodellen an menschlichen Präferenzen stützt sich zunehmend auf Bildbelohnungsmodelle, die generierte Bilder hinsichtlich Prompt-Kohärenz und Wahrnehmungsqualität bewerten oder einordnen. Existierende Belohnungsmodelle werden üblicherweise als Bradley-Terry (BT)-Präferenzmodelle auf großen, von Menschen annotierten Präferenzkorpora trainiert, was sie kostspielig im Training, schwer anpassbar und undurchsichtig in ihren Bewertungskriterien macht. Gleichzeitig können Vision-Language-Modell (VLM)-Richter durch textuelle Bewertungsrubriken detailliertere Einschätzungen liefern, jedoch spiegeln ihre manuell entworfenen oder heuristisch generierten Bewertungsregeln möglicherweise nicht zuverlässig menschliche Präferenzen wider. In dieser Arbeit schlagen wir AutoRubric-T2I vor, das erste Rubrikenlern-Framework im T2I-Bereich, das automatisch explizite Rubriken zur Führung von VLM-Richtern synthetisiert und auswählt. AutoRubric-T2I synthetisiert zunächst aus Präferenzpaaren Reasoning-Spuren in Kandidatenrubriken und nutzt dann einen VLM-Richter, um gepaarte Bilder unter jeder Rubrik zu bewerten, wodurch paarweise Rubrik-Bewertungsdifferenzen für das Präferenzlernen erzeugt werden. Um verrauschte und redundante Regeln zu entfernen, setzen wir zudem einen \(\ell_1\)-regularisierten logistischen Regressionsverfeinerer ein, der die Top-\(N\) diskriminativsten Rubriken auswählt. Umfangreiche Evaluationen zeigen, dass AutoRubric-T2I mit weniger als 0,01 % der annotierten Präferenzdaten qualitativ hochwertige, interpretierbare Belohnungssignale erzeugt und damit den Bedarf an umfangreichem Training von Belohnungsmodellen erheblich reduziert. Auf Bildbewertungs-Benchmarks wie MMRB2 übertrifft AutoRubric-T2I starke Belohnungsmodell-Baselines. Wir validieren AutoRubric-T2I zudem als RL-Belohnung für nachgelagerte T2I-Aufgaben, darunter TIIF und UniGenBench++, wo es die Generierungsqualität gegenüber skalaren Belohnungsmodellen unter Verwendung der Flow-GRPO-Pipeline auf Diffusionsmodellen verbessert.
Wir präsentieren TerminalWorld, eine skalierbare Daten-Engine, die automatisch aus „In-the-Wild“-Terminalaufzeichnungen hochtreue Evaluierungsaufgaben zurückentwickelt. Durch die Verarbeitung von 80.870 Terminalaufzeichnungen liefert die Engine einen vollständigen Benchmark mit 1.530 validierten Aufgaben, die 18 reale Kategorien abdecken – von kurzen alltäglichen Operationen bis hin zu Arbeitsabläufen mit über 50 Schritten – und 1.280 einzigartige Befehle umfassen. Daraus kuratieren wir einen Verified-Teildatensatz mit 200 repräsentativen, manuell überprüften Aufgaben. Umfassende Benchmarks auf TerminalWorld-Verified mit acht Spitzenmodellen und sechs Agenten zeigen, dass aktuelle Systeme immer noch mit authentischen Terminal-Workflows kämpfen und eine maximale Bestehensquote von nur 62,5 % erreichen. Darüber hinaus erfasst TerminalWorld reale Terminal-Fähigkeiten, die sich von bestehenden, von Experten kuratierten Benchmarks (z. B. Terminal-Bench) unterscheiden, mit nur einer schwachen Korrelation zu deren Ergebnissen (Pearson r = 0,20). Die automatisierte Engine macht TerminalWorld von Natur aus authentisch und skalierbar und ermöglicht es, Agenten in realen Terminal-Umgebungen zu evaluieren, während sich die Entwicklungspraktiken weiterentwickeln. Daten und Code sind verfügbar unter https://github.com/EuniAI/TerminalWorld.
Längsschnittliche klinische Notizen enthalten reichhaltige Belege dafür, wie sich Patienten im Laufe der Zeit entwickeln, aber die Umwandlung dieses Signals in Trainingssupervision für klinische Vorhersagen bleibt herausfordernd. Wir erweitern Foresight Learning auf klinische Vorhersagen, indem wir zeitlich geordnete MIMIC-III-Notizen in Beispiele umwandeln, die aus dem bisherigen Patientenkontext, einer in natürlicher Sprache formulierten Frage zu einem möglichen zukünftigen Ereignis und einer aus späteren Dokumentationen abgeleiteten Kennzeichnung bestehen. Dieser Prozess ergibt 6.900 Vorhersagebeispiele aus 702 Krankenhausaufenthalten, die Medikamente, Verfahren, Organunterstützung, Mikrobiologie und Mortalität abdecken. Ein kleiner LoRA-Adapter, der auf diesen Beispielen trainiert wird, verbessert das zugrunde liegende Modell und reduziert den erwarteten Kalibrierungsfehler von 0,1269 auf 0,0398 sowie den Brier-Score von 0,199 auf 0,145, während er bei zurückgehaltenen Fragen die Punktschätzungen von GPT-5 leicht übertrifft. Der Ansatz ermöglicht wiederverwendbare klinische Vorhersagesupervision aus Längsschnittnotizen ohne manuell entwickelte strukturierte Merkmale oder endpointspezifische Klassifikatoren.
Herstellbare Chip-Layouts müssen Tausende von geometriebasierten Entwurfsregeln erfüllen, und die Entwurfsregelprüfung (DRC) setzt diese durch, indem ausführbare DRC-Skripte auf die Layouts angewendet werden. Die Übersetzung von natürlichsprachlichen Regeln in korrekte DRC-Skripte ist arbeitsintensiv und erfordert spezialisiertes Fachwissen, was den Einsatz von LLM-Agenten für die Synthese und Fehlerbehebung von DRC-Skripten motiviert. Bestehende Benchmarks verfügen jedoch über kleine Evaluierungssets und bewerten Skripte oft anhand der Code-Ähnlichkeit statt der Ausführungskorrektheit. Zudem ignorieren frühere maschinenlernbasierte Methoden entweder das Ausführungsfeedback oder erfordern beschriftete Test-Layouts als Eingabe für den Agenten. Aus diesem Grund stellen wir Rule2DRC vor, einen groß angelegten Benchmark für DRC-Skript-Coding-Agenten mit 1.000 Regel-zu-Skript-Aufgaben und 13.921 Evaluierungs-Chip-Layouts für eine ausführungsbasierte Bewertung. Rule2DRC bietet eine Evaluierungspipeline, die die funktionale Korrektheit anhand der DRC-Ausführungsergebnisse misst, ohne dass Evaluierungs-Layouts als Eingabe für den Agenten erforderlich sind. Wir schlagen außerdem SplitTester vor, einen Tester-Agenten zur Programmauswahl, der Ausführungsfeedback nutzt, um diskriminierende Testfälle zu generieren und zuvor nicht unterscheidbare Kandidatenskripte zu trennen, wodurch die Best-of-N-Auswahlleistung in diesem Bereich erheblich verbessert wird. Den Code veröffentlichen wir unter https://github.com/snu-mllab/Rule2DRC.
Verstärkungslernen aus überprüfbaren Belohnungen (RLVR) hat vielversprechende Ergebnisse für das Reasoning großer Sprachmodelle gezeigt, jedoch ist ergebnisbasiertes RLVR bei schwierigen Problemen ineffizient, da korrekte finale Antwortausführungen selten sind und eine Kreditzuweisung auf Stichprobenebene keine partiellen Fortschritte in fehlgeschlagenen Versuchen nutzen kann. Wir stellen SCRL (Subproblem Curriculum Reinforcement Learning) vor, ein Curriculum-RL-Framework, das aus Referenz-Argumentationsketten überprüfbare Teilprobleme ableitet und das letzte Teilproblem als das ursprüngliche Problem festlegt. Dadurch werden partielle Fortschritte bei schwierigen Problemen in überprüfbare Lernsignale umgewandelt. Algorithmisch verwendet SCRL eine Teilproblem-Normalisierung, die Belohnungen unabhängig an jeder Teilproblemposition normalisiert und die resultierenden Vorteile den entsprechenden Antwortspannen zuweist, was eine feinere Kreditzuweisung ohne externe Bewertungskriterien oder Belohnungsmodelle ermöglicht. Unsere Analyse zeigt, dass Teilproblem-Curricula schwierige Probleme aus Gradienten-Totzonen herausheben, wobei die relativen Gewinne größer sind, je schwieriger das ursprüngliche Problem wird. Über sieben mathematische Reasoning-Benchmarks hinweg übertrifft SCRL starke Curriculum-Learning-Baselines und verbessert die durchschnittliche Genauigkeit im Vergleich zu GRPO um +4,1 Punkte auf Qwen3-4B-Base und um +1,9 Punkte auf Qwen3-14B-Base. Auf AIME24, AIME25 und IMO-Bench verbessert SCRL zudem pass@1 um +3,7 Punkte und pass@64 um +4,6 Punkte auf Qwen3-4B-Base, was auf eine bessere Exploration bei schwierigen Reasoning-Problemen hindeutet.
Da tragbare und mobile Geräte zunehmend im Alltag integriert sind, bieten sie eine praktische Möglichkeit, menschliche Bewegung in der realen Umgebung kontinuierlich zu erfassen. Trägheitssignale sind jedoch stark von der Messanordnung abhängig, einschließlich der Körperposition, der Befestigungsposition, der Sensorausrichtung, der Gerätehardware und des Abtastprotokolls. Diese Anordnungsabhängigkeit erschwert es, Bewegungsdarstellungen zu lernen, die über Geräte und Datensätze hinweg übertragbar sind, und schränkt die breitere Nutzung tragbarer IMUs über die Erkennung in geschlossenen Mengen hinaus ein. Wir stellen AnyMo vor, ein geometriebewusstes Framework für anordnungsunabhängige Modellierung menschlicher Bewegung. AnyMo nutzt eine physikalisch fundierte IMU-Simulation über dichte Platzierungen auf der Körperoberfläche, um vielfältige und plausible synthetische Signale zu erzeugen, trainiert einen Graph-Encoder mit gepaarten synthetischen Platzierungsansichten und maskierten partiellen Beobachtungen vor, tokenisiert IMU-Daten von mehreren Positionen zu Ganzkörper-Bewegungstokens und richtet diese Tokens an einem LLM für das Bewegungs-Sprachverständnis aus. Wir evaluieren AnyMo anhand von drei sich ergänzenden Aufgaben: Null-Schritt-Aktivitätserkennung über 14 unbekannte nachgelagerte Datensätze, modalitätsübergreifendes Retrieval und tragbare IMU-Bewegungsbeschriftung, wobei es die durchschnittliche Genauigkeit/F1/R@2 bei HAR um 11,7 %/11,6 %/22,6 % verbessert, das Null-Schritt-IMU-zu-Text- und Text-zu-IMU-Retrieval (MRR) um 15,9 % bzw. 28,6 % steigert und den Null-Schritt-Beschriftungs-BERT-F1 um 18,8 % erhöht. Diese Ergebnisse stützen AnyMo als generalistisches Modell für das Verständnis tragbarer Bewegung in der realen Umgebung. Projektseite: https://baiyuchen.com/project/AnyMo.
Repräsentations-Autoencoder (RAEs) nutzen eingefrorene visuelle Basismodelle (VFMs) als Tokenizer-Encoder, die robuste hochrangige Repräsentationen liefern und so eine schnelle Konvergenz sowie eine qualitativ hochwertige Generierung in latenten Diffusionsmodellen ermöglichen. Das Einfrieren des VFM schränkt jedoch zwangsläufig dessen räumliche Rekonstruktionsfähigkeit ein, was detailgenaue Generierung und Bildbearbeitung limitiert; eine Integration rekonstruktionsorientierter Signale durch Feinabstimmung stört hingegen den vortrainierten semantischen Raum und beeinträchtigt die generative Wiedergabetreue. Um diese Abwägung zu adressieren, schlagen wir DecQ vor, ein einfaches, aber effektives Framework für RAEs. Konkret führt DecQ leichte detailverdichtende Abfragen ein, die durch Kondensatormodule feinkörnige Informationen aus den Zwischenmerkmalen des VFM extrahieren. Diese Abfragen werden in den Decoder integriert, um die Rekonstruktion zu unterstützen, und während des generativen Modellierens gemeinsam mit den Patch-Token generiert. Durch die Aggregation von Informationen aus sowohl flachen als auch tiefen Schichten mildert DecQ effektiv den Rekonstruktions-Generierungs-Kompromiss und verbessert sowohl die Rekonstruktionsqualität als auch die generative Leistung. Unsere Experimente zeigen: (1) Mit nur 8 zusätzlichen Abfragen und 3,9% mehr Rechenaufwand verbessert DecQ die Rekonstruktion gegenüber dem eingefrorenen DINOv2-basierten RAE und erhöht den PSNR von 19,13 dB auf 22,76 dB; (2) für das generative Modellieren erreicht DecQ eine 3,3-mal schnellere Konvergenz als RAE, mit einem FID von 1,41 ohne Führung und 1,05 mit Führung.
Die Erkennung von Schwartz-Werten in politischen Texten ist schwierig, da implizite Hinweise oft von umgebenden Argumenten und feinen Unterscheidungen zwischen benachbarten Werten abhängen. Wir untersuchen, wann Kontext und explizites moralisches Wissen die Werterkennung auf Satzebene unterstützen. Unter Verwendung des ValuesML/Touché-ValueEval-Formats vergleichen wir Eingaben auf Satz-, Fenster- und Volltextdokumentebene; Einstellungen ohne RAG und mit Retrieval-Augmented unter Nutzung einer kuratierten moralischen Wissensbasis; überwachte DeBERTa-v3-base/large-Encoder; sowie Zero-Shot-LLMs von 12B bis 123B Parametern. Die Ergebnisse zeigen, dass mehr Kontext nicht durchweg besser ist: Volltextkontext verbessert überwachte DeBERTa-Encoder um 3,8–4,8 Makro-F1-Punkte gegenüber reiner Satzeingabe, hilft Zero-Shot-LLMs jedoch nicht konsistent. Abgerufenes moralisches Wissen ist in paarweisen Vergleichen durchweg nützlicher und verbessert bei früher Fusion jede getestete Modellfamilie und Kontextbedingung. Allerdings garantieren Skalierungen von DeBERTa-v3-base zu large und von 12B zu größeren LLMs keine Gewinne, und einfache frühe Fusion übertrifft die getesteten Varianten später Fusion und Cross-Attention RAG für Encoder. Analysen pro Wert zeigen, dass Kontext und Retrieval am meisten für sozial situierte oder konzeptuell verwechselbare Werte helfen. Diese Ergebnisse legen nahe, dass wertsensitive NLP Kontext, Wissen und Modellfamilie gemeinsam bewerten sollte, anstatt längere Eingaben oder größere Modelle als universelle Verbesserungen zu betrachten.
Omni-proaktives Streaming-Videoverständnis – also die autonome Entscheidung, wann und was aus kontinuierlichen audio-visuellen Strömen gesagt werden soll – ist eine aufkommende Fähigkeit omnimodaler großer Sprachmodelle. Bisherige Benchmarks weisen in drei zentralen Aspekten Defizite auf: Sie stützen sich überwiegend auf visuelle Signale, verwenden Polling- oder Festzeitstempel-Protokolle anstelle einer echten proaktiven Bewertung und decken nur eine begrenzte Anzahl von Aufgaben ab, was eine zuverlässige Beurteilung und Differenzierung omniproaktiver Streaming-Modelle verhindert. Wir stellen OmniPro vor, den ersten Benchmark, der gemeinsam die omnimodale Wahrnehmung, proaktive Reaktion und vielfältige Videoverstehensaufgaben evaluiert. Er umfasst 2.700 manuell verifizierte Stichproben aus 9 Teilaufgaben und 3 kognitiven Stufen, die 6 grundlegende Videoverständnisfähigkeiten abdecken. Bemerkenswert ist, dass 84 % der Stichproben Audiosignale (Sprache oder Nicht-Sprache) erfordern, und jede Stichprobe ist mit Modalitätsisolationslabels annotiert, die eine feinkörnige multimodale Analyse ermöglichen. Wir führen zudem ein duales Bewertungsprotokoll ein: Der Probe-Modus bewertet das Inhaltsverständnis, indem das Modell vor und nach jedem Ground-Truth-Trigger abgefragt wird, während der Online-Modus die vollständige proaktive Fähigkeit evaluiert, indem Modelle autonom entscheiden müssen, wann sie bei Streaming-Eingabe antworten. Die Evaluierung von 11 repräsentativen Modellen ergibt drei zentrale Erkenntnisse: (1) Audio bringt konsistente Verbesserungen, wird jedoch von verschiedenen Modellen sehr unterschiedlich genutzt; (2) die Leistung verschlechtert sich mit der Zeit deutlich, was auf eine begrenzte langfristige Robustheit hindeutet; (3) die Wahrnehmung von Nicht-Sprach-Audio bleibt die schwächste Dimension.
Da große Sprachmodelle (LLMs) zunehmend beeinflussen, wie Nutzer ihre Ziele formen, verfeinern und erweitern, wird die Zuschreibung von Beiträgen in der Mensch-KI-Zusammenarbeit für Nutzer, die ihr eigenes Vertrauen kalibrieren, und für Evaluatoren, die KI-gestützte Arbeit bewerten, entscheidend. Doch bestehende Methoden konzentrieren sich auf finale Artefakte und übersehen den Prozess, durch den Ziele selbst gemeinsam geformt werden. Wir stellen ein Attributionsframework auf Zielebene vor, CoTrace, das explizite Ziele in überprüfbare Anforderungen zerlegt und sowohl direkte Beiträge als auch indirekte Einflüsse über Dialogrunden hinweg nachverfolgt. Bei der Anwendung von CoTrace auf 638 reale Kollaborationsprotokolle stellen wir fest, dass Modelle zwar nur 11-26 % des Beitrags zur Zielformung ausmachen, aber wesentlich mehr zur Einführung konkreter Anforderungen auf niedrigerer Ebene beitragen und verschiedene Arten von indirekten Beiträgen leisten. Durch kontrollierte Simulationen zeigen wir, dass Interaktionsdesignentscheidungen das Verhalten von Modellen bei der Zielformung signifikant beeinflussen. In einer Nutzerstudie verschiebt die Konfrontation der Teilnehmer mit Analysen auf Zielebene ihre wahrgenommenen Beiträge um fast 2 Punkte auf einer 5-Punkte-Skala, was eine systematische Fehlkalibrierung in der Art und Weise offenbart, wie Nutzer ihre eigene KI-gestützte Arbeit verstehen.
Wir präsentieren Lean Refactor, ein Plug-and-Play-retrievalgestütztes agentisches Framework für multiobjektive, steuerbare und versionsrobuste Refaktorisierung von Lean-Beweisen. Von LLMs generierte Beweise sind bekanntermaßen zwar korrekt, aber ausführlich und über Bibliotheksversionen hinweg zerbrechlich, während bestehende Refaktorisierungsarbeiten drei praktische Herausforderungen übersehen: 1) Lean-Refaktorisierung ist inhärent multiobjektiv (Beweislänge, Kompilierungskosten und Versionskompatibilität stehen oft im Widerspruch); 2) Lean-Repositorien haben eine fragile Kompatibilität, wohingegen LLM-Veröffentlichungen nichts über Lean-/Mathlib-Versionen wissen; 3) Trainingsbasierte Pipelines erfordern wiederholte Feinabstimmung mit jeder neuen LLM-Version und skalieren weder mit dem Modellwechsel noch mit dem Veröffentlichungszyklus von Lean. Lean Refactor steuert ein eingefrorenes agentisches LLM mit Abfragen aus einer kuratierten Datenbank multiobjektiver Refaktorisierungsstrategien, die jeweils dicht mit Metadaten wie unterstützten Lean-/Mathlib-Versionen und erwarteter Reduzierung der Kompilierungskosten annotiert sind. Experimente zeigen über 70 % Token-Kompression bei Wettbewerbs-Benchmarks, über 20 % bei Forschungsrepositorien und bis zu 60 % Reduzierung der Kompilierungszeit und übertreffen damit frühere Arbeiten und Claude Code. Versionsgefiltertes Retrieval verbessert die Kompression auf die Ziel-Lean-Version weiter, und refaktorisierte miniF2F-Beweise weisen einen stärkeren Zero-Shot-Versionstransfer auf zukünftige Lean-Versionen auf als ihre nicht refaktorisierten Gegenstücke.
Klassenungleichgewicht stellt eine grundlegende Herausforderung in der medizinischen Bildsegmentierung dar, da häufige Klassen typischerweise das Training dominieren, während seltene Klassen benachteiligt werden. Ansätze auf Basis von Verlustfunktionen mildern das Ungleichgewicht durch eine Neugewichtung des pixelweisen Verlusts innerhalb eines Batches, während Abtaststrategien steuern, welche Bilder in den Batch gelangen. Dennoch kontrolliert keiner dieser Ansätze explizit, welche Klassen innerhalb eines Batches vertreten sind, sodass die Präsenz seltener Klassen nur teilweise ausgeglichen wird. In dieser Arbeit übertragen wir das episodische Sampling aus dem Few-Shot-Lernen, um eine klassenbalancierte Batch-Konstruktion in einem vollständig überwachten Setting zu fördern. Wir lösen das episodische Sampling von seinem herkömmlichen kontextuellen metrischen Lernen und evaluieren es in der Segmentierung der Körperzusammensetzung in der Computertomographie. Wir vergleichen episodisches Sampling mit zufälligem und gewichtetem Sampling anhand von neun Muskel- und Fettgeweben, die aus 210 Scans des öffentlichen SAROS-Datensatzes gewonnen wurden. Das Training erfolgt unter Voll- und Wenigdatenbedingungen, mit zusätzlichen Vergleichen unter angepassten Trainingsiterationsbudgets. Unter Volldatentraining zeigten alle drei Strategien vergleichbare Ergebnisse (mittlerer Dice 0,882 für episodisches, 0,878 für zufälliges und gewichtetes Sampling). Unter Wenigdatenbedingungen übertraf das episodische Sampling das zufällige und gewichtete (0,787 vs. 0,758 und 0,762), angetrieben durch einen 12-fachen Unterschied in den Trainingsiterationen. Bei angepassten Budgets überanpassten sich zufälliges und gewichtetes Sampling früher, während das episodische etwa dreimal mehr Iterationen verbesserte, bevor es ein Plateau erreichte. Unsere Ergebnisse identifizieren das Trainingsiterationsbudget als bislang wenig beachteten Störfaktor in Abtaststrategien, was iteratonsbewusste Evaluierungsprotokolle für kleine Datensätze nahelegt. Darüber hinaus ist der verbleibende Vorteil des episodischen Samplings konsistent mit einem impliziten Regularisierungseffekt klassenbalancierter Batches, was eine kostengünstige, modellagnostische Strategie für klassenungleichgewichtete medizinische Bildsegmentierung bietet. Der Code ist verfügbar unter https://github.com/iasonsky/episodic-sampling.
Skalierungsgesetze haben die Leistung von Sprachmodellen aus Modellgröße, Daten und Rechenleistung vorhersagbar gemacht, aber sie behandeln den Optimierer typischerweise als festes Trainingsdetail. Wir zeigen, dass diese Annahme eine grundlegende Achse der Repräsentationsskalierung übersieht: wie effektiv der Optimierer die hinzugefügte FFN-Breite in genutzte spektrale Kapazität umwandelt. Unter Verwendung von Eigenspektren von Feed-Forward-Netzwerk-Repräsentationen, gemessen durch weiche und harte spektrale Ränge, stellen wir fest, dass dieselbe Transformer-Architektur deutlich unterschiedliche spektrale Skalierungsgesetze aufweist, wenn sie mit verschiedenen Optimierern trainiert wird. Bei festgehaltener Architektur und festgehaltenem Breitenverlauf zeigt AdamW eine schwache harte Rangskalierung (β=0,44) bei Darstellungen seltener Token (TAIL), bei denen das Lernen bekanntermaßen am schwierigsten ist, während Muon in denselben Regimen eine lineare Skalierung (β=1,02) erreicht, eine 2,3-fache Steigerung des Skalierungsexponenten. Dieser Unterschied ist nicht auf den Validierungsverlust zurückzuführen: AdamW-Konfigurationen können bei verlängertem Training mit niedrigrangigen Dion-Varianten in der Perplexität mithalten, während sie eine stark unterschiedliche spektrale Geometrie aufweisen, was zeigt, dass eine angeglichene Verlustfunktion nicht eine angeglichene Repräsentationsstruktur impliziert. Die Härte-Weich-Rangasymmetrie zeigt ferner, dass sich Optimierer nicht nur darin unterscheiden, wie viel Kapazität realisiert wird, sondern auch darin, wie diese Kapazität über die Eigenmoden strukturiert ist. Um Optimierereffekte von architektonischen zu trennen, vergleichen wir sie mit architektonischen Eingriffen (z. B. Aufmerksamkeitsrang und Positionskodierung) und stellen fest, dass Optimierer-induzierte spektrale Verschiebungen oft die architektonischen Effekte übersteigen. Diese Ergebnisse legen nahe, dass die Optimierung eine erstklassige Achse der Repräsentationsskalierung darstellt, was das gemeinsame Design von Optimierer und Architektur motiviert.
Die Starke platonische Repräsentationshypothese besagt, dass Repräsentationskonvergenz in künstlichen neuronalen Netzen konstruktiv genutzt werden kann: Einbettungen können durch einen universellen latenten Raum ohne gepaarte Daten modelübergreifend übersetzt werden. Wir fragen, ob eine analoge Geometrie über menschliche Gehirne hinweg rekonstruiert werden kann. Unter Verwendung von fMRT-Daten aus dem Natural Scenes Dataset schlagen wir einen selbstüberwachten Encoder vor, der allein aus Gehirndaten subjektspezifische Einbettungen lernt, indem er wiederholte Stimuluspräsentationen ausnutzt. Wir zeigen, dass diese unabhängig gelernten Räume mithilfe unüberwachter orthogonaler Rotationen subjektübergreifend übersetzt werden können, ohne gepaarte subjektübergreifende Stichproben oder zwischengeschaltete Modellrepräsentationen. Das Synchronisieren paarweiser Rotationen in einen einzigen gemeinsamen latenten Raum verbessert den subjektübergreifenden Abruf weiter, was darauf hindeutet, dass subjektspezifische Räume mit einem gemeinsamen Koordinatensystem gegenseitig kompatibel sind. Diese Ergebnisse liefern Belege für eine gemeinsame neurale Geometrie im menschlichen visuellen Kortex: subjektspezifische fMRT-Repräsentationen sind über Individuen hinweg annähernd isometrisch und können durch rein geometrische Transformationen übersetzt werden.
Interaktive, streamingfähige Musikgenerierung verspricht den Einsatz generativer Modelle für Live-Performances und Co-Kreation, was mit Offline-Modellen unmöglich ist. Allerdings existieren State-of-the-Art-Modelle im diskret-autoregressiven Bereich, die sowohl für das Training als auch für die Inferenz industrielle Rechenressourcen erfordern. In dieser Arbeit untersuchen wir, ob Audio-Diffusionsmodelle, die in der Open-Source-Community breite Unterstützung finden, aber aufgrund ihrer bidirektionalen Natur nicht für Streaming ausgelegt sind, effizient in interaktive Modelle umgewandelt werden können, die auf Consumer-Hardware lauffähig sind. Durch eine kritische Analyse der modernen Pipeline für blockweises Outpainting mit Diffusion identifizieren wir kritische Ineffizienzen während der Inferenz, die zu einer strikt schlechteren Recheneffizienz im Vergleich zu ihren diskret-autoregressiven Pendants führen. Wir schlagen Live Music Diffusion Models (LMDMs) vor, eine einfache Modifikation des generativen Diffusionsprozesses, die die Inferenzkomplexität der diskreten Live Music Models (LMMs) durch blockweises KV-Caching wiederherstellt und sogar übertrifft. Im Gegensatz zu LMMs ermöglichen LMDMs zudem eine stabile Post-Training-Ausrichtung durch unser neuartiges ARC-Forcing-Paradigma, das Fehlerakkumulation ohne explizite Reinforcement-Learning- oder Belohnungsmodelle reduziert. Wir demonstrieren die Anwendung von LMDMs in mehreren kreativen Bereichen, darunter textgesteuerte Generierung, skizzenbasierte Musiksynthese und Jammen. Abschließend zeigen wir, wie LMDMs als generatives Instrument in einer realen Künstler-KI-Kollaboration eingesetzt werden können, indem wir LMDMs als „generative Verzögerung“ nutzen, um die Improvisation von Musikern live mit variablen klanglichen Effekten zu transformieren – und das bei lokalem Betrieb auf einem handelsüblichen Gaming-Laptop.
Die 3D-Rekonstruktion von Tieren in freier Wildbahn bleibt aufgrund großer Artenvielfalt, häufiger Okklusionen und der Verbreitung von Szenen mit mehreren Tieren eine Herausforderung, während bestehende Methoden sich überwiegend auf Einzeltier-Settings konzentrieren. Wir stellen SAM 3D Animal vor, das erste aufforderungsbasierte Framework für die 3D-Rekonstruktion mehrerer Tiere aus einem Einzelbild. Aufbauend auf dem parametrischen Tiermodell SMAL+ rekonstruiert unsere Methode gemeinsam mehrere Instanzen und unterstützt flexible Prompts in Form von Schlüsselpunkten und Masken, die eine zuverlässigere Disambiguierung in überfüllten und verdeckten Szenen ermöglichen. Um ein solches Modell zu trainieren, führen wir außerdem Herd3D ein, einen 3D-Datensatz mit mehreren Tieren, der über 5.000 Bilder enthält und darauf ausgelegt ist, die Vielfalt in Bezug auf Arten, Interaktionen und Okklusionsmuster zu erhöhen. Experimente mit den Datensätzen Animal3D, APTv2 und Animal Kingdom zeigen, dass unser Framework sowohl gegenüber bestehenden modellbasierten als auch modellfreien Methoden Spitzenwerte erzielt, was eine skalierbare und effektive Lösung für promptgesteuerte 3D-Tierrekonstruktion in freier Wildbahn darstellt.
Die visuell-inertiale Odometrie (VIO), die für die Navigation mobiler Roboter von entscheidender Bedeutung ist, verwendet Kameras mit einer großen Anzahl von Pixeln. Die Aufnahme und Verarbeitung von Kamerabildern erfordert erhebliche Ressourcen. Diese Arbeit stellt einen minimalistischen Ansatz für die planare Odometrie vor und zeigt, dass lediglich vier visuelle Messungen und eine IMU eine robuste Bewegungsschätzung für differentiell angetriebene Roboter ermöglichen. Unsere wesentliche Erkenntnis ist, dass vier nach unten gerichtete Fotodioden, die die Umgebung durch optische Gabor-Masken erfassen, Signale erzeugen, die die Geschwindigkeit kodieren. Darauf aufbauend optimieren wir gemeinsam die Maskenparameter zusammen mit einem Temporalen Faltungsnetzwerk (TCN) unter Verwendung eines physikalisch fundierten Simulators. Das resultierende Modell dekodiert die Geschwindigkeit aus den vier Messungen der Fotodioden. Die Kombination dieser Schätzwerte mit der Winkelgeschwindigkeit einer IMU liefert eine kontinuierliche planare Trajektorie. Wir validieren unseren Ansatz mit einem Prototypsensor, der auf einem differentiell angetriebenen Roboter montiert ist. In verschiedenen Innen- und Außenbereichen folgt unser System der Referenz-Ground-Truth ohne jegliche reale Feinabstimmung. Unsere Arbeit zeigt, dass minimalistische Sensorik eine effiziente und genaue planare Odometrie ermöglicht.
Modebild-Retrieval ist ein grundlegender Bestandteil moderner E-Commerce-Systeme. Ein einheitliches Framework, das verschiedene Abfrageformate und Suchintentionen unterstützt, wird in der Praxis stark nachgefragt. Bestehende Ansätze konzentrieren sich jedoch auf eng gefasste Retrieval-Aufgaben und bilden diese Vielfalt nicht vollständig ab. Daher zielen wir in dieser Arbeit darauf ab, ein einheitliches Framework zu entwickeln, das verschiedene realistische Modebild-Retrieval-Szenarien bewältigen kann und so ein wirklich vielseitiges Modebild-Retrieval ermöglicht. Als Datengrundlage führen wir zunächst U-FIRE ein, einen umfassenden Benchmark, der fragmentierte Mode-Datensätze in einer einheitlichen Sammlung zusammenfasst, ergänzt durch zwei manuell kuratierte Datensätze zum Testen der Generalisierung. Darauf aufbauend schlagen wir FashionLens vor, ein einheitliches Framework, das auf multimodalen großen Sprachmodellen basiert. Um unterschiedliche Matching-Ziele zu handhaben, entwickeln wir einen vorschlagsgesteuerten sphärischen Abfragekalibrator, der Abfrage-Repräsentationen mittels adaptiver sphärischer linearer Interpolation dynamisch in aufgabenabgestimmte metrische Räume verschiebt. Darüber hinaus entwickeln wir zur Minderung des Optimierungsungleichgewichts, das durch unterschiedliche Aufgabenkomplexitäten und Datenskalen verursacht wird, eine gradientengeleitete adaptive Stichprobenstrategie, die Aufgaben basierend auf dem Echtzeit-Lernschwierigkeitsgrad und dem Datenskalen-Prior automatisch neu gewichtet. Experimente auf U-FIRE zeigen, dass FashionLens in verschiedenen Retrieval-Szenarien eine State-of-the-Art-Leistung erzielt und robust auf unbekannte Aufgaben generalisiert. Die Daten und der Code sind öffentlich unter https://github.com/haokunwen/FashionLens verfügbar.