papers.description
Wir stellen Ling 2.0 vor, eine Reihe von reasoning-orientierten Sprachgrundmodellen, die auf dem Prinzip aufbauen, dass jede Aktivierung die Reasoning-Fähigkeit steigert. Ling 2.0 ist darauf ausgelegt, unter einem einheitlichen Mixture-of-Experts (MoE)-Paradigma von zig Milliarden auf eine Billion Parameter zu skalieren, und legt besonderen Wert auf hohe Sparsity, konsistente Leistung über verschiedene Skalen hinweg und Effizienz, die durch empirische Skalierungsgesetze geleitet wird. Die Reihe umfasst drei "Non-Thinking"-Instruktionsmodelle – Ling-mini-2.0, Ling-flash-2.0 und Ling-1T – mit einem Spektrum von 16 Mrd. bis 1 Bio. Gesamtparametern und einer bis zu 7-fach höheren Active-Compute-Effizienz im Vergleich zu dichten Modellen. Ling 2.0 integriert koordinierte Innovationen in den Bereichen Modellarchitektur, Pre-Training, Post-Training und Infrastruktur: einen hochgradig sparsamen MoE-Ansatz mit MTP für effizientes Reasoning, reasoning-orientierte Daten und Mid-Training-CoT-Aktivierung, Reinforcement-basiertes Fine-Tuning (DFT, Evo-CoT) sowie vollständiges FP8-Training mit feinkörnigen heterogenen Pipelines. Im Billionen-Parameter-Bereich setzt Ling-1T eine neue Pareto-Grenze für die Beziehung zwischen Reasoning-Genauigkeit und Recheneffizienz und zeigt, dass sparsame Aktivierung, wenn sie richtig auf Reasoning-Ziele abgestimmt ist, skalierbare und effiziente Intelligenz ermöglicht. Zusammengenommen bietet Ling 2.0 eine kohärente, offene und effiziente Grundlage für die Weiterentwicklung zukünftiger Reasoning- und Denkmodelle, einschließlich der auf derselben Basis aufbauenden Ring-Serie.
Implizite Policys, die durch generative Modelle wie Diffusion Policy parametrisiert werden, haben sich zum Standard für Policy-Learning und Vision-Language-Action (VLA)-Modelle in der Robotik entwickelt. Diese Ansätze leiden jedoch oft unter hohen Rechenkosten, Exposure Bias und instabilen Inferenzdynamiken, was zu Divergenz bei Distributionsverschiebungen führt. Energy-Based Models (EBMs) adressieren diese Probleme, indem sie Energielandschaften end-to-end lernen und Gleichgewichtsdynamiken modellieren, was eine verbesserte Robustheit und reduzierten Exposure Bias bietet. Dennoch hatten Policys, die durch EBMs parametrisiert werden, historisch gesehen Schwierigkeiten, effektiv zu skalieren. Jüngste Arbeiten zu Energy-Based Transformern (EBTs) demonstrieren die Skalierbarkeit von EBMs auf hochdimensionale Räume, doch ihr Potenzial zur Lösung zentraler Herausforderungen in physisch verkörperten Modellen bleibt untererforscht. Wir stellen eine neue energiebasierte Architektur vor, EBT-Policy, die Kernprobleme in robotischen und realen Umgebungen löst. In simulierten und realen Aufgaben übertrifft EBT-Policy durchgängig diffusionsbasierte Policys, benötigt dabei jedoch weniger Rechenaufwand für Training und Inferenz. Bemerkenswerterweise konvergiert es bei einigen Aufgaben bereits nach nur zwei Inferenzschritten, was einer 50-fachen Reduktion gegenüber den 100 Schritten von Diffusion Policy entspricht. Darüber hinaus zeigt EBT-Policy emergenten Fähigkeiten, die bei früheren Modellen nicht beobachtet wurden, wie z.B. Zero-Shot-Wiederherstellung von fehlgeschlagenen Aktionssequenzen allein durch Behavior Cloning und ohne explizites Wiederholungstraining. Indem EBT-Policy seine skalare Energie für unsicherheitsbewusste Inferenz und dynamische Rechenzuweisung nutzt, eröffnet es einen vielversprechenden Weg zu robustem, generalisierbarem Roboterverhalten unter Distributionsverschiebungen.
Test-Time Scaling (TTS) verbessert große Sprachmodelle (LLMs), indem während der Inferenz zusätzliche Rechenleistung bereitgestellt wird, typischerweise durch paralleles, sequenzielles oder hybrides Skalieren. Bisherige Studien gehen jedoch oft von festen Kollaborationsarchitekturen (z.B. Topologien) und Einzelmodell-Nutzung aus und übersehen, dass die optimalen Architekturen und Modellkombinationen aufgabenabhängig variieren können. Daher untersuchen wir das neuartige Problem, unter festem Budget rechenoptimale Modellkombinationen und Architekturen für TTS zu finden. Wir formalisieren dies als Multi-LLM-Kollaborationsgraph, wobei Knoten Rollen und LLM-Modellzuweisungen kodieren und Kanten den Informationsfluss erfassen. Dieses Problem ist anspruchsvoll, weil (i) der kombinatorische Suchraum prohibitiv groß ist und (ii) aufgabenspezifische Anforderungen maßgeschneiderte Designs erfordern. Zur Lösung reformulieren wir das Problem als probabilistische Graphoptimierung und leiten durch Pilotexperimente drei empirische Erkenntnisse über TTS-Kollaborationsgraphen ab. Angeleitet durch diese Erkenntnisse schlagen wir Agent-REINFORCE vor, ein LLM-Agenten-erweitertes Framework, das die REINFORCE-Pipeline abbildet, indem Sampling-Gradient-Update auf Sampling-Feedback-Update abgebildet wird, wobei Feedback als textueller Gradient dient, um den probabilistischen Graphen zu aktualisieren und effizient nach optimalen Multi-LLM-Kollaborationsgraphen zu suchen. Experimente zeigen, dass Agent-REINFORCE sowohl traditionelle als auch LLM-basierte Baseline-Verfahren in Stichprobeneffizienz und Suchleistung übertrifft und effektiv optimale Graphen unter gemeinsamen Zielvorgaben von Genauigkeit und Inferenzlatenz identifiziert.
Wir stellen [Cosmos-Predict2.5] vor, die neueste Generation der Cosmos World Foundation Models für Physical AI. Aufbauend auf einer flow-basierten Architektur vereint [Cosmos-Predict2.5] Text2World-, Image2World- und Video2World-Generierung in einem einzigen Modell und nutzt [Cosmos-Reason1], ein Physical AI-Vision-Language-Modell, um eine reichhaltigere Textverankerung und feinere Steuerung der Weltsimulation zu ermöglichen. Das Modell wurde mit 200 Millionen kuratierten Videoclips trainiert und durch reinforcement learning-basiertes Post-Training verfeinert. [Cosmos-Predict2.5] erzielt erhebliche Verbesserungen gegenüber [Cosmos-Predict1] in Bezug auf Videoqualität und Instruktionsbefolgung, wobei Modelle in 2B- und 14B-Größenordnungen veröffentlicht werden. Diese Fähigkeiten ermöglichen eine zuverlässigere synthetische Datengenerierung, Richtlinienbewertung und Closed-Loop-Simulation für Robotik und autonome Systeme. Wir erweitern die Familie weiter mit [Cosmos-Transfer2.5], einem Control-Net-artigen Framework für Sim2Real- und Real2Real-Welttranslation. Obwohl es 3,5-mal kleiner ist als [Cosmos-Transfer1], liefert es eine höhere Detailtreue und robuste Videogenerierung über lange Zeiträume. Gemeinsam etablieren diese Fortschritte [Cosmos-Predict2.5] und [Cosmos-Transfer2.5] als vielseitige Werkzeuge für die Skalierung verkörperter Intelligenz. Um Forschung und Einsatz von Physical AI zu beschleunigen, veröffentlichen wir den Quellcode, vortrainierte Checkpoints und kuratierte Benchmarks unter der NVIDIA Open Model License auf https://github.com/nvidia-cosmos/cosmos-predict2.5 und https://github.com/nvidia-cosmos/cosmos-transfer2.5. Wir hoffen, dass diese offenen Ressourcen die Einstiegshürden senken und Innovationen beim Aufbau der nächsten Generation verkörperter Intelligenz fördern.
Jüngste Fortschritte bei multimodalen generativen Modellen haben erhebliche Verbesserungen in der Bildbearbeitung bewirkt. Allerdings haben aktuelle generative Modelle nach wie vor Schwierigkeiten mit der Bewältigung vielfältiger und komplexer Bildbearbeitungsaufgaben, die implizites Reasoning erfordern, was den Bedarf an einem umfassenden Benchmark zur systematischen Bewertung ihrer Leistung in verschiedenen Reasoning-Szenarien unterstreicht. Bestehende Benchmarks konzentrieren sich primär auf die Transformation von Einzelobjekt-Attributen in realistischen Szenarien, die zwar effektiv sind, jedoch mit zwei Hauptproblemen konfrontiert sind: (1) sie vernachlässigen weitgehend Multi-Objekt-Interaktionen sowie Spielwelt-Szenarien mit menschendefinierten Regeln, die in realen Anwendungen häufig vorkommen; (2) sie stützen sich nur auf Textreferenzen zur Bewertung der generierten Bilder, was insbesondere in komplexen Reasoning-Szenarien zu systematischen Fehlurteilen führen kann. Daher schlägt diese Arbeit UniREditBench vor, einen einheitlichen Benchmark für die Reasoning-basierte Bildbearbeitungsbewertung. Er umfasst 2.700 sorgfältig kuratierte Samples, die sowohl Real- als auch Spielwelt-Szenarien in 8 Hauptdimensionen und 18 Subdimensionen abdecken. Zur Verbesserung der Bewertungszuverlässigkeit führen wir eine multimodale Dual-Referenz-Evaluation ein, die für jede Probenbewertung sowohl textuelle als auch Ground-Truth-Bildreferenzen bereitstellt. Darüber hinaus entwerfen wir eine automatisierte Multi-Szenario-Datensynthese-Pipeline und konstruieren UniREdit-Data-100K, einen groß angelegten synthetischen Datensatz mit hochwertigen Chain-of-Thought (CoT) Reasoning-Annotationen. Wir feintunen Bagel auf diesem Datensatz und entwickeln UniREdit-Bagel, das substantiale Verbesserungen sowohl in In-Domain- als auch Out-of-Distribution-Settings demonstriert. Durch gründliches Benchmarking sowohl quelloffener als auch proprietärer Bildbearbeitungsmodelle zeigen wir deren Stärken und Schwächen in verschiedenen Aspekten auf.
Relighting ist eine entscheidende Aufgabe mit sowohl praktischem Bedarf als auch künstlerischem Wert, und neuere Diffusionsmodelle haben durch die Ermöglichung vielfältiger und steuerbarer Beleuchtungseffekte großes Potenzial gezeigt. Da sie jedoch typischerweise im semantischen Latent Space optimiert werden, wo räumliche Nähe keine physikalische Korrektheit im visuellen Raum garantiert, erzeugen sie oft unrealistische Ergebnisse wie überbelichtete Glanzlichter, falsch ausgerichtete Schatten und inkorrekte Okklusionen. Wir adressieren dies mit UniLumos, einem einheitlichen Relighting-Framework für Bilder und Videos, das RGB-Raum-Geometrie-Feedback in ein Flow-Matching-Backbone integriert. Indem wir das Modell mit Tiefen- und Normalenmaps supervidiieren, die aus seinen Ausgaben extrahiert werden, alignieren wir Beleuchtungseffekte explizit mit der Szenenstruktur und verbessern so die physikalische Plausibilität. Dieses Feedback erfordert jedoch hochwertige Ausgaben für die Supervision im visuellen Raum, was standardmäßige Mehrschritt-Entrauschung rechenintensiv macht. Um dies zu mildern, setzen wir Path-Consistency-Learning ein, das eine wirksame Supervision selbst bei Trainingsregimen mit wenigen Schritten ermöglicht. Um feinkörnige Relighting-Steuerung und -Supervision zu ermöglichen, entwerfen wir ein strukturiertes sechsdimensionales Annotationsprotokoll, das Kernbeleuchtungsattribute erfasst. Darauf aufbauend schlagen wir LumosBench vor, einen entflochtenen attributbasierten Benchmark, der die Beleuchtungskontrollierbarkeit via großer Vision-Language-Modelle evaluiert und eine automatische und interpretierbare Bewertung der Relighting-Präzision über einzelne Dimensionen hinweg ermöglicht. Umfangreiche Experimente zeigen, dass UniLumos state-of-the-art Relighting-Qualität bei deutlich verbesserter physikalischer Konsistenz erreicht und gleichzeitig eine 20-fache Beschleunigung für Bild- und Video-Relighting liefert. Code ist verfügbar unter https://github.com/alibaba-damo-academy/Lumos-Custom.
Graph Neural Networks arbeiten durch bottom-up Nachrichtenweitergabe, was sich grundlegend von der menschlichen visuellen Wahrnehmung unterscheidet, die intuitiv zuerst globale Strukturen erfasst. Wir untersuchen das unterschätzte Potenzial von Vision-Modellen für das Graph-Verständnis und stellen fest, dass sie auf etablierten Benchmarks eine mit GNNs vergleichbare Leistung erzielen, dabei jedoch deutlich unterschiedliche Lernmuster aufweisen. Diese unterschiedlichen Verhaltensweisen, kombiniert mit den Einschränkungen bestehender Benchmarks, die Domänenmerkmale mit topologischem Verständnis vermengen, motivieren unsere Einführung von GraphAbstract. Dieser Benchmark bewertet die Fähigkeit von Modellen, globale Grapheneigenschaften wie Menschen wahrzunehmen: das Erkennen von Organisationsarchetypen, das Detektieren von Symmetrie, das Erfassen von Konnektivitätsstärke und das Identifizieren kritischer Elemente. Unsere Ergebnisse zeigen, dass Vision-Modelle bei Aufgaben, die ein holistisches Strukturverständnis erfordern, GNNs signifikant übertreffen und eine Generalisierbarkeit über verschiedene Graphenskalen hinweg beibehalten, während GNNs mit der Abstraktion globaler Muster kämpfen und mit zunehmender Graphengröße an Leistung verlieren. Diese Arbeit demonstriert, dass Vision-Modelle über bemerkenswerte, jedoch ungenutzte Fähigkeiten für das strukturelle Graph-Verständnis verfügen, insbesondere für Probleme, die globales topologisches Bewusstsein und skalierungsinvariantes Schließen erfordern. Diese Erkenntnisse eröffnen neue Wege, um dieses unterschätzte Potenzial für die Entwicklung effektiverer Graph-Foundation-Modelle für Aufgaben zu nutzen, die von holistischer Mustererkennung dominiert werden.
Große Reasoning-Modelle (LRMs) zeigen starke Fähigkeiten im komplexen logischen Denken, doch ihre zusätzlichen Gewinne bei evidenzbasierten Faktenfragen sind begrenzt. Wir stellen fest, dass diese Einschränkung teilweise auf eine Reasoning-Antwort-Lücke zurückzuführen ist, bei der das Modell während des Reasoning-Prozesses die korrekten Fakten identifiziert, diese jedoch nicht in die endgültige Antwort einbezieht, was die faktische Treue verringert. Um dieses Problem zu lösen, schlagen wir MR-ALIGN vor, ein Meta-Reasoning-informiertes Alignment-Framework, das die Faktentreue verbessert, ohne auf externe Verifizierer angewiesen zu sein. MR-ALIGN quantifiziert Zustandsübergangswahrscheinlichkeiten entlang des Denkprozesses des Modells und konstruiert eine übergangsensitive implizite Belohnung, die vorteilhafte Reasoning-Muster verstärkt und fehlerhafte in atomaren Denksegmenten unterdrückt. Diese Neugewichtung formt token-basierte Signale zu wahrscheinlichkeitsbewussten Segmentbewertungen um und fördert kohärente Reasoning-Verläufe, die förderlicher für faktische Korrektheit sind. Empirische Auswertungen über vier faktische QA-Datensätze und einen Benchmark für Langform-Faktentreue zeigen, dass MR-ALIGN durchgängig Genauigkeit und Wahrhaftigkeit verbessert und dabei irreführendes Reasoning reduziert. Diese Ergebnisse unterstreichen, dass die Ausrichtung des Reasoning-Prozesses selbst, nicht nur der Outputs, entscheidend für die Verbesserung der Faktentreue in LRMs ist.
Vereinheitlichte multimodale Modelle (UMMs) haben sich als leistungsstarkes Paradigma etabliert, um Text- und Bildverständnis sowie -generierung nahtlos zu vereinen. Vorherrschende Evaluierungen behandeln diese Fähigkeiten jedoch isoliert, sodass Aufgaben mit multimodalen Eingaben und Ausgaben primär durch unimodales Schließen bewertet werden; d.h., textbasierte Benchmarks betonen sprachbasiertes Reasoning, während visuelle Benchmarks Schließergebnisse bewerten, die sich in den Pixeln manifestieren. Wir stellen ROVER vor, um diesem dringenden Bedarf an Tests reziproken cross-modalen Reasonings zu begegnen – der Nutzung einer Modalität, um Ausgaben in der anderen zu steuern, zu verifizieren oder zu verfeinern, eine Fähigkeit, die zentral für die Vision vereinheitlichter multimodaler Intelligenz ist. ROVER ist ein humanannotierter Benchmark, der explizit reziprokes cross-modales Reasoning adressiert. Er umfasst 1312 Aufgaben, die in 1876 Bildern verankert sind, und spannt zwei komplementäre Settings auf: Sprachlich augmentiertes Reasoning für visuelle Generierung evaluiert, ob Modelle verbale Prompts und Reasoning-Ketten nutzen können, um eine authentische Bildsynthese zu steuern. Visuell augmentiertes Reasoning für verbale Generierung evaluiert, ob Modelle intermediate Visualisierungen generieren können, die ihre eigenen Reasoning-Prozesse für Frageantwortung verstärken. Experimente mit 17 vereinheitlichten Modellen offenbaren zwei zentrale Erkenntnisse: (i) Cross-modales Reasoning bestimmt die Qualität der visuellen Generierung, wobei verschachtelte Modelle nicht-verschachtelte signifikant übertreffen; bemerkenswerterweise erreicht die Kombination starker unimodaler Modelle kein vergleichbares Reasoning. (ii) Modelle zeigen eine Dissoziation zwischen physikalischem und symbolischem Reasoning: Sie sind erfolgreich beim wörtlichen Interpretieren perzeptueller Konzepte, scheitern aber beim Konstruieren visueller Abstraktionen für symbolische Aufgaben, wo fehlerhaftes Reasoning die Leistung beeinträchtigt. Diese Ergebnisse unterstreichen reziprokes cross-modales Reasoning als kritische Frontier für die Ermöglichung wahrer omnimodaler Generierung.
Bewegungsnachahmung ist ein vielversprechender Ansatz für die Fortbewegung von Humanoiden, der es Agenten ermöglicht, menschenähnliche Verhaltensweisen zu erlernen. Bisherige Methoden stützen sich typischerweise auf hochwertige Motion-Capture-Datensätze wie AMASS, die jedoch rar und teuer sind, was Skalierbarkeit und Vielfalt einschränkt. Neuere Studien versuchen, die Datenerfassung durch die Konvertierung groß angelegter Internetvideos, beispielhaft durch Humanoid-X, zu skalieren. Dabei entstehen jedoch häufig physikalische Artefakte wie Schweben, Durchdringung und Fußgleiten, die eine stabile Nachahmung behindern. Als Antwort darauf stellen wir PHUMA vor, einen physikalisch fundierten HUMAnoiden Fortbewegungsdatensatz, der menschliche Videos in großem Maßstab nutzt und gleichzeitig physikalische Artefakte durch sorgfältige Datenkuratierung und physikalisch beschränktes Retargeting adressiert. PHUMA erzwingt Gelenkgrenzen, gewährleistet Bodenkontakt und eliminiert Fußgleiten, wodurch Bewegungen erzeugt werden, die sowohl großskalig als auch physikalisch zuverlässig sind. Wir evaluierten PHUMA unter zwei Bedingungen: (i) Nachahmung ungesehener Bewegungen aus selbst aufgenommenen Testvideos und (ii) Pfadverfolgung mit ausschließlicher Beckenführung. In beiden Fällen übertreffen mit PHUMA trainierte Strategien Humanoid-X und AMASS und erzielen signifikante Verbesserungen bei der Nachahmung verschiedenster Bewegungen. Der Code ist verfügbar unter https://davian-robotics.github.io/PHUMA.
Aktuelle bewegungsgesteuerte Video-Generierungsmethoden leiden unter prohibitiv hoher Latenz (Minuten pro Video) und nicht-kausaler Verarbeitung, die Echtzeit-Interaktion verhindert. Wir präsentieren MotionStream, das Latenzen im Subsekundenbereich mit einer Streaming-Generierung von bis zu 29 FPS auf einer einzelnen GPU ermöglicht. Unser Ansatz beginnt mit der Erweiterung eines Text-zu-Video-Modells um Bewegungssteuerung, welches hochwertige Videos erzeugt, die dem globalen Text-Prompt und der lokalen Bewegungsvorgabe folgen, jedoch keine Inferenz in Echtzeit durchführt. Daher distillieren wir diesen bidirektionalen Lehrer in einen kausalen Schüler mittels Self Forcing with Distribution Matching Distillation, was Echtzeit-Streaming-Inferenz ermöglicht. Bei der Generierung von Videos mit langen, potenziell unendlichen Zeit-Horizonten ergeben sich mehrere zentrale Herausforderungen: (1) die Überbrückung der Domänenlücke zwischen dem Training auf endlicher Länge und der Extrapolation auf unendliche Horizonte, (2) die Aufrechterhaltung hoher Qualität durch die Verhinderung von Fehlerakkumulation und (3) die Beibehaltung schneller Inferenz ohne Anstieg der Rechenkosten durch wachsende Kontextfenster. Ein Schlüssel unseres Ansatzes ist die Einführung eines speziell entwickelten kausalen Sliding-Window-Attentionsmechanismus, kombiniert mit Attention Sinks. Durch die Integration von Self-Rollout mit Attention Sinks und KV-Cache-Rolling während des Trainings simulieren wir Inferenz-Zeit-Extrapolationen mit einem festen Kontextfenster korrekt und ermöglichen so eine generation mit konstanter Geschwindigkeit für beliebig lange Videos. Unsere Modelle erzielen state-of-the-art Ergebnisse in Bewegungsfolge und Videqualität, sind dabei zwei Größenordnungen schneller und ermöglichen einzigartig unendlich langes Streaming. Mit MotionStream können Nutzer Trajektorien malen, Kameras steuern oder Bewegungen übertragen und die Ergebnisse in Echtzeit entstehen sehen, was eine wirklich interaktive Erfahrung liefert.
Wir stellen LongCat-Flash-Omni vor, ein modernes Open-Source-Omnimodal-Modell mit 560 Milliarden Parametern, das sich durch herausragende Echtzeit-Audio-Video-Interaktion auszeichnet. Durch die Anwendung einer an Lehrplänen inspirierten, progressiven Trainingsstrategie, die von einfacheren zu zunehmend komplexeren Modalitätssequenz-Modellierungsaufgaben übergeht, erlangt LongCat-Flash-Omni umfassende multimodale Fähigkeiten bei gleichzeitig starker unimodaler Leistungsfähigkeit. Aufbauend auf LongCat-Flash, das eine leistungsstarke Shortcut-verbundene Mixture-of-Experts (MoE)-Architektur mit Zero-Computation-Experten nutzt, integriert LongCat-Flash-Omni effiziente multimodale Wahrnehmungs- und Sprachrekonstruktionsmodule. Trotz seiner immensen Größe von 560 Milliarden Parametern (davon 27 Milliarden aktiviert) erreicht LongCat-Flash-Omni eine latenzarme Echtzeit-Audio-Video-Interaktion. Für die Trainingsinfrastruktur entwickelten wir ein modalitätsentkoppeltes Parallelitätsschema, das speziell zur Bewältigung der Daten- und Modellheterogenität konzipiert ist, die für groß angelegtes multimodales Training typisch ist. Dieser innovative Ansatz zeigt eine außergewöhnliche Effizienz, indem er über 90 % des Durchsatzes erreicht, der beim reinen Texttraining erzielt wird. Umfangreiche Evaluationen zeigen, dass LongCat-Flash-Omni auf Omnimodal-Benchmarks unter Open-Source-Modellen state-of-the-art Leistung erzielt. Darüber hinaus liefert es äußerst wettbewerbsfähige Ergebnisse in einer Vielzahl modalitätsspezifischer Aufgaben, einschließlich Text-, Bild- und Videoverständnis sowie Audioverständnis und -generierung. Wir geben einen umfassenden Überblick über das Modellarchitektur-Design, die Trainingsverfahren und Datenstrategien und stellen das Modell als Open Source zur Verfügung, um zukünftige Forschung und Entwicklung in der Community zu fördern.
Kürzlich haben große Sprachmodelle (LLMs) bemerkenswerte Problemlösungsfähigkeiten demonstriert, indem sie sich autonom mit externen Werkzeugen für kollaboratives Schließen integrierten. Aufgrund der inhärent komplexen und vielfältigen Natur multimodaler Informationen bleibt es jedoch eine wenig erforschte Herausforderung, multimodalen großen Sprachmodellen (MLLMs) zu ermöglichen, während des Schließens flexibel und effizient externe Werkzeuge zu nutzen. In dieser Arbeit stellen wir ToolScope vor, einen agentenbasierten Rahmen, der globale Planung mit lokaler multimodaler Wahrnehmung vereint und ein spezialisiertes Perceive-Werkzeug einsetzt, um den Abbau visuellen Kontexts in langfristigen VQA-Aufgaben zu mildern. ToolScope umfasst drei Hauptkomponenten: den Global Navigator, den Agentic Executor und den Response Synthesizer. Der Global Navigator fungiert als "Teleskop" und bietet strategische Orientierung auf hoher Ebene. Der Agentic Executor arbeitet iterativ, um MLLMs durch die Integration externer Werkzeuge – Search, Code und Perceive – mit lokaler Wahrnehmung zu erweitern. Abschließend konsolidiert und organisiert der Response Synthesizer den Schließprozess zu einer kohärenten, benutzerfreundlichen Ausgabe. Wir evaluieren ToolScope anhand von vier VQA-Benchmarks aus verschiedenen Domänen, darunter VQA 2.0, ScienceQA, MAT-Search und MathVista. Es demonstriert starke Generalisierungsfähigkeiten und erzielt eine durchschnittliche Leistungssteigerung von bis zu +6,69 % über alle Datensätze hinweg.
Jüngste Fortschritte beim Reasoning großer Sprachmodelle (LLM) durch Reinforcement Learning basieren auf annotierten Datensätzen für verifizierbare Belohnungen, was die Fähigkeit der Modelle, menschenähnliche Leistungen zu übertreffen, einschränken könnte. Obwohl Self-Play eine vielversprechende Alternative bietet, sind bestehende Ansätze auf externe Verifizierer angewiesen oder können nicht ergebnisoffen lernen. Wir stellen Open-Ended Self-Improving Reasoner (OpenSIR) vor, einen Self-Play-Rahmen, in dem ein LLM lernt, durch abwechselnde Lehrer- und Schülerrollen ohne externe Aufsicht neue Probleme zu generieren und zu lösen. Um neuartige Probleme zu erzeugen, optimiert OpenSIR sowohl Schwierigkeit als auch Vielfalt, indem es Probleme belohnt, die angemessen herausfordernd sind und gleichzeitig unterschiedliche Konzepte explorieren, was ergebnisoffene mathematische Entdeckungen ermöglicht. Ausgehend von einem einzigen trivialen Startproblem verbessert OpenSIR Instruktionsmodelle erheblich: Llama-3.2-3B-Instruct steigt von 73,9 auf 78,3 bei GSM8K und von 28,8 auf 34,4 bei College Math, während Gemma-2-2B-Instruct bei GSM8K von 38,5 auf 58,7 anwächst. Unsere Analysen zeigen, dass OpenSIR ergebnisoffenes Lernen durch ko-evolvierende Lehrer-Schüler-Rollen erreicht, die Schwierigkeitsgrade adaptiv kalibrieren und vielfältige Exploration vorantreiben, wodurch autonomer Fortschritt von grundlegender zu fortgeschrittener Mathematik erzielt wird.
Das vorherrschende Paradigma für die Videoretrieval ist strukturell fehlausgerichtet, da eng gefasste Benchmarks entsprechend begrenzte Daten und Einzelaufgaben-Training begünstigen. Infolgedessen wird eine universelle Fähigkeit unterdrückt, da eine diagnostische Evaluation fehlt, die mehrdimensionale Generalisierung definiert und einfordert. Um diesen Kreislauf zu durchbrechen, führen wir ein Framework ein, das auf dem Co-Design von Evaluation, Daten und Modellierung basiert. Erstens etablieren wir den Universal Video Retrieval Benchmark (UVRB), eine Sammlung von 16 Datensätzen, die nicht nur zur Leistungsmessung, sondern auch zur Diagnose kritischer Fähigkeitslücken über Aufgaben und Domänen hinweg konzipiert ist. Zweitens führen wir, angeleitet durch die Diagnose des UVRB, einen skalierbaren Synthese-Workflow ein, der 1,55 Millionen hochwertige Paare erzeugt, um den für Universalität erforderlichen semantischen Raum zu füllen. Schließlich entwickeln wir die Modality Pyramid, einen Lehrplan, der unseren General Video Embedder (GVE) trainiert, indem er explizit die latenten Verbindungen innerhalb unserer diversen Daten nutzt. Umfangreiche Experimente zeigen, dass GVE eine state-of-the-art Null-Shot-Generalisierung auf dem UVRB erreicht. Unsere Analyse zeigt insbesondere, dass populäre Benchmarks schlechte Prädiktoren für allgemeine Fähigkeit sind und dass teilweise relevantes Retrieval ein dominantes, aber übersehenes Szenario darstellt. Insgesamt bietet unser co-designetes Framework einen praktischen Weg, den begrenzten Anwendungsbereich zu überwinden und sich in Richtung eines wirklich universellen Videoretrievals zu bewegen.
Die Grenze des visuellen Denkens verschiebt sich hin zu Modellen wie OpenAI o3, die intelligent Werkzeuge erstellen und bedienen können, um Bilder zur Problemlösung zu transformieren – ein Prozess, der auch als Denken-mit-Bildern in Gedankenketten bekannt ist. Bisherige Benchmarks erfassen diese fortgeschrittene Fähigkeit jedoch nicht vollständig. Selbst Visual Search, der gebräuchlichste Benchmark für aktuelle Denken-mit-Bildern-Methoden, testet nur grundlegende Operationen wie Lokalisierung und Zuschneidung und liefert kaum Einblicke in komplexeres, dynamischeres und werkzeugabhängigeres Schlussfolgern. Wir stellen TIR-Bench vor, einen umfassenden Benchmark zur Bewertung von agentenbasiertem Denken-mit-Bildern über 13 verschiedene Aufgaben hinweg, die jeweils neuartigen Werkzeugeinsatz zur Bildverarbeitung und -manipulation in Gedankenketten erfordern. Wir evaluieren 22 multimodale Large Language Models (MLLMs), von führenden Open-Source- und proprietären Modellen bis hin zu solchen mit expliziter Werkzeugnutzungs-Erweiterung. Die Ergebnisse zeigen, dass TIR-Bench durchgängig anspruchsvoll ist und hohe Leistung echte Denken-mit-Bildern-Fähigkeiten erfordert. Abschließend präsentieren wir eine Pilotstudie, die direktes mit agentenbasiertem Fine-Tuning vergleicht.
Vision-Language-Modelle demonstrieren beispiellose Leistungsfähigkeit und Generalisierung in einer Vielzahl von Aufgaben und Szenarien. Die Integration dieser Foundation-Modelle in robotische Navigationssysteme eröffnet Wege zur Entwicklung universell einsetzbarer Roboter. Dennoch bleibt die Evaluierung der Navigationsfähigkeiten dieser Modelle eingeschränkt durch kostspielige Tests in der realen Welt, übermäßig vereinfachte Simulationen und begrenzte Benchmarks. Wir stellen NaviTrace vor, einen hochwertigen Benchmark für Visual Question Answering, bei dem ein Modul eine Anweisung und einen Verkörperungstyp (Mensch, Laufroboter, Fahrzeugroboter, Fahrrad) erhält und eine 2D-Navigationsspur im Bildraum ausgeben muss. Über 1000 Szenarien und mehr als 3000 Expertenspuren hinweg evaluieren wir systematisch acht state-of-the-art VLMs unter Verwendung eines neu eingeführten semantikbewussten Spur-Scores. Diese Metrik kombiniert Dynamic-Time-Warping-Distanz, Ziel-Endpunkt-Fehler und verkörperungsbedingte Penalties, die aus pro-Pixel-Semantik abgeleitet werden, und korreliert mit menschlichen Präferenzen. Unsere Auswertung zeigt eine konsistente Lücke zur menschlichen Leistung, verursacht durch unzureichende räumliche Verankerung und Zielortung. NaviTrace etabliert einen skalierbaren und reproduzierbaren Benchmark für die robotische Navigation in der realen Welt. Der Benchmark und die Bestenliste sind unter https://leggedrobotics.github.io/navitrace_webpage/ verfügbar.
Das Verständnis von Rebus-Rätseln (Rebus-Puzzles nutzen Bilder, Symbole und Buchstaben, um Wörter oder Phrasen auf kreative Weise darzustellen) erfordert eine Vielzahl von Fähigkeiten wie Bilderkennung, kognitive Fähigkeiten, gesunder Menschenverstand, mehrstufiges logisches Denken, bildbasiertes Wortspiel usw., was dies sogar für aktuelle Vision-Sprach-Modelle zu einer anspruchsvollen Aufgabe macht. In diesem Artikel stellen wir |,↻,BUS,| vor, einen großen und vielfältigen Benchmark mit 1.333 englischen Rebus-Rätseln, die verschiedene künstlerische Stile und Schwierigkeitsgrade umfassen und über 18 Kategorien wie Lebensmittel, Redewendungen, Sport, Finanzen, Unterhaltung usw. verteilt sind. Wir schlagen außerdem RebusDescProgICE vor, ein modellagnostisches Framework, das eine Kombination aus unstrukturierter Beschreibung und codebasierter, strukturierter Argumentation sowie eine verbesserte, auf Argumentation basierende Auswahl von In-Context-Beispielen verwendet. Dies verbessert die Leistung von Vision-Sprach-Modellen auf |,↻,BUS,| um 2,1–4,1 % bzw. 20–30 % bei der Verwendung von Closed-Source- und Open-Source-Modellen im Vergleich zum Chain-of-Thought-Reasoning.
Wir stellen Trove vor, ein benutzerfreundliches Open-Source-Retrieval-Toolkit, das Forschungsexperimente vereinfacht, ohne dabei Flexibilität oder Geschwindigkeit zu beeinträchtigen. Erstmals führen wir effiziente Datenverwaltungsfunktionen ein, die Retrieval-Datensätze on-the-fly mit nur wenigen Codezeilen laden und verarbeiten (filtern, auswählen, transformieren und kombinieren). Dies gibt Nutzern die Flexibilität, mühelos mit verschiedenen Datensatzkonfigurationen zu experimentieren, ohne mehrere Kopien großer Datensätze berechnen und speichern zu müssen. Trove ist hochgradig anpassbar: Neben vielen integrierten Optionen ermöglicht es Nutzern, bestehende Komponenten frei zu modifizieren oder vollständig durch benutzerdefinierte Objekte zu ersetzen. Es bietet zudem eine Low-Code- und vereinheitlichte Pipeline für Evaluation und Hard-Negative-Mining, die Mehrknoten-Ausführung ohne Codeänderungen unterstützt. Troves Datenverwaltungsfunktionen reduzieren den Speicherverbrauch um das 2,6-Fache. Darüber hinaus verursacht Troves benutzerfreundliche Inferenz-Pipeline keinen Overhead, und die Inferenzzeiten verringern sich linear mit der Anzahl verfügbarer Knoten. Am wichtigsten ist, dass wir demonstrieren, wie Trove Retrieval-Experimente vereinfacht und beliebige Anpassungen ermöglicht, wodurch explorative Forschung erleichtert wird.
Das Ablesen von Messinstrumenten ist für Menschen mühelos und erfordert relativ wenig Domänenwissen, stellt jedoch für aktuelle Vision-Language-Modelle (VLMs) überraschend schwierig dar, wie wir in Vorabauswertungen feststellen. In dieser Arbeit stellen wir MeasureBench vor, einen Benchmark für visuelles Messablesen, der sowohl reale als auch synthetisierte Bilder verschiedener Messarten abdeckt, zusammen mit einer erweiterbaren Pipeline zur Datensynthese. Unsere Pipeline generiert prozedural einen bestimmten Messgerätetyp mit kontrollierbarem visuellen Erscheinungsbild, was skalierbare Variationen in Schlüsseldetails wie Zeigern, Skalen, Schriftarten, Beleuchtung und Hintergrundunordnung ermöglicht. Die Evaluierung populärer proprietärer und Open-Weight-VLMs zeigt, dass selbst die leistungsstärksten Frontier-Modelle generell mit dem Messablesen kämpfen. Ein konsistentes Fehlermuster ist die Zeigerlokalisierung: Modelle können Ziffern oder Beschriftungen lesen, aber die Schlüsselpositionen von Zeigern oder Ausrichtungen falsch identifizieren, was zu großen numerischen Fehlern trotz plausibler textueller Argumentation führt. Wir haben zudem vorläufige Experimente mit Reinforcement Learning auf synthetischen Daten durchgeführt und ermutigende Ergebnisse auf der synthetischen Teilstichprobe, aber weniger vielversprechende für reale Bilder festgestellt. Unsere Analyse unterstreicht eine fundamentale Limitation aktueller VLMs in feinkörniger räumlicher Verankerung. Wir hoffen, dass diese Ressource zukünftige Fortschritte in visuell verankerter Numerik und präziser räumlicher Wahrnehmung von VLMs unterstützt, um die Lücke zwischen Zahlenerkennung und Weltvermessung zu schließen.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben das Verständnis für 2D-Visualisierungen erheblich verbessert, was das Interesse an ihrer Anwendung für komplexe 3D-Bewertungsaufgaben geweckt hat. Es bleibt jedoch unklar, ob diese Modelle die detaillierten räumlichen Informationen, die für eine robuste Leistung in der realen Welt erforderlich sind, effektiv erfassen können, insbesondere die konsistente Übereinstimmung verschiedener Blickwinkel – eine Schlüsselvoraussetzung für eine genaue 3D-Bewertung. Vor diesem Hintergrund führen wir Viewpoint Learning ein, eine Aufgabe, die darauf abzielt, die räumlichen Bewertungsfähigkeiten von MLLMs zu evaluieren und zu verbessern. Wir stellen den Viewpoint-100K-Datensatz vor, der aus 100.000 objektzentrierten Bildpaaren mit verschiedenen Blickwinkeln und entsprechenden Frage-Antwort-Paaren besteht. Unser Ansatz verfolgt eine zweistufige Feinabstimmungsstrategie: Zunächst wird dem Baseline-MLLM durch überwachte Feinabstimmung (SFT) auf Viewpoint-100K grundlegendes Wissen injiziert, was zu signifikanten Verbesserungen bei verschiedenen Aufgaben führt; zweitens wird die Generalisierung durch Reinforcement Learning mit dem Group Relative Policy Optimization (GRPO)-Algorithmus auf einer breiteren Fragestellung verbessert. Zusätzlich führen wir eine hybride Cold-Start-Initialisierungsmethode ein, die darauf ausgelegt ist, gleichzeitig Blickwinkelrepräsentationen zu erlernen und kohärentes logisches Denken beizubehalten. Experimentelle Ergebnisse zeigen, dass unser Ansatz die räumliche Bewertungsfähigkeit des MLLM signifikant aktiviert und die Leistung sowohl bei domäneninternen als auch domänenexternen Bewertungsaufgaben verbessert. Unsere Erkenntnisse unterstreichen den Wert der Entwicklung grundlegender räumlicher Fähigkeiten in MLLMs und unterstützen zukünftige Fortschritte in den Bereichen Robotik, autonome Systeme und 3D-Szenenverständnis.
Die Datenauswahl ist ein entscheidender Aspekt von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs). Bisherige Datenauswahlmethoden sind überwiegend heuristisch basiert und entbehren theoretischer Garantien sowie Generalisierbarkeit. Diese Arbeit schlägt einen theoretisch fundierten Ansatz vor, der Einflussfunktionen nutzt, um den Beitrag jedes Datenpunktes zum Lernziel abzuschätzen. Um den prohibitiv hohen Rechenaufwand von Policy-Rollouts für Online-Einflussabschätzungen zu überwinden, führen wir eine Off-Policy-Einflussabschätzung ein, die den Dateneinfluss effizient mittels vorab gesammelter Offline-Trajektorien approximiert. Zudem verwenden wir zur Handhabung der hochdimensionalen Gradienten von LLMs sparse Random Projection, um die Dimensionalität zu reduzieren und die Speicher- und Recheneffizienz zu steigern. Aufbauend auf diesen Techniken entwickeln wir Curriculum RL with Off-Policy Influence guidance (CROPI), ein mehrstufiges RL-Framework, das iterativ die einflussreichsten Daten für die aktuelle Policy auswählt. Experimente mit Modellen bis zu 7B Parametern zeigen, dass CROPI das Training erheblich beschleunigt. Bei einem 1,5B-Modell erreicht es eine 2,66-fache Beschleunigung auf Schrittebene, wobei pro Stufe nur 10 % der Daten im Vergleich zum Training mit dem vollständigen Datensatz verwendet werden. Unsere Ergebnisse unterstreichen das beträchtliche Potenzial einflussbasierter Datenauswahl für effizientes RLVR.
Die Identifikation geeigneter Nordstern-Metriken ist von entscheidender Bedeutung für die Weiterentwicklung der mathematischen Denkfähigkeiten von Foundation-Modellen, insbesondere da bestehende Evaluationen entweder zu einfach sind oder sich lediglich auf korrekte Kurzantworten konzentrieren. Um diese Probleme zu adressieren, stellen wir IMO-Bench vor, eine Suite anspruchsvoller Reasoning-Benchmarks, die von einem Gremium von Top-Spezialisten geprüft wurde und speziell das Niveau der Internationalen Mathematik-Olympiade (IMO), der renommiertesten Plattform für junge Mathematiker, anvisiert. IMO-AnswerBench testet Modelle zunächst an 400 diversen Olympiade-Aufgaben mit überprüfbaren Kurzantworten. IMO-ProofBench ist die Evaluation der nächsten Stufe für Beweisführungsfähigkeiten und umfasst sowohl grundlegende als auch fortgeschrittene IMO-Probleme sowie detaillierte Bewertungsrichtlinien zur Ermöglichung einer automatischen Benotung. Diese Benchmarks spielten eine entscheidende Rolle bei unserem historischen Erfolg mit Goldmedaillen-Niveau bei der IMO 2025 mit Gemini Deep Think (Luong und Lockhart, 2025). Unser Modell erzielte 80,0 % auf IMO-AnswerBench und 65,7 % auf dem fortgeschrittenen IMO-ProofBench und übertraf die besten Nicht-Gemini-Modelle mit deutlichen Margen von 6,9 % bzw. 42,4 %. Wir zeigten zudem, dass mit Gemini-Reasoning entwickelte Autograder gut mit menschlichen Bewertungen korrelieren, und erstellten IMO-GradingBench mit 1000 menschlichen Bewertungen von Beweisen, um weitere Fortschritte in der automatischen Evaluation langformulierter Antworten zu ermöglichen. Wir hoffen, dass IMO-Bench der Community dabei helfen wird, robustes mathematisches Denken voranzutreiben, und veröffentlichen es unter https://imobench.github.io/.
Vision-Language-Action (VLA)-Modelle zielen darauf ab, natürliche Sprachinstruktionen und visuelle Beobachtungen zu verstehen und als verkörperter Agent entsprechende Aktionen auszuführen. Jüngste Arbeiten integrieren Zukunftsbilder in den Verstehens-Handlungs-Kreislauf, was zu vereinheitlichten VLA-Modellen führt, die gemeinsam verstehen, generieren und handeln – sie lesen Text und Bilder und erzeugen Zukunftsbilder sowie Aktionen. Allerdings stützen sich diese Modelle entweder auf externe Experten für die Modalitätsvereinheitlichung oder behandeln Bildgenerierung und Aktionsvorhersage als separate Prozesse, was den Nutzen einer direkten Synergie zwischen diesen Aufgaben einschränkt. Unsere Kernphilosophie ist es, Generierung und Aktion gemeinsam durch einen synchronen Denoisierungsprozess zu optimieren, bei dem die iterative Verfeinerung es Aktionen ermöglicht, sich aus einer Initialisierung unter konstanter und ausreichender visueller Führung heraus zu entwickeln. Wir untermauern diese Philosophie mit unserem vorgeschlagenen Unified Diffusion VLA und dem Joint Discrete Denoising Diffusion Process (JD3P), einem gemeinsamen Diffusionsprozess, der mehrere Modalitäten in eine einzige Denoisierungstrajektorie integriert. Dieser dient als Schlüsselmechanismus, der Verstehen, Generieren und Handeln intrinsisch synergistisch macht. Unser Modell und unsere Theorie basieren auf einem vereinheitlichten tokenisierten Raum aller Modalitäten und einem hybriden Aufmerksamkeitsmechanismus. Wir schlagen weiterhin eine zweistufige Trainingspipeline und mehrere Inferenztechniken vor, die Leistung und Effizienz optimieren. Unser Ansatz erreicht state-of-the-art Leistung auf Benchmarks wie CALVIN, LIBERO und SimplerEnv bei einer 4-mal schnelleren Inferenz als autoregressive Methoden. Wir demonstrieren seine Wirksamkeit durch eingehende Analysen und Evaluationen in realen Szenarien. Unsere Projektseite ist verfügbar unter https://irpn-eai.github.io/UD-VLA.github.io/.
Foundation Models in der Videogenerierung zeigen bemerkenswerte Fähigkeiten als potenzielle Weltmodelle zur Simulation der physischen Welt. Deren Anwendung in hochriskanten Domänen wie der Chirurgie, die tiefes, spezialisiertes Kausalwissen anstelle allgemeiner physikalischer Regeln erfordert, bleibt jedoch eine kritische, unerforschte Lücke. Um diese Herausforderung systematisch anzugehen, präsentieren wir SurgVeo, den ersten expertenkuratierten Benchmark zur Evaluierung von Videogenerierungsmodellen in der Chirurgie, und die Surgical Plausibility Pyramid (SPP), einen neuartigen, vierstufigen Bewertungsrahmen zur Beurteilung von Modelloutputs von der grundlegenden Erscheinung bis hin zur komplexen chirurgischen Strategie. Auf Basis des SurgVeo-Benchmarks beauftragen wir das fortschrittliche Veo-3-Modell mit einer Zero-Shot-Vorhersageaufgabe für chirurgische Clips aus laparoskopischen und neurochirurgischen Eingriffen. Ein Gremium von vier Fachärzten für Chirurgie bewertet die generierten Videos gemäß der SPP. Unsere Ergebnisse zeigen eine deutliche „Plausibilitätslücke“: Während Veo-3 eine außergewöhnliche Visuelle Perzeptive Plausibilität erreicht, versagt es kritisch auf höheren Ebenen der SPP, einschließlich Instrumentenbedienungsplausibilität, Umgebungsrückkopplungsplausibilität und chirurgischer Absichtsplausibilität. Diese Arbeit liefert den ersten quantitativen Nachweis für die Kluft zwischen visuell überzeugender Nachahmung und kausalem Verständnis in der chirurgischen KI. Unsere Erkenntnisse aus SurgVeo und der SPP legen eine entscheidende Grundlage und einen Fahrplan für die Entwicklung zukünftiger Modelle, die in der Lage sind, die Komplexitäten spezialisierter, realer Gesundheitsdomänen zu bewältigen.
Der bemerkenswerte Erfolg multimodaler großer Sprachmodelle (MLLMs) hat Fortschritte bei multimodalen Einbettungen vorangetrieben, doch bestehende Modelle bleiben inhärent diskriminativ, was ihre Fähigkeit einschränkt, vom reasoning-gesteuerten Generierungsparadigma zu profitieren. In dieser Arbeit pionieren wir die Erforschung generativer Einbettungen und vereinheitlichen Einbettungsaufgaben innerhalb eines generativen Paradigmas. Wir schlagen UME-R1 vor, ein universelles multimodales Einbettungsframework mit einer Zwei-Phasen-Trainingsstrategie: Ein Cold-Start Supervised Fine-Tuning stattet das Modell mit Reasoning-Fähigkeiten aus und ermöglicht es ihm, sowohl diskriminative als auch generative Einbettungen zu erzeugen; ein anschließendes Reinforcement Learning verbessert das Reasoning und optimiert weiter die Qualität der generativen Einbettungen. Diese Pionierarbeit liefert vier zentrale Erkenntnisse: 1) Generative Einbettungen erzielen durch die Nutzung der leistungsstarken generativen Reasoning-Fähigkeiten von MLLMs erhebliche Leistungssteigerungen gegenüber konventionellen diskriminativen Einbettungen. 2) Diskriminative und generative Einbettungen sind komplementär – ihre kombinierte Oracle-Leistung übertrifft die der jeweiligen Einzelansätze bei weitem. 3) RL kann generative Einbettungen effektiv verbessern und etabliert ein skalierbares Optimierungsparadigma. 4) Wiederholtes Sampling während der Inferenz steigert die Abdeckung von Downstream-Aufgaben (pass@k) und unterstreicht das Skalierungspotenzial generativer Einbettungen zur Inferenzzeit. Ausgewertet auf dem MMEB-V2-Benchmark mit 78 Aufgaben aus den Bereichen Video, Bild und visuelle Dokumente, übertrifft UME-R1 konventionelle diskriminative Einbettungsmodelle signifikant und bietet eine Grundlage für interpretierbarere, reasoning-gesteuerte generative multimodale Einbettungen. Unser Code, Modelle und Datensätze werden unter https://github.com/XMUDeepLIT/UME-R1 öffentlich verfügbar sein.
Große Sprachmodelle (LLMs) haben starke Fähigkeiten im natürlichen Sprachverständnis bewiesen, doch ihre Anwendung in der Cyber-Bedrohungsaufklärung (CTI) bleibt begrenzt. Die CTI-Analyse umfasst die Verdichtung großer Mengen unstrukturierter Berichte in handlungsrelevantes Wissen – ein Prozess, bei dem LLMs den Arbeitsaufwand von Analysten erheblich reduzieren könnten. CTIBench führte einen umfassenden Benchmark zur Bewertung von LLMs über mehrere CTI-Aufgaben hinweg ein. In dieser Arbeit erweitern wir CTIBench durch die Entwicklung von AthenaBench, einem verbesserten Benchmark, der eine optimierte Datensatz-Erstellungspipeline, Duplikatentfernung, verfeinerte Evaluierungsmetriken und eine neue Aufgabe mit Fokus auf Risikominderungsstrategien umfasst. Wir evaluieren zwölf LLMs, darunter state-of-the-art proprietäre Modelle wie GPT-5 und Gemini-2.5 Pro, sowie sieben Open-Source-Modelle der LLaMA- und Qwen-Familien. Während proprietäre LLMs insgesamt stärkere Ergebnisse erzielen, bleibt ihre Leistung bei reasoning-intensiven Aufgaben, wie der Zuschreibung von Bedrohungsakteuren und Risikominderung, unzureichend, wobei Open-Source-Modelle noch weiter zurückfallen. Diese Ergebnisse verdeutlichen grundlegende Grenzen der Reasoning-Fähigkeiten aktueller LLMs und unterstreichen die Notwendigkeit von Modellen, die explizit auf CTI-Workflows und Automatisierung zugeschnitten sind.
Die grafische Benutzeroberfläche (GUI) Grounding ist eine Kernfunktion von Computer-Nutzungsagenten, die natürliche Sprachbefehle auf aktionsfähige Bildschirmbereiche abbildet. Bestehende Ansätze auf Basis multimodaler großer Sprachmodelle (MLLMs) formulieren dies typischerweise als textbasierte Koordinatengenerierungsaufgabe, doch die direkte Generierung präziser Koordinaten aus visuellen Eingaben bleibt herausfordernd und rechenintensiv. Eine intuitive Möglichkeit zur Implementierung von GUI-Grounding besteht darin, zunächst visuelle Bildausschnitte auszuwählen, die für die Befehle relevant sind, und dann die genauen Klickpositionen innerhalb dieser Ausschnitte zu bestimmen. Basierend auf der Beobachtung, dass allgemeine MLLMs über eine gewisse native Grounding-Fähigkeit verfügen, die in ihren Aufmerksamkeitsmechanismen eingebettet ist, schlagen wir GUI-AIMA vor, ein aufmerksamkeitsbasiertes und koordinatenfreies Supervised-Fine-Tuning-Framework für effizientes GUI-Grounding. GUI-AIMA richtet die intrinsische multimodale Aufmerksamkeit von MLLMs an patchweisen Grounding-Signalen aus. Diese Signale werden adaptiv für diverse Benutzeranweisungen durch Multi-Head-Aggregation auf vereinfachten Abfrage-Visual-Aufmerksamkeitsmatrizen berechnet. Zudem kann seine koordinatenfreie Art einfach eine Plug-and-Play-Zoom-Stufe integrieren. GUI-AIMA-3B wurde mit nur 85.000 Bildschirmfotos trainiert, was eine außergewöhnliche Dateneffizienz demonstriert und bestätigt, dass leichtes Training die native Grounding-Fähigkeit von MLLMs aktivieren kann. Es erzielt state-of-the-art Leistung unter 3B-Modellen mit einer durchschnittlichen Genauigkeit von 58,6 % auf ScreenSpot-Pro und 62,2 % auf OSWorld-G. Projektseite: https://github.com/sjz5202/GUI-AIMA
Natürlichsprachliche Erklärungen (Natural Language Explanations, NLEs) beschreiben, wie Große Sprachmodelle (Large Language Models, LLMs) Entscheidungen treffen, indem sie sowohl externes Kontextwissen (Context Knowledge, CK) als auch parametrisches Wissen (Parametric Knowledge, PK), das in Modellgewichten gespeichert ist, heranziehen. Das Verständnis ihrer Interaktion ist entscheidend für die Bewertung der Fundierung von NLEs, dennoch wurde dies bisher kaum erforscht. Bisherige Arbeiten haben größtenteils nur Einzelschritt-Generierung untersucht, typischerweise die finale Antwort, und die PK- und CK-Interaktion lediglich als binäre Wahl in einem Rang-1-Unterraum modelliert. Dies übersieht reichere Interaktionsformen, wie komplementäres oder unterstützendes Wissen. Wir schlagen einen neuartigen Rang-2-Projektionsunterraum vor, der die Beiträge von PK und CK genauer entwirrt, und nutzen ihn für die erste Mehrschritt-Analyse von Wissensinteraktionen über längere NLE-Sequenzen hinweg. Experimente mit vier QA-Datensätzen und drei Open-Weight-Instruktions-finetunierten LLMs zeigen, dass diverse Wissensinteraktionen in einem Rang-1-Unterraum schlecht repräsentiert sind, in unserer Rang-2-Formulierung jedoch effektiv erfasst werden. Unsere Mehrschritt-Analyse zeigt, dass halluzinierte NLEs stark mit der PK-Richtung übereinstimmen, kontexttreue NLEs PK und CK ausbalancieren, und Chain-of-Thought-Prompting für NLEs die generierten NLEs durch Reduzierung der PK-Abhängigkeit in Richtung CK verschiebt. Diese Arbeit bietet den ersten Rahmen für systematische Studien von Mehrschritt-Wissensinteraktionen in LLMs durch eine reichere Entwirrung in einem Rang-2-Unterraum. Code und Daten: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
Im Bereich des Retrievals ist die Fusion von Kandidaten aus heterogenen Retrieval-Systemen eine langjährige Herausforderung, insbesondere für komplexe, multimodale Daten wie Videos. Während typische Fusionstechniken trainierungsfrei sind, stützen sie sich ausschließlich auf Rang- oder Score-Signale und ignorieren die Repräsentationen der Kandidaten. Diese Arbeit stellt Vote-in-Context (ViC) vor, einen generalisierten, trainierungsfreien Rahmen, der Listen-weises Re-Ranking und Fusion als Zero-Shot Reasoning-Aufgabe für ein Vision-Language-Modell (VLM) neu konzipiert. Die zentrale Erkenntnis besteht darin, sowohl Inhaltsbeweise als auch Retriever-Metadaten direkt im Prompt des VLMs zu serialisieren, wodurch das Modell adaptiv den Konsens der Retriever gegen visuell-linguistische Inhalte abwägen kann. Wir demonstrieren die Allgemeingültigkeit dieses Rahmens, indem wir ihn auf den anspruchsvollen Bereich des cross-modalen Video-Retrievals anwenden. Zu diesem Zweck führen wir das S-Grid ein, eine kompakte Serialisierungsmap, die jedes Video als Bildraster darstellt, optional ergänzt durch Untertitel, um Listen-weises Reasoning über Videokandidaten zu ermöglichen. ViC wird sowohl als Single-List-Re-Ranker evaluiert, wo es die Präzision einzelner Retriever drastisch verbessert, als auch als Ensemble-Fuser, wo es konsistent starke Baselines wie CombSUM übertrifft. Über Video-Retrieval-Benchmarks hinweg, einschließlich ActivityNet und VATEX, etabliert der Rahmen eine neue state-of-the-art Zero-Shot-Retrieval-Leistung, was seine Wirksamkeit bei der Verarbeitung komplexer visueller und temporaler Signale neben Text demonstriert. In Zero-Shot-Szenarien erreicht ViC Recall@1-Werte von 87,1 % (t2v) / 89,0 % (v2t) auf MSR-VTT und 99,6 % (v2t) auf VATEX, was massiven Gewinnen von bis zu +40 Recall@1 gegenüber vorherigen state-of-the-art Baselines entspricht. Wir präsentieren ViC als ein einfaches, reproduzierbares und hocheffektives Rezept, um moderne VLMs in leistungsstarke Zero-Shot-Re-Ranker und Fuser zu verwandeln. Code und Ressourcen sind öffentlich verfügbar unter: https://github.com/mohammad2012191/ViC