papers.description
Die Paradigmen "Denken mit Text" und "Denken mit Bildern" verbessern die Fähigkeit von großen Sprachmodellen (LLMs) und visuell-sprachlichen Modellen (VLMs) zum logischen Schlussfolgern erheblich. Diese Paradigmen weisen jedoch inhärente Grenzen auf: (1) Bilder erfassen nur einzelne Momente und können dynamische Prozesse oder kontinuierliche Veränderungen nicht abbilden, und (2) die Trennung von Text und Vision als distinkte Modalitäten behindert ein einheitliches multimodales Verständnis und eine einheitliche Generierung. Um diese Grenzen zu überwinden, führen wir "Denken mit Video" ein – ein neues Paradigma, das Videogenerierungsmodelle wie Sora-2 nutzt, um visuelles und textuelles Schlussfolgern in einem einheitlichen zeitlichen Rahmen zu verbinden. Zur Unterstützung dieser Forschung haben wir den Video Thinking Benchmark (VideoThinkBench) entwickelt. VideoThinkBench umfasst zwei Aufgabenkategorien: (1) visuell-zentrierte Aufgaben (z.B. Eyeballing Puzzles) und (2) text-zentrierte Aufgaben (z.B. Teilmengen von GSM8K, MMMU). Unsere Evaluation zeigt, dass Sora-2 ein leistungsfähiges Modell für logisches Schlussfolgern ist. Bei visuell-zentrierten Aufgaben ist Sora-2 generell mit modernsten VLMs vergleichbar und übertrifft diese sogar bei mehreren Aufgaben, wie z.B. Eyeballing Games. Bei text-zentrierten Aufgaben erzielt Sora-2 eine Genauigkeit von 92 % auf MATH und 75,53 % auf MMMU. Darüber hinaus analysieren wir systematisch die Ursprünge dieser Fähigkeiten. Wir stellen ebenfalls fest, dass Selbstkonsistenz und In-Context-Learning die Leistung von Sora-2 verbessern können. Zusammenfassend zeigen unsere Ergebnisse, dass das Videogenerierungsmodell das potenzielle einheitliche multimodale Verständnis- und Generierungsmodell ist, und positionieren "Denken mit Video" als einheitliches multimodales Schlussfolgerungsparadigma.
Die Befähigung großer multimodaler Modelle (LMMs), Bildinteraktion tiefgehend mit Fähigkeiten zum Langzeitschlussfolgern zu integrieren, bleibt eine langjährige Herausforderung in diesem Forschungsgebiet. Jüngste Fortschritte im bereich der visuell-zentrierten Reasoningansätze erkunden ein vielversprechendes "Denken mit Bildern"-Paradigma für LMMs, was einen Wandel vom bildgestützten zum bildinteraktiven Denken markiert. Obwohl dieser Meilenstein es Modellen ermöglicht, sich auf feinkörnige Bildregionen zu konzentrieren, bleibt der Fortschritt durch eingeschränkte visuelle Werkzeugräume und aufgabenspezifische Workflow-Designs begrenzt. Um diese Lücke zu schließen, stellen wir V-Thinker vor, einen universellen multimodalen Reasoning-Assistenten, der interaktives, visuell-zentriertes Denken durch bestärkendes Lernen Ende-zu-Ende ermöglicht. V-Thinker umfasst zwei Schlüsselkomponenten: (1) ein Data Evolution Flywheel, das interaktive Reasoning-Datensätze automatisch in drei Dimensionen – Diversität, Qualität und Schwierigkeitsgrad – synthetisiert, weiterentwickelt und verifiziert; und (2) einen Visual Progressive Training Curriculum, der zunächst die Wahrnehmung durch Punkt-für-Punkt-Aufsicht ausrichtet und dann interaktives Reasoning durch einen zweistufigen Reinforcement-Learning-Rahmen integriert. Darüber hinaus führen wir VTBench ein, einen expertengeprüften Benchmark für visuell-zentrierte interaktive Reasoning-Aufgaben. Umfangreiche Experimente zeigen, dass V-Thinker durchgängig starke LMM-basierte Baseline-Modelle sowohl in allgemeinen als auch in interaktiven Reasoning-Szenarien übertrifft und wertvolle Einblicke für die Weiterentwicklung bildinteraktiver Reasoning-Anwendungen liefert.
Während Reinforcement Learning (RL) große Sprachmodell-Agenten (LLM) durch selbstgesteuerte Verbesserung via Interaktion befähigen kann, bleibt seine praktische Anwendung aufgrund kostspieliger Rollouts, begrenzter Aufgabenvielfalt, unzuverlässiger Belohnungssignale und infrastruktureller Komplexität herausfordernd. All diese Faktoren behindern die Erhebung skalierbarer Erfahrungsdaten. Um diese Herausforderungen zu adressieren, stellen wir DreamGym vor, den ersten vereinheitlichten Rahmen, der entwickelt wurde, um diverse Erfahrungen mit Skalierbarkeit im Blick zu synthetisieren und so effektives Online-RL-Training für autonome Agenten zu ermöglichen. Anstatt auf teure Rollouts in realen Umgebungen angewiesen zu sein, destilliert DreamGym Umgebungsdynamiken in ein auf Schlussfolgerungen basierendes Erfahrungsmodell, das konsistente Zustandsübergänge und Feedback-Signale durch schrittweise Reasoning-Prozesse ableitet. Dies ermöglicht die Sammlung skalierbarer Agenten-Rollouts für RL. Um die Stabilität und Qualität der Zustandsübergänge zu verbessern, nutzt DreamGym einen Experience-Replay-Puffer, der mit Offline-Daten aus der realen Welt initialisiert und kontinuierlich mit neuen Interaktionen angereichert wird, um das Agententraining aktiv zu unterstützen. Um den Wissenserwerb zu verbessern, generiert DreamGym adaptiv neue Aufgaben, die die aktuelle Agenten-Policy herausfordern, und ermöglicht so ein effektiveres Online-Curriculum-Learning. Experimente in diversen Umgebungen und mit verschiedenen Agenten-Architekturen zeigen, dass DreamGym das RL-Training erheblich verbessert, sowohl in vollständig synthetischen Settings als auch in Sim-to-Real-Transfer-Szenarien. Bei nicht RL-fähigen Aufgaben wie WebArena übertrifft DreamGym alle Baseline-Methoden um über 30%. In RL-fähigen, aber kostspieligen Umgebungen erreicht es die Leistung von GRPO und PPO ausschließlich mit synthetischen Interaktionen. Bei der Übertragung einer Policy, die rein auf synthetischen Erfahrungen trainiert wurde, auf RL in realen Umgebungen, erzielt DreamGym signifikante zusätzliche Leistungssteigerungen, während weit weniger reale Interaktionen benötigt werden. Dies bietet eine skalierbare Warm-Start-Strategie für generalisiertes RL.
Wir argumentieren, dass Fortschritte in echter multimodaler Intelligenz einen Wandel von reaktiven, aufgabengetriebenen Systemen und roher Gewalt durch lange Kontexte hin zu einem breiteren Paradigma des Supersensing erfordern. Wir definieren räumliches Supersensing als vier Stufen, die über ein rein sprachliches Verständnis hinausgehen: semantische Wahrnehmung (Benennen des Gesehenen), stream-basierte Ereigniserkennung (Aufrechterhaltung des Gedächtnisses über kontinuierliche Erfahrungen hinweg), implizite räumliche 3D-Kognition (Erschließen der Welt hinter den Pixeln) und prädiktive Weltmodellierung (Erstellen interner Modelle, die Informationen filtern und organisieren). Aktuelle Benchmarks testen größtenteils nur die frühen Stufen, bieten eine begrenzte Abdeckung der räumlichen Kognition und fordern Modelle selten so heraus, dass echte Weltmodellierung erforderlich wäre. Um den Fortschritt im räumlichen Supersensing voranzutreiben, präsentieren wir VSI-SUPER, einen Benchmark in zwei Teilen: VSR (langfristiges visuell-räumliches Erinnern) und VSC (kontinuierliches visuell-räumliches Zählen). Diese Aufgaben erfordern beliebig lange Videoeingaben, sind jedoch resistent gegen rohe Kontexterweiterung. Anschließend testen wir die Grenzen der Datenskalierung, indem wir VSI-590K kuratieren und Cambrian-S trainieren, was eine absolute Verbesserung von +30 % auf VSI-Bench ohne Einbußen bei allgemeinen Fähigkeiten erreicht. Dennoch bleibt die Leistung bei VSI-SUPER begrenzt, was darauf hindeutet, dass Skalierung allein für räumliches Supersensing nicht ausreicht. Wir schlagen prädiktives Sensing als Weg nach vorn vor und präsentieren einen Machbarkeitsnachweis, bei dem ein selbstüberwachter Prädiktor für den nächsten latenten Frame Überraschung (Vorhersagefehler) nutzt, um Gedächtnis und Ereignissegmentierung anzutreiben. Bei VSI-SUPER übertrifft dieser Ansatz führende proprietäre Baseline-Modelle erheblich und zeigt, dass räumliches Supersensing Modelle erfordert, die nicht nur sehen, sondern Erfahrungen auch antizipieren, auswählen und organisieren.
Wir stellen Nemotron Nano V2 VL vor, das neueste Modell der Nemotron-Vision-Language-Serie, das für ein robustes Verständnis realer Dokumente, Langzeit-Videoverständnis und Reasoning-Aufgaben konzipiert ist. Nemotron Nano V2 VL erzielt durch wesentliche Verbesserungen in der Modellarchitektur, den Datensätzen und den Trainingsrezepten signifikante Steigerungen gegenüber unserem vorherigen Modell, Llama-3.1-Nemotron-Nano-VL-8B, in allen Bild- und Textdomänen. Nemotron Nano V2 VL baut auf Nemotron Nano V2, einem hybriden Mamba-Transformer-LLM, und innovativen Token-Reduzierungstechniken auf, um einen höheren Inferenz-Durchsatz in Szenarien mit langen Dokumenten und Videos zu erreichen. Wir veröffentlichen Modell-Checkpoints in den Formaten BF16, FP8 und FP4 und stellen große Teile unserer Datensätze, Rezepte und Trainingscodes zur Verfügung.
Die starke Losziehungshypothese (SLTH) postuliert, dass in zufällig initialisierten neuronalen Netzen hochperformante Teilnetzwerke, sogenannte starke Losziehungslose (SLTs), verborgen sind. Obwohl neuere theoretische Studien die SLTH für verschiedene neuronale Architekturen nachgewiesen haben, fehlt es bislang an einem theoretischen Verständnis der SLTH für Transformer-Architekturen. Insbesondere berücksichtigt die aktuelle Theorie der SLTH noch nicht den Multi-Head-Attention-Mechanismus (MHA), eine Kernkomponente von Transforms. Um diese Lücke zu schließen, führen wir eine theoretische Analyse der Existenz von SLTs in MHAs durch. Wir beweisen, dass ein zufällig initialisierter MHA mit H Köpfen und Eingabedimension d mit hoher Wahrscheinlichkeit ein SLT enthält, das einen beliebigen MHA mit derselben Eingabedimension approximiert, sofern die versteckte Dimension für Key und Value O(dlog(Hd^{3/2})) beträgt. Darüber hinaus erweitern wir durch die Nutzung dieser Theorie für MHAs die SLTH auf Transforms ohne Normalisierungsschichten. Wir validieren unsere theoretischen Erkenntnisse empirisch und zeigen, dass der Approximationsfehler zwischen dem SLT innerhalb eines Quellmodells (MHA und Transformer) und einem approximativen Zielmodell exponentiell abnimmt, wenn die versteckte Dimension des Quellmodells erhöht wird.
Wir stellen GUI-360° vor, einen groß angelegten, umfassenden Datensatz und Benchmark-Suite, der darauf abzielt, computerbasierte Agenten (CUAs) voranzubringen. CUAs stellen einzigartige Herausforderungen dar und sind durch drei anhaltende Lücken eingeschränkt: eine Knappheit an realen CUA-Aufgaben, das Fehlen automatisierter Erfassungs- und Annotationspipelines für multimodale Trajektorien sowie das Fehlen eines einheitlichen Benchmarks, der GUI-Verknüpfung, Bildschirmparsing und Aktionsvorhersage gemeinsam evaluiert. GUI-360° adressiert diese Lücken mit einer LLM-gestützten, weitgehend automatisierten Pipeline für die Abfragebeschaffung, die Konstruktion von Umgebungsvorlagen, die Aufgabeninstanziierung, die gebündelte Ausführung und die LLM-gestützte Qualitätsfilterung. Der veröffentlichte Korpus enthält über 1,2 Millionen ausgeführte Aktionenschritte über Tausende von Trajektorien in gängigen Windows-Office-Anwendungen hinweg und beinhaltet hochauflösende Bildschirmfotos, verfügbare Barrierefreiheits-Metadaten, instanziierte Ziele, Zwischen-Denkprozesse sowie sowohl erfolgreiche als auch fehlgeschlagene Aktionsverläufe. Der Datensatz unterstützt drei kanonische Aufgaben: GUI-Verknüpfung, Bildschirmparsing und Aktionsvorhersage, sowie einen hybriden GUI+API-Aktionsraum, der modernen Agenten-Designs entspricht. Das Benchmarking modernster Vision-Language-Modelle auf GUI-360° zeigt erhebliche Defizite in der Verknüpfung und Aktionsvorhersage ohne Anpassung; überwachte Feinabstimmung und bestärkendes Lernen erzielen signifikante Verbesserungen, schließen die Lücke zur menschlichen Zuverlässigkeit jedoch nicht. Wir veröffentlichen GUI-360° und begleitenden Code, um reproduzierbare Forschung zu ermöglichen und Fortschritte bei robusten Desktop-CUAs zu beschleunigen. Der vollständige Datensatz wurde öffentlich auf https://huggingface.co/datasets/vyokky/GUI-360 zugänglich gemacht.
Jüngste Fortschritte bei Vision-Language-Modellen (VLMs) haben state-of-the-art Leistungen in zahlreichen Benchmark-Aufgaben erzielt. Die Verwendung von internetgroßen, oft proprietären Vortrainingskorpora wirft jedoch ein kritisches Problem für Praktiker und Nutzer auf: eine inflationäre Leistungsbewertung aufgrund von Testdaten-Leakage. Während frühere Arbeiten Gegenmaßnahmen wie die Dekontamination von Vortrainingsdaten und Benchmark-Redesign für LLMs vorgeschlagen haben, bleibt die komplementäre Richtung der Entwicklung von Detektionsmethoden für kontaminierte VLMs untererforscht. Um diese Lücke zu schließen, kontaminieren wir gezielt Open-Source-VLMs mit gängigen Benchmarks und zeigen, dass bestehende Detektionsansätze entweder vollständig versagen oder inkonsistentes Verhalten aufweisen. Anschließend schlagen wir eine neuartige, einfache aber effektive Detektionsmethode auf Basis multimodaler semantischer Perturbation vor und demonstrieren, dass kontaminierte Modelle unter kontrollierten Störungen nicht generalisieren können. Abschließend validieren wir unseren Ansatz mit mehreren realistischen Kontaminationsstrategien und bestätigen seine Robustheit und Wirksamkeit. Der Code und der perturbierte Datensatz werden öffentlich zugänglich gemacht.
Robuste Benchmarks sind entscheidend für die Bewertung multimodaler großer Sprachmodelle (MLLMs). Wir stellen jedoch fest, dass Modelle viele multimodale Benchmarks ohne ein starkes visuelles Verständnis meistern können, indem sie stattdessen Verzerrungen, linguistische A-priori-Annahmen und oberflächliche Muster ausnutzen. Dies ist besonders problematisch für visuell zentrierte Benchmarks, die eigentlich visuelle Eingaben erfordern sollen. Wir übernehmen ein diagnostisches Prinzip für das Benchmark-Design: Wenn ein Benchmark manipuliert werden kann, wird er es auch. Designer sollten daher versuchen, ihre eigenen Benchmarks zunächst selbst zu „manipulieren“, indem sie diagnostische Verfahren und Verfahren zur Entfernung von Verzerrungen anwenden, um nicht-visuelle Verzerrungen systematisch zu identifizieren und zu entschärfen. Eine effektive Diagnose erfordert das direkte „Trainieren auf dem Testset“ – das Untersuchen des veröffentlichten Testsets auf seine intrinsischen, ausnutzbaren Muster. Wir setzen diesen Standard mit zwei Komponenten in die Praxis um. Erstens diagnostizieren wir die Anfälligkeit eines Benchmarks mit einer „Testset-Stresstest“-Methodik (TsT). Unser primäres Diagnosewerkzeug beinhaltet das Feinabstimmen eines leistungsstarken großen Sprachmodells mittels k-facher Kreuzvalidierung ausschließlich auf den nicht-visuellen, textuellen Eingaben des Testsets, um Kurzschlussleistungen aufzudecken und jeder Probe einen Verzerrungswert s(x) zuzuweisen. Dies ergänzen wir mit einer leichtgewichtigen, auf Random Forest basierenden Diagnose, die auf handgefertigten Merkmalen operiert, um eine schnelle, interpretierbare Überprüfung zu ermöglichen. Zweitens entfernen wir Verzerrungen aus Benchmarks, indem wir stark verzerrte Proben mithilfe eines „Iterativen Bias-Bereinigungs“-Verfahrens (IBP) herausfiltern. Durch die Anwendung dieses Frameworks auf vier Benchmarks – VSI-Bench, CV-Bench, MMMU und VideoMME – decken wir weit verbreitete nicht-visuelle Verzerrungen auf. In einer Fallstudie wenden wir unser vollständiges Framework an, um VSI-Bench-Debiased zu erstellen, was eine reduzierte nicht-visuelle Lösbarkeit und eine größere Leistungslücke im Vergleich zu vision-blind-Modellen als im Original zeigt.
Aufkommende Systemmuster für große Sprachmodelle (LLM), wie disaggregiertes Inferenz-Computing, Mixture-of-Experts (MoE)-Routing und asynchrones Reinforcement-Fine-Tuning, erfordern eine flexible Punkt-zu-Punkt-Kommunikation, die über einfache Kollektivoperationen hinausgeht. Bestehende Implementierungen sind an spezifische Netzwerkschnittstellenkarten (NICs) gebunden, was die Integration in Inferenz-Engines und die Portabilität zwischen Hardware-Anbietern behindert. Wir stellen TransferEngine vor, das die Funktionalität gängiger NICs bündelt, um eine einheitliche Schnittstelle bereitzustellen. TransferEngine bietet one-sided WriteImm-Operationen mit einem ImmCounter-Primitiv zur Benachrichtigung über den Abschluss, ohne Reihenfolgeannahmen des Netzwerktransports, und verwaltet transparent mehrere NICs pro GPU. Wir demonstrieren einen Spitzendurchsatz von 400 Gbps auf sowohl NVIDIA ConnectX-7 als auch AWS Elastic Fabric Adapter (EFA). Wir präsentieren TransferEngine anhand dreier Produktionssysteme: (1) KvCache-Transfer für disaggregiertes Inferenz-Computing mit dynamischer Skalierung, (2) RL-Gewichtsaktualisierungen, die 1,3 Sekunden für Modelle mit Billionen Parametern erreichen, und (3) eine MoE-Dispatch/Combine-Implementierung, die die Decode-Latenz von DeepEP auf ConnectX-7 übertrifft und die ersten praktikablen Latenzzeiten auf EFA erreicht. Wir zeigen, dass unsere portable Punkt-zu-Punkt-Kommunikation Kollektivoperationen ergänzt und gleichzeitig Vendor-Lock-in vermeidet.
Wir schlagen EVTAR vor, ein End-to-End-Virtual-Try-on-Modell mit zusätzlichen Referenzen, das das Zielkleidungsstück direkt an das Personenbild anpasst und dabei Referenzbilder einbezieht, um die Anprobe-Genauigkeit zu verbessern. Die meisten bestehenden Virtual-Try-on-Ansätze verlassen sich auf komplexe Eingaben wie agnostische Personenbilder, menschliche Posen, DensePose oder Körper-Keypoints, was sie arbeitsintensiv und für reale Anwendungen unpraktisch macht. Im Gegensatz dazu verfolgt EVTAR eine Zwei-Phasen-Trainingsstrategie, die einen einfachen Inferenzvorgang mit nur dem Quellbild und den Zielkleidungsstück-Eingaben ermöglicht. Unser Modell erzeugt Anprobe-Ergebnisse ohne Masken, DensePose oder Segmentierungskarten. Darüber hinaus nutzt EVTAR zusätzliche Referenzbilder verschiedener Personen, die dieselben Kleidungsstücke tragen, um die Textur des Kleidungsstücks und fein granulierte Details besser zu erhalten. Dieser Mechanismus ist analog dazu, wie Menschen Referenzmodelle bei der Kleiderauswahl berücksichtigen, wodurch ein realistischeres und hochwertigeres Bekleidungsergebnis simuliert wird. Wir reichern die Trainingsdaten mit ergänzenden Referenzen und ungepaarten Personenbildern an, um diese Fähigkeiten zu unterstützen. Wir evaluieren EVTAR anhand zweier weit verbreiteter Benchmarks und verschiedener Aufgaben, und die Ergebnisse validieren durchgängig die Effektivität unseres Ansatzes.
Trotz beeindruckender Fähigkeiten im hochwertigen Videoverständnis haben multimodale Sprachmodelle Schwierigkeiten mit räumlichem Schlussfolgern über Zeit und Raum hinweg. Während aktuelle Ansätze zum räumlichen Training auf Echtwelt-Videodaten basieren, bleibt die Beschaffung vielfältigen Filmmaterials mit präzisen räumlichen Annotationen ein Engpass. Um diesen Engpass zu beheben, stellen wir SIMS-V vor – einen systematischen Datengenerierungsrahmen, der die privilegierten Informationen von 3D-Simulatoren nutzt, um räumlich reichhaltige Videotrainingsdaten für multimodale Sprachmodelle zu erstellen. Mit diesem Rahmenwerk untersuchen wir, welche Eigenschaften simulierter Daten einen effektiven Transfer in die reale Welt ermöglichen, durch systematische Ablationen von Fragetypen, -mischungen und -umfängen. Wir identifizieren einen minimalen Satz von drei Fragekategorien (metrische Messung, perspektivenabhängiges Schlussfolgern und zeitliches Verfolgen), die sich als am effektivsten für die Entwicklung übertragbarer räumlicher Intelligenz erweisen und eine umfassende Abdeckung übertreffen, obwohl weniger Fragetypen verwendet werden. Diese Erkenntnisse ermöglichen ein hocheffizientes Training: Unser auf nur 25.000 simulierten Beispielen feinabgestimmtes 7-Milliarden-Parameter-Video-LLM übertrifft die größere 72-Milliarden-Basislinie und erreicht auf rigorosen Echtwelt-Benchmarks für räumliches Schlussfolgern wettbewerbsfähige Leistungen mit proprietären Modellen. Unser Ansatz zeigt eine robuste Generalisierung, indem er die Leistung beim allgemeinen Videoverständnis beibehält und gleichzeitig erhebliche Verbesserungen bei verkörperten und realen räumlichen Aufgaben aufweist.
Die automatische Evaluierung von Sprach-zu-Text-Übersetzungssystemen (ST) erfolgt typischerweise durch den Vergleich von Übersetzungshypothesen mit einer oder mehreren Referenzübersetzungen. Obwohl dieser Ansatz bis zu einem gewissen Grad effektiv ist, übernimmt er die Einschränkung der referenzbasierten Evaluierung, die wertvolle Informationen aus der Quell-Eingabe ignoriert. In der maschinellen Übersetzung (MT) hat jüngste Forschung gezeigt, dass neuronale Metriken, die den Quelltext einbeziehen, eine stärkere Korrelation mit menschlichen Beurteilungen erreichen. Diese Idee auf ST zu übertragen, ist jedoch nicht trivial, da die Quelle Audio und nicht Text ist und zuverlässige Transkripte oder Alignment zwischen Quelle und Referenzen oft nicht verfügbar sind. In dieser Arbeit führen wir die erste systematische Untersuchung von quellbewussten Metriken für ST durch, mit besonderem Fokus auf realen Betriebsbedingungen, unter denen Quelltranskripte nicht verfügbar sind. Wir untersuchen zwei komplementäre Strategien zur Erzeugung textueller Stellvertreter des Eingabe-Audios: automatische Spracherkennung (ASR)-Transkripte und Rückübersetzungen der Referenzübersetzung, und führen einen neuartigen zweistufigen cross-lingualen Re-Segmentierungsalgorithmus ein, um das Alignment-Problem zwischen synthetischen Quellen und Referenzübersetzungen zu adressieren. Unsere Experimente, durchgeführt an zwei ST-Benchmarks mit 79 Sprachpaaren und sechs ST-Systemen mit unterschiedlichen Architekturen und Leistungsniveaus, zeigen, dass ASR-Transkripte eine zuverlässigere synthetische Quelle darstellen als Rückübersetzungen, wenn die Wortfehlerrate unter 20% liegt, während Rückübersetzungen stets eine recheneffizientere, aber dennoch wirksame Alternative bieten. Darüber hinaus ermöglicht unser cross-lingualer Re-Segmentierungsalgorithmus den robusten Einsatz von quellbewussten MT-Metriken in der ST-Evaluierung und ebnet so den Weg für genauere und prinzipiell bessere Evaluierungsmethoden für Sprachübersetzung.
Humanoides Fußballspielen stellt eine repräsentative Herausforderung für verkörperte Intelligenz dar, da Roboter in einer eng gekoppelten Wahrnehmungs-Handlungs-Schleife agieren müssen. Allerdings basieren bestehende Systeme typischerweise auf entkoppelten Modulen, was zu verzögerten Reaktionen und inkohärentem Verhalten in dynamischen Umgebungen führt, während reale Wahrnehmungsbeschränkungen diese Probleme weiter verschärfen. In dieser Arbeit präsentieren wir einen vereinheitlichten, reinforcement-learning-basierten Controller, der humanoiden Robotern ermöglicht, reaktive Fußballfähigkeiten durch direkte Integration von visueller Wahrnehmung und Bewegungssteuerung zu erlernen. Unser Ansatz erweitert Adversarial Motion Priors auf Wahrnehmungskontexte in realen dynamischen Umgebungen und überbrückt damit Bewegungsimitation und visuell fundierte dynamische Steuerung. Wir führen eine Encoder-Decoder-Architektur ein, kombiniert mit einem virtuellen Wahrnehmungssystem, das reale visuelle Eigenschaften modelliert. Dies ermöglicht der Policy, privilegierte Zustände aus unvollständigen Beobachtungen abzuleiten und eine aktive Koordination zwischen Wahrnehmung und Handlung herzustellen. Der resultierende Controller demonstriert starke Reaktivität und führt konsistent kohärente und robuste Fußballverhaltensweisen in verschiedenen Szenarien aus, einschließlich realer RoboCup-Wettkämpfe.
Wir stellen SAIL-RL vor, ein Reinforcement-Learning (RL) Nachtrainierungs-Framework, das die Reasoning-Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) verbessert, indem es ihnen beibringt, wann und wie sie „denken“ sollen. Bestehende Ansätze sind durch reine Ergebnisüberwachung eingeschränkt, die korrekte Antworten belohnt, ohne solide Schlussfolgerungen zu gewährleisten, sowie durch einheitliche Denkstrategien, die oft zu Überdenken bei einfachen Aufgaben und Unterdenken bei komplexen Aufgaben führen. SAIL-RL adressiert diese Herausforderungen mit einem dualen Belohnungssystem: der Denk-Belohnung (Thinking Reward), die die Qualität der Schlussfolgerung anhand faktischer Fundierung, logischer Kohärenz und Antwortkonsistenz bewertet, und der Urteils-Belohnung (Judging Reward), die adaptiv bestimmt, ob tiefgehendes Reasoning oder direktes Antworten angemessen ist. Experimente mit dem state-of-the-art Modell SAIL-VL2 zeigen, dass SAIL-RL die Benchmarks für logisches Denken und multimodales Verständnis sowohl bei 4B- als auch 8B-Modellgrößen verbessert, eine wettbewerbsfähige Performance gegenüber kommerziellen Closed-Source-Modellen wie GPT-4o erreicht und Halluzinationen erheblich reduziert. Dies etabliert SAIL-RL als ein prinzipienbasiertes Framework für den Aufbau zuverlässigerer und adaptiverer MLLMs. Der Code wird unter https://github.com/BytedanceDouyinContent/SAIL-RL verfügbar sein.