papers.description
Große Sprachmodelle (LLMs) haben die automatisierte Softwareentwicklung grundlegend verändert, indem sie die direkte Übersetzung von natürlichen Sprachbeschreibungen in funktionalen Code ermöglichen. Dies treibt die kommerzielle Nutzung durch Werkzeuge wie GitHub Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) und Claude Code (Anthropic) voran. Während sich das Feld dramatisch von regelbasierten Systemen zu Transformer-basierten Architekturen entwickelt hat, wurden Leistungsverbesserungen von einstelligen Erfolgsquoten auf über 95 % bei Benchmarks wie HumanEval erzielt. In dieser Arbeit liefern wir eine umfassende Synthese und einen praktischen Leitfaden (eine Reihe analytischer und untersuchender Experimente) zu Code-LLMs, indem wir systematisch den vollständigen Modell-Lebenszyklus von der Datenkuratierung über das Post-Training bis hin zu fortschrittlichen Prompting-Paradigmen, Code-Pre-Training, überwachtem Fine-Tuning, Reinforcement Learning und autonomen Coding-Agenten untersuchen. Wir analysieren die Code-Fähigkeiten allgemeiner LLMs (GPT-4, Claude, LLaMA) und code-spezialisierter LLMs (StarCoder, Code LLaMA, DeepSeek-Coder und QwenCoder) und betrachten dabei kritisch die Techniken, Designentscheidungen und Kompromisse. Darüber hinaus artikulieren wir die Forschung-Praxis-Lücke zwischen akademischer Forschung (z.B. Benchmarks und Aufgaben) und realem Einsatz (z.B. softwarebezogene Code-Aufgaben), einschließlich Code-Korrektheit, Sicherheit, kontextuellem Bewusstsein für große Codebasen und Integration in Entwicklungs-Workflows, und ordnen vielversprechende Forschungsrichtungen praktischen Bedürfnissen zu. Schließlich führen wir eine Reihe von Experimenten durch, um eine umfassende Analyse von Code-Pre-Training, überwachtem Fine-Tuning und Reinforcement Learning zu liefern, die Skalierungsgesetze, Framework-Auswahl, Hyperparameter-Empfindlichkeit, Modellarchitekturen und Datenvergleiche abdeckt.
Große multimodale Modelle (LMMs) haben großes Potenzial für Video Reasoning mit textueller Chain-of-Thought gezeigt. Sie bleiben jedoch anfällig für Halluzinationen, insbesondere bei der Verarbeitung von Langvideos, bei denen Beweise spärlich und zeitlich verteilt sind. Inspiriert davon, wie Menschen lange Videos verstehen – durch erst globales Überfliegen und dann detaillierte Untersuchung relevanter Clips – führen wir LongVT ein, ein End-to-End-Agenten-Framework, das "Denken mit Langvideos" durch verschachtelte Multimodale Chain-of-Tool-Thought ermöglicht. Konkret nutzen wir die inhärente Fähigkeit von LMMs zur temporalen Verankerung als natives Video-Cropping-Tool, um auf einen bestimmten Videoclip hereinzuzoomen und fein granulierte Videobilder neu abzutasten. Diese Global-zu-Lokal-Denk-Schleife setzt sich fort, bis Antworten in abgerufenen visuellen Beweisen verankert sind. Angesichts der Knappheit an fein granulierte Frage-Antwort-(QA)-Daten für die Langvideo-Reasoning-Aufgabe kuratieren und veröffentlichen wir einen Datensatz namens VideoSIAH, um sowohl Training als auch Evaluation zu erleichtern. Unser Trainingsdatensatz besteht aus 247,9 Tausend Stichproben für toolintegriertes Kaltstart-Supervised-Fine-Tuning, 1,6 Tausend Stichproben für agentisches Reinforcement Learning bzw. 15,4 Tausend Stichproben für agentisches Reinforcement-Fine-Tuning. Unser Evaluierungs-Benchmark umfasst 1.280 QA-Paare, die durch eine halbautomatische Datenpipeline mit Human-in-the-Loop-Validierung sorgfältig erstellt wurden. Mit einer sorgfältig gestalteten Drei-Stufen-Trainingsstrategie und umfangreicher empirischer Validierung übertrifft LongVT durchgängig bestehende starke Baselines in vier anspruchsvollen Benchmarks für Langvideo-Verständnis und Reasoning. Unsere Codes, Daten und Modell-Checkpoints sind öffentlich unter https://github.com/EvolvingLMMs-Lab/LongVT verfügbar.
Aktuelle multimodale Modelle zielen darauf ab, die Grenzen unimodaler Repräsentationen durch Vereinheitlichung von Verständnis und Generierung zu überwinden, wobei häufig Text-zu-Bild (T2I)-Aufgaben zur Kalibrierung semantischer Konsistenz genutzt werden. Ihre Abhängigkeit von statischer Einzelbildgenerierung in Training und Evaluation führt jedoch zu einer Überanpassung an statische Mustererkennung und semantische Fusion, während grundsätzlich ihre Fähigkeit beeinträchtigt wird, dynamische Prozesse zu modellieren, die sich zeitlich entfalten. Um diese Einschränkungen zu adressieren, schlagen wir Envision vor – einen Benchmark für kausale Ereignisprogression zur verketteten Text-zu-Mehrbild-Generierung. Basierend auf Weltwissen und strukturiert durch raumzeitliche Kausalität reorganisiert er bestehende Evaluierungsdimensionen und umfasst 1.000 Vier-Stufen-Prompts aus sechs wissenschaftlichen und geisteswissenschaftlichen Domänen. Um die Evaluation von Einzelbildern zu sequentiellen Frames zu erweitern und zu bewerten, ob Modelle Weltwissen wirklich internalisieren und dabei kausal-zeitlichen Beschränkungen folgen, führen wir den Envision-Score ein – eine holistische Metrik, die multidimensionale Konsistenz, Physicalität und Ästhetik integriert. Die umfassende Evaluation von 15 Modellen (10 spezialisierte T2I-Modelle, 5 vereinheitlichte Modelle) zeigt: Spezialisierte T2I-Modelle beweisen Kompetenz in ästhetischer Darstellung, doch es mangelt ihnen an intrinsischem Weltwissen. Vereinheitlichte multimodale Modelle schließen diese Lücke und übertreffen spezialisierte Pendants konsequent in kohärenter narrativer Kausalität. Allerdings bleiben selbst diese vereinheitlichten Architekturen Closed-Source-Modellen unterlegen und scheitern an der Kernherausforderung raumzeitlicher Konsistenz. Dies demonstriert, dass eine Fokussierung auf kausal isolierte Einzelbilder Mehrbild-Schlussfolgerung und -Generierung behindert, statische Mustererkennung über dynamische Weltmodellierung stellt – und letztlich die Internalisation und Generierung von Weltwissen begrenzt.
Dieses Papier stellt eine neuartige Formulierung für Reinforcement Learning (RL) mit großen Sprachmodellen vor und erläutert, warum und unter welchen Bedingungen die wahre sequenzielle Belohnung über ein surrogates tokenweises Ziel in Policy-Gradient-Methoden wie REINFORCE optimiert werden kann. Insbesondere zeigen wir durch eine Approximation erster Ordnung, dass dieses Surrogat zunehmend gültig wird, nur wenn sowohl die Trainings-Inferenz-Diskrepanz als auch die Policy-Stagnation minimiert werden. Diese Erkenntnis liefert eine prinzipielle Erklärung für die entscheidende Rolle mehrerer weit verbreiteter Techniken zur Stabilisierung des RL-Trainings, einschließlich Importance-Sampling-Korrektur, Clipping und insbesondere Routing Replay für Mixture-of-Experts (MoE)-Modelle. Durch umfangreiche Experimente mit einem 30-Milliarden-Parameter-MoE-Modell mit insgesamt mehreren hunderttausend GPU-Stunden zeigen wir, dass für On-Policy-Training der grundlegende Policy-Gradient-Algorithmus mit Importance-Sampling-Korrektur die höchste Trainingsstabilität erreicht. Wenn Off-Policy-Updates zur Beschleunigung der Konvergenz eingeführt werden, wird die Kombination aus Clipping und Routing Replay entscheidend, um die durch Policy-Stagnation verursachte Instabilität zu mildern. Bemerkenswerterweise führt eine verlängerte Optimierung, sobald das Training stabilisiert ist, unabhängig von der Kaltstart-Initialisierung konsequent zu vergleichbaren Endergebnissen. Wir hoffen, dass die gewonnenen Erkenntnisse und die entwickelten Rezepte für stabiles RL-Training zukünftige Forschung erleichtern werden.
Deep Research Agents (DRAs) zielen darauf ab, durch iteratives Informationsretrieval und Synthese automatisch Analysten-level-Berichte zu erstellen. Die meisten existierenden DRAs wurden jedoch an Frage-Antwort-Benchmarks validiert, während die Forschung zur Generierung umfassender Berichte vernachlässigt bleibt. Noch problematischer ist, dass aktuelle Benchmarks für Berichtsynthese unter Aufgabenkomplexität und subjektiven Metriken leiden – dies spiegelt Nutzeranforderungen nicht wider und schränkt die praktische Brauchbarkeit generierter Berichte ein. Um diese Lücken zu schließen, stellen wir Fine-grained DEepResearch bench (FINDER) vor, einen erweiterten Benchmark aus 100 menschlich kuratierten Forschungsaufgaben mit 419 strukturierten Checklistenpunkten, die Berichtsstruktur, analytische Tiefe und faktische Fundierung standardisieren. Basierend auf etwa 1.000 von Mainstream-DRAs produzierten Berichten schlagen wir weiterhin Deep rEsearch Failure Taxonomy (DEFT) vor, die erste Fehlerklassifikation für Deep Research Agents. DEFT umfasst 14 feinkörnige Fehlermodi in den Bereichen Reasoning, Retrieval und Generierung und basiert auf Grounded Theory mit menschlich-LLM-co-annotierter Validierung und Inter-Annotator-Reliability-Prüfung. Unsere experimentellen Ergebnisse zeigen, dass aktuelle DRAs nicht an Aufgabenverständnis, sondern an Evidenzintegration, -verifikation und reasoning-resilienter Planung scheitern.
Aktuelle Video-Diffusionsmodelle können visuell überzeugende Clips synthetisieren, verletzen jedoch häufig grundlegende physikalische Gesetze – Objekte schweben, Beschleunigungen weichen ab und Kollisionen verhalten sich inkonsistent – was eine anhaltende Kluft zwischen visuellem Realismus und physikalischem Realismus offenbart. Wir schlagen NewtonRewards vor, den ersten physikalisch fundierten Nachtrainierungsrahmen für Videogenerierung basierend auf verifizierbaren Belohnungen. Anstatt auf menschliches Feedback oder VLM-Feedback angewiesen zu sein, extrahiert NewtonRewards messbare Proxy-Werte aus generierten Videos mittels eingefrorener Hilfsmodelle: Optischer Fluss dient als Proxy für Geschwindigkeit, während hochrangige Erscheinungsmerkmale als Proxy für Masse dienen. Diese Proxy-Werte ermöglichen die explizite Durchsetzung newtonscher Strukturen durch zwei komplementäre Belohnungen: eine newtonsche kinematische Zwangsbedingung, die konstante Beschleunigungsdynamik erzwingt, und eine Massenerhaltungsbelohnung, die triviale, degenerative Lösungen verhindert. Wir evaluieren NewtonRewards an fünf newtonschen Bewegungsprimitive (freier Fall, horizontaler/parabolischer Wurf und Herab-/Hinaufrutschen auf einer Rampe) unter Verwendung unseres neu erstellten umfangreichen Benchmarks, NewtonBench-60K. Über alle Primitive hinweg, gemessen an visuellen und physikalischen Metriken, verbessert NewtonRewards konsistent die physikalische Plausibilität, Bewegungsglätte und zeitliche Kohärenz gegenüber bisherigen Nachtrainierungsmethoden. Es behält zudem eine hohe Leistung bei Out-of-Distribution-Verschiebungen in Höhe, Geschwindigkeit und Reibung bei. Unsere Ergebnisse zeigen, dass physikalisch fundierte, verifizierbare Belohnungen einen skalierbaren Weg zur physikbewussten Videogenerierung bieten.
Bisherige Arbeiten haben verschiedene maßgeschneiderte Generierungsaufgaben anhand eines Referenzbildes untersucht, stoßen jedoch nach wie vor auf Grenzen bei der Erzeugung konsistenter, feinkörniger Details. In dieser Arbeit zielen wir darauf ab, das Inkonsistenzproblem generierter Bilder durch einen referenzgestützten Nachbearbeitungsansatz zu lösen und stellen unser ImageCritic vor. Zunächst erstellen wir einen Datensatz von Referenz-Degradiert-Ziel-Tripeln, der durch VLM-basierte Auswahl und explizite Degradierung gewonnen wird und die häufig beobachteten Ungenauigkeiten oder Inkonsistenzen bestehender Generierungsmodelle effektiv simuliert. Darauf aufbauend entwickeln wir, gestützt auf eine gründliche Untersuchung der Aufmerksamkeitsmechanismen und intrinsischen Repräsentationen des Modells, einen Aufmerksamkeitsausrichtungsverlust und einen Detail-Encoder, um Inkonsistenzen präzise zu korrigieren. ImageCritic kann in ein Agenten-Framework integriert werden, um automatisch Inkonsistenzen zu erkennen und diese in komplexen Szenarien durch mehrfache lokale Bearbeitung zu korrigieren. Umfangreiche Experimente belegen, dass ImageCritic Detailprobleme in verschiedenen maßgeschneiderten Generierungsszenarien effektiv lösen und damit signifikante Verbesserungen gegenüber bestehenden Methoden erzielen kann.
Aktuelle autoregressive Video-Diffusionsmodelle sind durch drei zentrale Engpässe eingeschränkt: (i) den begrenzten temporalen Horizont, der durch die 3D-Rotary-Positional-Embedding (3D-RoPE) des Basismodells vorgegeben wird, (ii) die langsame Prompt-Reaktionsfähigkeit zur Beibehaltung feingranularer Aktionskontrolle während langer Generierungssequenzen und (iii) die Unfähigkeit, diskontinuierliche filmische Übergänge innerhalb eines einzelnen Generierungsstroms zu realisieren. Wir stellen infty-RoPE vor, ein einheitliches Inferenzzeit-Framework, das alle drei Einschränkungen durch drei miteinander verbundene Komponenten adressiert: Block-Relativistic RoPE, KV Flush und RoPE Cut. Block-Relativistic RoPE reformuliert die temporale Kodierung als bewegliches lokales Bezugssystem, bei dem jeder neu generierte latente Block relativ zum maximalen Frame-Horizont des Basismodells rotiert wird, während frühere Blöcke rückwärts rotiert werden, um die relative temporale Geometrie zu bewahren. Diese relativistische Formulierung eliminiert feste temporale Positionen und ermöglicht kontinuierliche Videogenerierung weit über die grundlegenden Positionsgrenzen hinaus. Um feingranulare Aktionskontrolle ohne Neuencodierung zu erreichen, erneuert KV Flush den KV-Cache durch Beibehaltung lediglich zweier latenter Frames – der globalen Senke und des zuletzt generierten latenten Frames – und gewährleistet dadurch sofortige Prompt-Reaktionsfähigkeit. Schließlich führt RoPE Cut kontrollierte Diskontinuitäten in den temporalen RoPE-Koordinaten ein, was Mehrfachszenenübergänge innerhalb eines einzigen kontinuierlichen Generierungsvorgangs ermöglicht. Zusammengenommen etablieren diese Komponenten infty-RoPE als trainierungsfreie Grundlage für unbegrenzte, steuerbare und filmische Videodiffusion. Umfassende Experimente zeigen, dass infty-RoPE durchgängig frühere autoregressive Modelle in Gesamt-VBench-Scores übertrifft.
Vereinheitlichte multimodale Modelle (UMMs) zielen darauf ab, multimodales Verstehen und Generieren gemeinsam innerhalb eines einzigen Frameworks durchzuführen. Wir stellen TUNA vor, ein natives UMM, das durch Kaskadierung eines VAE-Encoders mit einem Repräsentationsencoder eine vereinheitlichte kontinuierliche visuelle Repräsentation aufbaut. Dieser vereinheitlichte Repräsentationsraum ermöglicht eine End-to-End-Verarbeitung von Bildern und Videos sowohl für Verstehens- als auch für Generierungsaufgaben. Im Vergleich zu früheren UMMs mit entkoppelten Repräsentationen vermeidet TUNAs vereinheitlichter visueller Raum Repräsentationsformatinkongruenzen, die durch separate Encoder eingeführt werden, und übertrifft entkoppelte Alternativen sowohl im Verstehen als auch in der Generierung. Darüber hinaus beobachten wir, dass stärker vortrainierte Repräsentationsencoder durchweg bessere Leistungen über alle multimodalen Aufgaben hinweg erzielen, was die Bedeutung des Repräsentationsencoders unterstreicht. Schließlich ermöglicht in diesem vereinheitlichten Rahmen das gemeinsame Training mit Verstehens- und Generierungsdaten, dass die beiden Aufgaben voneinander profitieren anstatt sich zu behindern. Unsere umfangreichen Experimente auf multimodalen Verstehens- und Generierungs-Benchmarks zeigen, dass TUNA state-of-the-art Ergebnisse in Bild- und Videoverstehen, Bild- und Videogenerierung sowie Bildbearbeitung erzielt, was die Wirksamkeit und Skalierbarkeit seines vereinheitlichten Repräsentationsdesigns demonstriert.
Wir stellen LFM2 vor, eine Familie von Liquid Foundation Models, die für effiziente Bereitstellung auf Endgeräten und starke Aufgabenfähigkeiten konzipiert sind. Mittels hardware-in-the-loop Architektursuche unter Randbedingungen von Latenz und Speicherverbrauch auf Edge-Geräten erhalten wir eine kompakte hybride Backbone-Architektur, die gated Short Convolutions mit einer kleinen Anzahl von Grouped-Query-Attention-Blöcken kombiniert und im Vergleich zu Modellen ähnlicher Größe bis zu 2x schnellere Prefill- und Decode-Zeiten auf CPUs ermöglicht. Die LFM2-Familie umfasst 350M bis 8,3B Parameter, darunter dichte Modelle (350M, 700M, 1,2B, 2,6B) und eine Mixture-of-Experts-Variante (8,3B gesamt, 1,5B aktiv), alle mit einer Kontextlänge von 32K. Der Trainingspipeline von LFM2 umfasst ein temperiertes, entkoppeltes Top-K-Wissensdistillationsziel, das Support-Mismatch vermeidet; Curriculum Learning mit nach Schwierigkeit geordneten Daten; sowie ein dreistufiges Post-Training-Verfahren aus supervised Fine-Tuning, längen-normalisierter Präferenzoptimierung und Modellzusammenführung. Vortrainiert mit 10-12T Tokens erzielen LFM2-Modelle starke Ergebnisse in diversen Benchmarks; so erreicht LFM2-2.6B beispielsweise 79,56% auf IFEval und 82,41% auf GSM8K. Wir entwickeln weiterhin multimodale Varianten und eine Retrieval-Variante: LFM2-VL für Vision-Language-Aufgaben, LFM2-Audio für Sprache und LFM2-ColBERT für Retrieval. LFM2-VL unterstützt einstellbare Genauigkeits-Latenz-Kompromisse durch token-effiziente visuelle Verarbeitung, während LFM2-Audio Audio-Eingabe- und -Ausgabepfade trennt, um Echtzeit-Sprach-zu-Sprach-Interaktionen zu ermöglichen, die mit Modellen konkurrenzfähig sind, die dreimal so groß sind. LFM2-ColBERT bietet einen Encoder mit niedriger Latenz für Anfragen und Dokumente und ermöglicht hochperformantes Retrieval in mehreren Sprachen. Alle Modelle werden mit offenen Gewichten und Bereitstellungspaketen für ExecuTorch, llama.cpp und vLLM veröffentlicht, was LFM2 zu einer praktischen Basis für Edge-Anwendungen macht, die schnelle, speichereffiziente Inferenz und starke Aufgabenfähigkeiten benötigen.
Wissensgraphen (KGs) bieten eine strukturierte, überprüfbare Grundlage für große Sprachmodelle (LLMs), doch aktuelle LLM-basierte Systeme nutzen KGs üblicherweise nur als Hilfsstrukturen für Textretrieval, wodurch deren intrinsische Qualität unzureichend erforscht bleibt. In dieser Arbeit stellen wir Wikontic vor, eine mehrstufige Pipeline, die KGs aus Open-Domain-Texten erstellt, indem Kandidatentripel mit Qualifizierern extrahiert, Wikidata-basierte Typ- und Relationsbeschränkungen erzwungen und Entitäten zur Reduzierung von Duplikaten normalisiert werden. Die resultierenden KGs sind kompakt, ontologiekonsistent und gut vernetzt; bei MuSiQue erscheint die korrekte Antwortentität in 96 % der generierten Tripel. Auf HotpotQA erreicht unser reiner Tripel-Ansatz 76,0 F1 und auf MuSiQue 59,8 F1, womit er mehrere retrieval-augmentierte Generierungs-Baselines übertrifft oder gleichauf liegt, die noch textuellen Kontext benötigen. Zusätzlich erzielt Wikontic state-of-the-art Leistung in Bezug auf Informationserhalt auf dem MINE-1-Benchmark (86 %) und übertrifft damit frühere KG-Konstruktionsmethoden. Wikontic ist auch zur Erstellungszeit effizient: Der KG-Aufbau benötigt weniger als 1.000 Ausgabe-Tokens, etwa dreimal weniger als AriGraph und <1/20 von GraphRAG. Die vorgeschlagene Pipeline verbessert die Qualität des generierten Wissensgraphen und bietet eine skalierbare Lösung zur Nutzung strukturierten Wissens in LLMs.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wurden durch ihre emergenten Fähigkeiten zum logischen Schlussfolgern vorangetrieben, insbesondere durch langes "Chain-of-Thought" (CoT)-Prompting, das eine gründliche Exploration und Abwägung ermöglicht. Trotz dieser Fortschritte zeigen LLMs mit langen CoT-Ketten oft suboptimale Denkweisen, wie etwa Grübeln ("Overthinking") und übermäßig in die Länge gezogene Gedankengänge, was die Leistung beeinträchtigen kann. In diesem Artikel analysieren wir Denkprozesse aus einer Optimierungsperspektive und betrachten CoT als ein Gradientenabstiegsverfahren, bei dem jeder Denkschritt einer Aktualisierung in Richtung Problemlösung entspricht. Aufbauend auf dieser Perspektive stellen wir RePro (Rectifying Process-level Reward) vor, einen neuartigen Ansatz zur Verfeinerung des LLM-Schlussfolgerns während des Nachtrainierens. RePro definiert eine Ersatzzielfunktion zur Bewertung des CoT zugrunde liegenden Optimierungsprozesses und nutzt einen dualen Bewertungsmechanismus, um dessen Intensität und Stabilität zu quantifizieren. Diese Bewertungen werden zu einer zusammengesetzten, prozessbasierten Belohnung aggregiert und nahtlos in Reinforcement-Learning-Pipelines mit verifizierbaren Belohnungen (RLVR) integriert, um LLMs zu optimieren. Umfangreiche Experimente mit verschiedenen Reinforcement-Learning-Algorithmen und diversen LLMs, die an Benchmarks aus den Bereichen Mathematik, Naturwissenschaften und Programmieren evaluiert wurden, zeigen, dass RePro die Schlussfolgerungsleistung konsistent verbessert und suboptimale Denkweisen abmildert.
Diffusionsmodelle haben sich als führende Klasse generativer Modelle etabliert, doch ihr iterativer Sampling-Prozess bleibt rechenintensiv. Timestep-Distillation ist eine vielversprechende Technik zur Beschleunigung der Generierung, erfordert jedoch oft umfangreiches Training und führt zu Qualitätseinbußen bei den Bildern. Darüber hinaus ist die Feinabstimmung dieser distillierten Modelle für spezifische Ziele, wie ästhetische Anziehungskraft oder Benutzerpräferenzen, mittels Reinforcement Learning (RL) notorisch instabil und neigt leicht zu Reward Hacking. In dieser Arbeit stellen wir Flash-DMD vor, ein neuartiges Framework, das eine schnelle Konvergenz durch Distillation und gleichzeitige RL-basierte Verfeinerung ermöglicht. Konkret schlagen wir erstens eine effiziente, zeitschrittbewusste Distillationsstrategie vor, die die Trainingskosten deutlich reduziert und bei gleichzeitig erhöhter Realitätsnähe DMD2 übertrifft – und das mit nur 2,1 % von dessen Trainingskosten. Zweitens führen wir ein gemeinsames Trainingsschema ein, bei dem das Modell mit einem RL-Ziel feinabgestimmt wird, während das Timestep-Distillationstraining parallel weiterläuft. Wir zeigen, dass der stabile, wohldefinierte Verlust aus der fortlaufenden Distillation als leistungsstarker Regularisierer wirkt, der den RL-Trainingsprozess effektiv stabilisiert und einen Policy Collapse verhindert. Umfangreiche Experimente mit score-basierten Modellen und Flow-Matching-Modellen belegen, dass unser vorgeschlagenes Flash-DMD nicht nur signifikant schneller konvergiert, sondern auch state-of-the-art Generierungsqualität im Few-Step-Sampling-Regime erreicht und dabei bestehende Methoden in visueller Qualität, menschlicher Präferenz und Text-Bild-Übereinstimmung übertrifft. Unsere Arbeit stellt ein effektives Paradigma für das Training effizienter, hochpräziser und stabiler generativer Modelle dar. Der Code wird in Kürze verfügbar sein.
Vision-Language-Action-Modelle (VLAs) werden zunehmend leistungsfähiger in verschiedenen robotischen Aufgaben. Ihre praktische Anwendung bleibt jedoch langsam und ineffizient: Demonstrationsvideos werden oft um das 5-10-fache beschleunigt, um flüssig zu wirken, wobei merkliche Aktionspausen und verzögerte Reaktionen auf Umweltveränderungen auftreten. Asynchrone Inferenz bietet einen vielversprechenden Ansatz, um eine kontinuierliche und latenzarme Steuerung zu erreichen, indem sie Robotern ermöglicht, Aktionen auszuführen und gleichzeitig Inferenz durchzuführen. Da sich jedoch der Roboter und die Umgebung während der Inferenz weiterentwickeln, entsteht eine zeitliche Fehlausrichtung zwischen den Vorhersage- und Ausführungsintervallen. Dies führt zu erheblicher Aktionsinstabilität, während bestehende Methoden entweder die Genauigkeit verschlechtern oder Laufzeit-Overhead einführen, um dies zu mildern. Wir schlagen VLASH vor, ein allgemeines asynchrones Inferenz-Framework für VLAs, das eine flüssige, präzise und schnelle Reaktionssteuerung ohne zusätzlichen Overhead oder Architekturänderungen ermöglicht. VLASH schätzt den zukünftigen Ausführungszustand, indem der Roboterzustand mit der zuvor generierten Aktionssequenz vorgerollt wird, wodurch die Lücke zwischen Vorhersage und Ausführung überbrückt wird. Experimente zeigen, dass VLASH im Vergleich zur synchronen Inferenz eine Beschleunigung von bis zu 2,03x erreicht und die Reaktionslatenz um bis zu 17,4x reduziert, wobei die ursprüngliche Genauigkeit vollständig erhalten bleibt. Darüber hinaus befähigt es VLAs, schnell reagierende, hochpräzise Aufgaben wie Tischtennisspielen und Hau-den-Maulwurf zu bewältigen, bei denen traditionelle synchrone Inferenz versagt. Der Code ist verfügbar unter https://github.com/mit-han-lab/vlash.
Wir stellen GR-RL vor, ein Robotik-Lernframework, das eine generalistische Vision-Language-Action (VLA)-Policy in einen hochleistungsfähigen Spezialisten für langfristige, geschickte Manipulation verwandelt. Die Annahme der Optimalität menschlicher Demonstrationen ist grundlegend für bestehende VLA-Policies. Wir behaupten jedoch, dass bei hochgradig geschickten und präzisen Manipulationsaufgaben menschliche Demonstrationen verrauscht und suboptimal sind. GR-RL schlägt eine mehrstufige Trainingspipeline vor, die die Demonstrationen durch Reinforcement Learning filtert, augmentiert und verstärkt. Zuerst lernt GR-RL einen visio-sprachlich konditionierten Aufgabenfortschritt, filtert die Demonstrations-Trajektorien und behält nur die Übergänge bei, die positiv zum Fortschritt beitragen. Insbesondere zeigen wir, dass durch die direkte Anwendung von Offline-Reinforcement-Learning mit spärlicher Belohnung die resultierenden Q-Werte als robuste Fortschrittsfunktion behandelt werden können. Als nächstes führen wir eine morphologische Symmetrie-Augmentierung ein, die die Generalisierungsfähigkeit und Leistung von GR-RL erheblich verbessert. Schließlich führen wir Online-Reinforcement-Learning durch, indem wir einen Rauschprädiktor im latenten Raum erlernen, um die VLA-Policy besser mit ihrem Einsatzverhalten für hochpräzise Steuerung in Einklang zu bringen. Mit dieser Pipeline ist GR-RL unseres Wissens die erste lernbasierte Policy, die autonom einen Schuhen binden kann, indem sie Schnürsenkel durch mehrere Ösen fädelt – mit einer Erfolgsquote von 83,3 %. Diese Aufgabe erfordert langfristige Planung, Millimeter-Präzision und nachgiebige Weichkörper-Interaktion. Wir hoffen, dass GR-RL einen Schritt dahin ermöglicht, generalistische Robotik-Foundation-Models zu zuverlässigen Experten in der realen Welt zu spezialisieren.
Großmaßstäbliches Video-Text-Pretraining erzielt hohe Leistung, beruht jedoch auf verrauschten, synthetischen Beschreibungen mit begrenzter semantischer Abdeckung, die oft implizites Weltwissen wie Objektbewegung, 3D-Geometrie und physikalische Hinweise vernachlässigen. Im Gegensatz dazu nutzt maskierte Videomodellierung (MVM) direkt räumlich-zeitliche Strukturen, bleibt aber bei allgemeinen Aufgaben hinter textüberwachten Methoden zurück. Wir stellen fest, dass diese Lücke auf übersehene Architekturprobleme zurückzuführen ist: Pixelrekonstruktion kämpft mit Konvergenzproblemen und ihr niedrigschwelliger Anspruch kollidiert oft mit Semantik, während latente Vorhersage häufig Kurzschlusslernen begünstigt. Um dies zu adressieren, entwirren wir das traditionelle Encoder-Decoder-Design in ein Encoder-Predictor-Decoder (EPD)-Framework, wobei der Predictor als latentes Weltmodell fungiert, und schlagen InternVideo-Next vor, ein zweistufiges Pretraining-Schema, das einen semantisch konsistenten, aber detailerhaltenden latenten Raum für dieses Weltmodell aufbaut. Erstens erzwingt der konventionelle lineare Decoder in der Pixel-MVM, dass der latente Output des Predictors linear projiziert und somit im Pixelraum trennbar ist, was den Konflikt mit semantischer Abstraktion verursacht. Unser Stadium 1 schlägt einen bedingten Diffusionsdecoder vor und injiziert zuverlässige semantische Priori auf Bildebene, um Semantik und Konvergenz zu verbessern und so Pixelgenauigkeit mit hochgradiger semantischer Abstraktion zu überbrücken. Stadium 2 lernt weiteres Weltwissen durch Vorhersage eingefrorener Ziele aus Stadium 1 innerhalb dieses Raums und mildert Kurzschlusslernen. Auf öffentlichen, ungelabelten Videos trainiert, erzielt InternVideo-Next state-of-the-art Ergebnisse über Benchmarks hinweg und bietet einen skalierbaren Weg hin zu allgemeinem Videorepräsentationslernen.
Flow-basierte generative Modelle haben kürzlich starke Leistungen gezeigt, doch das Sampling erfordert typischerweise teure numerische Integration gewöhnlicher Differentialgleichungen (ODEs). Rectified Flow ermöglicht One-Step-Sampling durch das Erlernen nahezu gerader Wahrscheinlichkeitspfade, das Erreichen solcher Geradlinigkeit erfordert jedoch mehrere rechenintensive Reflow-Iterationen. MeanFlow erreicht One-Step-Generierung durch direkte Modellierung der Durchschnittsgeschwindigkeit über die Zeit, leidet jedoch bei Training auf stark gekrümmten Flows unter langsamer Konvergenz und verrauschter Supervision. Um diese Einschränkungen zu adressieren, schlagen wir Rectified MeanFlow vor, ein Framework, das das mittlere Geschwindigkeitsfeld entlang der rectifizierten Trajektorie mit nur einem einzigen Reflow-Schritt modelliert. Dies eliminiert die Notwendigkeit perfekt geglätteter Trajektorien bei gleichzeitig effizientem Training. Darüber hinaus führen wir eine einfache, aber effektive Trunkierungs-Heuristik ein, die Restkrümmung reduzieren und die Leistung weiter verbessern soll. Umfangreiche Experimente auf ImageNet bei 64-, 256- und 512-Auflösungen zeigen, dass Re-MeanFlow sowohl in der Probenqualität als auch in der Trainingseffizienz konsistent bisherige One-Step-Flow-Distillations- und Rectified-Flow-Methoden übertrifft. Code ist verfügbar unter https://github.com/Xinxi-Zhang/Re-MeanFlow.
In diesem Beitrag weisen wir darauf hin, dass das Ziel von Retrieval-Algorithmen darin besteht, sich mit dem LLM abzustimmen, was dem Ziel der Wissensdistillation in LLMs ähnelt. Wir analysieren die Ähnlichkeit der Informationsfokussierung zwischen dem distillierten Sprachmodell (DLM) und dem ursprünglichen LLM aus informationstheoretischer Perspektive und schlagen darauf aufbauend ein neuartiges Paradigma vor, das ein DLM als Retrieval-Algorithmus nutzt. Auf dieser Grundlage präsentieren wir SpeContext, einen co-Design-Ansatz für Algorithmus und System für Long-Context Reasoning. (1) Auf Algorithmus-Ebene führt SpeContext einen leichtgewichtigen Retrieval-Head ein, der auf den Head-level-Attentionsgewichten des DLM basiert und durch Redundanzreduzierung eine Parameterverringerung von >90 % erreicht. (2) Auf System-Ebene entwirft SpeContext einen asynchronen Prefetch-Datenfluss mittels einer elastischen Lade-Strategie, der die KV-Cache-Abfrage effektiv mit der LLM-Berechnung überlappt. (3) Auf Compiler-Ebene konstruiert SpeContext ein theoretisches Speichermodell und implementiert ein adaptives Speicherverwaltungssystem, um durch Maximierung der GPU-Speichernutzung eine Beschleunigung zu erzielen. Wir setzen SpeContext in zwei ressourcenbeschränkten Umgebungen (Cloud und Edge) ein und evaluieren es. Umfangreiche Experimente zeigen, dass SpeContext im Vergleich zum Huggingface-Framework einen bis zu 24,89-fachen Durchsatz in der Cloud und eine 10,06-fache Beschleunigung am Edge bei vernachlässigbarer Genauigkeitseinbuße erreicht und damit die Pareto-Front von Genauigkeit und Durchsatz verschiebt.
Streaming Video Large Language Models (VideoLLMs) haben beeindruckende Leistungen bei verschiedenen Videoanalyseaufgaben gezeigt, stehen jedoch aufgrund der hohen Rechenkosten bei der Verarbeitung dichter visueller Tokens aus kontinuierlichen Videostreams vor erheblichen Herausforderungen bei der Echtzeitbereitstellung. In Streaming-Video-Szenarien liegt der primäre Engpass in der Encodierungsphase des Vision Transformers (ViT), wo redundante Verarbeitung zeitlich ähnlicher Frames zu Ineffizienz führt. Zusätzlich verschärfen aufgeblähte Token-Sequenzen während des LLM-Pre-Fillings die Latenz und den Speichermehraufwand weiter. Um diese Herausforderungen zu bewältigen, schlagen wir Streaming Token Compression (STC) vor, ein plug-and-play-fähiges hierarchisches Framework, das nahtlos in bestehende Streaming-VideoLLMs integriert wird und sowohl die ViT-Encodierungs- als auch die LLM-Pre-Filling-Phasen zur Beschleunigung der Verarbeitung optimiert. STC führt zwei Token-basierte Beschleuniger ein: STC-Cacher, der den ViT-Encodierungsaufwand durch Zwischenspeichern und Wiederverwenden von Merkmalen zeitlich ähnlicher Frames reduziert, und STC-Pruner, der die visuelle Token-Sequenz komprimiert, bevor sie den LLM erreicht, und dabei nur die salientesten Tokens basierend auf räumlicher und zeitlicher Relevanz beibehält. Umfangreiche Experimente mit vier Baseline-Streaming-VideoLLMs über fünf Benchmarks hinweg zeigen, dass STC andere Komprimierungsmethoden übertrifft. Bemerkenswerterweise behält STC bis zu 99 % der Genauigkeit im ReKV-Framework bei, während es die ViT-Encodierungslatenz und die LLM-Pre-Filling-Latenz um 24,5 % bzw. 45,3 % reduziert.
Große Sprachmodelle (LLMs) bilden die Grundlage für Anwendungen in Code-Generierung, mathematischem Reasoning und agentenbasierten Workflows. In der Praxis greifen Systeme über kommerzielle APIs oder Open-Source-Implementierungen auf LLMs zu, und die Modelllandschaft (z.B. GPT, Claude, Llama) entwickelt sich rasant. Diese schnelle Entwicklung erzwingt häufige Modellwechsel, die durch Fähigkeiten, Kosten, Bereitstellungsbeschränkungen und Datenschutz bedingt sind. Dennoch sind Prompts hochgradig modellsensitiv: Die Wiederverwendung eines für ein Modell optimierten Prompts bei einem anderen Modell führt oft zu deutlich schlechteren Ergebnissen als ein für das Zielmodell optimierter Prompt. Wir bezeichnen dieses Phänomen als Model Drifting. Durch umfangreiche empirische Analysen über verschiedene LLM-Konfigurationen hinweg zeigen wir, dass Model Drifting sowohl häufig als auch schwerwiegend auftritt. Um diese Herausforderung zu bewältigen, stellen wir PromptBridge vor, ein trainierungsfreies Framework, das die Prompt-Wirksamkeit bei Modellwechseln erhält und modellübergreifenden Prompt-Transfer ohne kostspielige Neuoptimierung pro Aufgabe oder Modell ermöglicht. PromptBridge benötigt nur einen kleinen Satz von Alignment-Aufgaben zur Kalibrierung. Zunächst wendet es Model-Adaptive Reflective Prompt Evolution (MAP-RPE) an, um aufgabenspezifische und modelloptimale Prompts durch iterative reflektive Verfeinerung und quantitative Evaluation zu erhalten. Unter Verwendung der resultierenden kalibrierten Prompt-Paare für Quell- und Zielmodell lernt PromptBridge eine modellübergreifende Prompt-Abbildung. Zur Testzeit, d.h. für eine unbekannte Aufgabe, erzeugt diese Abbildung direkt einen optimierten Prompt für das Zielmodell, basierend auf einem Quellmodell-Prompt. Experimente in Einzel-Agenten- und Multi-Agenten-Szenarien zeigen, dass PromptBridge konsistent die nachgelagerte Genauigkeit verbessert und gleichzeitig den Migrationsaufwand reduziert. Der Code wird in Kürze verfügbar sein.
Die Skalierung der Rechenleistung zur Testzeit hat sich als leistungsfähiges Paradigma erwiesen, um das mathematische Denkvermögen großer Sprachmodelle (LLMs) durch die Zuteilung zusätzlicher Rechenressourcen während des Inferenzvorgangs zu verbessern. Allerdings verwenden aktuelle Methoden eine einheitliche Ressourcenverteilung über alle Teilprobleme der Argumentation hinweg, was grundlegende Engpässe verursacht: anspruchsvolle Teilprobleme erhalten unzureichend Aufmerksamkeit, während Routineoperationen unverhältnismäßig viele Ressourcen verbrauchen. Diese gleichmäßige Zuteilung führt zu Leistungsengpässen, bei denen zusätzliche Rechenressourcen nur noch geringere Leistungssteigerungen bringen. Inspiriert von der Dual-Prozess-Theorie schlagen wir SCALE (Selective Resource Allocation) vor, ein Framework, das Rechenressourcen selektiv basierend auf dem Schwierigkeitsgrad der Teilprobleme zuteilt. SCALE operiert in vier Stufen: (1) Problemzerlegung in sequentielle reasoning-Teilprobleme, (2) Schwierigkeitsbewertung jedes Teilproblems, um zwischen Routineoperationen und rechenintensiven Herausforderungen zu unterscheiden, (3) selektive Zuordnung des Verarbeitungsmodus zwischen System 1 für einfache Teilprobleme und System 2 für komplexe Teilprobleme und (4) sequentielle Ausführung mit Kontextweitergabe. Indem Ressourcen auf anspruchsvolle Teilprobleme konzentriert werden, während Routineoperationen effizient abgearbeitet werden, erzielt SCALE erhebliche Leistungsverbesserungen bei überlegener Ressourcennutzung. Umfangreiche Experimente belegen, dass SCALE gleichmäßig skalierende Baseline-Methoden signifikant übertrifft und Genauigkeitssteigerungen von bis zu 13,75 Prozentpunkten erzielt (57,50 % zu 71,25 % auf AIME25), während die Rechenkosten um 33 %–53 % gesenkt werden. Dies stellt einen bedeutenden Fortschritt in der Testzeit-Skalierung dar, der die grundlegenden Limitierungen aktueller Ansätze adressiert.
Mehrsprachige Text-zu-Bild-Modelle (T2I) haben rasche Fortschritte in Bezug auf visuelle Realitätsnähe und semantische Übereinstimmung erzielt und werden inzwischen breit eingesetzt. Dennoch variieren die Ergebnisse in verschiedenen kulturellen Kontexten: Da Sprache kulturelle Konnotationen trägt, sollten aus mehrsprachigen Prompts synthetisierte Bilder kulturübergreifende Konsistenz wahren. Wir führen eine umfassende Analyse durch, die zeigt, dass aktuelle T2I-Modelle bei mehrsprachigen Eingaben häufig kulturell neutrale oder englischsprachig geprägte Ergebnisse erzeugen. Untersuchungen an zwei repräsentativen Modellen deuten darauf hin, dass das Problem nicht auf fehlendem Kulturwissen beruht, sondern auf unzureichender Aktivierung kulturbezogener Repräsentationen. Wir schlagen eine Untersuchungsmethode vor, die kultursensitive Signale auf eine kleine Gruppe von Neuronen in wenigen festen Schichten lokalisiert. Aufbauend auf dieser Erkenntnis entwickeln wir zwei komplementäre Abgleichsstrategien: (1) kulturelle Aktivierung zur Inferenzzeit, die die identifizierten Neuronen verstärkt, ohne das Grundgerüst feinabzustimmen; und (2) schichtorientierte kulturelle Verstärkung, die nur kulturell relevante Schichten aktualisiert. Experimente auf unserer CultureBench zeigen durchgängige Verbesserungen gegenüber starken Baseline-Modellen in der kulturellen Konsistenz bei gleichzeitiger Bewahrung von Detailtreue und Vielfalt.
Das schnelle Wachstum visueller Tokens in multimodalen großen Sprachmodellen (MLLMs) führt zu übermäßigem Speicherverbrauch und Latenzzeiten bei der Inferenz, insbesondere bei der Verarbeitung hochauflösender Bilder und Videos. Token-Pruning ist eine Technik zur Reduzierung dieses Problems durch Entfernen von Redundanzen, bestehende Methoden ignorieren jedoch oft die Relevanz für die Nutzeranfrage oder leiden unter den Einschränkungen von Aufmerksamkeitsmechanismen, was ihre Anpassungsfähigkeit und Effektivität mindert. Um diese Herausforderungen zu bewältigen, schlagen wir Script vor, eine Plug-and-Play-Pruning-Methode, die keine Neutrainierung erfordert und sich über verschiedene MLLMs verallgemeinern lässt. Script besteht aus zwei Modulen: einem graphstrukturierten Pruning-Modul, das visuell redundante Tokens entfernt, und einem abfragebedingten semantischen Pruning-Modul, das abfragerelevante visuelle Informationen bewahrt. Zusammen verbessern sie die Leistung bei multimodalen Aufgaben. Experimente auf vierzehn Benchmarks für Bild- und Videoanalyseaufgaben zeigen, dass Script durchgängig höhere Modell effizienz und prädiktive Genauigkeit im Vergleich zu bestehenden Pruning-Methoden erzielt. Auf LLaVA-NeXT-7B erreicht es bis zu 6,8-fache Prefill-Beschleunigung und 10-fache FLOP-Reduktion bei gleichzeitiger Beibehaltung von 96,88 % der ursprünglichen Leistung.
Die Wiederherstellung pixelweiser geometrischer Eigenschaften aus einem einzelnen Bild ist aufgrund von Erscheinungsambiguität und nicht-injektiven Abbildungen zwischen 2D-Beobachtungen und 3D-Strukturen grundsätzlich ill-posed. Während diskriminative Regressionsmodelle durch groß angelegte Supervision hohe Leistung erzielen, ist ihr Erfolg durch Umfang, Qualität und Diversität der verfügbaren Daten sowie begrenzte physikalische Schlussfolgerungen beschränkt. Aktuelle Diffusionsmodelle weisen mächtige Welt-Priors auf, die aus umfangreichen Bild-Text-Daten gelernte Geometrie und Semantik kodieren, doch die direkte Wiederverwendung ihrer stochastischen generativen Formulierung ist für deterministische geometrische Inferenz suboptimal: Erstere ist auf diverse und hochwertige Bildgenerierung optimiert, während Letztere stabile und präzise Vorhersagen erfordert. In dieser Arbeit stellen wir Lotus-2 vor, ein zweistufiges deterministisches Framework für stabile, präzise und feingranulare geometrische Dichtevorhersage, das einen optimalen Adaptionsprotokoll bereitstellt, um die vortrainierten generativen Priors vollständig auszuschöpfen. Konkret employiert der Kern-Prädiktor in der ersten Stufe eine einzelschrittige deterministische Formulierung mit einem Clean-Data-Objective und einem leichten Local Continuity Module (LCM), um global kohärente Strukturen ohne Gitterartefakte zu generieren. In der zweiten Stufe führt der Detail-Schärfer eine eingeschränkte mehrschrittige Rectified-Flow-Verfeinerung innerhalb der durch den Kern-Prädiktor definierten Mannigfaltigkeit durch, die feingranulare Geometrie durch rauschfreies deterministisches Flow-Matching verbessert. Mit nur 59.000 Trainingssamples – weniger als 1% existierender großskaliger Datensätze – erzielt Lotus-2 neue State-of-the-Art-Ergebnisse in monokularer Tiefenschätzung und hoch kompetitiver Oberflächennormalen-Vorhersage. Diese Ergebnisse demonstrieren, dass Diffusionsmodelle als deterministische Welt-Priors dienen können, die hochwertige geometrische Schlussfolgerungen jenseits traditioneller diskriminativer und generativer Paradigmen ermöglichen.
Das Verständnis von Streaming-Videos erfordert von Modellen nicht nur die Verarbeitung zeitlich eingehender Frames, sondern auch die Antizipation von Nutzerabsichten für realistische Anwendungen wie AR-Brillen. Während bisherige Streaming-Benchmarks zeitliches Reasoning bewerten, misst keine davon, ob MLLMs menschliche Blicksignale in einem Streaming-Szenario interpretieren oder nutzen können. Um diese Lücke zu schließen, führen wir StreamGaze ein, den ersten Benchmark, der entwickelt wurde, um zu evaluieren, wie effektiv MLLMs Blickdaten für zeitliches und proaktives Reasoning in Streaming-Videos nutzen. StreamGaze führt blickgeführte Aufgaben für Vergangenheit, Gegenwart und Proaktion ein, die das Verständnis von Streaming-Videos umfassend bewerten. Diese Aufgaben prüfen, ob Modelle Echtzeit-Blickdaten nutzen können, um sich verändernde Aufmerksamkeit zu verfolgen und Nutzerabsichten nur aus vergangenen und aktuell beobachteten Frames abzuleiten. Um StreamGaze aufzubauen, entwickelten wir eine QA-Generierungspipeline für Blick-Video-Daten, die egocentrische Videos mit Roh-Blickverläufen durch Fixationsextraktion, regionsspezifisches Visual Prompting und Scanpfadkonstruktion in Einklang bringt. Diese Pipeline erzeugt räumlich-zeitlich verankerte QA-Paare, die die menschliche Wahrnehmungsdynamik genau widerspiegeln. Über alle StreamGaze-Aufgaben hinweg beobachten wir erhebliche Leistungslücken zwischen modernsten MLLMs und der menschlichen Leistung, was grundlegende Limitationen in blickbasiertem zeitlichem Reasoning, Intentionsmodellierung und proaktiver Vorhersage aufdeckt. Wir liefern weiterhin detaillierte Analysen von Blick-Prompting-Strategien, Reasoning-Verhalten und aufgabenspezifischen Fehlermodi, die tiefere Einblicke bieten, warum aktuelle MLLMs scheitern und welche Fähigkeiten zukünftige Modelle entwickeln müssen. Alle Daten und Codes werden öffentlich freigegeben, um die weitere Forschung im blickgeführten Verständnis von Streaming-Videos zu unterstützen.
Aktuelle multimodale Reasoning-Modelle, inspiriert von DeepSeek-R1, haben vision-sprachliche Systeme erheblich vorangebracht. Bei Fernerkundungsaufgaben (RS) beobachten wir jedoch weitverbreitetes Pseudo-Reasoning: Modelle schildern den Denkprozess, anstatt tatsächlich auf Basis visueller Evidenz zur korrekten Antwort zu gelangen. Wir führen dies auf den "Glance Effect" zurück, bei dem eine einzige, grobe Wahrnehmung großflächiger RS-Bilder zu unvollständigem Verständnis und Reasoning auf Basis linguistischer Selbstkonsistenz statt visueller Evidenz führt. Um dies zu adressieren, schlagen wir RS-EoT (Remote Sensing Evidence-of-Thought) vor, ein sprachgestütztes, iteratives Paradigma zur Suche visueller Evidenz. Zur Umsetzung dieses Paradigmas entwickeln wir SocraticAgent, ein Multi-Agenten-System mit Selbstspiel, das Reasoning-Pfade durch abwechselnde Zyklen von Reasoning und visueller Überprüfung synthetisiert. Zur Verstärkung und Generalisierung dieser Muster schlagen wir eine zweistufige progressive RL-Strategie vor: zunächst RL auf feingranularen Grounding-Aufgaben zur Stärkung der RS-EoT-Fähigkeiten, gefolgt von RL auf RS-VQA zur Generalisierung auf breitere Verständnisszenarien. Experimente zeigen, dass RS-EoT state-of-the-art Leistung auf mehreren RS-VQA- und Grounding-Benchmarks erreicht. Analysen belegen klare iterative Zyklen von Reasoning und Evidenzsuche, was bestätigt, dass RS-EoT den Glance Effect mildert und echtes evidenzbasiertes Reasoning ermöglicht. Unser Code, Daten und Modelle sind verfügbar unter https://geox-lab.github.io/Asking_like_Socrates.
Agenten für grafische Benutzeroberflächen (GUI) benötigen eine effektive Nutzung historischer Kontextinformationen, um sequenzielle Navigationsaufgaben durchzuführen. Während die Einbeziehung vergangener Aktionen und Beobachtungen die Entscheidungsfindung verbessern kann, führt eine naive Verwendung des vollständigen Verlaufs zu übermäßigem Rechenaufwand und Ablenkung durch irrelevante Informationen. Um dies zu adressieren, stellen wir HiconAgent vor, einen GUI-Agenten, der mit History Context-aware Policy Optimization (HCPO) für eine effiziente und effektive Nutzung historischer Informationen trainiert wurde. HCPO optimiert die Verlaufsnutzung sowohl bei der Stichprobenentnahme als auch bei Policy-Updates durch zwei komplementäre Komponenten: (1) Dynamic Context Sampling (DCS) präsentiert dem Agenten während der Stichprobenentnahme Verläufe variabler Länge, was eine adaptive Nutzung des relevantesten Kontexts ermöglicht; (2) Anchor-guided History Compression (AHC) verfeinert die Policy-Update-Phase mit einer Dual-Branch-Strategie, bei der der komprimierte Zweig Verlaufsbeobachtungen entfernt, während Verlaufshandlungen als Anker für den Informationsfluss beibehalten werden. Die komprimierten und unkomprimierten Zweige werden durch einen verlaufsverstärkten Ausrichtungsverlust gekoppelt, um eine konsistente Verlaufsnutzung bei gleichzeitiger Wahrung der Effizienz zu erzwingen. Experimente mit etablierten GUI-Navigationsbenchmarks demonstrieren eine starke Leistung. Trotz geringerer Größe übertrifft HiconAgent-3B GUI-R1-7B auf GUI-Odyssey um +8,46 Prozent Grounding-Genauigkeit und +11,32 Prozent Schritt-Erfolgsrate, während auf AndroidControl und AITW vergleichbare Ergebnisse bei bis zu 2,47-facher Rechenbeschleunigung und 60 Prozent FLOPs-Reduktion erzielt werden.
Große Reasoning-Modelle (LRMs) erzielen starke Leistungen in Mathematik, Code-Generierung und Aufgabenplanung, doch ihre Abhängigkeit von langen Ketten ausführlicher "Denk"-Tokens führt zu hoher Latenz, Redundanz und inkohärenten Reasoning-Pfaden. Inspiriert von der Sprache-des-Geistes-Hypothese, die postuliert, dass menschliches Denken auf einer symbolischen, kompositionellen mentalen Sprache namens Mentalese operiert, führen wir ein Framework ein, das Modelle darin trainiert, in einem ähnlich kompakten Stil zu schlussfolgern. Mentalese kodiert abstraktes Reasoning als ultra-kompakte, strukturierte Tokens, sodass Modelle komplexe Probleme mit deutlich weniger Schritten lösen können. Um sowohl Effizienz als auch Genauigkeit zu verbessern, schlagen wir SHORTER LENGTH PREFERENCE OPTIMIZATION (SLPO) vor, eine Reinforcement-Learning-Methode, die präzise, korrekte Lösungen belohnt, während sie bei Bedarf auch längeres Reasoning zulässt. Angewendet auf Mentalese-angepasste Modelle erzielt SLPO deutlich höhere Kompressionsraten, indem es präzises Reasoning ermöglicht, das die Vorteile detaillierten Denkens bewahrt, ohne den Rechenaufwand. Über Benchmarks einschließlich AIME 2024 und 2025, MinervaMath, OlympiadBench, Math500 und AMC hinweg produzieren unsere ORION-Modelle Reasoning-Traces mit 4–16 mal weniger Tokens, erreichen bis zu 5 mal geringere Inferenzlatenz und reduzieren Trainingskosten um das 7–9 fache im Vergleich zum DeepSeek R1 Distilled-Modell, bei gleichzeitiger Beibehaltung von 90–98 % seiner Genauigkeit. ORION übertrifft zudem Claude und ChatGPT-4o in der Genauigkeit um bis zu 5 %, bei gleichbleibender 2-facher Kompression. Diese Ergebnisse zeigen, dass Mentalese-artiges komprimiertes Reasoning einen Schritt hin zu menschlicher kognitiver Effizienz darstellt und Echtzeit- und kosteneffektives Reasoning ohne Genauigkeitsverluste ermöglicht.
Das Inversions-Entrauschungs-Paradigma, das auf Diffusionsmodellen basiert, zeichnet sich durch vielfältige Bildbearbeitungs- und Restaurierungsaufgaben aus. Wir untersuchen seinen Mechanismus neu und decken einen kritischen, übersehenen Faktor für Rekonstruktionsverschlechterung auf: den approximativen Rauschfehler. Dieser Fehler entsteht durch die Annäherung des Rauschens zum Schritt t mit der Vorhersage aus Schritt t-1, was zu einer schwerwiegenden Fehlerakkumulation während des gesamten Inversionsprozesses führt. Wir stellen Projection-Orthogonal Least Squares for Robust and Adaptive Inversion (POLARIS) vor, das die Inversion von einem Fehlerkompensations- in ein Fehlerursprungsproblem umformuliert. Anstatt Einbettungen oder latente Codes zur Kompensation von akkumuliertem Drift zu optimieren, behandelt POLARIS die Führungsgröße ω als schrittweise Variable und leitet eine mathematisch fundierte Formel zur Minimierung des Inversionsfehlers in jedem Schritt ab. Bemerkenswerterweise verbessert POLARIS die Qualität der inversen latenten Repräsentation mit nur einer Codezeile. Bei vernachlässigbarem Leistungsaufwand mildert es approximative Rauschfehler erheblich ab und steigert konsistent die Genauigkeit nachgelagerter Aufgaben.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat die Fähigkeit von Large Language Models (LLMs) zum logischen Schließen erweitert und ermöglicht autonomen Agenten, effektives mehrstufiges und werkzeugintegriertes Reasoning durchzuführen. Während Anweisungen das primäre Protokoll zur Definition von Agenten darstellen, stützt sich RLVR typischerweise auf statische, manuell gestaltete Anweisungen. Diese Anweisungen können jedoch für das Basismodell suboptimal sein, und die optimale Anweisung kann sich ändern, wenn sich die Policy des Agenten verbessert und die Interaktion mit der Umgebung erkundet. Um diese Lücke zu schließen, stellen wir INSPO vor, ein neuartiges Instruction-Policy-Co-Evolution-Framework, das die Anweisungsoptimierung als dynamische Komponente in die Reinforcement-Learning-(RL)-Schleife integriert. INSPO verwaltet einen dynamischen Pool von Anweisungskandidaten, die mit Fragen abgetastet werden, wobei Belohnungssignale in den RL-Schleifen automatisch jeder Anweisung zugerechnet werden und schlecht performende Anweisungen regelmäßig aussortiert werden. Neue Anweisungen werden durch einen On-Policy-Reflexionsmechanismus generiert und verifiziert, bei dem ein LLM-basierter Optimierer vergangene Erfahrungen aus einem Replay-Puffer analysiert und wirksamere Strategien angesichts der aktuellen Policy entwickelt. Wir führen umfangreiche Experimente zu mehrstufigen Retrieval- und Reasoning-Aufgaben durch, die zeigen, dass INSPO starke Baseline-Methoden, die auf statischen Anweisungen beruhen, erheblich übertrifft. INSPO entdeckt innovative Anweisungen, die den Agenten auf strategischere Reasoning-Pfade lenken und dabei substantiale Leistungssteigerungen bei nur marginal erhöhtem Rechenaufwand erzielen.
Spezialisierte klinische KI-Assistenten halten zunehmend Einzug in die medizinische Praxis und werden oft als sicherer oder zuverlässiger dargestellt als allgemeine Large Language Models (LLMs). Im Gegensatz zu führenden Modellen werden diese klinischen Werkzeuge jedoch selten unabhängigen quantitativen Evaluierungen unterzogen, was trotz ihres wachsenden Einflusses auf Diagnose, Triage und Leitlinieninterpretation eine kritische Evidenzlücke schafft. Wir bewerteten zwei weit verbreitete klinische KI-Systeme (OpenEvidence und UpToDate Expert AI) im Vergleich zu drei modernen generalistischen LLMs (GPT-5, Gemini 3 Pro und Claude Sonnet 4.5) anhand eines 1.000 Punkte umfassenden Mini-Benchmarks, der MedQA (medizinisches Wissen) und HealthBench (Ausrichtung an klinischen Abläufen) kombinierte. Die Generalisten übertrafen die klinischen Werkzeuge durchgängig, wobei GPT-5 die höchsten Werte erzielte, während OpenEvidence und UpToDate Defizite in Bezug auf Vollständigkeit, Kommunikationsqualität, Kontextbewusstsein und systemsicherheitsbasiertes Denken zeigten. Diese Ergebnisse zeigen, dass als klinische Entscheidungsunterstützung vermarktete Werkzeuge häufig hinter führenden LLMs zurückbleiben können, was die dringende Notwendigkeit transparenter, unabhängiger Evaluierungen vor dem Einsatz in patientenbezogenen Arbeitsabläufen unterstreicht.
Test-Time Scaling (TTS) – die dynamische Zuweisung von Rechenleistung während des Inferenzvorgangs – ist ein vielversprechender Ansatz zur Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs). Allerdings fehlt ein systematischer Vergleich bekannter TTS-Strategien unter identischen Bedingungen, und der Einfluss des Modelltyps und der Problemkomplexität auf die Leistung bleibt unklar. Um diese Lücken zu schließen, führen wir die erste groß angelegte Studie zu TTS durch, die über dreißig Milliarden Tokens umfasst, die mit acht Open-Source-LLMs (7B bis 235B Parameter) über vier Reasoning-Datensätze generiert wurden. Wir beobachten drei konsistente Trends: (1) Keine einzelne TTS-Strategie ist universell überlegen; (2) Reasoning-Modelle zeigen unterschiedliche Trace-Qualitätsmuster in Abhängigkeit von Problemkomplexität und Trace-Länge, die sich in kurz- und langfristige Kategorien einteilen lassen; und (3) für einen gegebenen Modelltyp skaliert die optimale TTS-Leistung monoton mit dem Rechenbudget. Auf Basis dieser Erkenntnisse liefern wir eine praktische Anleitung zur Auswahl der besten TTS-Strategie unter Berücksichtigung von Problemkomplexität, Modelltyp und Rechenbudget, die einen praktischen Leitfaden für effektives Skalieren zur Inferenzzeit darstellt.
Aktuelle Bildbearbeitungsmodelle verfügen über intelligente Fähigkeiten der nächsten Generation, die kognitions- und kreativitätsgestützte Bildbearbeitung ermöglichen. Bisherige Benchmarks bieten jedoch einen zu eingeschränkten Bewertungsrahmen und erfassen diese fortgeschrittenen Fähigkeiten nicht ganzheitlich. Um dieses Problem zu lösen, stellen wir WiseEdit vor, einen wissensintensiven Benchmark für die umfassende Bewertung kognitions- und kreativitätsgestützter Bildbearbeitung, der sich durch hohe Aufgabenkomplexität und breite Wissensabdeckung auszeichnet. In Anlehnung an die menschliche kognitive Schaffenskraft unterteilt WiseEdit die Bildbearbeitung in drei kaskadierte Schritte: Wahrnehmung, Interpretation und Imagination. Jeder Schritt entspricht einer Aufgabe, die für Modelle auf der jeweiligen Stufe eine Herausforderung darstellt. Zudem umfasst WiseEdit komplexe Aufgaben, bei denen keiner der drei Schritte einfach abgeschlossen werden kann. Darüber hinaus integriert WiseEdit drei grundlegende Wissensarten: deklaratives, prozedurales und metakognitives Wissen. Insgesamt umfasst WiseEdit 1.220 Testfälle, die objektiv die Grenzen modernster Bildbearbeitungsmodelle bei wissensbasiertem kognitivem Reasoning und kreativen Kompositionsfähigkeiten aufzeigen. Der Benchmark, der Evaluierungscode und die von jedem Modell generierten Bilder werden in Kürze öffentlich zugänglich gemacht. Projektseite: https://qnancy.github.io/wiseedit_project_page/.
Obwohl vorherrschende kameragesteuerte Videogenerierungsmodelle cineastische Ergebnisse erzeugen können, bleibt die direkte Übertragung auf die Generierung von 3D-konsistenten und hochwertigen zeitlich synchronisierten Multi-View-Videos eine Herausforderung, was eine entscheidende Fähigkeit zur Beherrschung von 4D-Welten darstellt. Einige Arbeiten greifen auf Datenaugmentierung oder Testzeit-Optimierung zurück, doch diese Strategien sind durch begrenzte Modellgeneralisierung und Skalierbarkeitsprobleme eingeschränkt. Zu diesem Zweck schlagen wir ChronosObserver vor, eine trainierungsfreie Methode, die einen Weltzustands-Hyperraum zur Darstellung der raumzeitlichen Beschränkungen einer 4D-Weltszene sowie eine hyperraumgeführte Abtastung zur Synchronisierung der Diffusions-Abtastpfade mehrerer Ansichten unter Verwendung des Hyperraums umfasst. Experimentelle Ergebnisse demonstrieren, dass unsere Methode die Generierung von hochwertigen und 3D-konsistenten zeitlich synchronisierten Multi-View-Videos ohne Training oder Feinabstimmung von Diffusionsmodellen erreicht.
Wir stellen ein neuartiges Framework vor, das direkt eine spektrale Basis für die Analyse von Formen und Mannigfaltigkeiten aus unstrukturierten Daten lernt und so die Notwendigkeit traditioneller Operatorauswahl, Diskretisierung und Eigenlöser umgeht. Basierend auf der Theorie der optimalen Approximation trainieren wir ein Netzwerk, um einen impliziten Approximationsoperator durch Minimierung des Rekonstruktionsfehlers in der gelernten Basis über eine gewählte Verteilung von Testfunktionen zu zerlegen. Für geeignete Verteilungen können diese als Approximation des Laplace-Operators und seiner Eigenzerlegung angesehen werden, die in der Geometrieverarbeitung grundlegend sind. Darüber hinaus gewinnt unsere Methode auf einheitliche Weise nicht nur die spektrale Basis zurück, sondern auch die Abtastdichte der impliziten Metrik und die Eigenwerte des zugrundeliegenden Operators. Bemerkenswerterweise trifft unsere unüberwachte Methode keine Annahmen über die Datenmannigfaltigkeit, wie etwa Vernetzung oder Mannigfaltigkeitsdimensionalität, was eine Skalierung auf beliebige Datensätze beliebiger Dimension ermöglicht. Bei Punktwolken auf Oberflächen im 3D-Raum und hochdimensionalen Bildmannigfaltigkeiten liefert unser Ansatz aussagekräftige spektrale Basen, die denen des Laplace-Operators ähneln können, ohne dass ein Operator explizit konstruiert wird. Indem wir die traditionelle Operatorauswahl, -konstruktion und Eigenzerlegung durch einen lernbasierten Ansatz ersetzen, bietet unser Framework eine prinzipielle, datengesteuerte Alternative zu konventionellen Pipelines. Dies eröffnet neue Möglichkeiten in der Geometrieverarbeitung für unstrukturierte Daten, insbesondere in hochdimensionalen Räumen.
Ein langjähriges Ziel in der Computer Vision ist die Modellierung von Bewegungen aus Videos, während die den Bewegungen zugrundeliegenden Repräsentationen – also die unsichtbaren physikalischen Wechselwirkungen, die Objekte verformen und bewegen – weitgehend unerforscht bleiben. In dieser Arbeit untersuchen wir, wie unsichtbare Kräfte aus visuellen Beobachtungen abgeleitet werden können, beispielsweise die Schätzung eines Windfeldes durch die Beobachtung eines zu Boden fallenden Blattes. Unsere zentrale Innovation ist ein end-to-end differenzierbarer Inverse-Graphics-Rahmen, der Objektgeometrie, physikalische Eigenschaften und Wechselwirkungen direkt aus Videos gemeinsam modelliert. Durch Backpropagation ermöglicht unser Ansatz die Wiederherstellung von Kraftrepräsentationen aus Objektbewegungen. Wir validieren unsere Methode anhand synthetischer und realer Szenarien, und die Ergebnisse demonstrieren ihre Fähigkeit, plausible Kraftfelder aus Videos abzuleiten. Darüber hinaus zeigen wir die potenziellen Anwendungen unseres Ansatzes, einschließlich physikbasierter Videogenerierung und -bearbeitung. Wir hoffen, dass unser Ansatz das Verständnis und die Modellierung der physikalischen Prozesse hinter den Pixeln fördert und so die Lücke zwischen Vision und Physik schließt. Weitere Videoergebnisse finden Sie auf unserer {Projektseite}: https://chaoren2357.github.io/seeingthewind/.
Während große Sprachmodelle bei multilingualen Aufgaben mit hohen Ressourcen hervorragend abschneiden, bleiben Sprachressourcen-arme und extrem ressourcenarme indische Sprachen stark unterbewertet. Wir stellen IndicParam vor, einen von Menschen kuratierten Benchmark mit über 13.000 Multiple-Choice-Fragen, der 11 solcher Sprachen abdeckt (Nepali, Gujarati, Marathi, Odia als ressourcenarm; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani als extrem ressourcenarm) plus einen Sanskrit-Englisch-Code-Mixed-Datensatz. Wir evaluierten 19 LLMs, sowohl proprietäre als auch Open-Weight-Modelle, was zeigt, dass selbst das leistungsstärkste GPT-5 nur auf eine durchschnittliche Genauigkeit von 45,0 % kommt, gefolgt von DeepSeek-3.2 (43,1 %) und Claude-4.5 (42,7 %). Zusätzlich kategorisieren wir jede Frage als wissensorientiert oder rein linguistisch, um faktisches Erinnern von grammatikalischer Kompetenz zu unterscheiden. Des Weiteren bewerten wir die Fähigkeit der LLMs, verschiedene Frageformate – wie listenbasiertes Matching, Assertion-Reason-Paare und Sequenzordnung – neben konventionellen Multiple-Choice-Fragen zu bewältigen. IndicParam liefert Einblicke in die Grenzen des cross-lingualen Transfers und etabliert einen anspruchsvollen Benchmark für indische Sprachen. Der Datensatz ist verfügbar unter https://huggingface.co/datasets/bharatgenai/IndicParam. Skripte zum Ausführen des Benchmarks befinden sich unter https://github.com/ayushbits/IndicParam.
Aktuelle Methoden zur Story-Visualisierung positionieren Subjekte oft nur anhand von Text und haben Schwierigkeiten, künstlerische Konsistenz aufrechtzuerhalten. Um diese Einschränkungen zu adressieren, stellen wir DreamingComics vor, ein layoutbewusstes Framework zur Story-Visualisierung. Wir bauen auf einem vortrainierten Video-Diffusion-Transformer-Modell (DiT) auf und nutzen dessen raumzeitliche Priors, um Identitäts- und Stilkonsistenz zu verbessern. Zur layoutbasierten Positionssteuerung schlagen wir RegionalRoPE vor, ein regionsbewusstes Positionscodierungsschema, das Einbettungen basierend auf dem Ziel-Layout neu indiziert. Zusätzlich führen wir einen maskierten Bedingungsverlust ein, um die visuellen Merkmale jedes Subjekts weiter auf seine vorgesehene Region einzuschränken. Um Layouts aus natürlichen Sprachskripten abzuleiten, integrieren wir einen LLM-basierten Layout-Generator, der darauf trainiert ist, comicartige Layouts zu erzeugen, was flexible und steuerbare Layout-Bedingung ermöglicht. Wir präsentieren eine umfassende Evaluation unseres Ansatzes, die eine Steigerung der Charakterkonsistenz um 29,2 % und der Stilähnlichkeit um 36,2 % im Vergleich zu vorherigen Methoden zeigt, bei gleichzeitig hoher räumlicher Genauigkeit. Unsere Projektseite ist verfügbar unter https://yj7082126.github.io/dreamingcomics/.
Kausales Denken ermöglicht es Menschen nicht nur zu verstehen, was gesehen wird, sondern auch warum es geschieht. Um diese Fähigkeit in modernen KI-Systemen nachzubilden, führen wir die Aufgabe der visuellen Kausalitätsentdeckung ein. Sie erfordert, dass Modelle Ursache-Wirkungs-Beziehungen zwischen visuellen Entitäten in verschiedenen Szenarien inferieren, anstatt lediglich deren Vorhandensein wahrzunehmen. Zu diesem Zweck konstruieren wir zunächst den Visual Causal Graph-Datensatz (VCG-32K), eine groß angelegte Sammlung von über 32.000 Bildern, die mit Entitäten-basierten Kausalgrafiken annotiert sind, und entwickeln weiterhin CauSight, ein neuartiges Vision-Language-Modell zur Durchführung visueller Kausalitätsentdeckung durch kausalitätsbewusstes Reasoning. Unser Trainingsansatz integriert drei Komponenten: (1) Aufbereitung von Trainingsdaten aus VCG-32K, (2) Tree-of-Causal-Thought (ToCT) zur Synthese von Reasoning-Pfaden und (3) Verstärkendes Lernen mit einer speziell entwickelten kausalen Belohnungsfunktion zur Verfeinerung der Reasoning-Strategie. Experimente zeigen, dass CauSight GPT-4.1 bei der visuellen Kausalitätsentdeckung übertrifft und eine mehr als dreifache Leistungssteigerung (21 % absoluter Zugewinn) erzielt. Unser Code, Modell und Datensatz sind vollständig auf der Projektseite quelloffen verfügbar: https://github.com/OpenCausaLab/CauSight.
Kürzlich haben zweistufige Feinabstimmungsstrategien, beispielsweise der Erwerb von wesentlichem Fahrwissen durch überwachte Feinabstimmung (SFT) und die weitere Verbesserung von Entscheidungsfindung und Planung durch verstärkende Feinabstimmung (RFT), großes Potenzial für die Weiterentwicklung des wissensbasierten autonomen Fahrparadigmas gezeigt. Die Lernnatur der SFT begrenzt jedoch nach wie vor die Generalisierung des Schlussfolgerns und schränkt damit das volle Potenzial der Fahrleistung ein. Gleichzeitig werden aktuelle RFT-Ansätze primär auf nachgelagerte Aufgaben angewendet, da Szenenverständnis ein offenes Problem ist, bei dem entsprechende Belohnungen schwer zu quantifizieren sind. Um diese Einschränkungen zu adressieren, schlagen wir OpenREAD vor, ein OPEN-ended REasoning reinforced Vision-Language-Model (VLM)-basiertes Framework für autonomes Fahren, das eine end-to-end RFT über das gesamte Spektrum von hochrangigem Schlussfolgern bis hin zu niederrangiger Trajektorienplanung ermöglicht. Konkret beginnen wir mit der Erstellung groß angelegter Chain-of-Thought (CoT)-Annotationen auf quelloffenen, fahrbezogenen Wissensdatensätzen und setzen das leistungsstarke Qwen3 Large Language Model (LLM) als Kritiker in der RFT ein, um die Schlussfolgerungsqualität für offene Fragen während der Belohnungsmodellierung zu quantifizieren. Umfangreiche Experimente bestätigen, dass gemeinsame end-to-end RFT zu erheblichen Verbesserungen sowohl in vorgelagerten als auch nachgelagerten Aufgaben führt und es OpenREAD ermöglicht, state-of-the-art Leistung auf Schlussfolgerungs- und Planungsbenchmarks zu erzielen.
Bei textbasierten Open-Source-Großsprachmodellen (LLMs) für die Übersetzung wurden erhebliche Fortschritte mit besserer Sprachabdeckung und Qualität erzielt. Diese Modelle können jedoch nur in Kaskadenpipelines für Sprachübersetzung (ST) eingesetzt werden, indem zunächst automatische Spracherkennung gefolgt von Übersetzung durchgeführt wird. Dies führt zu zusätzlicher Latenz, die besonders bei simultaner Sprachübersetzung (SimulST) kritisch ist, und verhindert, dass das Modell multimodalen Kontext – wie beispielsweise Bilder – zur Disambiguierung nutzen kann. Vortrainierte multimodale Basismodelle (MMFMs) verfügen bereits über starke Wahrnehmungs- und Reasoning-Fähigkeiten über mehrere Modalitäten hinweg, weisen jedoch generell eine geringere multilinguale Abdeckung und spezialisierte Übersetzungsleistung als dedizierte Übersetzungs-LLMs auf. Um ein effektives multimodales Übersetzungssystem zu entwickeln, schlagen wir einen End-to-End-Ansatz vor, der MMFMs mit Übersetzungs-LLMs fusioniert. Wir führen eine neuartige Fusionsstrategie ein, die versteckte Zustände aus mehreren Schichten eines vortrainierten MMFM mit einem Übersetzungs-LLM verbindet und gemeinsames End-to-End-Training ermöglicht. Das resultierende Modell OmniFusion, basierend auf Omni 2.5-7B als MMFM und SeedX PPO-7B als Übersetzungs-LLM, kann Sprach-zu-Text-, Sprach-und-Bild-zu-Text- sowie Text-und-Bild-zu-Text-Übersetzungen durchführen. Experimente zeigen, dass OmniFusion sowohl Audio- als auch visuelle Eingaben effektiv nutzt, eine Reduzierung der Latenz um 1 Sekunde in SimulST im Vergleich zu Kaskadenpipelines erreicht und gleichzeitig die allgemeine Übersetzungsqualität verbessert. Der Code ist verfügbar unter https://github.com/saikoneru/OmniFusion.
Kamera- und Objektbewegungen sind zentral für die Erzählstruktur eines Videos. Die präzise Bearbeitung dieser aufgezeichneten Bewegungen stellt jedoch nach wie vor eine erhebliche Herausforderung dar, insbesondere bei komplexen Objektbewegungen. Aktuelle bewegungsgesteuerte Bild-zu-Video (I2V)-Ansätze bieten oft keinen vollständigen Szenenkontext für eine konsistente Videobearbeitung, während Video-zu-Video (V2V)-Methoden zwar Blickwinkeländerungen oder grundlegende Objektverschiebungen ermöglichen, aber nur eine eingeschränkte Steuerung fein granulärer Objektbewegungen bieten. Wir stellen ein spur-konditioniertes V2V-Framework vor, das die gemeinsame Bearbeitung von Kamera- und Objektbewegung ermöglicht. Dies erreichen wir, indem wir ein Videogenerierungsmodell auf ein Quellvideo und gepaarte 3D-Punktspuren konditionieren, die Quell- und Zielbewegungen repräsentieren. Diese 3D-Spuren stellen sparsame Korrespondenzen her, die den umfassenden Kontext vom Quellvideo auf neue Bewegungen übertragen und dabei die raumzeitliche Kohärenz bewahren. Entscheidend ist, dass 3D-Spuren im Vergleich zu 2D-Spuren explizite Tiefeninformationen liefern, was es dem Modell ermöglicht, Tiefenreihenfolgen aufzulösen und Verdeckungen für eine präzise Bewegungsbearbeitung zu handhaben. Unser Modell, das in zwei Stufen mit synthetischen und realen Daten trainiert wurde, unterstützt diverse Bewegungsbearbeitungen, einschließlich gemeinsamer Kamera-/Objektmanipulation, Bewegungstransfer und nicht-starrer Verformung, und eröffnet damit neues kreatives Potenzial in der Videobearbeitung.
Die zunehmende Prävalenz von Schilddrüsenkrebs weltweit hat zur Entwicklung verschiedener computergestützter Detektionsmethoden geführt. Eine präzise Segmentierung von Schilddrüsenknoten ist ein entscheidender erster Schritt bei der Entwicklung KI-gestützter klinischer Entscheidungshilfesysteme. Diese Studie konzentriert sich auf die Instanzsegmentierung von Schilddrüsenknoten mittels YOLOv5-Algorithmen in Ultraschallbildern. Wir evaluierten mehrere YOLOv5-Varianten (Nano, Small, Medium, Large und XLarge) an zwei Datensatzversionen, mit und ohne Doppler-Bilder. Der YOLOv5-Large-Algorithmus erzielte die höchste Leistung mit einem Dice-Koeffizienten von 91 % und einem mAP-Wert von 0,87 im Datensatz mit Doppler-Bildern. Bemerkenswerterweise zeigen unsere Ergebnisse, dass Doppler-Bilder, die typischerweise von Ärzten ausgeschlossen werden, die Segmentierungsleistung erheblich verbessern können. Das YOLOv5-Small-Modell erreichte einen Dice-Koeffizienten von 79 %, wenn Doppler-Bilder ausgeschlossen wurden, während deren Einbeziehung die Leistung aller Modellvarianten steigerte. Diese Ergebnisse legen nahe, dass die Instanzsegmentierung mit YOLOv5 einen effektiven Echtzeitansatz für die Detektion von Schilddrüsenknoten bietet, mit potenziellen klinischen Anwendungen in automatisierten Diagnosesystemen.
Wir stellen Conformer-basierte Decoder für den LibriBrain 2025 PNPL-Wettbewerb vor, die auf zwei grundlegende MEG-Aufgaben abzielen: Spracherkennung und Phonemklassifizierung. Unser Ansatz adaptiert einen kompakten Conformer an rohe 306-Kanal-MEG-Signale, mit einer leichten Faltungsprojektionsschicht und aufgabenspezifischen Köpfen. Für die Spracherkennung bot eine MEG-orientierte SpecAugment-Erweiterung eine erste Erkundung MEG-spezifischer Augmentierung. Für die Phonemklassifizierung verwendeten wir eine Gewichtung nach dem Kehrwert der Quadratwurzel der Klassenhäufigkeit und einen dynamischen Gruppierungslader, um 100-fach gemittelte Beispiele zu verarbeiten. Zusätzlich erwies sich eine einfache Instanzen-Normalisierung als entscheidend, um Verteilungsverschiebungen im Holdout-Split abzumildern. Unter Verwendung der offiziellen Standard-Track-Aufteilungen und F1-Macro zur Modellauswahl erzielten unsere besten Systeme 88,9 % (Sprache) bzw. 65,8 % (Phoneme) auf dem Leaderboard, übertrafen die Wettbewerbs-Baselines und platzierten sich in beiden Aufgaben unter den Top 10. Weitere Implementierungsdetails, die technische Dokumentation, der Quellcode und Checkpoints sind unter https://github.com/neural2speech/libribrain-experiments verfügbar.
Die Business Process Model and Notation (BPMN) ist ein weit verbreiteter Standard zur Darstellung komplexer Geschäftsprozesse. Obwohl BPMN-Diagramme häufig als visuelle Bilder ausgetauscht werden, stützen sich bestehende Methoden für die computergestützte Analyse hauptsächlich auf XML-Darstellungen. In dieser Arbeit stellen wir eine Pipeline vor, die Vision-Language-Modelle (VLMs) nutzt, um strukturierte JSON-Repräsentationen von BPMN-Diagrammen direkt aus Bildern zu extrahieren, ohne dass Quelldateien des Modells oder textuelle Annotationen erforderlich sind. Wir integrieren außerdem optische Zeichenerkennung (OCR) zur textuellen Anreicherung und bewerten die generierten Elementlisten anhand von Grundwahrheitsdaten aus den ursprünglichen XML-Dateien. Unser Ansatz ermöglicht eine robuste Komponentenextraktion in Szenarien, in denen die ursprünglichen Quelldateien nicht verfügbar sind. Wir benchmarken mehrere VLMs und beobachten Leistungsverbesserungen bei mehreren Modellen, wenn OCR zur Textanreicherung eingesetzt wird. Darüber hinaus führten wir umfassende statistische Analysen der OCR-basierten Anreicherungsmethoden sowie Prompt-Ablationsstudien durch, die ein klareres Verständnis ihrer Auswirkungen auf die Modellleistung ermöglichen.