papers.description
Reinforcement Learning with Verifiable Rewards (RLVR) bietet einen robusten Mechanismus zur Verbesserung des mathematischen Denkvermögens in großen Modellen. Wir stellen jedoch fest, dass bestehende Methoden aus algorithmischer und datentechnischer Perspektive systematisch eine zu geringe Betonung auf anspruchsvollere Fragen legen, obwohl diese für die Verfeinerung unterentwickelter Fähigkeiten von entscheidender Bedeutung sind. Algorithmisch leidet das weit verbreitete Group Relative Policy Optimization (GRPO) unter einem impliziten Ungleichgewicht, bei dem das Ausmaß der Policy-Updates für schwierigere Fragen geringer ist. Auf der Datenseite zielen Augmentierungsansätze primär auf die Umformulierung von Fragen zur Erhöhung der Diversität ab, ohne die intrinsische Schwierigkeit systematisch zu steigern. Um diese Probleme zu adressieren, schlagen wir ein zweigleisiges MathForge-Framework vor, das das mathematische Denkvermögen verbessert, indem es anspruchsvollere Fragen aus beiden Perspektiven in den Fokus nimmt. Es besteht aus einem Difficulty-Aware Group Policy Optimization (DGPO)-Algorithmus und einer Multi-Aspect Question Reformulation (MQR)-Strategie. Konkret korrigiert DGPO zunächst das implizite Ungleichgewicht in GRPO durch einen schwierigkeitsausgeglichenen Gruppen-Vorteils-Schätzer und priorisiert schwierigere Fragen weiterhin durch eine schwierigkeitsabhängige Gewichtung auf Frageebene. Parallel dazu reformuliert MQR Fragen über mehrere Aspekte hinweg, um deren Schwierigkeitsgrad zu erhöhen, während die ursprüngliche Goldstandard-Antwort beibehalten wird. Insgesamt bildet MathForge eine synergetische Schleife: MQR erweitert die Datenfront, und DGPO lernt effektiv aus den augmentierten Daten. Umfangreiche Experimente zeigen, dass MathForge bestehende Methoden bei verschiedenen mathematischen Reasoning-Aufgaben signifikant übertrifft. Der Code und die augmentierten Daten sind unter https://github.com/AMAP-ML/MathForge verfügbar.
Wir stellen LingBot-World vor, einen quelloffenen Weltsimulator auf Basis von Videogenerierung. Als hochwertiges Weltmodell positioniert, bietet LingBot-World folgende Merkmale: (1) Es bewahrt hohe Detailtreue und robuste Dynamik in einem breiten Spektrum von Umgebungen, einschließlich realistischer, wissenschaftlicher und zeichentrickhafter Szenarien. (2) Es ermöglicht eine minutenschnelle Vorhersage bei gleichzeitiger Wahrung der kontextuellen Konsistenz über die Zeit, was auch als "Langzeitgedächtnis" bekannt ist. (3) Es unterstützt Echtzeit-Interaktivität mit einer Latenz von unter einer Sekunde bei der Erzeugung von 16 Bildern pro Sekunde. Wir stellen Code und Modell öffentlich zur Verfügung, um die Kluft zwischen quelloffenen und proprietären Technologien zu verringern. Wir sind überzeugt, dass unsere Veröffentlichung der Gemeinschaft praktische Anwendungsmöglichkeiten in Bereichen wie Content-Erstellung, Gaming und Robotik-Lernen eröffnen wird.
Wir stellen Innovator-VL vor, ein wissenschaftliches multimodales großes Sprachmodell, das entwickelt wurde, um das Verständnis und das reasoning in verschiedenen wissenschaftlichen Domänen voranzutreiben und dabei eine exzellente Leistung bei allgemeinen Vision-Aufgaben beizubehalten. Im Gegensatz zum Trend, der auf massives domänenspezifisches Pre-Training und undurchsichtige Pipelines setzt, zeigt unsere Arbeit, dass ein prinzipiell durchdachtes Trainingsdesign und eine transparente Methodologie eine starke wissenschaftliche Intelligenz mit deutlich reduziertem Datenbedarf erzielen können. (i) Erstens bieten wir eine vollständig transparente, end-to-end reproduzierbare Trainingspipeline, die Datensammlung, -bereinigung, -vorverarbeitung, supervised Fine-Tuning, Reinforcement Learning und Evaluation sowie detaillierte Optimierungsrezepte abdeckt. Dies erleichtert die systematische Erweiterung durch die Community. (ii) Zweitens weist Innovator-VL eine bemerkenswerte Dateneffizienz auf und erzielt mit weniger als fünf Millionen kuratierten Samples und ohne groß angelegtes Pre-Training eine wettbewerbsfähige Leistung bei verschiedenen wissenschaftlichen Aufgaben. Diese Ergebnisse unterstreichen, dass effektives Reasoning durch prinzipielle Datenauswahl anstelle von wahlloser Skalierung erreicht werden kann. (iii) Drittens demonstriert Innovator-VL eine starke Generalisierungsfähigkeit, indem es auf Benchmarks für allgemeine Vision-Aufgaben, multimodales Reasoning und wissenschaftliche Fragestellungen wettbewerbsfähig abschneidet. Dies zeigt, dass wissenschaftliche Ausrichtung in ein einheitliches Modell integriert werden kann, ohne die allgemeinen Fähigkeiten zu beeinträchtigen. Unsere Praxis legt nahe, dass effiziente, reproduzierbare und leistungsstarke wissenschaftliche multimodale Modelle auch ohne große Datenmengen aufgebaut werden können, was eine praktische Grundlage für zukünftige Forschung bietet.
Wir stellen DeepSeek-OCR 2 vor, um die Machbarkeit eines neuartigen Encoders – DeepEncoder V2 – zu untersuchen, der in der Lage ist, visuelle Tokens dynamisch anhand der Bildsemantik neu anzuordnen. Konventionelle Vision-Language-Modelle (VLMs) verarbeiten visuelle Tokens stets in einer starren Raster-Scan-Reihenfolge (von oben links nach unten rechts) mit festen Positionskodierungen, wenn sie in LLMs eingespeist werden. Dies widerspricht jedoch der menschlichen visuellen Wahrnehmung, die flexiblen, aber semantisch kohärenten Abtastmustern folgt, die von inhärenten logischen Strukturen gesteuert werden. Insbesondere bei Bildern mit komplexen Layouts zeigt das menschliche Sehen eine kausal informierte sequentielle Verarbeitung. Inspiriert von diesem kognitiven Mechanismus ist DeepEncoder V2 darauf ausgelegt, dem Encoder kausale Reasoning-Fähigkeiten zu verleihen, sodass er visuelle Tokens intelligent neu anordnen kann, bevor eine LLM-gestützte Inhaltsinterpretation erfolgt. Diese Arbeit erforscht ein neuartiges Paradigma: ob 2D-Bildverständnis effektiv durch zwei kaskadierte 1D-kausale Reasoning-Strukturen erreicht werden kann, und bietet damit einen neuen architektonischen Ansatz mit dem Potenzial, echtes 2D-Reasoning zu erreichen. Codes und Modellgewichte sind öffentlich zugänglich unter http://github.com/deepseek-ai/DeepSeek-OCR-2.
Reinforcement Learning hat große Sprachmodelle dazu befähigt, als intelligente Agenten zu agieren, doch die Ausbildung für langfristige Aufgaben bleibt aufgrund der Knappheit hochwertiger Trajektorien eine Herausforderung, insbesondere bei begrenzten Ressourcen. Bestehende Methoden skalieren typischerweise die Anzahl der Rollouts und verteilen Rechenressourcen undifferenziert auf Zwischenschritte. Solche Ansätze verschwenden inhärent erhebliche Rechenbudgets für triviale Schritte, während sie die Probenqualität nicht garantieren können. Um dies zu adressieren, schlagen wir Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching) vor, einen neuartigen Rahmen, der selektiv an kritischen Entscheidungszuständen verzweigt, um ressourceneffiziente Exploration zu ermöglichen. Unsere zentrale Erkenntnis ist, adaptive Verzweigungsexploration an kritischen Entscheidungspunkten zu aktivieren, um vielversprechende Trajektorien zu erkunden und so eine präzise Ressourcenallokation zu erreichen, die Probenqualität über blinde Abdeckung priorisiert. Dieses Design nutzt die intrinsischen Entscheidungssignale des Agenten, um die Abhängigkeit von menschlichen Priors zu verringern, und ermöglicht es dem Agenten, die Exploration autonom zu erweitern und eine stärkere Generalisierung zu erreichen. Experimente in verschiedenen Aufgaben (z.B. embodied Planning) zeigen, dass Spark überlegene Erfolgsquoten mit deutlich weniger Trainingsdaten erreicht und auch in ungesehenen Szenarien eine robuste Generalisierung aufweist.
Repräsentationen in Sprachmodellen enthalten oft lineare Richtungen, die hochrangigen Konzepten entsprechen. Hier untersuchen wir die Dynamik dieser Repräsentationen: wie sie sich entlang dieser Dimensionen im Kontext (simulierter) Gespräche entwickeln. Wir stellen fest, dass sich lineare Repräsentationen im Laufe eines Gesprächs dramatisch verändern können; beispielsweise kann Information, die zu Beginn eines Gesprächs als faktisch repräsentiert wird, am Ende als nicht-faktisch repräsentiert werden und umgekehrt. Diese Veränderungen sind inhaltsspezifisch; während Repräsentationen gesprächsrelevanter Information sich ändern können, bleibt generische Information generell erhalten. Diese Veränderungen sind robust, selbst für Dimensionen, die Faktizität von oberflächlicheren Antwortmustern entkoppeln, und treten über verschiedene Modellfamilien und Modellebenen hinweg auf. Diese Repräsentationsänderungen erfordern keine On-Policy-Gespräche; selbst das Abspielen eines Gesprächsskripts, das von einem völlig anderen Modell geschrieben wurde, kann ähnliche Veränderungen hervorrufen. Die Anpassung ist jedoch deutlich schwächer, wenn lediglich eine Science-Fiction-Geschichte im Kontext steht, die explizit als solche gekennzeichnet ist. Wir zeigen auch, dass das Steuern entlang einer Repräsentationsrichtung zu unterschiedlichen Zeitpunkten eines Gesprächs dramatisch unterschiedliche Effekte haben kann. Diese Ergebnisse stützen die Idee, dass sich Repräsentationen als Reaktion darauf entwickeln können, dass das Modell eine bestimmte Rolle einnimmt, die durch ein Gespräch vorgegeben wird. Unsere Erkenntnisse könnten Herausforderungen für Interpretierbarkeit und Steuerbarkeit darstellen – insbesondere implizieren sie, dass es irreführend sein könnte, statische Interpretationen von Merkmalen oder Richtungen zu verwenden oder Analyseverfahren, die davon ausgehen, dass ein bestimmter Wertebereich eines Merkmals konsistent einem bestimmten Grundwahrheitswert entspricht. Diese Art von Repräsentationsdynamik weist jedoch auch auf spannende neue Forschungsrichtungen hin, um zu verstehen, wie Modelle sich an Kontexte anpassen.
Große Sprachmodelle werden zunehmend mit Verstärkungslernen in verifizierbaren Domänen wie Code und Mathematik nachtrainiert. Allerdings lernen aktuelle Methoden für Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) nur aus einem skalaren Ergebnis-Belohnungswert pro Versuch, was einen erheblichen Credit-Assignment-Flaschenhals verursacht. Viele verifizierbare Umgebungen liefern tatsächlich umfangreiches textuelles Feedback, wie Laufzeitfehler oder Bewertungen eines Judges, das erklärt, warum ein Versuch fehlgeschlagen ist. Wir formalisieren diesen Rahmen als Verstärkungslernen mit umfangreichem Feedback und führen Self-Distillation Policy Optimization (SDPO) ein, das tokenisiertes Feedback in ein dichtes Lernsignal umwandelt, ohne einen externen Lehrer oder ein explizites Belohnungsmodell. SDPO behandelt das aktuelle Modell, konditioniert auf Feedback, als einen Selbst-Lehrer und destilliert seine feedback-informierten Next-Token-Vorhersagen zurück in die Policy. Auf diese Weise nutzt SDPO die Fähigkeit des Modells, eigene Fehler im Kontext retrospektiv zu identifizieren. In wissenschaftlichem Reasoning, Werkzeugnutzung und kompetitiver Programmierung auf LiveCodeBench v6 verbessert SDPO die Stichprobeneffizienz und finale Genauigkeit gegenüber starken RLVR-Baselines. Bemerkenswerterweise übertrifft SDPO Baselines auch in standardmäßigen RLVR-Umgebungen, die nur skalares Feedback liefern, indem es erfolgreiche Rollouts als implizites Feedback für fehlgeschlagene Versuche nutzt. Schließlich beschleunigt die Anwendung von SDPO auf einzelne Fragen zur Testzeit die Entdeckung bei schwierigen Aufgaben mit binären Belohnungen und erreicht die gleiche Entdeckungswahrscheinlichkeit wie Best-of-k-Sampling oder Mehrfachdialoge mit dreimal weniger Versuchen.
Trotz der syntaktischen Flüssigkeit großer Sprachmodelle (LLMs) bleibt die Gewährleistung ihrer logischen Korrektheit in hochriskanten Domänen eine grundlegende Herausforderung. Wir stellen einen neurosymbolischen Rahmen vor, der LLMs mit SMT-Solvern kombiniert, um verifizierungsgeleitete Antworten durch iterative Verfeinerung zu erzeugen. Unser Ansatz zerlegt LLM-Ausgaben in atomare Behauptungen, formalisiert diese automatisch in Logik erster Stufe und überprüft ihre logische Konsistenz mittels automatischem Theorembeweisen. Wir führen drei Schlüsselinnovationen ein: (1) Multi-Modell-Konsens durch formale Äquivalenzprüfung auf Semantikebene, um Logikebene-Übereinstimmung zwischen Kandidaten sicherzustellen und die syntaktische Verzerrung oberflächenbasierter Metriken zu eliminieren, (2) semantisches Routing, das verschiedene Behauptungstypen zu geeigneten Verifikationsstrategien lenkt: symbolische Löser für logische Behauptungen und LLM-Ensembles für Common-Sense-Reasoning, und (3) präzise logische Fehlerlokalisierung durch Minimale Korrektureilmengen (MCS), die die exakte Teilmenge der zu revidierenden Behauptungen identifizieren und binäre Fehlersignale in umsetzbares Feedback verwandeln. Unser Rahmen klassifiziert Behauptungen nach ihrem logischen Status und aggregiert multiple Verifikationssignale zu einem einheitlichen Score mit varianzbasiertem Penalty. Das System verfeinert Antworten iterativ unter Verwendung strukturierten Feedbacks, bis Akzeptanzkriterien erfüllt sind oder Konvergenz erreicht wird. Dieser hybride Ansatz liefert formale Garantien, wo möglich, und Konsensverifikation andernorts, was vertrauenswürdige KI voranbringt. Mit dem GPT-OSS-120B-Modell demonstriert VERGE eine durchschnittliche Leistungssteigerung von 18,7 % bei Konvergenz über eine Reihe von Reasoning-Benchmarks im Vergleich zu Single-Pass-Ansätzen.
Graphical User Interface (GUI)-Agenten zeigen großes Potenzial, um Foundation-Modelle bei der Ausführung realer Aufgaben zu unterstützen, was die Mensch-Computer-Interaktion revolutioniert und die menschliche Produktivität steigert. In diesem Bericht stellen wir OmegaUse vor, ein allgemeines GUI-Agentenmodell für die autonome Aufgabenerfüllung auf mobilen und Desktop-Plattformen, das Computer- und Telefonnutzungsszenarien unterstützt. Der Aufbau eines effektiven GUI-Agentenmodells hängt von zwei Faktoren ab: (1) hochwertigen Daten und (2) effektiven Trainingsmethoden. Um diese anzugehen, führen wir eine sorgfältig konstruierte Datenaufbaupipeline und ein entkoppeltes Trainingsparadigma ein. Für den Datenaufbau nutzen wir streng kuratierte Open-Source-Datensätze und stellen ein neuartiges automatisches Syntheseframework vor, das bottom-up autonome Exploration mit top-down taxonomiegesteuerter Generierung kombiniert, um hochwertige synthetische Daten zu erzeugen. Für das Training verwenden wir eine Zwei-Phasen-Strategie: Supervised Fine-Tuning (SFT) zur Etablierung grundlegender Interaktionssyntax, gefolgt von Group Relative Policy Optimization (GRPO) zur Verbesserung räumlicher Verankerung und sequenzieller Planung. Um Recheneffizienz mit agentenbasierter Reasoning-Kapazität in Einklang zu bringen, basiert OmegaUse auf einem Mixture-of-Experts (MoE)-Grundgerüst. Zur Bewertung plattformübergreifender Fähigkeiten in einer Offline-Umgebung führen wir OS-Nav ein, eine Benchmark-Suite über mehrere Betriebssysteme: ChiM-Nav für chinesische Android-Mobilumgebungen und Ubu-Nav für routinemäßige Desktop-Interaktionen unter Ubuntu. Umfangreiche Experimente zeigen, dass OmegaUse auf etablierten GUI-Benchmarks äußerst wettbewerbsfähig ist, mit einem state-of-the-art (SOTA)-Wert von 96,3 % auf ScreenSpot-V2 und einer führenden Schritt-Erfolgsrate von 79,1 % auf AndroidControl. OmegaUse schneidet auch auf OS-Nav stark ab, mit 74,24 % Schritt-Erfolg auf ChiM-Nav und 55,9 % durchschnittlichem Erfolg auf Ubu-Nav.
Open-Weight-Coding-Agents sollten einen grundlegenden Vorteil gegenüber Closed-Source-Systemen haben: Sie können auf private Codebasen spezialisiert werden, indem repositoriumspezifische Informationen direkt in ihren Gewichten kodiert werden. Bislang blieb dieser Vorteil jedoch aufgrund der Kosten und Komplexität des Trainings theoretisch. Wir zeigen, dass er nun praktisch realisierbar ist. Wir präsentieren Soft-Verified Efficient Repository Agents (SERA), eine effiziente Methode zum Training von Coding-Agents, die die schnelle und kostengünstige Erstellung auf private Codebasen spezialisierter Agenten ermöglicht. SERA erzielt allein durch Supervised Finetuning (SFT) state-of-the-art Ergebnisse unter vollständig quelloffenen Modellen (offene Daten, Methode, Code) und erreicht dabei die Leistung führender Open-Weight-Modelle wie Devstral-Small-2. Die Erstellung von SERA-Modellen ist 26-mal günstiger als Reinforcement Learning und 57-mal günstiger als bisherige Synthetic-Data-Methoden, um eine gleichwertige Leistung zu erreichen. Unsere Methode, Soft Verified Generation (SVG), generiert Tausende von Trajektorien aus einem einzelnen Code-Repository. Kombiniert mit der Kosteneffizienz ermöglicht dies die Spezialisierung auf private Codebasen. Über die Repository-Spezialisierung hinaus wenden wir SVG auf einen größeren Korpus von Codebasen an und generieren über 200.000 synthetische Trajektorien. Wir nutzen diesen Datensatz für eine detaillierte Analyse von Skalierungsgesetzen, Ablationen und Störfaktoren beim Training von Coding-Agents. Insgesamt sind wir überzeugt, dass unsere Arbeit die Forschung an quelloffenen Coding-Agents erheblich beschleunigen und den Vorteil von Open-Source-Modellen, die sich auf private Codebasen spezialisieren können, demonstrieren wird. Wir veröffentlichen SERA als erstes Modell in Ai2s Open Coding Agents-Serie und stellen der Forschungsgemeinschaft zusätzlich unseren gesamten Code, unsere Daten und eine Claude-Code-Integration zur Verfügung.
Der Bereich der aufgabenagnostischen Feature-Upsampling-Methoden hat sich als vielversprechendes Forschungsfeld etabliert, um effizient dichtere Features aus vortrainierten visuellen Backbones zu erzeugen. Diese Methoden dienen als Abkürzung, um dichte Features zu einem Bruchteil der Kosten zu erhalten, indem sie lernen, niedrigaufgelöste Features auf hochaufgelöste Versionen abzubilden. Während frühere Arbeiten in diesem Bereich iterative Upsampling-Ansätze verwendeten, sind neuere Arbeiten zu cross-attention-basierten Methoden übergegangen, die Gefahr laufen, in die gleichen Skalierungsprobleme hinsichtlich der Effizienz zu geraten wie die Backbones, deren Features sie hochskalieren. In dieser Arbeit zeigen wir, dass iterative Upsampling-Methoden nach wie vor mit cross-attention-basierten Methoden konkurrieren können; mehr noch, sie können State-of-the-Art-Leistung mit geringeren Inferenzkosten erzielen. Wir schlagen UPLiFT vor, eine Architektur für universelle, pixel-dichte, leichtgewichtige Feature-Transformationen. Zusätzlich schlagen wir einen effizienten Local Attender-Operator vor, um die Limitierungen früherer iterativer Feature-Upsampling-Methoden zu überwinden. Dieser Operator verwendet eine alternative Formulierung für attentionales Pooling, die vollständig lokal definiert ist. Wir zeigen, dass unser Local Attender es UPLiFT ermöglicht, stabile Features während des gesamten Upsampling-Prozesses beizubehalten, was State-of-the-Art-Leistung mit geringeren Inferenzkosten als bei bestehenden pixel-dichten Feature-Upsamplern ermöglicht. Darüber hinaus wenden wir UPLiFT auf generative Downstream-Aufgaben an und zeigen, dass es eine wettbewerbsfähige Leistung im Vergleich zu State-of-the-Art Coupled Flow Matching-Modellen für das Upsampling von VAE-Features erzielt. Zusammengenommen bietet UPLiFT einen vielseitigen und effizienten Ansatz zur Erzeugung dichterer Features.
Trotz jahrzehntelanger Forschung zu hallbehafteter Sprache bleibt der Vergleich von Methoden schwierig, da den meisten Korpora akustische Datei-für-Datei-Annotationen fehlen oder sie nur eingeschränkte Dokumentation zur Reproduktion bereitstellen. Wir stellen RIR-Mega-Speech vor, ein Korpus von etwa 117,5 Stunden, das durch Faltung von LibriSpeech-Aufnahmen mit rund 5.000 simulierten Rauminpulsantworten aus der RIR-Mega-Sammlung erstellt wurde. Jede Datei enthält die RT60, das Direkt-Schall-zu-Hall-Verhältnis (DRR) und den Deutlichkeitsindex (C₅₀), die aus der ursprünglichen Rauminpulsantwort mittels klar definierter, reproduzierbarer Verfahren berechnet wurden. Wir stellen auch Skripte bereit, um den Datensatz neu aufzubauen und alle Evaluierungsergebnisse zu reproduzieren. Anhand von 1.500 gepaarten Äußerungen, die mit Whisper small verarbeitet wurden, messen wir eine WER von 5,20 % (95 %-KI: 4,69–5,78) bei sauberer Sprache und 7,70 % (7,04–8,35) bei den hallbehafteten Versionen, was einem gepaarten Anstieg von 2,50 Prozentpunkten (2,06–2,98) entspricht. Dies stellt eine relative Verschlechterung von 48 % dar. Die WER steigt monoton mit der RT60 und sinkt mit dem DRR, was mit früheren Wahrnehmungsstudien übereinstimmt. Auch wenn die Kernaussage, dass Hall die Erkennung beeinträchtigt, gut belegt ist, wollen wir der Gemeinschaft eine standardisierte Ressource zur Verfügung stellen, in der die akustischen Bedingungen transparent und Ergebnisse unabhängig überprüfbar sind. Das Repository enthält One-Command-Rebuild-Anleitungen für Windows- und Linux-Umgebungen.
Multimodale Sarkasmuserkennung (MSD) zielt darauf ab, Sarkasmus in Bild-Text-Paaren zu identifizieren, indem semantische Inkongruenzen zwischen den Modalitäten modelliert werden. Bestehende Methoden nutzen häufig eine Fehlausrichtung cross-modaler Einbettungen, um Inkonsistenzen zu erkennen, scheitern jedoch, wenn visuelle und textuelle Inhalte lose verknüpft oder semantisch indirekt sind. Während neuere Ansätze große Sprachmodelle (LLMs) nutzen, um sarkastische Hinweise zu generieren, führt die inhärente Diversität und Subjektivität dieser Generierungen oft Rauschen ein. Um diese Einschränkungen zu adressieren, schlagen wir das Generative Diskrepanz-Vergleichsnetzwerk (GDCNet) vor. Dieser Rahmen erfasst cross-modale Konflikte, indem deskriptive, faktenbasierte Bildbeschreibungen, die von multimodalen LLMs (MLLMs) generiert werden, als stabile semantische Anker genutzt werden. Konkret berechnet GDCNet semantische und sentimentbezogene Diskrepanzen zwischen der generierten objektiven Beschreibung und dem Originaltext und misst parallel die visuell-textuelle Treue. Diese Diskrepanzmerkmale werden anschließend über ein gated-Modul mit visuellen und textuellen Repräsentationen fusioniert, um Modalitätsbeiträge adaptiv auszubalancieren. Umfangreiche Experimente auf MSD-Benchmarks demonstrieren die überlegene Genauigkeit und Robustheit von GDCNet und etablieren einen neuen State-of-the-Art auf dem MMSD2.0-Benchmark.
Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schließen erheblich verbessert, doch das Training stagniert häufig, sobald Probleme gesättigt sind. Wir identifizieren die mangelnde Zugänglichkeit informativer Fehler als Kernproblem: Lernsignale existieren, werden aber während standardmäßiger Rollouts nur selten angetroffen. Um dies zu adressieren, schlagen wir Failure-Prefix Conditioning vor, eine einfache und effektive Methode zum Lernen aus gesättigten Problemen. Anstatt von der ursprünglichen Frage auszugehen, lenkt unser Ansatz die Exploration um, indem das Training auf Präfixen basiert, die von seltenen, fehlerhaften Lösungswegen abgeleitet werden. Dadurch wird das Modell fehleranfälligen Zuständen ausgesetzt. Wir beobachten, dass Failure-Prefix Conditioning Leistungssteigerungen erzielt, die dem Training auf Problemen mittlerer Schwierigkeit entsprechen, bei gleichbleibender Token-Effizienz. Darüber hinaus analysieren wir die Robustheit des Modells und stellen fest, dass unsere Methode die Leistungsverschlechterung bei irreführenden Fehlerpräfixen verringert, allerdings mit einem leichten Kompromiss in der Befolgung korrekter früherer Schlussfolgerungen. Schließlich demonstrieren wir, dass ein iterativer Ansatz, der Fehlerpräfixe während des Trainings aktualisiert, nach Erreichen von Leistungsplateaus zusätzliche Gewinne ermöglicht. Insgesamt deuten unsere Ergebnisse darauf hin, dass Failure-Prefix Conditioning einen effektiven Weg bietet, um das RLVR-Training an gesättigten Problemen fortzusetzen.
Die sprecherzugeschriebene automatische Spracherkennung (ASR) in Umgebungen mit mehreren Sprechern bleibt eine große Herausforderung. Während einige Ansätze eine hohe Leistung erzielen, wenn sie auf bestimmte Domänen feinabgestimmt werden, generalisieren nur wenige Systeme gut über domänenfremde Datensätze hinweg. Unsere frühere Arbeit, Diarization-Conditioned Whisper (DiCoW), nutzt die Ausgaben der Sprecherdiarisierung als Konditionierungsinformation und zeigte mit minimaler Feinabstimmung eine starke multilinguale und multidomänale Leistung. In diesem Artikel behandeln wir eine zentrale Einschränkung von DiCoW: die Mehrdeutigkeit in Stille-Zielsprecher-Nichtzielsprecher-Überlappungs-Masken (STNO-Masken), bei denen zwei oder mehr vollständig überlappende Sprecher nahezu identische Konditionierung aufweisen können, obwohl ihre Transkriptionen unterschiedlich sind. Wir stellen SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper) vor, das die Diarisierungsausgabe nutzt, um ein Anmeldesegment irgendwo im Gespräch zu lokalisieren, in dem der Zielsprecher am aktivsten ist. Dieses Anmeldesegment wird über Cross-Attention auf jeder Encoder-Ebene als feste Konditionierung verwendet. Wir verfeinern DiCoW weiter durch verbesserte Datensegmentierung, Modellinitialisierung und Augmentierung. Zusammengenommen führen diese Fortschritte zu erheblichen Verbesserungen: SE-DiCoW reduziert den makrogemittelten tcpWER um 52,4 % im Vergleich zum ursprünglichen DiCoW auf dem EMMA MT-ASR-Benchmark.
Jüngste Fortschritte im Reasoning großer Sprachmodelle (LLMs) werden zunehmend durch die Verfeinerung von Loss-Funktionen nach dem Training und Alignment-Strategien vorangetrieben. Standard-Paradigmen des Reinforcement Learning (RL) wie Group Relative Policy Optimization (GRPO) bleiben jedoch durch statische Uniformität eingeschränkt: uniformes Prompt-Sampling und eine feste Anzahl von Rollouts pro Prompt. Bei heterogenen, schwer tail-verteilten Reasoning-Daten führt dies zu strukturellen Ineffizienzen, da Rechenleistung für bereits gelöste Muster verschwendet wird, während der lange Schwanz schwieriger Probleme untertrainiert bleibt. Um dies zu adressieren, schlagen wir Multi-Adversary Group Distributionally Robust Optimization (GDRO) vor, ein optimierungsorientiertes Framework, das über uniforme Reasoning-Modelle hinausgeht, indem es die Trainingsverteilung dynamisch anpasst. Wir führen einen Online Difficulty Classifier ein, der Prompts in dynamische Pass@k-Schwierigkeitsgruppen unterteilt. Anschließend schlagen wir zwei unabhängige GDRO-Spiele für die Phase nach dem Training vor: (1) Prompt-GDRO, das einen EMA-entzerrten Multiplicative-Weights-Bandit-Sampler einsetzt, um den intensiven Schwierigkeitsrand zu adressieren und persistent schwierige Gruppen ohne Frequenzverzerrung höher gewichtet; und (2) Rollout-GDRO, das einen Shadow-Price-Controller verwendet, um Rollouts gruppenübergreifend neu zuzuteilen und so die Reduktion der Gradientenvarianz bei schwierigen Aufgaben unter einem festen Mittelwert-Budget (rechenneutral) maximiert. Wir liefern No-Regret-Garantien für beide Controller sowie zusätzlich eine Varianz-Proxy-Analyse, die eine quadratwurzeloptimale Rollout-Zuteilung für Rollout-GDRO motiviert. Wir validieren unser Framework auf dem DAPO-14.1k-Datensatz mit Qwen3-Base-Modellen. Prompt-GDRO und Rollout-GDRO erzielen durchschnittliche relative Verbesserungen von +10,6 % bzw. +10,1 % in der Pass@8-Genauigkeit über 1,7B-, 4B- und 8B-Modelle im Vergleich zur GRPO-Baseline. Eine qualitative Analyse zeigt einen emergenten Lehrplan: Die Adversaries verlagern Ressourcen zur sich entwickelnden Reasoning-Front und verbessern so die Leistung des Reasoning-Modells.
Bei gesellschaftlich sensiblen Aufgaben wie der Erkennung von Hassrede ist die Qualität der Erklärungen von Large Language Models (LLMs) entscheidend für Faktoren wie Nutzervertrauen und Modellabstimmung. Während Persona-Prompting (PP) zunehmend als Methode eingesetzt wird, um Modelle auf nutzerspezifische Generierung auszurichten, ist seine Wirkung auf Modellbegründungen noch wenig erforscht. Wir untersuchen, wie sich die von LLMs generierten Begründungen verändern, wenn sie auf verschiedene simulierte demografische Personas konditioniert werden. Unter Verwendung von Datensätzen, die mit wortbasierten Begründungen annotiert sind, messen wir die Übereinstimmung mit menschlichen Annotationen verschiedener demografischer Gruppen und bewerten die Auswirkungen von PP auf Modellverzerrungen und menschliche Abstimmung. Unsere Auswertung über drei LLMs hinweg ergibt drei zentrale Erkenntnisse: (1) PP verbessert die Klassifizierung bei der subjektivsten Aufgabe (Hassrede), verschlechtert aber die Qualität der Begründungen. (2) Simulierte Personas stimmen nicht mit ihren realen demografischen Gegenstücken überein, und eine hohe Übereinstimmung zwischen den Personas zeigt, dass Modelle resistent gegen signifikante Steuerung sind. (3) Modelle weisen konsistente demografische Verzerrungen und eine starke Tendenz auf, Inhalte unabhängig von PP übermäßig als schädlich zu kennzeichnen. Unsere Ergebnisse zeigen einen kritischen Zielkonflikt: Während PP die Klassifizierung bei gesellschaftlich sensiblen Aufgaben verbessern kann, geht dies oft auf Kosten der Begründungsqualität und mildert zugrunde liegende Verzerrungen nicht ab, was zur Vorsicht bei der Anwendung mahnt.
Skizzen bieten eine intuitive Möglichkeit, dynamische Absichten in der Animationserstellung zu vermitteln (d.h., wie sich Elemente über Zeit und Raum verändern), was sie zu einem natürlichen Medium für die automatische Inhaltserstellung macht. Bisherige Ansätze beschränken Skizzen jedoch oft auf feste Befehlstoken oder vordefinierte visuelle Formen und übersehen dabei ihren freien Charakter sowie die zentrale Rolle des Menschen bei der Formulierung von Absichten. Um dies zu adressieren, führen wir ein Interaktionsparadigma ein, bei dem Nutzer:innen einer Vision-Sprache-Modell dynamische Absichten durch freies Skizzieren vermitteln, hier instanziiert in einem Workflow vom Skizzen-Storyboard zu Motion Graphics. Wir implementieren eine Schnittstelle und verbessern sie durch eine dreistufige Studie mit 24 Teilnehmer:innen. Die Studie zeigt, wie Skizzen Bewegung mit minimalem Aufwand vermitteln, wie ihre inhärente Mehrdeutigkeit die Einbeziehung der Nutzer:innen zur Klärung erfordert und wie Skizzen die Videoverfeinerung visuell lenken können. Unsere Ergebnisse zeigen das Potenzial von Skizzen- und KI-Interaktionen, die Lücke zwischen Absicht und Ergebnis zu überbrücken, und demonstrieren deren Anwendbarkeit auf 3D-Animation und Videogenerierung.
Der wachsende Bedarf an Echtzeit-Robotereinsätzen erfordert schnelle und geräteinternen Inferenz für Vision-Language-Action (VLA)-Modelle. In der VLA-Literatur wurde Effizienz ausführlich auf Token-Ebene untersucht, beispielsweise durch Reduzierung visueller Tokens. Im Gegensatz dazu wurde die systematische Verringerung der Transformer-Tiefe bislang wenig beachtet und, nach unserem Wissenstand, noch nicht für flow-basierte VLA-Modelle unter Knowledge Distillation erforscht. In dieser Arbeit stellen wir Shallow-pi vor, ein prinzipielles Knowledge-Distillation-Framework, das die Transformer-Tiefe des VLM-Backbones und des flow-basierten Aktionskopfes drastisch von 18 auf 6 Schichten reduziert. Shallow-pi erreicht eine mehr als zweifach schnellere Inferenz bei einem absoluten Leistungsabfall von weniger als einem Prozent auf Standard-Manipulations-Benchmarks und etabliert damit state-of-the-art Leistung unter reduzierten VLA-Modellen. Entscheidend ist, dass wir unseren Ansatz durch industrielle Echtzeitexperimente auf Jetson Orin und Jetson Thor über mehrere Roboterplattformen, einschließlich humanoider Systeme, in komplexen und dynamischen Manipulationsszenarien validieren.