HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

22 papers found

Fortschritt bei Open-Source-Weltmodellen
Advancing Open-source World Models

Jan 28

ByRobbyant Team, Zelin Gao, Qiuyu Wang, Yanhong Zeng, Jiapeng Zhu, Ka Leong Cheng, Yixuan Li, Hanlin Wang, Yinghao Xu, Shuailei Ma, Yihang Chen, Jie Liu, Yansong Cheng, Yao Yao, Jiayi Zhu, Yihao Meng, Kecheng Zheng, Qingyan Bai, Jingye Chen, Zehong Shen, Yue Yu, Xing Zhu, Yujun Shen, Hao Ouyang

119

Wir stellen LingBot-World vor, einen quelloffenen Weltsimulator auf Basis von Videogenerierung. Als hochwertiges Weltmodell positioniert, bietet LingBot-World folgende Merkmale: (1) Es bewahrt hohe Detailtreue und robuste Dynamik in einem breiten Spektrum von Umgebungen, einschließlich realistischer, wissenschaftlicher und zeichentrickhafter Szenarien. (2) Es ermöglicht eine minutenschnelle Vorhersage bei gleichzeitiger Wahrung der kontextuellen Konsistenz über die Zeit, was auch als "Langzeitgedächtnis" bekannt ist. (3) Es unterstützt Echtzeit-Interaktivität mit einer Latenz von unter einer Sekunde bei der Erzeugung von 16 Bildern pro Sekunde. Wir stellen Code und Modell öffentlich zur Verfügung, um die Kluft zwischen quelloffenen und proprietären Technologien zu verringern. Wir sind überzeugt, dass unsere Veröffentlichung der Gemeinschaft praktische Anwendungsmöglichkeiten in Bereichen wie Content-Erstellung, Gaming und Robotik-Lernen eröffnen wird.

Schwieriger ist besser: Steigerung des mathematischen Denkvermögens durch schwierigkeitsbewusstes GRPO und mehrdimensionale Fragenumformulierung
Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Jan 28

ByYanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu

116

Reinforcement Learning with Verifiable Rewards (RLVR) bietet einen robusten Mechanismus zur Verbesserung des mathematischen Denkvermögens in großen Modellen. Wir stellen jedoch fest, dass bestehende Methoden aus algorithmischer und datentechnischer Perspektive systematisch eine zu geringe Betonung auf anspruchsvollere Fragen legen, obwohl diese für die Verfeinerung unterentwickelter Fähigkeiten von entscheidender Bedeutung sind. Algorithmisch leidet das weit verbreitete Group Relative Policy Optimization (GRPO) unter einem impliziten Ungleichgewicht, bei dem das Ausmaß der Policy-Updates für schwierigere Fragen geringer ist. Auf der Datenseite zielen Augmentierungsansätze primär auf die Umformulierung von Fragen zur Erhöhung der Diversität ab, ohne die intrinsische Schwierigkeit systematisch zu steigern. Um diese Probleme zu adressieren, schlagen wir ein zweigleisiges MathForge-Framework vor, das das mathematische Denkvermögen verbessert, indem es anspruchsvollere Fragen aus beiden Perspektiven in den Fokus nimmt. Es besteht aus einem Difficulty-Aware Group Policy Optimization (DGPO)-Algorithmus und einer Multi-Aspect Question Reformulation (MQR)-Strategie. Konkret korrigiert DGPO zunächst das implizite Ungleichgewicht in GRPO durch einen schwierigkeitsausgeglichenen Gruppen-Vorteils-Schätzer und priorisiert schwierigere Fragen weiterhin durch eine schwierigkeitsabhängige Gewichtung auf Frageebene. Parallel dazu reformuliert MQR Fragen über mehrere Aspekte hinweg, um deren Schwierigkeitsgrad zu erhöhen, während die ursprüngliche Goldstandard-Antwort beibehalten wird. Insgesamt bildet MathForge eine synergetische Schleife: MQR erweitert die Datenfront, und DGPO lernt effektiv aus den augmentierten Daten. Umfangreiche Experimente zeigen, dass MathForge bestehende Methoden bei verschiedenen mathematischen Reasoning-Aufgaben signifikant übertrifft. Der Code und die augmentierten Daten sind unter https://github.com/AMAP-ML/MathForge verfügbar.

Innovator-VL: Ein multimodales großes Sprachmodell für wissenschaftliche Entdeckungen
Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Jan 27

ByZichen Wen, Boxue Yang, Shuang Chen, Yaojie Zhang, Yuhang Han, Junlong Ke, Cong Wang, Yicheng Fu, Jiawang Zhao, Jiangchao Yao, Xi Fang, Zhen Wang, Henxing Cai, Lin Yao, Zhifeng Gao, Yanhui Hong, Nang Yuan, Yixuan Li, Guojiang Zhao, Haoyi Tao, Nan Wang, Han Lyu, Guolin Ke, Ning Liao, Xiaoxing Wang, Kai Chen, Zhiyu Li, Feiyu Xiong, Sihan Hu, Kun Chen, Yanfeng Wang, Weinan E, Linfeng Zhang, Linfeng Zhang

Wir stellen Innovator-VL vor, ein wissenschaftliches multimodales großes Sprachmodell, das entwickelt wurde, um das Verständnis und das reasoning in verschiedenen wissenschaftlichen Domänen voranzutreiben und dabei eine exzellente Leistung bei allgemeinen Vision-Aufgaben beizubehalten. Im Gegensatz zum Trend, der auf massives domänenspezifisches Pre-Training und undurchsichtige Pipelines setzt, zeigt unsere Arbeit, dass ein prinzipiell durchdachtes Trainingsdesign und eine transparente Methodologie eine starke wissenschaftliche Intelligenz mit deutlich reduziertem Datenbedarf erzielen können. (i) Erstens bieten wir eine vollständig transparente, end-to-end reproduzierbare Trainingspipeline, die Datensammlung, -bereinigung, -vorverarbeitung, supervised Fine-Tuning, Reinforcement Learning und Evaluation sowie detaillierte Optimierungsrezepte abdeckt. Dies erleichtert die systematische Erweiterung durch die Community. (ii) Zweitens weist Innovator-VL eine bemerkenswerte Dateneffizienz auf und erzielt mit weniger als fünf Millionen kuratierten Samples und ohne groß angelegtes Pre-Training eine wettbewerbsfähige Leistung bei verschiedenen wissenschaftlichen Aufgaben. Diese Ergebnisse unterstreichen, dass effektives Reasoning durch prinzipielle Datenauswahl anstelle von wahlloser Skalierung erreicht werden kann. (iii) Drittens demonstriert Innovator-VL eine starke Generalisierungsfähigkeit, indem es auf Benchmarks für allgemeine Vision-Aufgaben, multimodales Reasoning und wissenschaftliche Fragestellungen wettbewerbsfähig abschneidet. Dies zeigt, dass wissenschaftliche Ausrichtung in ein einheitliches Modell integriert werden kann, ohne die allgemeinen Fähigkeiten zu beeinträchtigen. Unsere Praxis legt nahe, dass effiziente, reproduzierbare und leistungsstarke wissenschaftliche multimodale Modelle auch ohne große Datenmengen aufgebaut werden können, was eine praktische Grundlage für zukünftige Forschung bietet.

DeepSeek-OCR 2: Visueller Kausaler Fluss
DeepSeek-OCR 2: Visual Causal Flow

Jan 28

ByHaoran Wei, Yaofeng Sun, Yukun Li

Wir stellen DeepSeek-OCR 2 vor, um die Machbarkeit eines neuartigen Encoders – DeepEncoder V2 – zu untersuchen, der in der Lage ist, visuelle Tokens dynamisch anhand der Bildsemantik neu anzuordnen. Konventionelle Vision-Language-Modelle (VLMs) verarbeiten visuelle Tokens stets in einer starren Raster-Scan-Reihenfolge (von oben links nach unten rechts) mit festen Positionskodierungen, wenn sie in LLMs eingespeist werden. Dies widerspricht jedoch der menschlichen visuellen Wahrnehmung, die flexiblen, aber semantisch kohärenten Abtastmustern folgt, die von inhärenten logischen Strukturen gesteuert werden. Insbesondere bei Bildern mit komplexen Layouts zeigt das menschliche Sehen eine kausal informierte sequentielle Verarbeitung. Inspiriert von diesem kognitiven Mechanismus ist DeepEncoder V2 darauf ausgelegt, dem Encoder kausale Reasoning-Fähigkeiten zu verleihen, sodass er visuelle Tokens intelligent neu anordnen kann, bevor eine LLM-gestützte Inhaltsinterpretation erfolgt. Diese Arbeit erforscht ein neuartiges Paradigma: ob 2D-Bildverständnis effektiv durch zwei kaskadierte 1D-kausale Reasoning-Strukturen erreicht werden kann, und bietet damit einen neuen architektonischen Ansatz mit dem Potenzial, echtes 2D-Reasoning zu erreichen. Codes und Modellgewichte sind öffentlich zugänglich unter http://github.com/deepseek-ai/DeepSeek-OCR-2.

Verstärkendes Lernen durch Selbstdestillation
Reinforcement Learning via Self-Distillation

Jan 28

ByJonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause

Große Sprachmodelle werden zunehmend mit Verstärkungslernen in verifizierbaren Domänen wie Code und Mathematik nachtrainiert. Allerdings lernen aktuelle Methoden für Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) nur aus einem skalaren Ergebnis-Belohnungswert pro Versuch, was einen erheblichen Credit-Assignment-Flaschenhals verursacht. Viele verifizierbare Umgebungen liefern tatsächlich umfangreiches textuelles Feedback, wie Laufzeitfehler oder Bewertungen eines Judges, das erklärt, warum ein Versuch fehlgeschlagen ist. Wir formalisieren diesen Rahmen als Verstärkungslernen mit umfangreichem Feedback und führen Self-Distillation Policy Optimization (SDPO) ein, das tokenisiertes Feedback in ein dichtes Lernsignal umwandelt, ohne einen externen Lehrer oder ein explizites Belohnungsmodell. SDPO behandelt das aktuelle Modell, konditioniert auf Feedback, als einen Selbst-Lehrer und destilliert seine feedback-informierten Next-Token-Vorhersagen zurück in die Policy. Auf diese Weise nutzt SDPO die Fähigkeit des Modells, eigene Fehler im Kontext retrospektiv zu identifizieren. In wissenschaftlichem Reasoning, Werkzeugnutzung und kompetitiver Programmierung auf LiveCodeBench v6 verbessert SDPO die Stichprobeneffizienz und finale Genauigkeit gegenüber starken RLVR-Baselines. Bemerkenswerterweise übertrifft SDPO Baselines auch in standardmäßigen RLVR-Umgebungen, die nur skalares Feedback liefern, indem es erfolgreiche Rollouts als implizites Feedback für fehlgeschlagene Versuche nutzt. Schließlich beschleunigt die Anwendung von SDPO auf einzelne Fragen zur Testzeit die Entdeckung bei schwierigen Aufgaben mit binären Belohnungen und erreicht die gleiche Entdeckungswahrscheinlichkeit wie Best-of-k-Sampling oder Mehrfachdialoge mit dreimal weniger Versuchen.

Spark: Strategisches politikbewusstes Erkunden durch dynamische Verzweigung für agentenbasiertes Lernen mit langem Planungshorizont
Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

Jan 28

ByJinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao

Reinforcement Learning hat große Sprachmodelle dazu befähigt, als intelligente Agenten zu agieren, doch die Ausbildung für langfristige Aufgaben bleibt aufgrund der Knappheit hochwertiger Trajektorien eine Herausforderung, insbesondere bei begrenzten Ressourcen. Bestehende Methoden skalieren typischerweise die Anzahl der Rollouts und verteilen Rechenressourcen undifferenziert auf Zwischenschritte. Solche Ansätze verschwenden inhärent erhebliche Rechenbudgets für triviale Schritte, während sie die Probenqualität nicht garantieren können. Um dies zu adressieren, schlagen wir Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching) vor, einen neuartigen Rahmen, der selektiv an kritischen Entscheidungszuständen verzweigt, um ressourceneffiziente Exploration zu ermöglichen. Unsere zentrale Erkenntnis ist, adaptive Verzweigungsexploration an kritischen Entscheidungspunkten zu aktivieren, um vielversprechende Trajektorien zu erkunden und so eine präzise Ressourcenallokation zu erreichen, die Probenqualität über blinde Abdeckung priorisiert. Dieses Design nutzt die intrinsischen Entscheidungssignale des Agenten, um die Abhängigkeit von menschlichen Priors zu verringern, und ermöglicht es dem Agenten, die Exploration autonom zu erweitern und eine stärkere Generalisierung zu erreichen. Experimente in verschiedenen Aufgaben (z.B. embodied Planning) zeigen, dass Spark überlegene Erfolgsquoten mit deutlich weniger Trainingsdaten erreicht und auch in ungesehenen Szenarien eine robuste Generalisierung aufweist.

Lineare Repräsentationen in Sprachmodellen können sich im Laufe eines Gesprächs dramatisch verändern.
Linear representations in language models can change dramatically over a conversation

Jan 28

ByAndrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan

Repräsentationen in Sprachmodellen enthalten oft lineare Richtungen, die hochrangigen Konzepten entsprechen. Hier untersuchen wir die Dynamik dieser Repräsentationen: wie sie sich entlang dieser Dimensionen im Kontext (simulierter) Gespräche entwickeln. Wir stellen fest, dass sich lineare Repräsentationen im Laufe eines Gesprächs dramatisch verändern können; beispielsweise kann Information, die zu Beginn eines Gesprächs als faktisch repräsentiert wird, am Ende als nicht-faktisch repräsentiert werden und umgekehrt. Diese Veränderungen sind inhaltsspezifisch; während Repräsentationen gesprächsrelevanter Information sich ändern können, bleibt generische Information generell erhalten. Diese Veränderungen sind robust, selbst für Dimensionen, die Faktizität von oberflächlicheren Antwortmustern entkoppeln, und treten über verschiedene Modellfamilien und Modellebenen hinweg auf. Diese Repräsentationsänderungen erfordern keine On-Policy-Gespräche; selbst das Abspielen eines Gesprächsskripts, das von einem völlig anderen Modell geschrieben wurde, kann ähnliche Veränderungen hervorrufen. Die Anpassung ist jedoch deutlich schwächer, wenn lediglich eine Science-Fiction-Geschichte im Kontext steht, die explizit als solche gekennzeichnet ist. Wir zeigen auch, dass das Steuern entlang einer Repräsentationsrichtung zu unterschiedlichen Zeitpunkten eines Gesprächs dramatisch unterschiedliche Effekte haben kann. Diese Ergebnisse stützen die Idee, dass sich Repräsentationen als Reaktion darauf entwickeln können, dass das Modell eine bestimmte Rolle einnimmt, die durch ein Gespräch vorgegeben wird. Unsere Erkenntnisse könnten Herausforderungen für Interpretierbarkeit und Steuerbarkeit darstellen – insbesondere implizieren sie, dass es irreführend sein könnte, statische Interpretationen von Merkmalen oder Richtungen zu verwenden oder Analyseverfahren, die davon ausgehen, dass ein bestimmter Wertebereich eines Merkmals konsistent einem bestimmten Grundwahrheitswert entspricht. Diese Art von Repräsentationsdynamik weist jedoch auch auf spannende neue Forschungsrichtungen hin, um zu verstehen, wie Modelle sich an Kontexte anpassen.

AACR-Bench: Bewertung automatischer Code-Reviews mit ganzheitlichem Repository-weitem Kontext
AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context

Jan 27

ByLei Zhang, Yongda Yu, Minghui Yu, Xinxin Guo, Zhengqi Zhuang, Guoping Rong, Dong Shao, Haifeng Shen, Hongyu Kuang, Zhengfeng Li, Boge Wang, Guoan Zhang, Bangyu Xiang, Xiaobin Xu

Hochwertige Evaluierungsbenchmarks sind entscheidend für den Einsatz von Large Language Models (LLMs) im automatisierten Code-Review (ACR). Bestehende Benchmarks weisen jedoch zwei kritische Einschränkungen auf: Erstens fehlt es an Mehrsprachenunterstützung in Repository-weiten Kontexten, was die Generalisierbarkeit der Evaluierungsergebnisse einschränkt; zweitens die Abhängigkeit von verrauschten, unvollständigen Ground-Truth-Daten, die aus rohen Pull-Request-(PR)-Kommentaren abgeleitet werden, was den Umfang der Problemerkennung begrenzt. Um diese Herausforderungen zu bewältigen, stellen wir AACR-Bench vor – einen umfassenden Benchmark, der vollständigen dateiübergreifenden Kontext über mehrere Programmiersprachen hinweg bereitstellt. Im Gegensatz zu traditionellen Datensätzen nutzt AACR-Bench eine „KI-unterstützte, expertengeprüfte“ Annotationspipeline, um latente Defekte aufzudecken, die in ursprünglichen PRs oft übersehen werden, was zu einer 285 %igen Steigerung der Defektabdeckung führt. Umfangreiche Evaluierungen gängiger LLMs mit AACR-Bench zeigen, dass frühere Bewertungen Modellfähigkeiten aufgrund von Datenlimitierungen möglicherweise fehleingeschätzt oder nur teilweise erfasst haben. Unsere Arbeit setzt einen rigoroseren Standard für die ACR-Evaluierung und bietet neue Erkenntnisse für LLM-basiertes ACR: Die Granularität/Ebene des Kontexts und die Wahl der Retrieval-Methoden beeinflussen die ACR-Leistung erheblich, und dieser Einfluss variiert je nach LLM, Programmiersprache und dem LLM-Nutzungsparadigma (z. B. ob eine Agenten-Architektur eingesetzt wird). Code, Daten und weitere Artefakte unseres Evaluierungssatzes sind unter https://github.com/alibaba/aacr-bench verfügbar.

SERA: Soft-verifizierte effiziente Repository-Agenten
SERA: Soft-Verified Efficient Repository Agents

Jan 28

ByEthan Shen, Danny Tormoen, Saurabh Shah, Ali Farhadi, Tim Dettmers

Open-Weight-Coding-Agents sollten einen grundlegenden Vorteil gegenüber Closed-Source-Systemen haben: Sie können auf private Codebasen spezialisiert werden, indem repositoriumspezifische Informationen direkt in ihren Gewichten kodiert werden. Bislang blieb dieser Vorteil jedoch aufgrund der Kosten und Komplexität des Trainings theoretisch. Wir zeigen, dass er nun praktisch realisierbar ist. Wir präsentieren Soft-Verified Efficient Repository Agents (SERA), eine effiziente Methode zum Training von Coding-Agents, die die schnelle und kostengünstige Erstellung auf private Codebasen spezialisierter Agenten ermöglicht. SERA erzielt allein durch Supervised Finetuning (SFT) state-of-the-art Ergebnisse unter vollständig quelloffenen Modellen (offene Daten, Methode, Code) und erreicht dabei die Leistung führender Open-Weight-Modelle wie Devstral-Small-2. Die Erstellung von SERA-Modellen ist 26-mal günstiger als Reinforcement Learning und 57-mal günstiger als bisherige Synthetic-Data-Methoden, um eine gleichwertige Leistung zu erreichen. Unsere Methode, Soft Verified Generation (SVG), generiert Tausende von Trajektorien aus einem einzelnen Code-Repository. Kombiniert mit der Kosteneffizienz ermöglicht dies die Spezialisierung auf private Codebasen. Über die Repository-Spezialisierung hinaus wenden wir SVG auf einen größeren Korpus von Codebasen an und generieren über 200.000 synthetische Trajektorien. Wir nutzen diesen Datensatz für eine detaillierte Analyse von Skalierungsgesetzen, Ablationen und Störfaktoren beim Training von Coding-Agents. Insgesamt sind wir überzeugt, dass unsere Arbeit die Forschung an quelloffenen Coding-Agents erheblich beschleunigen und den Vorteil von Open-Source-Modellen, die sich auf private Codebasen spezialisieren können, demonstrieren wird. Wir veröffentlichen SERA als erstes Modell in Ai2s Open Coding Agents-Serie und stellen der Forschungsgemeinschaft zusätzlich unseren gesamten Code, unsere Daten und eine Claude-Code-Integration zur Verfügung.

Gruppenverteilungsrobuste optimierungsgesteuerte Verstärkungslernverfahren für das logische Schließen großer Sprachmodelle
Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning

Jan 27

ByKishan Panaganti, Zhenwen Liang, Wenhao Yu, Haitao Mi, Dong Yu

Jüngste Fortschritte im Reasoning großer Sprachmodelle (LLMs) werden zunehmend durch die Verfeinerung von Loss-Funktionen nach dem Training und Alignment-Strategien vorangetrieben. Standard-Paradigmen des Reinforcement Learning (RL) wie Group Relative Policy Optimization (GRPO) bleiben jedoch durch statische Uniformität eingeschränkt: uniformes Prompt-Sampling und eine feste Anzahl von Rollouts pro Prompt. Bei heterogenen, schwer tail-verteilten Reasoning-Daten führt dies zu strukturellen Ineffizienzen, da Rechenleistung für bereits gelöste Muster verschwendet wird, während der lange Schwanz schwieriger Probleme untertrainiert bleibt. Um dies zu adressieren, schlagen wir Multi-Adversary Group Distributionally Robust Optimization (GDRO) vor, ein optimierungsorientiertes Framework, das über uniforme Reasoning-Modelle hinausgeht, indem es die Trainingsverteilung dynamisch anpasst. Wir führen einen Online Difficulty Classifier ein, der Prompts in dynamische Pass@k-Schwierigkeitsgruppen unterteilt. Anschließend schlagen wir zwei unabhängige GDRO-Spiele für die Phase nach dem Training vor: (1) Prompt-GDRO, das einen EMA-entzerrten Multiplicative-Weights-Bandit-Sampler einsetzt, um den intensiven Schwierigkeitsrand zu adressieren und persistent schwierige Gruppen ohne Frequenzverzerrung höher gewichtet; und (2) Rollout-GDRO, das einen Shadow-Price-Controller verwendet, um Rollouts gruppenübergreifend neu zuzuteilen und so die Reduktion der Gradientenvarianz bei schwierigen Aufgaben unter einem festen Mittelwert-Budget (rechenneutral) maximiert. Wir liefern No-Regret-Garantien für beide Controller sowie zusätzlich eine Varianz-Proxy-Analyse, die eine quadratwurzeloptimale Rollout-Zuteilung für Rollout-GDRO motiviert. Wir validieren unser Framework auf dem DAPO-14.1k-Datensatz mit Qwen3-Base-Modellen. Prompt-GDRO und Rollout-GDRO erzielen durchschnittliche relative Verbesserungen von +10,6 % bzw. +10,1 % in der Pass@8-Genauigkeit über 1,7B-, 4B- und 8B-Modelle im Vergleich zur GRPO-Baseline. Eine qualitative Analyse zeigt einen emergenten Lehrplan: Die Adversaries verlagern Ressourcen zur sich entwickelnden Reasoning-Front und verbessern so die Leistung des Reasoning-Modells.

OmegaUse: Entwicklung eines universellen GUI-Agenten für autonome Aufgabenausführung
OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Jan 28

ByLe Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang

Graphical User Interface (GUI)-Agenten zeigen großes Potenzial, um Foundation-Modelle bei der Ausführung realer Aufgaben zu unterstützen, was die Mensch-Computer-Interaktion revolutioniert und die menschliche Produktivität steigert. In diesem Bericht stellen wir OmegaUse vor, ein allgemeines GUI-Agentenmodell für die autonome Aufgabenerfüllung auf mobilen und Desktop-Plattformen, das Computer- und Telefonnutzungsszenarien unterstützt. Der Aufbau eines effektiven GUI-Agentenmodells hängt von zwei Faktoren ab: (1) hochwertigen Daten und (2) effektiven Trainingsmethoden. Um diese anzugehen, führen wir eine sorgfältig konstruierte Datenaufbaupipeline und ein entkoppeltes Trainingsparadigma ein. Für den Datenaufbau nutzen wir streng kuratierte Open-Source-Datensätze und stellen ein neuartiges automatisches Syntheseframework vor, das bottom-up autonome Exploration mit top-down taxonomiegesteuerter Generierung kombiniert, um hochwertige synthetische Daten zu erzeugen. Für das Training verwenden wir eine Zwei-Phasen-Strategie: Supervised Fine-Tuning (SFT) zur Etablierung grundlegender Interaktionssyntax, gefolgt von Group Relative Policy Optimization (GRPO) zur Verbesserung räumlicher Verankerung und sequenzieller Planung. Um Recheneffizienz mit agentenbasierter Reasoning-Kapazität in Einklang zu bringen, basiert OmegaUse auf einem Mixture-of-Experts (MoE)-Grundgerüst. Zur Bewertung plattformübergreifender Fähigkeiten in einer Offline-Umgebung führen wir OS-Nav ein, eine Benchmark-Suite über mehrere Betriebssysteme: ChiM-Nav für chinesische Android-Mobilumgebungen und Ubu-Nav für routinemäßige Desktop-Interaktionen unter Ubuntu. Umfangreiche Experimente zeigen, dass OmegaUse auf etablierten GUI-Benchmarks äußerst wettbewerbsfähig ist, mit einem state-of-the-art (SOTA)-Wert von 96,3 % auf ScreenSpot-V2 und einer führenden Schritt-Erfolgsrate von 79,1 % auf AndroidControl. OmegaUse schneidet auch auf OS-Nav stark ab, mit 74,24 % Schritt-Erfolg auf ChiM-Nav und 55,9 % durchschnittlichem Erfolg auf Ubu-Nav.

How AI Impacts Skill Formation

Jan 28

ByJudy Hanwen Shen, Alex Tamkin

AI assistance produces significant productivity gains across professional domains, particularly for novice workers. Yet how this assistance affects the development of skills required to effectively supervise AI remains unclear. Novice workers who rely heavily on AI to complete unfamiliar tasks may compromise their own skill acquisition in the process. We conduct randomized experiments to study how developers gained mastery of a new asynchronous programming library with and without the assistance of AI. We find that AI use impairs conceptual understanding, code reading, and debugging abilities, without delivering significant efficiency gains on average. Participants who fully delegated coding tasks showed some productivity improvements, but at the cost of learning the library. We identify six distinct AI interaction patterns, three of which involve cognitive engagement and preserve learning outcomes even when participants receive AI assistance. Our findings suggest that AI-enhanced productivity is not a shortcut to competence and AI assistance should be carefully adopted into workflows to preserve skill formation -- particularly in safety-critical domains.

FP8-RL: Ein praktischer und stabiler Low-Precision-Stack für Reinforcement Learning mit großen Sprachmodellen
FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning

Jan 26

ByZhaopeng Qiu, Shuang Yu, Jingqi Zhang, Shuai Zhang, Xue Huang, Jingyi Yang, Junjie Lai

Reinforcement Learning (RL) für große Sprachmodelle (LLMs) wird zunehmend durch den Rollout (Generierung) zum Engpass, wobei lange Ausgabesequenzlängen dazu führen, dass Attention und KV-Cache-Speicher die End-to-End-Schrittzeit dominieren. FP8 bietet einen attraktiven Hebel zur Beschleunigung von RL, indem Rechenkosten und Speicherdatenverkehr während des Rollouts reduziert werden. Die Anwendung von FP8 in RL bringt jedoch einzigartige technische und algorithmische Herausforderungen mit sich: Die Policy-Gewichte ändern sich in jedem Schritt (was eine wiederholte Quantisierung und Gewichtssynchronisation in die Inferenz-Engine erfordert), und Rollouts mit niedriger Präzision können von der höherpräzisen Policy abweichen, die der Trainer annimmt, was zu einer Trainings-Inferenz-Diskrepanz und potenzieller Instabilität führt. Dieser Bericht stellt einen praktischen FP8-Rollout-Stack für LLM-RL vor, implementiert im veRL-Ökosystem mit Unterstützung für gängige Trainings-Backends (z.B. FSDP/Megatron-LM) und Inferenz-Engines (z.B. vLLM/SGLang). Wir (i) ermöglichen FP8-W8A8-Rollout für Lineare Schichten durch blockweise FP8-Quantisierung, (ii) erweitern FP8 auf die KV-Cache, um Speicherengpässe bei langen Kontexten durch eine schrittweise Neukalibrierung der QKV-Skalen zu beseitigen, und (iii) mildern die Diskrepanz durch einen auf Importance Sampling basierenden Rollout-Korrekturmechanismus (Token-Level-Varianten TIS/MIS). Bei dichten und MoE-Modellen erzielen diese Techniken Steigerungen der Rollout-Durchsatzrate von bis zu 44 %, bei gleichzeitiger Beibehaltung eines mit BF16-Baselines vergleichbaren Lernverhaltens.

VERGE: Formale Verfeinerungs- und Lenkungs-Engine für verifizierbare LLM-Argumentation
VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning

Jan 27

ByVikash Singh, Darion Cassel, Nathaniel Weir, Nick Feng, Sam Bayless

Trotz der syntaktischen Flüssigkeit großer Sprachmodelle (LLMs) bleibt die Gewährleistung ihrer logischen Korrektheit in hochriskanten Domänen eine grundlegende Herausforderung. Wir stellen einen neurosymbolischen Rahmen vor, der LLMs mit SMT-Solvern kombiniert, um verifizierungsgeleitete Antworten durch iterative Verfeinerung zu erzeugen. Unser Ansatz zerlegt LLM-Ausgaben in atomare Behauptungen, formalisiert diese automatisch in Logik erster Stufe und überprüft ihre logische Konsistenz mittels automatischem Theorembeweisen. Wir führen drei Schlüsselinnovationen ein: (1) Multi-Modell-Konsens durch formale Äquivalenzprüfung auf Semantikebene, um Logikebene-Übereinstimmung zwischen Kandidaten sicherzustellen und die syntaktische Verzerrung oberflächenbasierter Metriken zu eliminieren, (2) semantisches Routing, das verschiedene Behauptungstypen zu geeigneten Verifikationsstrategien lenkt: symbolische Löser für logische Behauptungen und LLM-Ensembles für Common-Sense-Reasoning, und (3) präzise logische Fehlerlokalisierung durch Minimale Korrektureilmengen (MCS), die die exakte Teilmenge der zu revidierenden Behauptungen identifizieren und binäre Fehlersignale in umsetzbares Feedback verwandeln. Unser Rahmen klassifiziert Behauptungen nach ihrem logischen Status und aggregiert multiple Verifikationssignale zu einem einheitlichen Score mit varianzbasiertem Penalty. Das System verfeinert Antworten iterativ unter Verwendung strukturierten Feedbacks, bis Akzeptanzkriterien erfüllt sind oder Konvergenz erreicht wird. Dieser hybride Ansatz liefert formale Garantien, wo möglich, und Konsensverifikation andernorts, was vertrauenswürdige KI voranbringt. Mit dem GPT-OSS-120B-Modell demonstriert VERGE eine durchschnittliche Leistungssteigerung von 18,7 % bei Konvergenz über eine Reihe von Reasoning-Benchmarks im Vergleich zu Single-Pass-Ansätzen.

Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning
Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

Jan 28

ByMinwu Kim, Safal Shrestha, Keith Ross

Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schließen erheblich verbessert, doch das Training stagniert häufig, sobald Probleme gesättigt sind. Wir identifizieren die mangelnde Zugänglichkeit informativer Fehler als Kernproblem: Lernsignale existieren, werden aber während standardmäßiger Rollouts nur selten angetroffen. Um dies zu adressieren, schlagen wir Failure-Prefix Conditioning vor, eine einfache und effektive Methode zum Lernen aus gesättigten Problemen. Anstatt von der ursprünglichen Frage auszugehen, lenkt unser Ansatz die Exploration um, indem das Training auf Präfixen basiert, die von seltenen, fehlerhaften Lösungswegen abgeleitet werden. Dadurch wird das Modell fehleranfälligen Zuständen ausgesetzt. Wir beobachten, dass Failure-Prefix Conditioning Leistungssteigerungen erzielt, die dem Training auf Problemen mittlerer Schwierigkeit entsprechen, bei gleichbleibender Token-Effizienz. Darüber hinaus analysieren wir die Robustheit des Modells und stellen fest, dass unsere Methode die Leistungsverschlechterung bei irreführenden Fehlerpräfixen verringert, allerdings mit einem leichten Kompromiss in der Befolgung korrekter früherer Schlussfolgerungen. Schließlich demonstrieren wir, dass ein iterativer Ansatz, der Fehlerpräfixe während des Trainings aktualisiert, nach Erreichen von Leistungsplateaus zusätzliche Gewinne ermöglicht. Insgesamt deuten unsere Ergebnisse darauf hin, dass Failure-Prefix Conditioning einen effektiven Weg bietet, um das RLVR-Training an gesättigten Problemen fortzusetzen.

UPLiFT: Effiziente pixel-dichte Feature-Upsampling mit lokalen Attender-Modulen
UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

Jan 25

ByMatthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava

Der Bereich der aufgabenagnostischen Feature-Upsampling-Methoden hat sich als vielversprechendes Forschungsfeld etabliert, um effizient dichtere Features aus vortrainierten visuellen Backbones zu erzeugen. Diese Methoden dienen als Abkürzung, um dichte Features zu einem Bruchteil der Kosten zu erhalten, indem sie lernen, niedrigaufgelöste Features auf hochaufgelöste Versionen abzubilden. Während frühere Arbeiten in diesem Bereich iterative Upsampling-Ansätze verwendeten, sind neuere Arbeiten zu cross-attention-basierten Methoden übergegangen, die Gefahr laufen, in die gleichen Skalierungsprobleme hinsichtlich der Effizienz zu geraten wie die Backbones, deren Features sie hochskalieren. In dieser Arbeit zeigen wir, dass iterative Upsampling-Methoden nach wie vor mit cross-attention-basierten Methoden konkurrieren können; mehr noch, sie können State-of-the-Art-Leistung mit geringeren Inferenzkosten erzielen. Wir schlagen UPLiFT vor, eine Architektur für universelle, pixel-dichte, leichtgewichtige Feature-Transformationen. Zusätzlich schlagen wir einen effizienten Local Attender-Operator vor, um die Limitierungen früherer iterativer Feature-Upsampling-Methoden zu überwinden. Dieser Operator verwendet eine alternative Formulierung für attentionales Pooling, die vollständig lokal definiert ist. Wir zeigen, dass unser Local Attender es UPLiFT ermöglicht, stabile Features während des gesamten Upsampling-Prozesses beizubehalten, was State-of-the-Art-Leistung mit geringeren Inferenzkosten als bei bestehenden pixel-dichten Feature-Upsamplern ermöglicht. Darüber hinaus wenden wir UPLiFT auf generative Downstream-Aufgaben an und zeigen, dass es eine wettbewerbsfähige Leistung im Vergleich zu State-of-the-Art Coupled Flow Matching-Modellen für das Upsampling von VAE-Features erzielt. Zusammengenommen bietet UPLiFT einen vielseitigen und effizienten Ansatz zur Erzeugung dichterer Features.

SE-DiCoW: Selbstangemeldetes diarisierungsbedingtes Whisper
SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

Jan 27

ByAlexander Polok, Dominik Klement, Samuele Cornell, Matthew Wiesner, Jan Černocký, Sanjeev Khudanpur, Lukáš Burget

Die sprecherzugeschriebene automatische Spracherkennung (ASR) in Umgebungen mit mehreren Sprechern bleibt eine große Herausforderung. Während einige Ansätze eine hohe Leistung erzielen, wenn sie auf bestimmte Domänen feinabgestimmt werden, generalisieren nur wenige Systeme gut über domänenfremde Datensätze hinweg. Unsere frühere Arbeit, Diarization-Conditioned Whisper (DiCoW), nutzt die Ausgaben der Sprecherdiarisierung als Konditionierungsinformation und zeigte mit minimaler Feinabstimmung eine starke multilinguale und multidomänale Leistung. In diesem Artikel behandeln wir eine zentrale Einschränkung von DiCoW: die Mehrdeutigkeit in Stille-Zielsprecher-Nichtzielsprecher-Überlappungs-Masken (STNO-Masken), bei denen zwei oder mehr vollständig überlappende Sprecher nahezu identische Konditionierung aufweisen können, obwohl ihre Transkriptionen unterschiedlich sind. Wir stellen SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper) vor, das die Diarisierungsausgabe nutzt, um ein Anmeldesegment irgendwo im Gespräch zu lokalisieren, in dem der Zielsprecher am aktivsten ist. Dieses Anmeldesegment wird über Cross-Attention auf jeder Encoder-Ebene als feste Konditionierung verwendet. Wir verfeinern DiCoW weiter durch verbesserte Datensegmentierung, Modellinitialisierung und Augmentierung. Zusammengenommen führen diese Fortschritte zu erheblichen Verbesserungen: SE-DiCoW reduziert den makrogemittelten tcpWER um 52,4 % im Vergleich zum ursprünglichen DiCoW auf dem EMMA MT-ASR-Benchmark.

Persona-Prompting als Linse auf das soziale Denken von LLMs
Persona Prompting as a Lens on LLM Social Reasoning

Jan 28

ByJing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus

Bei gesellschaftlich sensiblen Aufgaben wie der Erkennung von Hassrede ist die Qualität der Erklärungen von Large Language Models (LLMs) entscheidend für Faktoren wie Nutzervertrauen und Modellabstimmung. Während Persona-Prompting (PP) zunehmend als Methode eingesetzt wird, um Modelle auf nutzerspezifische Generierung auszurichten, ist seine Wirkung auf Modellbegründungen noch wenig erforscht. Wir untersuchen, wie sich die von LLMs generierten Begründungen verändern, wenn sie auf verschiedene simulierte demografische Personas konditioniert werden. Unter Verwendung von Datensätzen, die mit wortbasierten Begründungen annotiert sind, messen wir die Übereinstimmung mit menschlichen Annotationen verschiedener demografischer Gruppen und bewerten die Auswirkungen von PP auf Modellverzerrungen und menschliche Abstimmung. Unsere Auswertung über drei LLMs hinweg ergibt drei zentrale Erkenntnisse: (1) PP verbessert die Klassifizierung bei der subjektivsten Aufgabe (Hassrede), verschlechtert aber die Qualität der Begründungen. (2) Simulierte Personas stimmen nicht mit ihren realen demografischen Gegenstücken überein, und eine hohe Übereinstimmung zwischen den Personas zeigt, dass Modelle resistent gegen signifikante Steuerung sind. (3) Modelle weisen konsistente demografische Verzerrungen und eine starke Tendenz auf, Inhalte unabhängig von PP übermäßig als schädlich zu kennzeichnen. Unsere Ergebnisse zeigen einen kritischen Zielkonflikt: Während PP die Klassifizierung bei gesellschaftlich sensiblen Aufgaben verbessern kann, geht dies oft auf Kosten der Begründungsqualität und mildert zugrunde liegende Verzerrungen nicht ab, was zur Vorsicht bei der Anwendung mahnt.

RIR-Mega-Speech: Ein reverberantes Sprachkorpus mit umfassender akustischer Metadaten-Dokumentation und reproduzierbarer Evaluierung
RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

Jan 25

ByMandip Goswami

Trotz jahrzehntelanger Forschung zu hallbehafteter Sprache bleibt der Vergleich von Methoden schwierig, da den meisten Korpora akustische Datei-für-Datei-Annotationen fehlen oder sie nur eingeschränkte Dokumentation zur Reproduktion bereitstellen. Wir stellen RIR-Mega-Speech vor, ein Korpus von etwa 117,5 Stunden, das durch Faltung von LibriSpeech-Aufnahmen mit rund 5.000 simulierten Rauminpulsantworten aus der RIR-Mega-Sammlung erstellt wurde. Jede Datei enthält die RT60, das Direkt-Schall-zu-Hall-Verhältnis (DRR) und den Deutlichkeitsindex (C₅₀), die aus der ursprünglichen Rauminpulsantwort mittels klar definierter, reproduzierbarer Verfahren berechnet wurden. Wir stellen auch Skripte bereit, um den Datensatz neu aufzubauen und alle Evaluierungsergebnisse zu reproduzieren. Anhand von 1.500 gepaarten Äußerungen, die mit Whisper small verarbeitet wurden, messen wir eine WER von 5,20 % (95 %-KI: 4,69–5,78) bei sauberer Sprache und 7,70 % (7,04–8,35) bei den hallbehafteten Versionen, was einem gepaarten Anstieg von 2,50 Prozentpunkten (2,06–2,98) entspricht. Dies stellt eine relative Verschlechterung von 48 % dar. Die WER steigt monoton mit der RT60 und sinkt mit dem DRR, was mit früheren Wahrnehmungsstudien übereinstimmt. Auch wenn die Kernaussage, dass Hall die Erkennung beeinträchtigt, gut belegt ist, wollen wir der Gemeinschaft eine standardisierte Ressource zur Verfügung stellen, in der die akustischen Bedingungen transparent und Ergebnisse unabhängig überprüfbar sind. Das Repository enthält One-Command-Rebuild-Anleitungen für Windows- und Linux-Umgebungen.

GDCNet: Generatives Diskrepanzvergleichsnetzwerk zur multimodalen Sarkasmuserkennung
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

Jan 28

ByShuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao

Multimodale Sarkasmuserkennung (MSD) zielt darauf ab, Sarkasmus in Bild-Text-Paaren zu identifizieren, indem semantische Inkongruenzen zwischen den Modalitäten modelliert werden. Bestehende Methoden nutzen häufig eine Fehlausrichtung cross-modaler Einbettungen, um Inkonsistenzen zu erkennen, scheitern jedoch, wenn visuelle und textuelle Inhalte lose verknüpft oder semantisch indirekt sind. Während neuere Ansätze große Sprachmodelle (LLMs) nutzen, um sarkastische Hinweise zu generieren, führt die inhärente Diversität und Subjektivität dieser Generierungen oft Rauschen ein. Um diese Einschränkungen zu adressieren, schlagen wir das Generative Diskrepanz-Vergleichsnetzwerk (GDCNet) vor. Dieser Rahmen erfasst cross-modale Konflikte, indem deskriptive, faktenbasierte Bildbeschreibungen, die von multimodalen LLMs (MLLMs) generiert werden, als stabile semantische Anker genutzt werden. Konkret berechnet GDCNet semantische und sentimentbezogene Diskrepanzen zwischen der generierten objektiven Beschreibung und dem Originaltext und misst parallel die visuell-textuelle Treue. Diese Diskrepanzmerkmale werden anschließend über ein gated-Modul mit visuellen und textuellen Repräsentationen fusioniert, um Modalitätsbeiträge adaptiv auszubalancieren. Umfangreiche Experimente auf MSD-Benchmarks demonstrieren die überlegene Genauigkeit und Robustheit von GDCNet und etablieren einen neuen State-of-the-Art auf dem MMSD2.0-Benchmark.

Shallow-π: Wissensdistillation für flussbasierte visuell-sprachliche Architekturen
Shallow-π: Knowledge Distillation for Flow-based VLAs

Jan 28

ByBoseong Jeon, Yunho Choi, Taehan Kim

Der wachsende Bedarf an Echtzeit-Robotereinsätzen erfordert schnelle und geräteinternen Inferenz für Vision-Language-Action (VLA)-Modelle. In der VLA-Literatur wurde Effizienz ausführlich auf Token-Ebene untersucht, beispielsweise durch Reduzierung visueller Tokens. Im Gegensatz dazu wurde die systematische Verringerung der Transformer-Tiefe bislang wenig beachtet und, nach unserem Wissenstand, noch nicht für flow-basierte VLA-Modelle unter Knowledge Distillation erforscht. In dieser Arbeit stellen wir Shallow-pi vor, ein prinzipielles Knowledge-Distillation-Framework, das die Transformer-Tiefe des VLM-Backbones und des flow-basierten Aktionskopfes drastisch von 18 auf 6 Schichten reduziert. Shallow-pi erreicht eine mehr als zweifach schnellere Inferenz bei einem absoluten Leistungsabfall von weniger als einem Prozent auf Standard-Manipulations-Benchmarks und etabliert damit state-of-the-art Leistung unter reduzierten VLA-Modellen. Entscheidend ist, dass wir unseren Ansatz durch industrielle Echtzeitexperimente auf Jetson Orin und Jetson Thor über mehrere Roboterplattformen, einschließlich humanoider Systeme, in komplexen und dynamischen Manipulationsszenarien validieren.

SketchDynamics: Erforschung freihändiger Skizzen zur Darstellung dynamischer Intentionen in der Animationsgenerierung
SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation

Jan 28

ByBoyu Li, Lin-Ping Yuan, Zeyu Wang, Hongbo Fu

Skizzen bieten eine intuitive Möglichkeit, dynamische Absichten in der Animationserstellung zu vermitteln (d.h., wie sich Elemente über Zeit und Raum verändern), was sie zu einem natürlichen Medium für die automatische Inhaltserstellung macht. Bisherige Ansätze beschränken Skizzen jedoch oft auf feste Befehlstoken oder vordefinierte visuelle Formen und übersehen dabei ihren freien Charakter sowie die zentrale Rolle des Menschen bei der Formulierung von Absichten. Um dies zu adressieren, führen wir ein Interaktionsparadigma ein, bei dem Nutzer:innen einer Vision-Sprache-Modell dynamische Absichten durch freies Skizzieren vermitteln, hier instanziiert in einem Workflow vom Skizzen-Storyboard zu Motion Graphics. Wir implementieren eine Schnittstelle und verbessern sie durch eine dreistufige Studie mit 24 Teilnehmer:innen. Die Studie zeigt, wie Skizzen Bewegung mit minimalem Aufwand vermitteln, wie ihre inhärente Mehrdeutigkeit die Einbeziehung der Nutzer:innen zur Klärung erfordert und wie Skizzen die Videoverfeinerung visuell lenken können. Unsere Ergebnisse zeigen das Potenzial von Skizzen- und KI-Interaktionen, die Lücke zwischen Absicht und Ergebnis zu überbrücken, und demonstrieren deren Anwendbarkeit auf 3D-Animation und Videogenerierung.