HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

18 papers found

Jenseits der Transkription: Mechanistische Interpretierbarkeit in der automatischen Spracherkennung
Beyond Transcription: Mechanistic Interpretability in ASR

Aug 21

ByNeta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon

Interpretierbarkeitsmethoden haben in letzter Zeit erhebliche Aufmerksamkeit erlangt, insbesondere im Kontext großer Sprachmodelle, da sie Einblicke in linguistische Repräsentationen, Fehlererkennung und Modellverhalten wie Halluzinationen und Wiederholungen ermöglichen. Diese Techniken bleiben jedoch in der automatischen Spracherkennung (ASR) weitgehend unerforscht, obwohl sie das Potenzial haben, sowohl die Leistung als auch die Interpretierbarkeit von ASR-Systemen voranzutreiben. In dieser Arbeit passen wir etablierte Interpretierbarkeitsmethoden wie Logit-Lens, lineares Sondieren und Aktivierungspatching systematisch an und wenden sie an, um zu untersuchen, wie sich akustische und semantische Informationen über die Schichten in ASR-Systemen entwickeln. Unsere Experimente enthüllen bisher unbekannte interne Dynamiken, einschließlich spezifischer Encoder-Decoder-Interaktionen, die für Wiederholungshalluzinationen verantwortlich sind, und semantischer Verzerrungen, die tief in den akustischen Repräsentationen kodiert sind. Diese Erkenntnisse demonstrieren die Vorteile der Erweiterung und Anwendung von Interpretierbarkeitstechniken auf die Spracherkennung und eröffnen vielversprechende Richtungen für zukünftige Forschung zur Verbesserung der Transparenz und Robustheit von Modellen.

Selbstbelohnendes Vision-Sprache-Modell durch Zerlegung von Schlussfolgerungen
Self-Rewarding Vision-Language Model via Reasoning Decomposition

Aug 27

ByZongxia Li, Wenhao Yu, Chengsong Huang, Rui Liu, Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber, Haitao Mi, Dong Yu

Vision-Language Models (VLMs) leiden häufig unter visuellen Halluzinationen, bei denen sie Dinge behaupten, die tatsächlich nicht im Bild vorhanden sind, sowie unter Sprachabkürzungen, bei denen sie den visuellen Teil überspringen und sich stattdessen auf Text-Priors verlassen. Diese Probleme entstehen, weil die meisten Post-Training-Methoden für VLMs auf einfache überprüfbare Antwortabgleiche setzen und nur die endgültigen Ausgaben überwachen, wodurch das Zwischenstadium der visuellen Argumentation ohne explizite Anleitung bleibt. Infolgedessen erhalten VLMs nur spärliche visuelle Signale und lernen oft, sprachbasierte Argumentation gegenüber der visuellen Wahrnehmung zu priorisieren. Um dies zu mildern, fügen einige bestehende Methoden visuelle Überwachung durch menschliche Annotationen oder destillierte Labels von externen großen Modellen hinzu. Menschliche Annotationen sind jedoch arbeitsintensiv und kostspielig, und da sich externe Signale nicht an die sich entwickelnde Politik anpassen können, verursachen sie Verteilungsverschiebungen, die zu Reward Hacking führen können. In diesem Artikel stellen wir Vision-SR1 vor, eine selbstbelohnende Methode, die die visuelle Argumentation verbessert, ohne auf externe visuelle Überwachung durch Reinforcement Learning angewiesen zu sein. Vision-SR1 zerlegt die VLM-Argumentation in zwei Phasen: visuelle Wahrnehmung und sprachliche Argumentation. Das Modell wird zunächst dazu aufgefordert, eigenständige visuelle Wahrnehmungen zu erzeugen, die ausreichen, um die Frage zu beantworten, ohne auf das Eingabebild zurückzugreifen. Um diese Eigenständigkeit zu validieren, wird dasselbe VLM-Modell dann erneut aufgefordert, sprachliche Argumentation durchzuführen, wobei nur die generierte Wahrnehmung als Eingabe verwendet wird, um die Belohnung zu berechnen. Diese Selbstbelohnung wird mit der Überwachung der endgültigen Ausgaben kombiniert, wodurch ein ausgewogenes Trainingssignal entsteht, das sowohl die visuelle Wahrnehmung als auch die sprachliche Argumentation stärkt. Unsere Experimente zeigen, dass Vision-SR1 die visuelle Argumentation verbessert, visuelle Halluzinationen mildert und die Abhängigkeit von Sprachabkürzungen in verschiedenen Vision-Language-Aufgaben reduziert.

CODA: Koordination von Großhirn und Kleinhirn für einen Dual-Gehirn-Computer Nutzen-Agent mit entkoppeltem Reinforcement Learning
CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

Aug 27

ByZeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang

Autonome Agenten für grafische Benutzeroberflächen (GUIs) stehen in spezialisierten Domänen wie dem wissenschaftlichen Rechnen vor erheblichen Herausforderungen, da sowohl langfristige Planung als auch präzise Ausführung erforderlich sind. Bestehende Ansätze leiden unter einem Kompromiss: Generalisten-Agenten sind in der Planung stark, schneiden jedoch bei der Ausführung schlecht ab, während spezialisierte Agenten das gegenteilige Problem aufweisen. Neuere kompositionelle Frameworks versuchen, diese Lücke zu schließen, indem sie einen Planer und einen Akteur kombinieren, sind jedoch typischerweise statisch und nicht trainierbar, was eine Anpassung durch Erfahrung verhindert. Dies ist eine kritische Einschränkung angesichts der Knappheit hochwertiger Daten in wissenschaftlichen Domänen. Um diese Einschränkungen zu überwinden, stellen wir CODA vor, ein neuartiges und trainierbares kompositionelles Framework, das einen Generalisten-Planer (Cerebrum) mit einem Spezialisten-Ausführer (Cerebellum) integriert, der über eine dedizierte zweistufige Pipeline trainiert wird. In der ersten Phase, der Spezialisierung, wenden wir einen entkoppelten GRPO-Ansatz an, um einen Experten-Planer für jede wissenschaftliche Anwendung individuell zu trainieren, ausgehend von einer kleinen Menge von Aufgaben-Trajektorien. In der zweiten Phase, der Generalisierung, aggregieren wir alle erfolgreichen Trajektorien der spezialisierten Experten, um einen konsolidierten Datensatz zu erstellen, der dann für das überwachte Feinabstimmen des finalen Planers verwendet wird. Dies stattet CODA sowohl mit robuster Ausführung als auch mit domänenübergreifender Generalisierung aus. Bei der Bewertung anhand von vier anspruchsvollen Anwendungen aus dem ScienceBoard-Benchmark übertrifft CODA die Baselines deutlich und setzt einen neuen Maßstab unter den Open-Source-Modellen.

Analyse der Dynamik von Gedankenketten: Aktive Lenkung oder unzuverlässige nachträgliche Rationalisierung?
Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation?

Aug 27

BySamuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, Nikolaos Aletras

Aktuelle Arbeiten haben gezeigt, dass Chain-of-Thought (CoT) bei Soft-Reasoning-Problemen wie analytischem und gesundem Menschenverstand oft nur begrenzte Verbesserungen bringt. CoT kann zudem nicht immer die tatsächliche Denkweise eines Modells widerspiegeln. Wir untersuchen die Dynamik und Treue von CoT bei Soft-Reasoning-Aufgaben in instruction-tuned, Reasoning- und Reasoning-distilled-Modellen. Unsere Ergebnisse zeigen Unterschiede darin, wie diese Modelle auf CoT zurückgreifen, und verdeutlichen, dass der Einfluss von CoT und seine Treue nicht immer übereinstimmen.

Discrete Diffusion VLA: Einführung der diskreten Diffusion in die Aktionsdekodierung bei Vision-Sprache-Handlungs-Policies
Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

Aug 27

ByZhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo

Vision-Language-Action (VLA)-Modelle passen große Vision-Language-Backbones an, um Bilder und Anweisungen auf Roboteraktionen abzubilden. Allerdings generieren gängige VLA-Decoder Aktionen entweder autoregressiv in einer festen Links-nach-rechts-Reihenfolge oder fügen kontinuierliche Diffusions- oder Flow-Matching-Köpfe außerhalb des Backbones hinzu, was spezialisiertes Training und iteratives Sampling erfordert und eine einheitliche, skalierbare Architektur behindert. Wir stellen Discrete Diffusion VLA vor, eine Single-Transformer-Policy, die diskretisierte Aktionsabschnitte mit diskreter Diffusion modelliert und mit demselben Kreuzentropie-Ziel wie der VLM-Backbone trainiert wird. Das Design behält das Paradigma der progressiven Verfeinerung der Diffusion bei, bleibt aber nativ kompatibel mit der diskreten Token-Schnittstelle von VLMs. Unser Ansatz erreicht eine adaptive Dekodierreihenfolge, die einfache Aktionselemente vor schwierigeren auflöst, und verwendet sekundäres Remasking, um unsichere Vorhersagen über Verfeinerungsrunden hinweg erneut zu betrachten, was die Konsistenz verbessert und eine robuste Fehlerkorrektur ermöglicht. Dieser einheitliche Decoder bewahrt vortrainierte Vision-Language-Priors, unterstützt parallele Dekodierung, durchbricht den autoregressiven Engpass und reduziert die Anzahl der Funktionsauswertungen. Discrete Diffusion VLA erreicht 96,3 % durchschnittliche SR auf LIBERO, 71,2 % visuelle Übereinstimmung auf SimplerEnv Fractal und 49,3 % insgesamt auf SimplerEnv Bridge und übertrifft damit sowohl autoregressive als auch kontinuierliche Diffusions-Baselines. Diese Ergebnisse zeigen, dass der diskrete Diffusions-Aktionsdecoder präzise Aktionsmodellierung und konsistentes Training unterstützt und die Grundlage für die Skalierung von VLA auf größere Modelle und Datensätze legt.

MIDAS: Multimodale interaktive Synthese digitaler Menschen durch Echtzeit-Autoregressive Videogenerierung
MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation

Aug 26

ByMing Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Xiaoqiang Liu, Pengfei Wan

Kürzlich hat die interaktive digitale Videoerzeugung von menschlichen Darstellungen breite Aufmerksamkeit erregt und bemerkenswerte Fortschritte erzielt. Dennoch bleibt der Aufbau eines praktischen Systems, das in Echtzeit mit verschiedenen Eingangssignalen interagieren kann, für bestehende Methoden eine Herausforderung, da diese oft mit hoher Latenz, hohen Rechenkosten und begrenzter Steuerbarkeit zu kämpfen haben. In dieser Arbeit stellen wir ein autoregressives Videoerzeugungsframework vor, das interaktive multimodale Steuerung und niedrige Latenz bei der Extrapolation in einem Streaming-Verfahren ermöglicht. Mit minimalen Modifikationen an einem Standard-Large-Language-Model (LLM) akzeptiert unser Framework multimodale Bedingungskodierungen, einschließlich Audio, Pose und Text, und gibt räumlich und semantisch kohärente Darstellungen aus, um den Denoising-Prozess eines Diffusionskopfes zu steuern. Um dies zu unterstützen, erstellen wir einen groß angelegten Dialogdatensatz von etwa 20.000 Stunden aus mehreren Quellen, der reichhaltige Gesprächsszenarien für das Training bietet. Wir führen weiterhin einen tiefen Kompressions-Autoencoder mit einer Reduktionsrate von bis zu 64-fach ein, der die langfristige Inferenzlast des autoregressiven Modells effektiv verringert. Umfangreiche Experimente zu Duplex-Gesprächen, mehrsprachiger menschlicher Synthese und interaktiven Weltmodellen unterstreichen die Vorteile unseres Ansatzes in Bezug auf niedrige Latenz, hohe Effizienz und fein abgestimmte multimodale Steuerbarkeit.

Diffusionssprachmodelle kennen die Antwort vor der Dekodierung.
Diffusion Language Models Know the Answer Before Decoding

Aug 27

ByPengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu

Diffusionssprachmodelle (DLMs) haben sich kürzlich als Alternative zu autoregressiven Ansätzen etabliert, die parallele Sequenzgenerierung und flexible Token-Reihenfolgen ermöglichen. Allerdings bleibt ihre Inferenz langsamer als die von autoregressiven Modellen, hauptsächlich aufgrund der Kosten für bidirektionale Aufmerksamkeit und der großen Anzahl von Verfeinerungsschritten, die für hochwertige Ausgaben erforderlich sind. In dieser Arbeit beleuchten und nutzen wir eine übersehene Eigenschaft von DLMs, die frühe Antwortkonvergenz: In vielen Fällen kann die korrekte Antwort intern bereits nach der Hälfte der Schritte vor dem finalen Dekodierungsschritt identifiziert werden, sowohl unter semi-autoregressiven als auch unter zufälligen Remasking-Zeitplänen. Zum Beispiel können auf GSM8K und MMLU bis zu 97 % bzw. 99 % der Instanzen korrekt dekodiert werden, indem nur die Hälfte der Verfeinerungsschritte verwendet wird. Aufbauend auf dieser Beobachtung führen wir Prophet ein, ein trainingsfreies schnelles Dekodierungsparadigma, das eine frühe Commit-Dekodierung ermöglicht. Konkret entscheidet Prophet dynamisch, ob die Verfeinerung fortgesetzt oder „alles auf eine Karte gesetzt“ werden soll (d. h. alle verbleibenden Token in einem Schritt dekodiert werden), wobei das Konfidenzintervall zwischen den beiden besten Vorhersagekandidaten als Kriterium dient. Es integriert sich nahtlos in bestehende DLM-Implementierungen, verursacht vernachlässigbaren Overhead und erfordert kein zusätzliches Training. Empirische Auswertungen von LLaDA-8B und Dream-7B über mehrere Aufgaben hinweg zeigen, dass Prophet die Anzahl der Dekodierungsschritte um bis zu das 3,4-fache reduziert, während die hohe Generierungsqualität erhalten bleibt. Diese Ergebnisse stellen die DLM-Dekodierung als ein Problem des richtigen Zeitpunkts für das Stoppen der Stichprobenentnahme dar und demonstrieren, dass die frühe Dekodierungskonvergenz einen einfachen, aber leistungsstarken Mechanismus zur Beschleunigung der DLM-Inferenz bietet, der sich ergänzend zu bestehenden Beschleunigungstechniken verhält. Unser Code ist öffentlich verfügbar unter https://github.com/pixeli99/Prophet.

Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung.
Predicting the Order of Upcoming Tokens Improves Language Modeling

Aug 26

ByZayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

Multi-Token Prediction (MTP) wurde als zusätzliches Ziel vorgeschlagen, um die Next-Token Prediction (NTP) beim Training von Sprachmodellen zu verbessern, zeigt jedoch inkonsistente Verbesserungen und schneidet bei Standard-NLP-Benchmarks unterdurchschnittlich ab. Wir argumentieren, dass die exakte Vorhersage zukünftiger Token durch MTP als zusätzlicher Verlust zu schwierig ist. Stattdessen schlagen wir Token Order Prediction (TOP) vor, bei dem Modelle trainiert werden, bevorstehende Token nach ihrer Nähe zu ordnen, wobei ein Learning-to-Rank-Verlust verwendet wird. TOP erfordert im Vergleich zu MTP, das mehrere Transformer-Schichten benötigt, lediglich eine zusätzliche Unembedding-Schicht. Wir trainieren Modelle mit 340M, 1,8B und 7B Parametern mit den Zielen NTP, MTP und TOP vor. Die Ergebnisse auf acht Standard-NLP-Benchmarks zeigen, dass TOP insgesamt sowohl NTP als auch MTP übertrifft, selbst bei größeren Modellen. Unser Code ist verfügbar unter https://github.com/zaydzuhri/token-order-prediction.

AudioStory: Erzeugung von langformatigen narrativen Audioinhalten mit großen Sprachmodellen
AudioStory: Generating Long-Form Narrative Audio with Large Language Models

Aug 27

ByYuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan

Jüngste Fortschritte in der Text-zu-Audio (TTA)-Generierung zeichnen sich durch die Synthese kurzer Audioclips aus, haben jedoch Schwierigkeiten mit langen narrativen Audioformaten, die zeitliche Kohärenz und kompositionelle Logik erfordern. Um diese Lücke zu schließen, schlagen wir AudioStory vor, ein einheitliches Framework, das große Sprachmodelle (LLMs) mit TTA-Systemen integriert, um strukturierte, lange Audio-Narrative zu generieren. AudioStory verfügt über starke Fähigkeiten zur instruktionsbasierten Generierung und Logik. Es nutzt LLMs, um komplexe narrative Anfragen in zeitlich geordnete Teilaufgaben mit kontextuellen Hinweisen zu zerlegen, wodurch kohärente Szenenübergänge und konsistente emotionale Töne ermöglicht werden. AudioStory weist zwei ansprechende Merkmale auf: (1) Entkoppelter Brückenmechanismus: AudioStory trennt die Zusammenarbeit zwischen LLM und Diffuser in zwei spezialisierte Komponenten, nämlich eine Brückenabfrage für die semantische Ausrichtung innerhalb von Ereignissen und eine Restabfrage für die Bewahrung der Kohärenz zwischen Ereignissen. (2) End-to-End-Training: Durch die Vereinheitlichung von Anweisungsverständnis und Audiogenerierung in einem einzigen end-to-end Framework eliminiert AudioStory die Notwendigkeit modularer Trainingspipelines und verbessert gleichzeitig die Synergie zwischen den Komponenten. Darüber hinaus haben wir einen Benchmark, AudioStory-10K, etabliert, der verschiedene Domänen wie animierte Klanglandschaften und natürliche Klang-Narrative umfasst. Umfangreiche Experimente zeigen die Überlegenheit von AudioStory sowohl bei der Einzel-Audio-Generierung als auch bei der narrativen Audio-Generierung, wobei es frühere TTA-Baselines sowohl in der Anweisungsbefolgung als auch in der Audio-Treue übertrifft. Unser Code ist verfügbar unter https://github.com/TencentARC/AudioStory.

StepWiser: Schrittweise generative Bewertungssysteme für weiseres Denken
StepWiser: Stepwise Generative Judges for Wiser Reasoning

Aug 26

ByWei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar

Da Modelle zunehmend mehrstufige Denkstrategien nutzen, um komplexe Probleme zu lösen, ist die Überwachung der logischen Gültigkeit dieser Zwischenschritte zu einer zentralen Forschungsherausforderung geworden. Prozess-Belohnungsmodelle adressieren dies, indem sie schrittweise Rückmeldungen geben, doch aktuelle Ansätze weisen zwei wesentliche Schwächen auf: Sie fungieren typischerweise als Klassifikatoren, ohne Erklärungen zu liefern, und ihre Abhängigkeit von überwachtem Feinabstimmen mit statischen Datensätzen schränkt die Generalisierungsfähigkeit ein. Inspiriert von jüngsten Fortschritten, reformulieren wir die schrittweise Belohnungsmodellierung von einer Klassifikationsaufgabe zu einer Denkaufgabe selbst. Wir schlagen daher einen generativen Bewerter vor, der über die Denkschritte des Policy-Modells reflektiert (d.h. meta-reasoning betreibt), Denk-Tokens ausgibt, bevor er ein endgültiges Urteil fällt. Unser Modell, StepWiser, wird durch Reinforcement Learning unter Verwendung relativer Ergebnisse von Rollouts trainiert. Wir zeigen, dass es (i) eine bessere Urteilsgenauigkeit bei Zwischenschritten als bestehende Methoden bietet; (ii) zur Verbesserung des Policy-Modells während des Trainings eingesetzt werden kann; und (iii) die Suche zur Inferenzzeit verbessert.

Blick ins Herz: Ein Multi-View-Videodatensatz für rPPG und die Schätzung von Gesundheitsbiomarkern
Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health Biomarkers Estimation

Aug 25

ByKonstantin Egorov, Stepan Botman, Pavel Blinov, Galina Zubkova, Anton Ivaschenko, Alexander Kolsanov, Andrey Savchenko

Fortschritte in der Remote-PhotoPlethysmoGraphie (rPPG) werden durch kritische Probleme bestehender öffentlich verfügbarer Datensätze eingeschränkt: geringe Größe, Datenschutzbedenken bei Gesichtsvideos und mangelnde Vielfalt in den Bedingungen. Das Papier stellt einen neuartigen, umfassenden groß angelegten Multi-View-Video-Datensatz für rPPG und die Schätzung von Gesundheitsbiomarkern vor. Unser Datensatz umfasst 3600 synchronisierte Videoaufnahmen von 600 Probanden, die unter verschiedenen Bedingungen (Ruhe und nach körperlicher Betätigung) mit mehreren Consumer-Kameras aus verschiedenen Winkeln aufgenommen wurden. Um eine multimodale Analyse physiologischer Zustände zu ermöglichen, ist jede Aufnahme mit einem 100-Hz-PPG-Signal und erweiterten Gesundheitsmetriken wie Elektrokardiogramm, arteriellem Blutdruck, Biomarkern, Temperatur, Sauerstoffsättigung, Atemfrequenz und Stresslevel verknüpft. Mit diesen Daten trainieren wir ein effizientes rPPG-Modell und vergleichen dessen Qualität in Cross-Dataset-Szenarien mit bestehenden Ansätzen. Die öffentliche Bereitstellung unseres Datensatzes und Modells sollte den Fortschritt bei der Entwicklung von KI-basierten medizinischen Assistenten erheblich beschleunigen.

Achte auf das dritte Auge! Benchmarking der Privatsphäre-Wahrnehmung in MLLM-betriebenen Smartphone-Agenten
Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents

Aug 27

ByZhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu

Smartphones bieten Nutzern erheblichen Komfort, ermöglichen aber auch die umfangreiche Aufzeichnung verschiedener Arten persönlicher Informationen. Bestehende Smartphone-Agenten, die von Multimodalen Großen Sprachmodellen (MLLMs) angetrieben werden, haben bemerkenswerte Leistungen bei der Automatisierung verschiedener Aufgaben erzielt. Allerdings erhalten diese Agenten während des Betriebs erheblichen Zugriff auf sensible persönliche Informationen der Nutzer. Um ein umfassendes Verständnis des Datenschutzbewusstseins dieser Agenten zu erlangen, präsentieren wir den ersten groß angelegten Benchmark, der nach unserem Wissen 7.138 Szenarien umfasst. Darüber hinaus annotieren wir für den Datenschutzkontext in den Szenarien dessen Typ (z.B. Account-Zugangsdaten), Sensitivitätsniveau und Standort. Anschließend benchmarken wir sorgfältig sieben verfügbare Mainstream-Smartphone-Agenten. Unsere Ergebnisse zeigen, dass fast alle getesteten Agenten ein unbefriedigendes Datenschutzbewusstsein (RA) aufweisen, wobei die Leistung selbst bei expliziten Hinweisen unter 60% bleibt. Insgesamt zeigen Closed-Source-Agenten eine bessere Datenschutzfähigkeit als Open-Source-Agenten, und Gemini 2.0-flash erreicht mit einem RA von 67% das beste Ergebnis. Wir stellen auch fest, dass die Datenschutzerkennungsfähigkeit der Agenten stark mit dem Sensitivitätsniveau des Szenarios zusammenhängt, d.h. Szenarien mit einem höheren Sensitivitätsniveau sind typischerweise besser erkennbar. Wir hoffen, dass die Erkenntnisse die Forschungsgemeinschaft dazu anregen, das unausgewogene Nutzen-Datenschutz-Verhältnis bei Smartphone-Agenten neu zu überdenken. Unser Code und Benchmark sind unter https://zhixin-l.github.io/SAPA-Bench verfügbar.

DeepScholar-Bench: Ein Live-Benchmark und automatisierte Bewertung für generative Forschungssynthese
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

Aug 27

ByLiana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin

Die Fähigkeit, Wissen zu erforschen und zu synthetisieren, ist zentral für menschliche Expertise und Fortschritt. Eine aufstrebende Klasse von Systemen verspricht diese spannenden Fähigkeiten durch generative Forschungssynthese, indem sie über das Live-Web recherchiert und entdeckte Quellen in langformatige, zitierte Zusammenfassungen integriert. Die Bewertung solcher Systeme bleibt jedoch eine offene Herausforderung: bestehende Frage-Antwort-Benchmarks konzentrieren sich auf kurze, faktenbasierte Antworten, während von Experten kuratierte Datensätze das Risiko von Veralterung und Datenkontamination bergen. Beide Ansätze erfassen nicht die Komplexität und die sich entwickelnde Natur echter Forschungssyntheseaufgaben. In dieser Arbeit stellen wir DeepScholar-bench vor, einen Live-Benchmark und ein ganzheitliches, automatisiertes Bewertungsframework, das entwickelt wurde, um generative Forschungssynthese zu evaluieren. DeepScholar-bench zieht Abfragen aus aktuellen, hochwertigen ArXiv-Papieren und konzentriert sich auf eine echte Forschungssyntheseaufgabe: die Erstellung der Abschnitte zu verwandter Arbeit in einem Papier durch das Abrufen, Synthetisieren und Zitieren früherer Forschung. Unser Bewertungsframework bewertet die Leistung ganzheitlich in drei Schlüsseldimensionen: Wissenssynthese, Abrufqualität und Überprüfbarkeit. Wir entwickeln auch DeepScholar-base, eine Referenzpipeline, die effizient mit der LOTUS-API implementiert ist. Mit dem DeepScholar-bench-Framework führen wir eine systematische Bewertung früherer Open-Source-Systeme, Such-KIs, OpenAI’s DeepResearch und DeepScholar-base durch. Wir stellen fest, dass DeepScholar-base eine starke Baseline etabliert und eine wettbewerbsfähige oder höhere Leistung als jede andere Methode erreicht. Wir stellen auch fest, dass DeepScholar-bench weit von einer Sättigung entfernt bleibt, da kein System über alle Metriken hinweg eine Punktzahl von 19 % überschreitet. Diese Ergebnisse unterstreichen die Schwierigkeit von DeepScholar-bench sowie seine Bedeutung für den Fortschritt hin zu KI-Systemen, die in der Lage sind, generative Forschungssynthese durchzuführen. Unser Code ist unter https://github.com/guestrin-lab/deepscholar-bench verfügbar.

MotionFlux: Effiziente textgesteuerte Bewegungsgenerierung durch korrigiertes Flussmatching und Präferenzabgleich
MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

Aug 27

ByZhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu

Die Erzeugung von Bewegungen ist entscheidend für die Animation virtueller Charaktere und verkörperter Agenten. Obwohl neuere textgesteuerte Methoden bedeutende Fortschritte erzielt haben, kämpfen sie oft mit der präzisen Ausrichtung zwischen sprachlichen Beschreibungen und Bewegungssemantik sowie mit den Ineffizienzen langsamer, mehrstufiger Inferenz. Um diese Probleme zu adressieren, führen wir TMR++ Aligned Preference Optimization (TAPO) ein, ein innovatives Framework, das subtile Bewegungsvariationen mit textuellen Modifikatoren ausrichtet und iterative Anpassungen zur Stärkung der semantischen Verankerung integriert. Um darüber hinaus die Echtzeitsynthese zu ermöglichen, schlagen wir MotionFLUX vor, ein Hochgeschwindigkeits-Generierungsframework, das auf deterministischem rectified flow matching basiert. Im Gegensatz zu traditionellen Diffusionsmodellen, die hunderte von Entrauschungsschritten erfordern, konstruiert MotionFLUX optimale Transportpfade zwischen Rauschverteilungen und Bewegungsräumen, was die Echtzeitsynthese erleichtert. Die linearisierten Wahrscheinlichkeitspfade reduzieren den Bedarf an mehrstufiger Abtastung, wie sie bei sequenziellen Methoden typisch ist, und beschleunigen die Inferenzzeit erheblich, ohne die Bewegungsqualität zu beeinträchtigen. Experimentelle Ergebnisse zeigen, dass TAPO und MotionFLUX zusammen ein einheitliches System bilden, das state-of-the-art Ansätze sowohl in Bezug auf semantische Konsistenz als auch Bewegungsqualität übertrifft und gleichzeitig die Generierungsgeschwindigkeit beschleunigt. Der Code und die vortrainierten Modelle werden veröffentlicht.

SEAM: Benchmark für semantische Äquivalenz über Modalitäten hinweg für Vision-Sprache-Modelle
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models

Aug 25

ByZhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson

Die Bewertung, ob Vision-Language-Modelle (VLMs) konsistent über verschiedene Repräsentationen hinweg schlussfolgern, ist eine Herausforderung, da Modalitätsvergleiche typischerweise durch Aufgabenunterschiede und asymmetrische Informationen verzerrt werden. Wir stellen SEAM vor, einen Benchmark, der semantisch äquivalente Eingaben über vier Domänen hinweg paarweise vergleicht, für die standardisierte textuelle und visuelle Notationen existieren. Durch die Verwendung unterschiedlicher Notationssysteme über Modalitäten hinweg – im Gegensatz zu OCR-basierten Bild-Text-Paarungen – bietet SEAM eine rigorose vergleichende Bewertung der textuell-symbolischen und visuell-räumlichen Schlussfolgerungsfähigkeiten von VLMs. Über 21 aktuelle Modelle hinweg beobachten wir ein systematisches Ungleichgewicht zwischen den Modalitäten: Die visuelle Modalität hinkt häufig der sprachlichen in der Gesamtleistung hinterher, obwohl die Probleme semantisch äquivalente Informationen enthalten, und die Übereinstimmung zwischen den Modalitäten ist relativ gering. Unsere Fehleranalyse zeigt zwei Hauptursachen auf: Textuelle Wahrnehmungsfehler aufgrund von Tokenisierung in der Domänennotation und visuelle Wahrnehmungsfehler, die Halluzinationen hervorrufen. Wir zeigen auch, dass unsere Ergebnisse weitgehend robust gegenüber visuellen Transformationen sind. SEAM schafft eine kontrollierte, semantisch äquivalente Umgebung zur Messung und Verbesserung modalitätsunabhängigen Schlussfolgerns.

Bändigung des Chaos: Koordinierte Autoskalierung für heterogene und disaggregierte LLM-Inferenz
Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

Aug 27

ByRongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu

Das Bereitstellen von Large Language Models (LLMs) ist eine GPU-intensive Aufgabe, bei der traditionelle Autoscaler an ihre Grenzen stoßen, insbesondere für moderne Prefill-Decode (P/D)-disaggregierte Architekturen. Dieser architektonische Wandel, obwohl leistungsstark, führt zu erheblichen betrieblichen Herausforderungen, einschließlich ineffizienter Nutzung heterogener Hardware, Netzwerkengpässen und kritischen Ungleichgewichten zwischen den Prefill- und Decode-Phasen. Wir stellen HeteroScale vor, ein koordiniertes Autoscaling-Framework, das die zentralen Herausforderungen der P/D-disaggregierten Bereitstellung adressiert. HeteroScale kombiniert einen topologiebewussten Scheduler, der sich an heterogene Hardware- und Netzwerkeinschränkungen anpasst, mit einer neuartigen metrikgesteuerten Policy, die aus der ersten groß angelegten empirischen Studie zu Autoscaling-Signalen in der Produktion abgeleitet wurde. Durch die Nutzung einer einzigen, robusten Metrik zur gemeinsamen Skalierung von Prefill- und Decode-Pools bewahrt HeteroScale die architektonische Balance und gewährleistet gleichzeitig eine effiziente, adaptive Ressourcenverwaltung. In einer massiven Produktionsumgebung auf Zehntausenden von GPUs eingesetzt, hat HeteroScale seine Wirksamkeit unter Beweis gestellt, indem es die durchschnittliche GPU-Auslastung um signifikante 26,6 Prozentpunkte steigerte und täglich Hunderttausende von GPU-Stunden einsparte, während gleichzeitig strenge Service-Level-Objekte eingehalten wurden.

Training eines Foundation-Modells für Materialien mit begrenztem Budget
Training a Foundation Model for Materials on a Budget

Aug 22

ByTeddy Koker, Tess Smidt

Foundation-Modelle für die Materialmodellierung entwickeln sich schnell weiter, doch ihr Training bleibt kostspielig, wodurch state-of-the-art Methoden oft für viele Forschungsgruppen unerreichbar sind. Wir stellen Nequix vor, ein kompaktes E(3)-äquivariantes Potential, das ein vereinfachtes NequIP-Design mit modernen Trainingspraktiken kombiniert, einschließlich äquivarianter Root-Mean-Square-Layer-Normalisierung und dem Muon-Optimierer, um die Genauigkeit zu bewahren und gleichzeitig den Rechenaufwand erheblich zu reduzieren. In JAX implementiert, verfügt Nequix über 700.000 Parameter und wurde in 500 A100-GPU-Stunden trainiert. Bei den Benchmarks Matbench-Discovery und MDR Phonon belegt Nequix den dritten Platz insgesamt, benötigt jedoch weniger als ein Viertel der Trainingskosten der meisten anderen Methoden und bietet eine um eine Größenordnung schnellere Inferenzgeschwindigkeit als das derzeit führende Modell. Wir veröffentlichen die Modellgewichte und einen vollständig reproduzierbaren Codebase unter https://github.com/atomicarchitects/nequix.

Diener, Verfolger, Räuber: Wie ein ehrlicher, hilfsbereiter und harmloser (3H) Agent adversarische Fähigkeiten freisetzt
Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills

Aug 27

ByDavid Noever

Dieses Papier identifiziert und analysiert eine neue Schwachstellenklasse in Agentensystemen, die auf dem Model Context Protocol (MCP) basieren. Die Angriffskette beschreibt und demonstriert, wie harmlose, individuell autorisierte Aufgaben orchestriert werden können, um schädliche emergente Verhaltensweisen zu erzeugen. Durch systematische Analysen mit dem MITRE ATLAS-Framework zeigen wir, wie 95 getestete Agenten mit Zugriff auf mehrere Dienste – einschließlich Browser-Automatisierung, Finanzanalyse, Standortverfolgung und Code-Bereitstellung – legitime Operationen zu ausgeklügelten Angriffssequenzen verketten können, die die Sicherheitsgrenzen jedes einzelnen Dienstes überschreiten. Diese Red-Team-Übungen untersuchen, ob aktuelle MCP-Architekturen die domänenübergreifenden Sicherheitsmaßnahmen vermissen, die notwendig sind, um eine große Kategorie von kompositionellen Angriffen zu erkennen oder zu verhindern. Wir präsentieren empirische Belege für spezifische Angriffsketten, die durch Dienstorchestrierung gezielten Schaden anrichten, einschließlich Datenexfiltration, finanzieller Manipulation und Infrastrukturkompromittierung. Diese Erkenntnisse zeigen, dass die grundlegende Sicherheitsannahme der Dienstisolierung versagt, wenn Agenten Aktionen über mehrere Domänen hinweg koordinieren können, wodurch eine exponentielle Angriffsfläche entsteht, die mit jeder zusätzlichen Fähigkeit wächst. Diese Forschung bietet einen grundlegenden experimentellen Rahmen, der nicht bewertet, ob Agenten MCP-Benchmark-Aufgaben abschließen können, sondern was passiert, wenn sie diese zu gut erfüllen und über mehrere Dienste hinweg optimieren, auf eine Weise, die menschliche Erwartungen und Sicherheitsbeschränkungen verletzt. Wir schlagen drei konkrete experimentelle Richtungen unter Verwendung des bestehenden MCP-Benchmark-Suites vor.

Selbstbelohnendes Vision-Sprache-Modell durch Zerlegung von Schlussfolgerungen
Self-Rewarding Vision-Language Model via Reasoning Decomposition

Aug 27

ByZongxia Li, Wenhao Yu, Chengsong Huang, Rui Liu, Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber, Haitao Mi, Dong Yu