HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

27 papers found

EvoCUA: Evolution von Computer-Nutzungs-Agenten durch Lernen aus skalierbaren synthetischen Erfahrungen
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

Jan 22

ByTaofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han, Haozhe Wang, Jianing Wang, Xiaocheng Zhang, Xin Yang, Dengchang Zhao, Jinrui Ding, Xiandi Ma, Yuchen Xie, Peng Pei, Xunliang Cai, Xipeng Qiu

Die Entwicklung nativer Computer-Nutzungs-Agenten (CNA) stellt einen bedeutenden Fortschritt im Bereich multimodaler KI dar. Ihr Potenzial wird jedoch derzeit durch die Grenzen des Skalierens mit statischen Daten begrenzt. Bestehende Paradigmen, die sich primär auf die passive Nachahmung statischer Datensätze stützen, haben Schwierigkeiten, die komplexen kausalen Dynamiken zu erfassen, die langfristigen Computeraufgaben innewohnen. In dieser Arbeit stellen wir EvoCUA vor, ein natives agentenbasiertes Modell für die Computernutzung. Im Gegensatz zur statischen Imitation integriert EvoCUA Datengenerierung und Politikoptimierung in einen sich selbst erhaltenden evolutionären Zyklus. Um Datenknappheit zu mildern, entwickeln wir eine verifizierbare Synthese-Engine, die autonom diverse Aufgaben zusammen mit ausführbaren Validatoren erzeugt. Um groß angelegte Erfahrungssammlung zu ermöglichen, entwerfen wir eine skalierbare Infrastruktur, die Zehntausende asynchroner Sandbox-Ausführungen orchestriert. Aufbauend auf diesen massiven Trajektorien schlagen wir eine iterative, evolutive Lernstrategie vor, um diese Erfahrung effizient zu internalisieren. Dieser Mechanismus reguliert Politik-Updates dynamisch, indem er Fähigkeitsgrenzen identifiziert – erfolgreiche Routinen werden verstärkt, während Fehlschlag-Trajektorien durch Fehleranalyse und Selbstkorrektur in umfangreiche Supervision transformiert werden. Empirische Auswertungen auf dem OSWorld-Benchmark zeigen, dass EvoCUA eine Erfolgsquote von 56,7 % erreicht und damit einen neuen Open-Source-State-of-the-Art etabliert. Bemerkenswerterweise übertrifft EvoCUA das bisher beste Open-Source-Modell, OpenCUA-72B (45,0 %), signifikant und übertrifft führende Modelle mit geschlossenen Gewichten wie UI-TARS-2 (53,1 %). Entscheidend ist, dass unsere Ergebnisse die Generalisierbarkeit dieses Ansatzes unterstreichen: Das evolutive Paradigma, angetrieben durch Lernen aus Erfahrung, erzielt konsistente Leistungssteigerungen über Foundation-Modelle verschiedener Größenordnungen hinweg und etabliert so einen robusten und skalierbaren Weg zur Weiterentwicklung nativer Agentenfähigkeiten.

LLM-in-Sandbox evoziert allgemeine agentische Intelligenz
LLM-in-Sandbox Elicits General Agentic Intelligence

Jan 22

ByDaixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen, Li Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei

Wir stellen LLM-in-Sandbox vor, das LLMs ermöglicht, innerhalb einer Code-Sandbox (d.h. einem virtuellen Computer) zu agieren, um allgemeine Intelligenz in nicht-Code-domänen zu entfalten. Wir zeigen zunächst, dass starke LLMs ohne zusätzliches Training Generalisierungsfähigkeiten aufweisen, um die Code-Sandbox für nicht-Code-Aufgaben zu nutzen. Beispielsweise greifen LLMs spontan auf externe Ressourcen zu, um neues Wissen zu erwerben, nutzen das Dateisystem zur Verarbeitung langer Kontexte und führen Skripte aus, um Formatierungsanforderungen zu erfüllen. Des Weiteren demonstrieren wir, dass diese agentenhaften Fähigkeiten durch LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL) verbessert werden können, welches ausschließlich nicht-agentenhafte Daten verwendet, um Modelle für die Sandbox-Exploration zu trainieren. Experimente belegen, dass LLM-in-Sandbox sowohl im trainingsfreien als auch im nachtrainierten Modus eine robuste Generalisierung über Mathematik, Physik, Chemie, Biomedizin, Langkontextverständnis und Instruktionsbefolgung erreicht. Abschließend analysieren wir die Effizienz von LLM-in-Sandbox aus Rechen- und Systemperspektive und veröffentlichen es als Python-Paket, um die praktische Implementierung zu erleichtern.

HERMES: KV-Cache als hierarchischer Speicher für effizientes Streaming-Videoverständnis
HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

Jan 21

ByHaowei Zhang, Shudong Yang, Jinlan Fu, See-Kiong Ng, Xipeng Qiu

Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben bedeutende Verbesserungen im Offline-Videoverständnis demonstriert. Die Übertragung dieser Fähigkeiten auf Streaming-Videoeingaben bleibt jedoch eine Herausforderung, da bestehende Modelle Schwierigkeiten haben, gleichzeitig stabiles Verständnis, Echtzeitantworten und geringen GPU-Speicherverbrauch zu gewährleisten. Um diese Herausforderung zu bewältigen, schlagen wir HERMES vor, eine neuartige, trainingsfreie Architektur für echzeitfähiges und präzises Verständnis von Videostreams. Basierend auf einer mechanistischen Untersuchung der Aufmerksamkeit konzipieren wir den KV-Cache als hierarchischen Speicherrahmen, der Videoinformationen über mehrere Granularitäten hinweg erfasst. Während der Inferenz wiederverwendet HERMES einen kompakten KV-Cache und ermöglicht so effizientes Streaming-Verständnis unter Ressourcenbeschränkungen. Bemerkenswerterweise benötigt HERMES bei Eingang von Benutzeranfragen keine zusätzlichen Berechnungen, was Echtzeitantworten für kontinuierliche Videostream-Interaktionen garantiert und eine 10-mal schnellere TTFT im Vergleich zum bisherigen Stand der Technik (SOTA) erreicht. Selbst bei einer Reduzierung der Videotokens um bis zu 68 % im Vergleich zur gleichmäßigen Abtastung erzielt HERMES eine überlegene oder vergleichbare Genauigkeit in allen Benchmarks, mit Steigerungen von bis zu 11,4 % auf Streaming-Datensätzen.

Die Flexibilitätsfalle: Warum willkürliche Reihenfolgebegrenzung das Reasoning-Potenzial von Diffusionssprachmodellen einschränkt
The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Jan 21

ByZanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang

Diffusion Large Language Models (dLLMs) durchbrechen die starre Links-nach-rechts-Einschränkung traditioneller LLMs und ermöglichen die Erzeugung von Tokens in beliebiger Reihenfolge. Intuitiv impliziert diese Flexibilität einen Lösungsraum, der den festen autoregressiven Pfad strikt umfasst und theoretisch ein überlegenes Reasoning-Potenzial für allgemeine Aufgaben wie Mathematik und Coding eröffnet. Folglich haben zahlreiche Arbeiten Reinforcement Learning (RL) genutzt, um die Reasoning-Fähigkeit von dLLMs zu fördern. In diesem Artikel zeigen wir eine kontraintuitive Realität auf: Die Erzeugung in beliebiger Reihenfolge verengt in ihrer aktuellen Form die Reasoning-Grenze von dLLMs, anstatt sie zu erweitern. Wir stellen fest, dass dLLMs dazu neigen, diese Reihenfolgeflexibilität auszunutzen, um Tokens mit hoher Unsicherheit zu umgehen, die für Exploration entscheidend sind, was zu einem vorzeitigen Kollabieren des Lösungsraums führt. Diese Beobachtung stellt die Prämisse bestehender RL-Ansätze für dLLMs infrage, bei denen erhebliche Komplexitäten, wie die Handhabung kombinatorischer Trajektorien und nicht handhabbarer Likelihoods, oft darauf verwendet werden, diese Flexibilität zu bewahren. Wir demonstrieren, dass effektives Reasoning besser gefördert wird, indem man bewusst auf beliebige Reihenfolge verzichtet und stattdessen standardmäßiges Group Relative Policy Optimization (GRPO) anwendet. Unser Ansatz, JustGRPO, ist minimalistisch und dennoch überraschend effektiv (z.B. 89,1 % Genauigkeit auf GSM8K), während er die parallele Decodierfähigkeit von dLLMs vollständig beibehält. Projektseite: https://nzl-thu.github.io/the-flexibility-trap

Qwen3-TTS Technischer Bericht
Qwen3-TTS Technical Report

Jan 22

ByHangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin

In diesem Bericht stellen wir die Qwen3-TTS-Serie vor, eine Familie fortschrittlicher multilingualer, steuerbarer, robuster und Streaming-fähiger Text-zu-Sprache-Modelle. Qwen3-TTS unterstützt modernstes 3-Sekunden-Sprachklonen und beschreibungsbasierte Steuerung, was sowohl die Erstellung völlig neuartiger Stimmen als auch eine fein granulierte Manipulation der Ausgabesprache ermöglicht. Qwen3-TTS wurde mit über 5 Millionen Stunden Sprachdaten aus 10 Sprachen trainiert und verwendet eine Dual-Track-LM-Architektur für Echtzeitsynthese, kombiniert mit zwei Sprach-Tokenizern: 1) Qwen-TTS-Tokenizer-25Hz ist ein Single-Codebook-Codec mit Fokus auf semantischen Inhalt, der eine nahtlose Integration mit Qwen-Audio ermöglicht und Streaming-Wellenformenrekonstruktion via blockweisem DiT erlaubt. 2) Qwen-TTS-Tokenizer-12Hz erreicht eine extreme Bitratenreduzierung und Ultra-Low-Latency-Streaming, ermöglicht durch sein 12,5 Hz, 16-Lagen-Multi-Codebook-Design und ein leichtgewichtiges kausales ConvNet einen sofortigen First-Packet-Versand (97 ms). Umfangreiche Experimente belegen state-of-the-art Leistung in diversen objektiven und subjektiven Benchmarks (z.B. TTS multilingualer Testdatensatz, InstructTTSEval und unser Langsprach-Testdatensatz). Um die Community-Forschung und -entwicklung zu fördern, veröffentlichen wir beide Tokenizer und Modelle unter der Apache-2.0-Lizenz.

BayesianVLA: Bayes'sche Zerlegung von Vision-Language-Action-Modellen durch latente Aktionsabfragen
BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Jan 21

ByShijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen

Vision-Language-Action (VLA)-Modelle haben vielversprechende Ergebnisse in der Robotermanipulation gezeigt, kämpfen jedoch oft mit der Generalisierung auf neue Anweisungen oder komplexe Multi-Task-Szenarien. Wir identifizieren eine kritische Pathologie in aktuellen Trainingsparadigmen, bei der die zielgetriebene Datenerfassung eine Verzerrung des Datensatzes verursacht. In solchen Datensätzen sind Sprachinstruktionen allein aus visuellen Beobachtungen hochgradig vorhersagbar, was dazu führt, dass die bedingte gegenseitige Information zwischen Anweisungen und Aktionen verschwindet – ein Phänomen, das wir als *Informationskollaps* bezeichnen. Folglich degenerieren die Modelle zu rein visuellen Strategien, die Sprachbeschränkungen ignorieren und in Out-of-Distribution (OOD)-Szenarien versagen. Um dies zu adressieren, schlagen wir BayesianVLA vor, einen neuartigen Rahmen, der die Befolgung von Anweisungen durch bayessche Zerlegung erzwingt. Durch die Einführung lernbarer Latenter Aktionsabfragen konstruieren wir eine Dual-Branch-Architektur, die sowohl eine rein visuelle A-priori-Verteilung p(a | v) als auch eine sprachkonditionierte A-posteriori-Verteilung π(a | v, l) schätzt. Anschließend optimieren wir die Strategie, um die bedingte punktweise gegenseitige Information zwischen Aktionen und Anweisungen zu maximieren. Dieses Ziel bestraft effektiv die visuelle Abkürzung und belohnt Aktionen, die den Sprachbefehl explizit erklären. Ohne dass neue Daten benötigt werden, verbessert BayesianVLA die Generalisierung erheblich. Umfangreiche Experimente in SimplerEnv und RoboCasa demonstrieren substantielle Gewinne, einschließlich einer Verbesserung von 11,3 % auf der anspruchsvollen OOD-SimplerEnv-Benchmark, was die Fähigkeit unseres Ansatzes validiert, Sprache robust in Aktionen zu verankern.

Stable-DiffCoder: An der Spitze von Code-Diffusions-Modellen für große Sprachmodelle
Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

Jan 22

ByChenghao Fan, Wen Heng, Bo Li, Sichen Liu, Yuxuan Song, Jing Su, Xiaoye Qu, Kai Shen, Wei Wei

Diffusionsbasierte Sprachmodelle (DLLMs) ermöglichen im Vergleich zu autoregressiven (AR) Modellen eine nicht-sequenzielle, blockweise Generierung und eine umfangreichere Datenwiederverwendung. Dennoch liegen bestehende Code-DLLMs unter vergleichbaren Budgets immer noch hinter starken AR-Baselines zurück. Wir untersuchen diesen Ansatz in einer kontrollierten Studie erneut und stellen Stable-DiffCoder vor, ein Block-Diffusions-Codemodell, das die Seed-Coder-Architektur, -Daten und -Trainingspipeline wiederverwendet. Um effizientes Wissenslernen und stabiles Training zu ermöglichen, integrieren wir eine kontinuierliche Vortrainingsphase (CPT) für Block-Diffusion, die durch einen maßgeschneiderten Warmup und einen blockweise beschnittenen Noise-Schedule optimiert wird. Unter Verwendung derselben Daten und Architektur übertrifft Stable-DiffCoder insgesamt sein AR-Pendant in einer breiten Suite von Code-Benchmarks. Darüber hinaus erzielt Stable-DiffCoder allein durch die CPT- und überwachte Feintuning-Phasen eine stärkere Leistung als eine Vielzahl von ~8B ARs und DLLMs, was demonstriert, dass diffusionsbasiertes Training die Qualität der Codemodellierung über reines AR-Training hinaus verbessern kann. Zudem verbessert die diffusionsbasierte Modellierung in beliebiger Reihenfolge die strukturierte Codemodellierung für Bearbeitungs- und Reasoning-Aufgaben und kommt durch Datenanreicherung ressourcenarmen Programmiersprachen zugute.

Skalierung von Text-zu-Bild-Diffusionstransformern mit Repräsentations-Autoencodern
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Jan 22

ByShengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie

Repräsentations-Autoencoder (RAEs) haben bei Diffusionsmodellen auf ImageNet durch Training in hochdimensionalen semantischen Latent-Räumen deutliche Vorteile gezeigt. In dieser Arbeit untersuchen wir, ob sich dieser Rahmen auf großskalige, freie Text-zu-Bild (T2I)-Generierung übertragen lässt. Wir skalieren zunächst RAE-Decoder auf dem eingefrorenen Repräsentations-Encoder (SigLIP-2) über ImageNet hinaus, indem wir mit Web-, synthetischen und Text-Rendering-Daten trainieren. Dabei stellen wir fest, dass Skalierung zwar die allgemeine Wiedergabetreue verbessert, aber eine gezielte Datenzusammensetzung für spezifische Domänen wie Text entscheidend ist. Anschließend testen wir die ursprünglich für ImageNet vorgeschlagenen RAE-Designentscheidungen rigoros unter Stressbedingungen. Unsere Analyse zeigt, dass Skalierung den Rahmen vereinfacht: Während eine dimensionsabhängige Rauschplanung kritisch bleibt, bieten architektonische Komplexitäten wie breite Diffusionsköpfe und rauschergänztes Decodieren in großem Maßstab vernachlässigbare Vorteile. Aufbauend auf diesem vereinfachten Rahmen führen wir einen kontrollierten Vergleich von RAE mit dem state-of-the-art FLUX VAE über Diffusions-Transformer-Größen von 0,5B bis 9,8B Parametern durch. RAEs übertreffen VAEs während des Pre-Trainings durchgängig über alle Modellgrößen hinweg. Darüber hinaus überfitten VAE-basierte Modelle während des Fine-Tunings mit hochwertigen Datensätzen nach 64 Epochen katastrophal, während RAE-Modelle über 256 Epochen stabil bleiben und durchweg bessere Leistung erzielen. In allen Experimenten zeigen RAE-basierte Diffusionsmodelle schnellere Konvergenz und bessere Generierungsqualität, was RAEs als einfachere und leistungsstärkere Grundlage als VAEs für großskalige T2I-Generierung etabliert. Zusätzlich eröffnen sich neue Möglichkeiten für vereinheitlichte Modelle, da sowohl visuelles Verständnis als auch Generierung in einem gemeinsamen Repräsentationsraum operieren können und das multimodale Modell direkt über generierte Latents reasoning kann.

Lernen, zur Testzeit zu entdecken
Learning to Discover at Test Time

Jan 22

ByMert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun

Wie können wir KI nutzen, um einen neuen State-of-the-Art für ein wissenschaftliches Problem zu entdecken? Bisherige Arbeiten zum Test-Time-Scaling, wie AlphaEvolve, führen die Suche durch, indem ein eingefrorenes LLM gepromptet wird. Wir setzen hingegen Reinforcement Learning zur Testzeit ein, sodass das LLM weiter trainieren kann – nun jedoch mit Erfahrungen, die spezifisch für das Testproblem sind. Diese Form des kontinuierlichen Lernens ist besonders, weil ihr Ziel ist, eine herausragende Lösung zu produzieren, anstatt durchschnittlich viele gute Lösungen, und genau dieses Problem zu lösen, anstatt auf andere Probleme zu verallgemeinern. Daher sind unser Lernziel und unsere Suchroutine darauf ausgelegt, die vielversprechendsten Lösungen zu priorisieren. Wir nennen diese Methode Test-Time Training to Discover (TTT-Discover). In Anlehnung an frühere Arbeiten konzentrieren wir uns auf Probleme mit kontinuierlichen Rewards. Wir berichten Ergebnisse für jedes Problem, das wir bearbeitet haben, aus den Bereichen Mathematik, GPU-Kernel-Engineering, Algorithmenentwurf und Biologie. TTT-Discover setzt in fast allen Bereichen einen neuen State-of-the-Art: (i) Erdős' Minimum-Overlap-Problem und eine Autokorrelationsungleichung; (ii) einen GPUMode-Kernel-Wettbewerb (bis zu 2-mal schneller als der vorherige Stand der Technik); (iii) vergangene AtCoder-Algorithmenwettbewerbe; und (iv) ein Rauschunterdrückungsproblem in der Einzelzellanalyse. Unsere Lösungen wurden von Experten oder den Organisatoren begutachtet. Alle unsere Ergebnisse wurden mit einem offenen Modell, OpenAI gpt-oss-120b, erzielt und sind mit unserem öffentlich verfügbaren Code reproduzierbar – im Gegensatz zu vorherigen Bestergebnissen, die geschlossene Frontier-Modelle erforderten. Unsere Test-Time-Training-Läufe wurden mit Tinker, einer API von Thinking Machines, durchgeführt, mit Kosten von nur wenigen hundert Dollar pro Problem.

SAMTok: Darstellung beliebiger Masken mit zwei Wörtern
SAMTok: Representing Any Mask with Two Words

Jan 22

ByYikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li

Pixelweise Fähigkeiten sind entscheidend für die Entwicklung interaktiver intelligenter Systeme. Dennoch bleiben pixelweise multimodale LLMs (MLLMs) schwer skalierbar aufgrund komplexer regionenbasierter Encoder, spezialisierter Segmentierungs-Decoder und inkompatibler Trainingsziele. Um diese Herausforderungen zu bewältigen, stellen wir SAMTok vor, einen diskreten Masken-Tokenizer, der jede Regionsmaske in zwei spezielle Tokens umwandelt und die Maske mit hoher Wiedergabetreue aus diesen Tokens rekonstruiert. Indem Masken als neue Sprach-Tokens behandelt werden, ermöglicht SAMTok Basis-MLLMs (wie der QwenVL-Serie), pixelweise Fähigkeiten durch standardmäßige Next-Token-Prediction und einfaches Reinforcement Learning zu erlernen – ohne Architekturmodifikationen und spezielle Loss-Designs. SAMTok baut auf SAM2 auf und wurde auf 209 Millionen diversen Masken trainiert, wobei ein Masken-Encoder und ein residualer Vektorquantisierer eingesetzt werden, um diskrete, kompakte und informationsreiche Tokens zu erzeugen. Mit 5 Millionen SAMTok-formatierten Datensätzen zum Maskenverständnis und -generierung erzielt QwenVL-SAMTok state-of-the-art oder vergleichbare Ergebnisse in den Bereichen Region Captioning, Region VQA, Grounded Conversation, Referring Segmentation, Scene Graph Parsing und mehrstufiger interaktiver Segmentierung. Wir führen weiterhin eine textuelle Answer-Matching-Belohnung ein, die effizientes Reinforcement Learning für die Maskengenerierung ermöglicht und erhebliche Verbesserungen bei den GRES- und GCG-Benchmarks liefert. Unsere Ergebnisse demonstrieren ein skalierbares und einfaches Paradigma, um MLLMs mit starken pixelweisen Fähigkeiten auszustatten. Unser Code und unsere Modelle sind verfügbar.

Terminal-Bench: Bewertung von Agenten anhand schwieriger, realistischer Aufgaben in Befehlszeilenschnittstellen
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Jan 17

ByMike A. Merrill, Alexander G. Shaw, Nicholas Carlini, Boxuan Li, Harsh Raj, Ivan Bercovich, Lin Shi, Jeong Yeon Shin, Thomas Walshe, E. Kelly Buchanan, Junhong Shen, Guanghao Ye, Haowei Lin, Jason Poulos, Maoyu Wang, Marianna Nezhurina, Jenia Jitsev, Di Lu, Orfeas Menis Mastromichalakis, Zhiwei Xu, Zizhao Chen, Yue Liu, Robert Zhang, Leon Liangyu Chen, Anurag Kashyap, Jan-Lucas Uslu, Jeffrey Li, Jianbo Wu, Minghao Yan, Song Bian, Vedang Sharma, Ke Sun, Steven Dillmann, Akshay Anand, Andrew Lanpouthakoun, Bardia Koopah, Changran Hu, Etash Guha, Gabriel H. S. Dreiman, Jiacheng Zhu, Karl Krauth, Li Zhong, Niklas Muennighoff, Robert Amanfu, Shangyin Tan, Shreyas Pimpalgaonkar, Tushar Aggarwal, Xiangning Lin, Xin Lan, Xuandong Zhao, Yiqing Liang, Yuanli Wang, Zilong Wang, Changzhi Zhou, David Heineman, Hange Liu, Harsh Trivedi, John Yang, Junhong Lin, Manish Shetty, Michael Yang, Nabil Omi, Negin Raoof, Shanda Li, Terry Yue Zhuo, Wuwei Lin, Yiwei Dai, Yuxin Wang, Wenhao Chai, Shang Zhou, Dariush Wahdany, Ziyu She, Jiaming Hu, Zhikang Dong, Yuxuan Zhu, Sasha Cui, Ahson Saiyed, Arinbjörn Kolbeinsson, Jesse Hu, Christopher Michael Rytting, Ryan Marten, Yixin Wang, Alex Dimakis, Andy Konwinski, Ludwig Schmidt

KI-Agenten könnten bald in der Lage sein, wertvolle, langfristige Aufgaben in verschiedenen Domänen autonom zu bewältigen. Aktuelle Benchmarks messen entweder keine realen Aufgaben oder sind nicht ausreichend anspruchsvoll, um Fortschritte bei hoch entwickelten Modellen sinnvoll zu erfassen. Zu diesem Zweck präsentieren wir Terminal-Bench 2.0: einen sorgfältig kuratierten, anspruchsvollen Benchmark, der 89 Aufgaben in Computer-Terminalumgebungen umfasst, inspiriert von Problemen aus realen Arbeitsabläufen. Jede Aufgabe verfügt über eine einzigartige Umgebung, eine von Menschen erstellte Lösung und umfassende Tests zur Verifikation. Wir zeigen, dass hoch entwickelte Modelle und Agenten auf diesem Benchmark weniger als 65 % erreichen, und führen eine Fehleranalyse durch, um Verbesserungspotenziale für Modelle und Agenten zu identifizieren. Wir veröffentlichen den Datensatz und die Evaluierungsinfrastruktur, um Entwickler und Forscher bei zukünftigen Arbeiten zu unterstützen, unter https://www.tbench.ai/.

OpenVision 3: Eine Familie vereinheitlichter visueller Encoder für Verstehen und Generierung
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Jan 21

ByLetian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie

Dieses Paper stellt eine Familie fortschrittlicher Vision-Encoder vor, genannt OpenVision 3, die eine einzige, vereinheitlichte visuelle Repräsentation erlernt, die sowohl Bildverständnis als auch Bildgenerierung unterstützen kann. Unsere Kernarchitektur ist einfach: Wir führen VAE-komprimierte Bildlatenten einem ViT-Encoder zu und trainieren dessen Ausgabe für zwei komplementäre Rollen. Erstens wird die Encoder-Ausgabe an den ViT-VAE-Decoder weitergeleitet, um das Originalbild zu rekonstruieren, was die Repräsentation dazu anhält, generative Strukturen zu erfassen. Zweitens wird dieselbe Repräsentation mittels Kontrastivlernen und Bild-Beschriftungs-Zielen optimiert, um semantische Merkmale zu stärken. Durch gemeinsame Optimierung von rekonstruktions- und semantikgesteuerten Signalen in einem gemeinsamen latenten Raum erlernt der Encoder Repräsentationen, die synergistisch wirken und sich gut über beide Regime verallgemeinern. Wir validieren dieses vereinheitlichte Design durch umfangreiche Downstream-Evaluierungen mit eingefrorenem Encoder. Für multimodales Verständnis integrieren wir den Encoder in das LLaVA-1.5-Framework: Er schneidet vergleichbar mit einem standardmäßigen CLIP-Vision-Encoder ab (z.B. 62,4 vs. 62,2 auf SeedBench und 83,7 vs. 82,9 auf POPE). Für die Generierung testen wir ihn im RAE-Framework: Unserer übertrifft den standardmäßigen CLIP-basierten Encoder deutlich (z.B. gFID: 1,89 vs. 2,54 auf ImageNet). Wir hoffen, dass diese Arbeit zukünftige Forschung zur vereinheitlichten Modellierung anregen kann.

Auf dem Weg zur automatisierten Kernel-Generierung im Zeitalter der LLMs
Towards Automated Kernel Generation in the Era of LLMs

Jan 22

ByYang Yu, Peiyu Zang, Chi Hsu Tsai, Haiming Wu, Yixin Shen, Jialing Zhang, Haoyu Wang, Zhiyou Xiao, Jingze Shi, Yuyu Luo, Wentao Zhang, Chunlei Men, Guang Liu, Yonghua Lin

Die Leistung moderner KI-Systeme wird grundlegend durch die Qualität ihrer zugrundeliegenden Kernel begrenzt, welche hochgradige algorithmische Semantik in niedrigrangige Hardwareoperationen übersetzen. Die Erzielung nahezu optimaler Kernel erfordert ein Expertenverständnis von Hardwarearchitekturen und Programmiermodellen, was Kernel-Engineering zu einem kritischen, aber notorisch zeitaufwändigen und nicht-skalierbaren Prozess macht. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und LLM-basierten Agenten haben neue Möglichkeiten zur Automatisierung der Kernel-Generierung und -Optimierung eröffnet. LLMs eignen sich gut dazu, schwer zu formalisierendes Expertenwissen über Kernel zu komprimieren, während agentenbasierte Systeme eine skalierbare Optimierung weiter ermöglichen, indem sie die Kernel-Entwicklung als einen iterativen, feedbackgesteuerten Kreislauf betrachten. In diesem Bereich wurden rasche Fortschritte erzielt. Dennoch bleibt das Feld fragmentiert und es fehlt an einer systematischen Perspektive für die LLM-gesteuerte Kernel-Generierung. Dieser Survey schließt diese Lücke, indem er einen strukturierten Überblick über bestehende Ansätze bietet, der LLM-basierte Ansätze und agentenbasierte Optimierungs-Workflows umspannt, und systematisch die Datensätze und Benchmarks zusammenstellt, die dem Lernen und der Evaluation in diesem Bereich zugrunde liegen. Darüber hinaus werden zentrale offene Herausforderungen und zukünftige Forschungsrichtungen skizziert, mit dem Ziel, eine umfassende Referenz für die nächste Generation der automatisierten Kernel-Optimierung zu schaffen. Um die Entwicklungen in diesem Feld zu verfolgen, pflegen wir ein Open-Source-GitHub-Repository unter https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.

VideoMaMa: Masken-geführtes Video-Matting mittels generativer Vorinformationen
VideoMaMa: Mask-Guided Video Matting via Generative Prior

Jan 20

BySangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee

Die Generalisierung von Video-Matting-Modellen auf reale Videodaten stellt aufgrund der Knappheit an annotierten Daten nach wie vor eine große Herausforderung dar. Um dies zu adressieren, präsentieren wir das Video Mask-to-Matte Model (VideoMaMa), das grobe Segmentierungsmasken durch die Nutzung vortrainierter Video-Diffusionsmodelle in pixelgenaue Alpha-Matts umwandelt. VideoMaMa zeigt eine starke Null-Shot-Generalisierung auf reale Videosequenzen, obwohl es ausschließlich auf synthetischen Daten trainiert wurde. Aufbauend auf dieser Fähigkeit entwickeln wir eine skalierbare Pseudolabeling-Pipeline für großflächiges Video-Matting und erstellen den „Matting Anything in Video“ (MA-V)-Datensatz, der hochwertige Matting-Annotationen für mehr als 50.000 reale Videos aus diversen Szenen und mit unterschiedlichen Bewegungen bereitstellt. Um die Wirksamkeit dieses Datensatzes zu validieren, feintunen wir das SAM2-Modell auf MA-V, um SAM2-Matte zu erhalten, das in Bezug auf Robustheit bei unkontrolliert aufgenommenen Videos das gleiche, auf bestehenden Matting-Datensätzen trainierte Modell übertrifft. Diese Ergebnisse unterstreichen die Bedeutung von großflächig pseudolabelbasiertem Video-Matting und zeigen, wie generative Priors und zugängliche Segmentierungshinweise skalierbare Fortschritte in der Video-Matting-Forschung vorantreiben können.

Cosmos Policy: Feinabstimmung von Videomodellen für visuomotorische Steuerung und Planung
Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Jan 22

ByMoo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu

Aktuelle Videogenerierungsmodelle zeigen eine beeindruckende Fähigkeit, komplexe physikalische Interaktionen und Szenenentwicklungen über die Zeit zu erfassen. Um ihre räumlich-zeitlichen A-priori-Informationen zu nutzen, haben Arbeiten aus der Robotik Videomodelle für das Policy-Learning adaptiert, führten jedoch durch mehrstufiges Nachtraining und neue Architekturkomponenten für die Aktionsgenerierung Komplexität ein. In dieser Arbeit stellen wir Cosmos Policy vor, einen einfachen Ansatz zur Anpassung eines großen vortrainierten Videomodells (Cosmos-Predict2) zu einer effektiven Roboter-Policy durch eine einzige Phase des Nachtrainings auf den für die Zielplattform gesammelten Roboter-Demonstrationsdaten, ohne architektonische Modifikationen. Cosmos Policy lernt, direkt Roboteraktionen zu generieren, die als latente Frames innerhalb des latenten Diffusionsprozesses des Videomodells kodiert sind, und nutzt so die vortrainierten A-priori-Informationen und den Kernlernalgorithmus des Modells, um komplexe Aktionsverteilungen zu erfassen. Zusätzlich generiert Cosmos Policy zukünftige Zustandsbilder und Werte (erwartete kumulative Belohnungen), die ähnlich als latente Frames kodiert werden, was eine Planung von Aktionstrajektorien zur Laufzeit mit einer höheren Erfolgswahrscheinlichkeit ermöglicht. In unseren Evaluationen erzielt Cosmos Policy state-of-the-art Leistung auf den Simulations-Benchmarks LIBERO und RoboCasa (jeweils 98,5 % und 67,1 % durchschnittliche Erfolgsrate) sowie die höchste durchschnittliche Punktzahl bei anspruchsvollen realen bimanuellen Manipulationsaufgaben und übertrifft dabei starke von Grund auf trainierte Diffusions-Policies, videomodellbasierte Policies und state-of-the-art Vision-Language-Action-Modelle, die auf denselben Roboter-Demonstrationen feinabgestimmt wurden. Darüber hinaus kann Cosmos Policy bei Vorliegen von Policy-Rollout-Daten aus Erfahrung lernen, um sein Weltmodell und seine Wertfunktion zu verfeinern, und modellbasierte Planung nutzen, um in anspruchsvollen Aufgaben noch höhere Erfolgsraten zu erreichen. Wir veröffentlichen Code, Modelle und Trainingsdaten unter https://research.nvidia.com/labs/dir/cosmos-policy/.

Neubewertung der Evaluierung von Composed Image Retrieval: Ein feinkörniger Benchmark aus der Bildbearbeitung
Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

Jan 22

ByTingyu Song, Yanzhao Zhang, Mingxin Li, Zhuoning Guo, Dingkun Long, Pengjun Xie, Siyue Zhang, Yilun Zhao, Shu Wu

Composed Image Retrieval (CIR) ist eine zentrale und komplexe Aufgabe im multimodalen Verständnis. Aktuelle CIR-Benchmarks weisen in der Regel nur begrenzte Abfragekategorien auf und erfassen nicht die vielfältigen Anforderungen realer Szenarien. Um diese Bewertungslücke zu schließen, nutzen wir Bildbearbeitung, um eine präzise Steuerung der Änderungstypen und -inhalte zu erreichen. Dies ermöglicht eine Pipeline zur Synthese von Abfragen über ein breites Kategorienspektrum. Mit dieser Pipeline erstellen wir EDIR, einen neuartigen, fein granularen CIR-Benchmark. EDIR umfasst 5.000 hochwertige Abfragen, die über fünf Hauptkategorien und fünfzehn Unterkategorien strukturiert sind. Unsere umfassende Evaluation von 13 multimodalen Einbettungsmodellen zeigt eine erhebliche Fähigkeitslücke auf; selbst state-of-the-art Modelle (z.B. RzenEmbed und GME) haben Schwierigkeiten, in allen Unterkategorien konsistent zu performen, was den rigorosen Charakter unseres Benchmarks unterstreicht. Durch vergleichende Analysen decken wir weiterhin inhärente Grenzen bestehender Benchmarks auf, wie Modalbias und unzureichende Kategorieabdeckung. Darüber hinaus zeigt ein In-Domain-Trainingsexperiment die Machbarkeit unseres Benchmarks. Dieses Experiment klärt die Herausforderungen der Aufgabe, indem es zwischen Kategorien unterscheidet, die mit gezielten Daten lösbar sind, und solchen, die grundlegende Grenzen der aktuellen Modellarchitekturen aufdecken.

ActionMesh: Animierte 3D-Mesh-Generierung mit temporärer 3D-Diffusion
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

Jan 22

ByRemy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier

Die Erzeugung animierter 3D-Objekte ist Kernbestandteil vieler Anwendungen, doch die meisten fortgeschrittenen Arbeiten sind in der Praxis oft schwer anwendbar, da sie einen begrenzten Aufbau, lange Laufzeiten oder eine eingeschränkte Qualität aufweisen. Wir stellen ActionMesh vor, ein generatives Modell, das direkt einsetzbare 3D-Meshes „in Aktion“ auf direktem Wege (feed-forward) erzeugt. Inspiriert von frühen Videomodellen besteht unsere zentrale Erkenntnis darin, bestehende 3D-Diffusionsmodelle so zu erweitern, dass sie eine Zeitachse einbeziehen – ein Rahmenwerk, das wir als „temporale 3D-Diffusion“ bezeichnen. Konkret passen wir zunächst die 3D-Diffusionsstufe an, um eine Sequenz synchronisierter Latent-Variablen zu erzeugen, die zeitlich veränderliche und unabhängige 3D-Formen repräsentieren. Zweitens entwerfen wir einen temporalen 3D-Autoencoder, der eine Sequenz unabhängiger Formen in die entsprechenden Deformationen einer vordefinierten Referenzform übersetzt, was uns ermöglicht, eine Animation zu erstellen. Durch die Kombination dieser beiden Komponenten generiert ActionMesh animierte 3D-Meshes aus verschiedenen Eingaben wie einem monokularen Video, einer Textbeschreibung oder sogar einem 3D-Mesh mit einer Textaufforderung, die seine Animation beschreibt. Darüber hinaus ist unsere Methode im Vergleich zu früheren Ansätzen schnell und erzeugt ergebnisse, die ohne Skelettrig auskommen und topologiekonsistent sind, was eine schnelle Iteration und nahtlose Anwendungen wie Texturierung und Retargeting ermöglicht. Wir evaluieren unser Modell anhand standardisierter Video-zu-4D-Benchmarks (Consistent4D, Objaverse) und berichten von state-of-the-art-Leistungen sowohl in Bezug auf geometrische Genauigkeit als auch temporale Konsistenz. Dies zeigt, dass unser Modell animierte 3D-Meshes mit bisher unerreichter Geschwindigkeit und Qualität liefern kann.

PROGRESSLM: Auf dem Weg zu Fortschrittsreasoning in visuell-sprachlichen Modellen
PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

Jan 21

ByJianshu Zhang, Chengxuan Qian, Haosen Sun, Haoran Lu, Dingcheng Wang, Letian Xue, Han Liu

Die Schätzung des Aufgabenfortschritts erfordert ein Schlussfolgern über langfristige Dynamiken und nicht lediglich das Erkennen statischer visueller Inhalte. Während moderne Vision-Language-Modelle (VLMs) hervorragend darin sind, zu beschreiben, was sichtbar ist, bleibt unklar, ob sie aus Teilbeobachtungen ableiten können, wie weit eine Aufgabe fortgeschritten ist. Zu diesem Zweck führen wir Progress-Bench ein, einen Benchmark zur systematischen Bewertung von Fortschrittsbeurteilungen in VLMs. Über das Benchmarking hinaus untersuchen wir weiterhin ein menscheninspiriertes zweistufiges Paradigma zur Fortschrittsbeurteilung, sowohl durch trainingsfreie Prompting-Ansätze als auch durch einen trainingsbasierten Ansatz auf Basis des kuratierten Datensatzes ProgressLM-45K. Experimente mit 14 VLMs zeigen, dass die meisten Modelle noch nicht für die Schätzung des Aufgabenfortschritts bereit sind und eine Empfindlichkeit gegenüber Demonstrationsmodalitäten und Blickwinkeländerungen sowie einen schlechten Umgang mit unbeantwortbaren Fällen aufweisen. Während trainingsfreies Prompting, das strukturierte Fortschrittsbeurteilung erzwingt, nur begrenzte und modellabhängige Verbesserungen bringt, erzielt das trainingsbasierte ProgressLM-3B konsistente Verbesserungen selbst bei einer kleinen Modellgröße, obwohl es auf einem Aufgabensatz trainiert wurde, der vollständig disjunkt zu den Evaluierungsaufgaben ist. Weitere Analysen zeigen charakteristische Fehlermuster auf und klären, wann und warum die Fortschrittsbeurteilung erfolgreich ist oder scheitert.

Agentische Unsicherheitsquantifizierung
Agentic Uncertainty Quantification

Jan 22

ByJiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu

Obwohl KI-Agenten beeindruckende Fähigkeiten im langfristigen Denken gezeigt haben, wird ihre Zuverlässigkeit erheblich durch die „Spirale der Halluzination“ beeinträchtigt, bei der sich frühe epistemische Fehler irreversibel fortsetzen. Bestehende Methoden stehen vor einem Dilemma: Unsicherheitsquantifizierungsmethoden (UQ) fungieren typischerweise als passive Sensoren, die lediglich Risiken diagnostizieren, ohne sie zu beheben, während Selbstreflexionsmechanismen unter kontinuierlichen oder ziellosen Korrekturen leiden. Um diese Lücke zu schließen, schlagen wir einen einheitlichen Dual-Prozess-Agentic-UQ-Rahmen (AUQ) vor, der verbalisierte Unsicherheit in aktive, bidirektionale Steuersignale umwandelt. Unsere Architektur umfasst zwei komplementäre Mechanismen: System 1 (Unsicherheitsbewusstes Gedächtnis, UAM), das verbalisiertes Vertrauen und semantische Erklärungen implizit weiterleitet, um blinde Entscheidungsfindung zu verhindern; und System 2 (Unsicherheitsbewusste Reflexion, UAR), das diese Erklärungen als rationale Hinweise nutzt, um gezielte Inferenzzeit-Auflösung nur bei Bedarf auszulösen. Dies ermöglicht dem Agenten, effiziente Ausführung und tiefe Abwägung dynamisch auszubalancieren. Umfangreiche Experimente auf Closed-Loop-Benchmarks und offenen Deep-Research-Aufgaben zeigen, dass unser trainingsfreier Ansatz eine überlegene Leistung und trajektorienweite Kalibrierung erreicht. Wir sind überzeugt, dass dieser prinzipienbasierte Rahmen AUQ einen bedeutenden Schritt hin zu zuverlässigen Agenten darstellt.

360Anything: Geometriefreie Hebung von Bildern und Videos auf 360°
360Anything: Geometry-Free Lifting of Images and Videos to 360°

Jan 22

ByZiyi Wu, Daniel Watson, Andrea Tagliasacchi, David J. Fleet, Marcus A. Brubaker, Saurabh Saxena

Die Erhebung von perspektivischen Bildern und Videos zu 360°-Panoramen ermöglicht die Erzeugung immersiver 3D-Welten. Bestehende Ansätze stützen sich oft auf explizite geometrische Ausrichtung zwischen dem perspektivischen und dem äquidistanten rektangulären Projektionsraum (ERP). Dies erfordert jedoch bekannte Kamerametadaten, was die Anwendung auf reale Daten erschwert, bei denen solche Kalibrierungen typischerweise fehlen oder verrauscht sind. Wir schlagen 360Anything vor, ein geometriefreies Framework, das auf vortrainierten Diffusion-Transformern basiert. Indem es die perspektivische Eingabe und das Panoramaziel einfach als Token-Sequenzen behandelt, erlernt 360Anything die perspektivisch-zu-äquidistant-rektanguläre Abbildung auf rein datengesteuerte Weise und macht Kamerainformationen überflüssig. Unser Ansatz erzielt state-of-the-art Leistung sowohl bei der Bild- als auch bei der Video-Perspektive-zu-360°-Generierung und übertrifft frühere Arbeiten, die Ground-Truth-Kamerainformationen verwenden. Wir führen auch die Ursache von Nahtartefakten an den ERP-Grenzen auf Zero-Padding im VAE-Encoder zurück und führen Circular Latent Encoding ein, um nahtlose Generierung zu ermöglichen. Abschließend zeigen wir wettbewerbsfähige Ergebnisse in Zero-Shot-Benchmarks zur Schätzung des Kamerabildfelds und der Ausrichtung, was das tiefgehende geometrische Verständnis von 360Anything und seinen breiteren Nutzen in Computer-Vision-Aufgaben demonstriert. Weitere Ergebnisse sind unter https://360anything.github.io/ verfügbar.

Agentische Konfidenzkalibrierung
Agentic Confidence Calibration

Jan 22

ByJiaxin Zhang, Caiming Xiong, Chien-Sheng Wu

KI-Agenten entwickeln sich rasant von passiven Sprachmodellen zu autonomen Systemen, die komplexe, mehrstufige Aufgaben ausführen. Doch ihre Überzuversicht bei Fehlschlägen bleibt eine grundlegende Barriere für den Einsatz in hochriskanten Umgebungen. Bestehende Kalibrierungsmethoden, die für statische Einzelschritt-Ausgaben konzipiert wurden, können die einzigartigen Herausforderungen agentenbasierter Systeme nicht bewältigen, wie sich verstärkende Fehler entlang von Trajektorien, Unsicherheiten durch externe Werkzeuge und undurchsichtige Fehlermodi. Um diese Herausforderungen zu adressieren, führen wir erstmals das Problem der Agentischen Konfidenzkalibrierung ein und schlagen Holistische Trajektorienkalibrierung (HTC) vor, einen neuartigen diagnostischen Rahmen, der umfassende prozessbezogene Merkmale – von Makrodynamiken bis hin zu Mikrostabilität – über die gesamte Trajektorie eines Agenten extrahiert. Angetrieben durch ein einfaches, interpretierbares Modell übertrifft HTC konsistent starke Vergleichsverfahren sowohl in der Kalibrierung als auch in der Diskriminierung über acht Benchmarks, mehrere große Sprachmodelle (LLMs) und diverse Agenten-Frameworks hinweg. Über die Leistung hinaus bietet HTC drei wesentliche Fortschritte: Es liefert Interpretierbarkeit durch Aufdeckung der Signale hinter Fehlschlägen, ermöglicht Transferierbarkeit durch Anwendung über Domänen hinweg ohne Neukalibrierung und erreicht Generalisierung durch einen Allgemeinen Agenten-Kalibrator (GAC), der die beste Kalibrierung (niedrigste ECE) auf dem domänenfremden GAIA-Benchmark erzielt. Zusammengenommen etablieren diese Beiträge ein neues prozesszentriertes Paradigma für die Konfidenzkalibrierung und bieten einen Rahmen zur Diagnose und Verbesserung der Zuverlässigkeit von KI-Agenten.

VIOLA: Auf dem Weg zu Video-In-Context-Learning mit minimalen Annotationen
VIOLA: Towards Video In-Context Learning with Minimal Annotations

Jan 22

ByRyo Fujii, Hideo Saito, Ryo Hachiuma

Die Generalisierung multimodaler großer Sprachmodelle (MLLMs) auf neuartige Videodomänen ist für den realen Einsatz entscheidend, bleibt jedoch aufgrund der Knappheit an annotierten Daten eine Herausforderung. Während In-Context-Learning (ICL) einen trainingsfreien Adaptionspfad bietet, setzen Standardmethoden auf große annotierte Datenpools, die in spezialisierten Umgebungen wie industriellen oder chirurgischen Settings oft unpraktikabel sind, da sie Annotationen durch Experten erfordern. Um diese Lücke zu schließen, stellen wir VIOLA (Video In-cOntext Learning with minimal Annotation) vor, einen label-effizienten Rahmen, der minimale Expertenannotation mit reichlich ungelabelten Daten synergistisch kombiniert. Erstens schlagen wir, um die Effizienz eines strengen Annotationsbudgets zu maximieren, dichte-unsicherheitsgewichtetes Sampling vor. Im Gegensatz zu standardmäßigen Diversitäts- oder Unsicherheitsstrategien, bei denen die Gefahr besteht, visuelle Ausreißer auszuwählen, nutzt unsere Methode Dichteschätzung, um Proben zu identifizieren, die gleichzeitig divers, repräsentativ und informativ sind. Zweitens, um die verbleibenden ungelabelten Daten ohne Rauschen zu nutzen, konstruieren wir einen hybriden Pool und führen konfidenzbewusstes Retrieval und konfidenzbewusstes Prompting ein. Diese Mechanismen modellieren explizit die Zuverlässigkeit von Labels, indem sie Demonstrationen auf Basis eines zusammengesetzten Scores aus Ähnlichkeit und Konfidenz abrufen und es dem MLLM ermöglichen, adaptiv zwischen verifizierten Ground-Truth-Daten und verrauschten Pseudo-Labels zu unterscheiden. Umfangreiche Experimente über neun diverse Benchmarks mit vier MLLMs zeigen, dass unser Rahmenwerk verschiedene Baseline-Methoden in ressourcenbeschränkten Settings signifikant übertrifft und eine robuste Adaptation mit minimalen Annotationskosten erreicht.

Von passiven Metriken zu aktiven Signalen: Die sich wandelnde Rolle der Unsicherheitsquantifizierung in großen Sprachmodellen
From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models

Jan 22

ByJiaxin Zhang, Wendi Cui, Zhuohang Li, Lifu Huang, Bradley Malin, Caiming Xiong, Chien-Sheng Wu

Während Large Language Models (LLMs) bemerkenswerte Fähigkeiten zeigen, bleibt ihre Unzuverlässigkeit eine kritische Barriere für den Einsatz in hochriskanten Anwendungsbereichen. Dieser Survey skizziert eine funktionale Evolution im Umgang mit dieser Herausforderung: die Evolution von Unsicherheit von einer passiven Diagnosemetrik zu einem aktiven Steuersignal, das das Echtzeitverhalten des Modells lenkt. Wir zeigen auf, wie Unsicherheit als aktives Steuersignal an drei Forschungsfronten genutzt wird: beim fortgeschrittenen Schlussfolgern, um die Berechnung zu optimieren und Selbstkorrektur auszulösen; bei autonomen Agenten, um metakognitive Entscheidungen über Werkzeugnutzung und Informationsbeschaffung zu steuern; und beim bestärkenden Lernen, um Reward Hacking zu mildern und Selbstverbesserung durch intrinsische Belohnungen zu ermöglichen. Indem wir diese Fortschritte in aufkeimenden theoretischen Rahmenwerken wie Bayes-Methoden und Conformal Prediction verankern, bieten wir eine einheitliche Perspektive auf diesen transformativen Trend. Dieser Survey bietet einen umfassenden Überblick, eine kritische Analyse und praktische Entwurfsmuster und argumentiert, dass die Beherrschung des neuen Trends der Unsicherheit entscheidend für den Aufbau der nächsten Generation von skalierbaren, zuverlässigen und vertrauenswürdigen KI-Systemen ist.

MirrorBench: Ein erweiterbares Framework zur Bewertung der Menschähnlichkeit von User-Proxy-Agenten
MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

Jan 13

ByAshutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli

Große Sprachmodelle (LLMs) werden zunehmend als menschliche Simulatoren eingesetzt, sowohl zur Bewertung konversationeller Systeme als auch zur Erzeugung von Feinjustierungsdaten. Naives "Verhalte-dich-wie-ein-Nutzer"-Prompting führt jedoch oft zu wortreichen, unrealistischen Äußerungen, was den Bedarf an einer prinzipienbasierten Evaluation sogenannter User-Proxy-Agenten unterstreicht. Wir stellen MIRRORBENCH vor, ein reproduzierbares, erweiterbares Benchmarking-Framework, das User-Proxies ausschließlich anhand ihrer Fähigkeit bewertet, menschenähnliche Nutzeräußerungen über verschiedene Konversationsaufgaben hinweg zu erzeugen – explizit entkoppelt vom Erfolg bei der nachgelagerten Aufgabe. MIRRORBENCH verfügt über eine modulare Ausführungsengine mit typisierten Schnittstellen, metadatengesteuerten Registries, Multi-Backend-Unterstützung, Caching und robuster Beobachtbarkeit. Das System unterstützt steckbare User-Proxies, Datensätze, Aufgaben und Metriken, sodass Forscher beliebige Simulatoren unter einer einheitlichen, varianzbewussten Rahmenbedingung evaluieren können. Wir integrieren drei lexikalische Diversitätsmetriken (MATTR, YULES K und HD-D) und drei auf LLM-Judges basierende Metriken (GTEval, paarweise Ununterscheidbarkeit und Rubrik-mit-Begründung). Über vier offene Datensätze hinweg liefert MIRRORBENCH varianzbewusste Ergebnisse und deckt systematische Lücken zwischen User-Proxies und echten menschlichen Nutzern auf. Das Framework ist Open-Source und beinhaltet eine einfache Kommandozeilenschnittstelle zum Ausführen von Experimenten, Verwalten von Konfigurationen und Caches sowie Erstellen von Berichten. Das Framework ist unter https://github.com/SAP/mirrorbench zugänglich.

Numbabeschleunigte 2D diffusionslimitierte Aggregation: Implementierung und fraktale Charakterisierung
Numba-Accelerated 2D Diffusion-Limited Aggregation: Implementation and Fractal Characterization

Jan 21

BySandy H. S. Herho, Faiz R. Fajary, Iwan P. Anwar, Faruq Khadami, Nurjanna J. Trilaksono, Rusmawan Suwarman, Dasapta E. Irawan

Wir stellen dla-ideal-solver vor, ein leistungsstarkes Framework zur Simulation zweidimensionaler diffusionsbegrenzter Aggregation (DLA) mit Numba-beschleunigtem Python. Durch den Einsatz von Just-in-Time (JIT)-Kompilierung erreichen wir einen Durchsatz, der mit herkömmlichen statischen Implementierungen vergleichbar ist, bei gleichzeitiger Beibehaltung einer hohen Flexibilität auf Abstraktionsebene. Wir untersuchen die Laplace-Wachstumsinstabilität über verschiedene Injektionsgeometrien und Walker-Konzentrationen hinweg. Unsere Analyse bestätigt die Robustheit der standardmäßigen Fraktaldimension D_f ≈ 1,71 für verdünnte Regime, was mit der Universalitätsklasse nach Witten-Sander konsistent ist. Allerdings beobachten wir einen deutlichen Übergang zu Eden-artigem, kompaktem Wachstum (D_f ≈ 1,87) in Hochdichte-Umgebungen, was der Sättigung der Abschirmlänge zugeschrieben wird. Über die Standard-Masse-Radius-Skalierung hinaus setzen wir verallgemeinerte Rényi-Dimensionen und Lakunaritätsmetriken ein, um den monofraktalen Charakter und die räumliche Heterogenität der Aggregate zu quantifizieren. Diese Arbeit schafft eine reproduzierbare, quelloffene Testumgebung zur Erforschung von Phasenübergängen in der Statistischen Mechanik fernab des Gleichgewichts.

Wigners Freund als Schaltkreis: Benchmarking von Kommunikationszeugen zwischen Zweigen auf supraleitender Quantenhardware
Wigner's Friend as a Circuit: Inter-Branch Communication Witness Benchmarks on Superconducting Quantum Hardware

Jan 22

ByChristopher Altman

Wir implementieren und benchmarken auf IBM-Quantenhardware die von Violaris vorgeschlagene Schaltkreis-Familie zur Schätzung operationeller Inter-Branch-Kommunikationswitnesse, definiert als Korrelationen in klassischen Messdaten, die durch kompilierte Wigner’s-Friend-artige Schaltkreise erzeugt werden. Wir realisieren eine Fünf-Qubit-Instanz des Protokolls als Nachrichtentransfermuster zwischen Registern innerhalb eines einzelnen Schaltkreises anstelle von physischer Signalübertragung und bewerten sein Verhalten unter realistischen Geräterauschen und Kompilierungseinschränkungen. Der Schaltkreis kodiert eine verzweigungsbedingte Evolution eines Beobachtersubsystems, dessen Dynamik von einem Kontrollqubit abhängt, gefolgt von einer kontrollierten Transferoperation, die Korrelationen zwischen konditionalen Messkontexten abtastet. Bei der Ausführung auf dem ibm_fez-Backend mit 20000 Shots beobachten wir eine populationsbasierte Sichtbarkeit von 0,877, Kohärenzwitnesse von 0,840 und -0,811 entlang orthogonaler Achsen und eine phasenempfindliche Magnitude von etwa 1,17. Während die Sichtbarkeitsmetrik unempfindlich gegenüber bestimmten Klassen von Dephasierung ist, bieten die Kohärenzwitnesse eine komplementäre Empfindlichkeit gegenüber nichtdiagonalem Rauschen. Diese Arbeit testet oder diskriminiert nicht zwischen Interpretationen der Quantenmechanik. Stattdessen stellt sie eine reproduzierbare Pipeline operationeller Constraints zur Bewertung der Nachweisbarkeit nicht-idealer Kanäle relativ zu kalibriertem Geräterauschen bereit.

Bewertung von LLM-Prompts für Bildungsanwendungen
LLM Prompt Evaluation for Educational Applications

Jan 22

ByLangdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris

Da große Sprachmodelle (LLMs) zunehmend in Bildungsanwendungen verbreitet sind, besteht ein wachsender Bedarf an evidenzbasierten Methoden zur Gestaltung und Bewertung von LLM-Prompts, die personalisierte und pädagogisch abgestimmte Ergebnisse liefern. Diese Studie stellt einen generalisierbaren, systematischen Ansatz zur Bewertung von Prompts vor, demonstriert durch eine Analyse von LLM-generierten Nachfragen in einer strukturierten Dialogaktivität. Sechs Prompt-Vorlagen wurden entworfen und getestet. Die Vorlagen integrierten etablierte Prompt-Engineering-Muster, wobei jeder Prompt unterschiedliche pädagogische Strategien betonte. Die Prompt-Vorlagen wurden durch einen turnierbasierten Bewertungsrahmen verglichen, der für andere Bildungsanwendungen adaptiert werden kann. Das Turnier verwendete das Glicko2-Bewertungssystem, wobei acht Gutachter Fragepaare in drei Dimensionen bewerteten: Format, Dialogunterstützung und Eignung für Lernende. Die Daten stammten aus 120 authentischen Nutzerinteraktionen über drei verschiedene Bildungseinsätze hinweg. Die Ergebnisse zeigten, dass ein einzelner Prompt zum strategischen Lesen andere Vorlagen übertraf, mit Gewinnwahrscheinlichkeiten zwischen 81 % und 100 % in paarweisen Vergleichen. Dieser Prompt kombinierte Personen- und Kontextmanager-Muster und war darauf ausgelegt, metakognitive Lernstrategien wie selbstgesteuertes Lernen zu unterstützen. Die Methodik veranschaulicht, wie Bildungstechnologie-Forscher Prompt-Designs systematisch bewerten und verbessern können, um sich von ad-hoc Prompt-Engineering hin zu evidenzbasierter Prompt-Entwicklung für Bildungsanwendungen zu bewegen.