HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

27 papers found

EvoCUA: Evoluerende Computergebruik-Agents via Leren van Schaalbare Synthetische Ervaring
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

Jan 22

ByTaofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han, Haozhe Wang, Jianing Wang, Xiaocheng Zhang, Xin Yang, Dengchang Zhao, Jinrui Ding, Xiandi Ma, Yuchen Xie, Peng Pei, Xunliang Cai, Xipeng Qiu

De ontwikkeling van native computergebruik-agenten (CUA) vertegenwoordigt een significante sprong voorwaarts in multimodale AI. Hun potentieel wordt echter momenteel beperkt door de constraints van statische data-schaling. Bestaande paradigma's die voornamelijk steunen op passieve imitatie van statische datasets, slagen er niet in de complexe causale dynamiek inherent aan langetermijn-computertaken te vangen. In dit werk introduceren we EvoCUA, een native computergebruik-agentmodel. In tegenstelling tot statische imitatie integreert EvoCUA datageneratie en beleidsoptimalisatie in een zichzelf in stand houdende evolutionaire cyclus. Om dataschaarste tegen te gaan, ontwikkelden we een verifieerbare synthese-engine die autonoom diverse taken genereert, gekoppeld aan uitvoerbare validators. Om grootschalige ervaringsverwerving mogelijk te maken, ontwierpen we een schaalbare infrastructuur die tienduizenden asynchrone sandbox-uitvoeringen orkestreert. Voortbouwend op deze massale trajecten stellen we een iteratieve evolutionaire leerstrategie voor om deze ervaring efficiënt te internaliseren. Dit mechanisme reguleert dynamisch beleidsupdates door capaciteitsgrenzen te identificeren – het versterkt succesvolle routines terwijl falende trajecten worden omgezet in rijke supervisie door foutenanalyse en zelfcorrectie. Empirische evaluaties op de OSWorld-benchmark tonen aan dat EvoCUA een slagingspercentage van 56,7% bereikt, waarmee een nieuwe open-source state-of-the-art wordt gevestigd. Opmerkelijk is dat EvoCUA aanzienlijk beter presteert dan het vorige beste open-source model, OpenCUA-72B (45,0%), en gesloten gewichtsmodellen zoals UI-TARS-2 (53,1%) overtreft. Cruciaal is dat onze resultaten de generaliseerbaarheid van deze aanpak onderstrepen: het evolutionaire paradigma, aangedreven door leren uit ervaring, levert consistente prestatieverbeteringen op bij foundation-modellen van uiteenlopende schaal, en vestigt zo een robuust en schaalbaar pad voor het verbeteren van native agent-capaciteiten.

LLM-in-Sandbox Ontlokt Algemene Agentische Intelligentie
LLM-in-Sandbox Elicits General Agentic Intelligence

Jan 22

ByDaixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen, Li Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei

Wij introduceren LLM-in-Sandbox, waarmee grote taalmodellen (LLMs) kunnen opereren binnen een code-sandbox (een virtuele computer) om algemene intelligentie aan te wakkeren in niet-code-domeinen. We tonen eerst aan dat krachtige LLMs, zonder aanvullende training, generalisatievermogen vertonen om de code-sandbox in te zetten voor niet-code-taken. LLMs benaderen bijvoorbeeld spontaan externe bronnen om nieuwe kennis te vergaren, gebruiken het bestandssysteem om lange contexten te verwerken, en voeren scripts uit om aan opmaakvereisten te voldoen. Verder laten we zien dat deze agent-capaciteiten versterkt kunnen worden via LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), waarbij alleen niet-agent-gegevens worden gebruikt om modellen te trainen voor sandbox-verkenning. Experimenten tonen aan dat LLM-in-Sandbox, zowel in training-vrije als nagescholen settings, robuuste generalisatie bereikt over domeinen als wiskunde, natuurkunde, scheikunde, biomedische wetenschappen, begrip van lange contexten en het opvolgen van instructies. Ten slotte analyseren we de efficiëntie van LLM-in-Sandbox vanuit computationeel en systeemperspectief, en maken we het openbaar beschikbaar als een Python-pakket om praktische implementatie te vergemakkelijken.

HERMES: KV-Cache als Hiërarchisch Geheugen voor Efficiënt Begrip van Streaming Video
HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

Jan 21

ByHaowei Zhang, Shudong Yang, Jinlan Fu, See-Kiong Ng, Xipeng Qiu

Recente vooruitgang in Multimodale Large Language Models (MLLM's) heeft een significante verbetering aangetoond in het offline begrip van video's. Het uitbreiden van deze capaciteiten naar stromende videogegevens blijft echter een uitdaging, omdat bestaande modellen moeite hebben om tegelijkertijd een stabiele begripsprestatie, realtime reacties en een lage GPU-geheugenbelasting te handhaven. Om deze uitdaging aan te pakken, stellen wij HERMES voor, een nieuwe, trainingsvrije architectuur voor realtime en accuraat begrip van videostreams. Gebaseerd op een mechanistisch onderzoek naar aandacht, conceptualiseren we de KV-cache als een hiërarchisch geheugenkader dat video-informatie op meerdere granulariteiten vastlegt. Tijdens inferentie hergebruikt HERMES een compacte KV-cache, waardoor efficiënt stream-begrip onder beperkte middelen mogelijk wordt. Opmerkelijk is dat HERMES geen hulpberekeningen vereist bij de aankomst van gebruikersvragen, waardoor realtime reacties voor continue videostream-interacties worden gegarandeerd, wat een 10 keer snellere TTFT bereikt in vergelijking met eerdere state-of-the-art. Zelfs wanneer videotokens met tot 68% worden verminderd in vergelijking met uniforme sampling, behaalt HERMES superieure of vergelijkbare nauwkeurigheid op alle benchmarks, met winsten tot 11,4% op streamingdatasets.

De flexibiliteitsval: Waarom willekeurige volgorde het redeneerpotentieel van diffusion language models beperkt
The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Jan 21

ByZanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang

Diffusion Large Language Models (dLLM's) doorbreken de rigide links-naar-rechtsbeperking van traditionele LLM's, waardoor tokens in willekeurige volgorde gegenereerd kunnen worden. Intuïtief impliceert deze flexibiliteit een oplossingsruimte die strikt groter is dan het vaste autogressieve pad, wat in theorie superieur redeneervermogen zou moeten ontsluiten voor algemene taken zoals wiskunde en programmeren. Als gevolg hiervan hebben tal van onderzoeken reinforcement learning (RL) ingezet om het redeneervermogen van dLLM's te stimuleren. In dit artikel onthullen we een contra-intuïtieve realiteit: generatie in willekeurige volgorde, in haar huidige vorm, verkleint in plaats van vergroot de redeneergrens van dLLM's. Wij constateren dat dLLM's de neiging hebben deze ordeningsflexibiliteit te misbruiken om tokens met hoge onzekerheid, die cruciaal zijn voor exploratie, te omzeilen, wat leidt tot een vroegtijdige ineenstorting van de oplossingsruimte. Deze observatie tart het uitgangspunt van bestaande RL-benaderingen voor dLLM's, waarbij aanzienlijke complexiteiten, zoals het hanteren van combinatorische trajecten en onhanteerbare waarschijnlijkheden, vaak worden ingezet om deze flexibiliteit te behouden. Wij tonen aan dat effectief redeneren beter wordt gestimuleerd door opzettelijk af te zien van willekeurige volgorde en in plaats daarvan standaard Group Relative Policy Optimization (GRPO) toe te passen. Onze benadering, JustGRPO, is minimalistisch maar verrassend effectief (bijvoorbeeld 89,1% nauwkeurigheid op GSM8K) en behoudt tegelijkertijd volledig het parallelle decodeervermogen van dLLM's. Projectpagina: https://nzl-thu.github.io/the-flexibility-trap

Qwen3-TTS Technisch Rapport
Qwen3-TTS Technical Report

Jan 22

ByHangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin

In dit rapport presenteren wij de Qwen3-TTS-reeks, een familie van geavanceerde, meertalige, bestuurbare, robuuste en streaming tekst-naar-spraakmodellen. Qwen3-TTS ondersteunt state-of-the-art stemklonering in 3 seconden en op beschrijving gebaseerde controle, wat zowel de creatie van volledig nieuwe stemmen als fijnmazige manipulatie van de uitgesproken spraak mogelijk maakt. Getraind op meer dan 5 miljoen uur spraakdata in 10 talen, hanteert Qwen3-TTS een dual-track LM-architectuur voor real-time synthese, gekoppeld aan twee spraak-tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is een single-codebook codec die de nadruk legt op semantische inhoud, zorgt voor naadloze integratie met Qwen-Audio en maakt streaming golfvormreconstructie mogelijk via een bloksgewijze DiT. 2) Qwen-TTS-Tokenizer-12Hz bereikt een extreme bitrateverlaging en ultra-lage latentie voor streaming, waardoor onmiddellijke emissie van het eerste pakket (97 ms) mogelijk is dankzij zijn 12,5 Hz, 16-laags multi-codebook ontwerp en een lichtgewicht causaal ConvNet. Uitgebreide experimenten tonen state-of-the-art prestaties aan op uiteenlopende objectieve en subjectieve benchmarks (bijv. TTS meertalige testset, InstructTTSEval en onze lange-spraak-testset). Om onderzoek en ontwikkeling in de community te faciliteren, geven wij zowel de tokenizers als de modellen vrij onder de Apache 2.0-licentie.

BayesianVLA: Bayesische Ontbinding van Vision-Language-Action Modellen via Latente Actie-queries
BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Jan 21

ByShijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen

Vision-Language-Action (VLA)-modellen tonen potentie voor robotmanipulatie, maar hebben vaak moeite met generaliseren naar nieuwe instructies of complexe multi-task scenario's. Wij identificeren een kritiek mankement in huidige trainingsparadigma's waarbij doelgerichte datacollectie een datasetbias creëert. In dergelijke datasets zijn taal instructies zeer voorspelbaar op basis van alleen visuele observaties, waardoor de voorwaardelijke wederzijdse informatie tussen instructies en acties verdwijnt, een fenomeen dat wij Informatie-Instorting noemen. Als gevolg daarvan degenereren modellen tot visie-only-beleidsregels die taalrestricties negeren en falen in out-of-distribution (OOD) settings. Om dit aan te pakken, stellen we BayesianVLA voor, een nieuw raamwerk dat het volgen van instructies afdwingt via Bayesiaanse decompositie. Door invoer van leerbare Latente Actie-Query's construeren we een dual-branch architectuur om zowel een visie-only prior p(a|v) als een taal-geconditioneerde posterior π(a|v,ℓ) te schatten. Vervolgens optimaliseren we het beleid om de voorwaardelijke Puntsgewijze Wederzijdse Informatie (PMI) tussen acties en instructies te maximaliseren. Dit doelstelling bestraft effectief de visuele shortcut en beloont acties die de taalopdracht expliciet verklaren. Zonder nieuwe data te vereisen, verbetert BayesianVLA de generalisatie aanzienlijk. Uitgebreide experimenten in SimplerEnv en RoboCasa demonstreren substantiële verbeteringen, waaronder een verbetering van 11,3% op de uitdagende OOD SimplerEnv-benchmark, wat het vermogen van onze aanpak valideert om taal robuust te gronden in actie.

Stable-DiffCoder: Het Grensgebied Verleggen van Code-Diffusie Grote Taalmodellen
Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

Jan 22

ByChenghao Fan, Wen Heng, Bo Li, Sichen Liu, Yuxuan Song, Jing Su, Xiaoye Qu, Kai Shen, Wei Wei

Diffusiegebaseerde taalmodelen (DLLM's) bieden niet-sequentiële, bloksgewijze generatie en een rijkere gegevenshergebruik in vergelijking met autoregressieve (AR) modellen, maar bestaande code-DLLM's blijven achter bij sterke AR-basislijnen onder vergelijkbare budgetten. Wij hernemen deze instelling in een gecontroleerde studie en introduceren Stable-DiffCoder, een blokdiffusie-codemodel dat de Seed-Coder-architectuur, gegevens en trainingspijplijn hergebruikt. Om efficiënt kennisleren en stabiele training mogelijk te maken, integreren we een blokdiffusie voortgezette pretraining (CPT)-fase, versterkt door een op maat gemaakte opwarmfase en een bloksgewijs afgeknipt ruisschema. Onder dezelfde gegevens en architectuur presteert Stable-DiffCoder over het algemeen beter dan zijn AR-tegenhanger op een breed scala aan codebenchmarks. Bovendien bereikt Stable-DiffCoder, uitsluitend vertrouwend op de CPT- en supervised fine-tuning-fases, sterkere prestaties dan een breed scala aan ~8B AR's en DLLM's, wat aantoont dat diffusiegebaseerde training de kwaliteit van codemodellering kan verbeteren beyond alleen AR-training. Bovendien verbetert diffusiegebaseerde modellering in willekeurige volgorde de gestructureerde codemodellering voor bewerking en redenering, en komt het via gegevensaugmentatie ten goede aan codeertalen met weinig middelen.

Schaalvergroting van Text-to-Image Diffusion Transformers met Representatie Auto-encoders
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Jan 22

ByShengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie

Representatie Auto-encoders (RAE's) hebben duidelijke voordelen getoond in diffusiemodellering op ImageNet door training in hoogdimensionale semantische latente ruimten. In dit werk onderzoeken we of dit raamwerk kan worden opgeschaald naar grootschalige, vrije tekst-naar-beeld (T2I) generatie. We schalen eerst RAE-decoders op de bevroren representatie-encoder (SigLIP-2) voorbij ImageNet door training op web-, synthetische en tekstweergave-gegevens, waarbij we vaststellen dat hoewel schaal de algemene getrouwheid verbetert, gerichte datasamenstelling essentieel is voor specifieke domeinen zoals tekst. Vervolgens onderwerpen we de oorspronkelijk voor ImageNet voorgestelde RAE-ontwerpkeuzes rigoureus aan stresstests. Onze analyse onthult dat opschaling het raamwerk vereenvoudigt: hoewel dimensie-afhankelijke ruisplanning cruciaal blijft, bieden architecturale complexiteiten zoals brede diffusiekoppen en ruis-gemodificeerd decoderen verwaarloosbare voordelen op schaal. Op basis van dit vereenvoudigde raamwerk voeren we een gecontroleerde vergelijking uit van RAE's met de state-of-the-art FLUX VAE, over diffusietransformator-schalen van 0,5B tot 9,8B parameters. RAE's presteren consistent beter dan VAE's tijdens de voortraining op alle modelschalen. Bovendien, tijdens finetunen op hoogwaardige datasets, vertoonden op VAE gebaseerde modellen catastrofale overfitting na 64 epochs, terwijl RAE-modellen stabiel bleven gedurende 256 epochs en consistent betere prestaties bereikten. In alle experimenten toonden op RAE gebaseerde diffusiemodellen snellere convergentie en betere generatiekwaliteit, waarmee RAE's worden gevestigd als een eenvoudiger en sterker fundament dan VAE's voor grootschalige T2I-generatie. Een bijkomend voordeel is dat, omdat zowel visueel begrip als generatie kunnen opereren in een gedeelde representatieruimte, het multimodale model direct kan redeneren over gegenereerde latente representaties, wat nieuwe mogelijkheden opent voor verenigde modellen.

Leren ontdekken tijdens de testfase
Learning to Discover at Test Time

Jan 22

ByMert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun

Hoe kunnen we AI gebruiken om een nieuwe state-of-the-art voor een wetenschappelijk probleem te ontdekken? Eerder werk op het gebied van test-time scaling, zoals AlphaEvolve, voert zoekopdrachten uit door een bevroren LLM te 'prompten'. Wij passen reinforcement learning toe tijdens de testfase, zodat het LLM kan blijven trainen, maar nu met ervaring die specifiek is voor het testprobleem. Deze vorm van continu leren is bijzonder, omdat het doel is om één excellente oplossing te produceren in plaats van gemiddeld veel goede, en om dit specifieke probleem op te lossen in plaats van te generaliseren naar andere problemen. Daarom zijn onze leerdoelstelling en zoeksubroutine ontworpen om de meest veelbelovende oplossingen te prioriteren. We noemen deze methode Test-Time Training to Discover (TTT-Discover). In navolging van eerder werk richten we ons op problemen met continue beloningen. We rapporteren resultaten voor elk probleem dat we hebben geprobeerd, binnen wiskunde, GPU-kernelengineering, algoritme-ontwerp en biologie. TTT-Discover vestigt de nieuwe state-of-the-art in bijna alle gevallen: (i) Erdős' minimum overlap-probleem en een autocorrelatie-ongelijkheid; (ii) een GPUMode kernelwedstrijd (tot 2x sneller dan de vorige state-of-the-art); (iii) eerdere AtCoder algoritmewedstrijden; en (iv) een denoising-probleem in single-cell analyse. Onze oplossingen worden beoordeeld door experts of de organisatoren. Al onze resultaten worden behaald met een open model, OpenAI gpt-oss-120b, en zijn reproduceerbaar met onze publiek beschikbare code, in tegenstelling tot eerdere beste resultaten die gesloten frontier-modellen vereisten. Onze test-time training runs worden uitgevoerd met Tinker, een API van Thinking Machines, tegen een kostprijs van slechts enkele honderden dollars per probleem.

SAMTok: Elke Masker Weergeven met Twee Woorden
SAMTok: Representing Any Mask with Two Words

Jan 22

ByYikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li

Pixelsgewijze mogelijkheden zijn essentieel voor het bouwen van interactieve intelligente systemen. Pixelsgewijze multimodale LLM's (MLLM's) blijven echter moeilijk op te schalen vanwege complexe regioniveau-encoders, gespecialiseerde segmentatiedecoders en onverenigbare trainingsdoelstellingen. Om deze uitdagingen aan te pakken, presenteren wij SAMTok, een discrete maskertokenizer die elk regiomasker omzet in twee speciale tokens en het masker met hoge nauwkeurigheid reconstrueert met behulp van deze tokens. Door maskers als nieuwe taaltokens te behandelen, stelt SAMTok basale MLLM's (zoals de QwenVL-reeks) in staat pixelsgewijze mogelijkheden aan te leren via standaard volgende-tokenvoorspelling en eenvoudige reinforcement learning, zonder aanpassingen aan de architectuur of gespecialiseerd verliesontwerp. SAMTok bouwt voort op SAM2 en is getraind op 209 miljoen diverse maskers met behulp van een maskerencoder en residuele vectorquantizer om discrete, compacte en informatieve tokens te produceren. Met 5 miljoen SAMTok-geformatteerde gegevensmonsters voor maskerbegrip en -generatie behaalt QwenVL-SAMTok state-of-the-art of vergelijkbare resultaten voor regiobeschrijving, regio-VQA, gegronde conversatie, refererende segmentatie, scènegraphparsing en interactieve segmentatie in meerdere rondes. Wij introduceren verder een tekstuele beloning voor antwoordmatching die efficiënte reinforcement learning mogelijk maakt voor maskergeneratie, wat aanzienlijke verbeteringen oplevert op de GRES- en GCG-benchmarks. Onze resultaten tonen een schaalbaar en eenvoudig paradigma aan voor het uitrusten van MLLM's met sterke pixelsgewijze mogelijkheden. Onze code en modellen zijn beschikbaar.

Terminal-Bench: Het benchmarken van agents op moeilijke, realistische taken in commandoregelinterfaces
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Jan 17

ByMike A. Merrill, Alexander G. Shaw, Nicholas Carlini, Boxuan Li, Harsh Raj, Ivan Bercovich, Lin Shi, Jeong Yeon Shin, Thomas Walshe, E. Kelly Buchanan, Junhong Shen, Guanghao Ye, Haowei Lin, Jason Poulos, Maoyu Wang, Marianna Nezhurina, Jenia Jitsev, Di Lu, Orfeas Menis Mastromichalakis, Zhiwei Xu, Zizhao Chen, Yue Liu, Robert Zhang, Leon Liangyu Chen, Anurag Kashyap, Jan-Lucas Uslu, Jeffrey Li, Jianbo Wu, Minghao Yan, Song Bian, Vedang Sharma, Ke Sun, Steven Dillmann, Akshay Anand, Andrew Lanpouthakoun, Bardia Koopah, Changran Hu, Etash Guha, Gabriel H. S. Dreiman, Jiacheng Zhu, Karl Krauth, Li Zhong, Niklas Muennighoff, Robert Amanfu, Shangyin Tan, Shreyas Pimpalgaonkar, Tushar Aggarwal, Xiangning Lin, Xin Lan, Xuandong Zhao, Yiqing Liang, Yuanli Wang, Zilong Wang, Changzhi Zhou, David Heineman, Hange Liu, Harsh Trivedi, John Yang, Junhong Lin, Manish Shetty, Michael Yang, Nabil Omi, Negin Raoof, Shanda Li, Terry Yue Zhuo, Wuwei Lin, Yiwei Dai, Yuxin Wang, Wenhao Chai, Shang Zhou, Dariush Wahdany, Ziyu She, Jiaming Hu, Zhikang Dong, Yuxuan Zhu, Sasha Cui, Ahson Saiyed, Arinbjörn Kolbeinsson, Jesse Hu, Christopher Michael Rytting, Ryan Marten, Yixin Wang, Alex Dimakis, Andy Konwinski, Ludwig Schmidt

AI-agents zullen mogelijk binnenkort in staat zijn om zelfstandig waardevolle, langetermijntaken in diverse domeinen uit te voeren. Huidige benchmarks meten óf geen realistische taken, óf zijn niet voldoende uitdagend om frontier-modellen zinvol te evalueren. Daarom presenteren wij Terminal-Bench 2.0: een zorgvuldig samengestelde, uitdagende benchmark bestaande uit 89 taken in computerterminalomgevingen, geïnspireerd op problemen uit werkelijke workflows. Elke taak omvat een unieke omgeving, een door mensen geschreven oplossing en uitgebreide tests voor verificatie. Wij tonen aan dat frontier-modellen en agents minder dan 65% scoren op de benchmark en voeren een foutenanalyse uit om verbeterpunten voor modellen en agents te identificeren. Wij publiceren de dataset en evaluatie-omgeving om ontwikkelaars en onderzoekers te ondersteunen bij toekomstig werk op https://www.tbench.ai/.

OpenVision 3: Een Familie van Geïntegreerde Visuele Encoders voor Zowel Begrip als Generatie
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Jan 21

ByLetian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie

Dit artikel presenteert een familie van geavanceerde vision-encoders, genaamd OpenVision 3, die een enkele, verenigde visuele representatie leert die zowel beeldbegrip als beeldgeneratie kan dienen. Onze kernarchitectuur is eenvoudig: we voeren VAE-gecomprimeerde beeldlatenten toe aan een ViT-encoder en trainen de output om twee complementaire rollen te ondersteunen. Ten eerste wordt de encoder-output doorgegeven aan de ViT-VAE-decoder om het originele beeld te reconstrueren, wat de representatie aanmoedigt om generatieve structuur vast te leggen. Ten tweede wordt dezelfde representatie geoptimaliseerd met contrastieve leer- en beeld-bijschriftingsdoelstellingen, om semantische kenmerken te versterken. Door reconstructie- en semantiek-gestuurde signalen gezamenlijk te optimaliseren in een gedeelde latente ruimte, leert de encoder representaties die synergetisch zijn en goed generaliseren over beide regimes. We valideren dit verenigde ontwerp via uitgebreide downstream-evaluaties met de encoder bevroren. Voor multimodaal begrip pluggen we de encoder in het LLaVA-1.5-framework: deze presteert vergelijkbaar met een standaard CLIP-vision-encoder (bijv. 62,4 vs 62,2 op SeedBench, en 83,7 vs 82,9 op POPE). Voor generatie testen we deze binnen het RAE-framework: de onze overtreft de standaard CLIP-gebaseerde encoder aanzienlijk (bijv. gFID: 1,89 vs 2,54 op ImageNet). We hopen dat dit werk toekomstig onderzoek naar verenigde modellering kan stimuleren.

Naar geautomatiseerde kernelgeneratie in het tijdperk van LLM's
Towards Automated Kernel Generation in the Era of LLMs

Jan 22

ByYang Yu, Peiyu Zang, Chi Hsu Tsai, Haiming Wu, Yixin Shen, Jialing Zhang, Haoyu Wang, Zhiyou Xiao, Jingze Shi, Yuyu Luo, Wentao Zhang, Chunlei Men, Guang Liu, Yonghua Lin

De prestaties van moderne AI-systemen worden fundamenteel beperkt door de kwaliteit van hun onderliggende kernels, die hoogwaardige algoritmische semantiek vertalen naar laagwaardige hardwareoperaties. Het bereiken van bijna-optimale kernels vereist een expertniveau van begrip van hardware-architecturen en programmeermodellen, wat kernelengineering tot een kritieke maar berucht tijdrovende en niet-schaalbare proces maakt. Recente vooruitgang in grote taalmodellen (LLM's) en op LLM's gebaseerde agents heeft nieuwe mogelijkheden geopend voor het automatiseren van kernelgeneratie en -optimalisatie. LLM's zijn bijzonder geschikt om expertkennis over kernels, die moeilijk te formaliseren is, te comprimeren, terwijl agent-systemen verdere schaalbare optimalisatie mogelijk maken door kernelontwikkeling te modelleren als een iteratieve, op feedback gebaseerde lus. Er is snelle vooruitgang geboekt op dit gebied. Desalniettemin blijft het veld gefragmenteerd en ontbreekt het aan een systematisch perspectief voor LLM-gedreven kernelgeneratie. Dit overzichtsartikel dicht deze kloof door een gestructureerd overzicht te bieden van bestaande benaderingen, variërend van op LLM's gebaseerde methoden tot agent-gedreven optimalisatieworkflows, en door de datasets en benchmarks die het leren en de evaluatie in dit domein ondersteunen systematisch samen te stellen. Bovendien worden belangrijke open uitdagingen en toekomstige onderzoeksrichtingen geschetst, met als doel een uitgebreide referentie te creëren voor de volgende generatie geautomatiseerde kerneloptimalisatie. Om dit veld te volgen, onderhouden we een open-source GitHub-repository op https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.

VideoMaMa: Mask-geleide video-matting via generatieve prior
VideoMaMa: Mask-Guided Video Matting via Generative Prior

Jan 20

BySangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee

Het generaliseren van videomattingmodellen naar real-world video's blijft een grote uitdaging vanwege de schaarste aan gelabelde data. Om dit aan te pakken, presenteren we het Video Mask-to-Matte Model (VideoMaMa), dat grove segmentatiemaskers omzet in pixel-accurate alfamatten door gebruik te maken van voorgetrainde videodiffusiemodellen. VideoMaMa vertoont sterke zero-shot generalisatie naar real-world beelden, ook al is het uitsluitend getraind op synthetische data. Voortbouwend op deze capaciteit ontwikkelen we een schaalbare pseudolabeling-pijplijn voor grootschalige videomatting en construeren we de Matting Anything in Video (MA-V) dataset, die hoogwaardige mattingannotaties biedt voor meer dan 50.000 real-world video's die diverse scènes en bewegingen omvatten. Om de effectiviteit van deze dataset te valideren, fine-tunen we het SAM2-model op MA-V om SAM2-Matte te verkrijgen, dat dezelfde, op bestaande mattingdatasets getrainde model overtreft wat betreft robuustheid op in-the-wild video's. Deze bevindingen benadrukken het belang van grootschalige pseudo-gelabelde videomatting en tonen aan hoe generatieve prior kennis en toegankelijke segmentatieaanwijzingen schaalbare vooruitgang in videomattingonderzoek kunnen stimuleren.

Cosmos-beleid: Het finetunen van videomodellen voor visuomotorische controle en planning
Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Jan 22

ByMoo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu

Recente videogeneratiemodellen tonen een opmerkelijke capaciteit om complexe fysieke interacties en scène-evolutie in de tijd vast te leggen. Om hun spatiotemporele voorkennis te benutten, hebben roboticawerkzaamheden videomodellen aangepast voor beleidsleren, maar introduceren ze complexiteit door meerdere fasen van natraining en nieuwe architectuurcomponenten voor actiegeneratie te vereisen. In dit werk introduceren we Cosmos Policy, een eenvoudige aanpak om een groot vooraf getraind videomodel (Cosmos-Predict2) aan te passen tot een effectief robotbeleid via een enkele fase van natraining op de robotdemonstratiedata die op het doelplatform zijn verzameld, zonder architectuurwijzigingen. Cosmos Policy leert om direct robotacties te genereren die zijn gecodeerd als latente frames binnen het latente diffusieproces van het videomodel, waarbij de vooraf getrainde voorkennis en het kernleeralgoritme van het model worden benut om complexe actieverdelingen vast te leggen. Bovendien genereert Cosmos Policy toekomstige toestandsbeelden en waarden (verwachte cumulatieve beloningen), die op soortgelijke wijze als latente frames zijn gecodeerd, wat planning van actietrajecten tijdens tests mogelijk maakt met een hogere kans op succes. In onze evaluaties behaalt Cosmos Policy state-of-the-art prestaties op de LIBERO- en RoboCasa-simulatiebenchmarks (respectievelijk 98,5% en 67,1% gemiddeld slagingspercentage) en de hoogste gemiddelde score in uitdagende real-world bimanuele manipulatietaken, waarbij het sterke diffusiebeleid die vanaf nul zijn getraind, op videomodellen gebaseerde beleidsvormen en state-of-the-art vision-language-action-modellen die zijn afgestemd op dezelfde robotdemonstraties overtreft. Verder kan Cosmos Policy, gegeven beleidsuitroldata, leren van ervaring om zijn wereldmodel en waardefunctie te verfijnen en op modelgebaseerde planning te benutten om nog hogere slagingspercentages te bereiken in uitdagende taken. We geven code, modellen en trainingsdata vrij op https://research.nvidia.com/labs/dir/cosmos-policy/.

Rethinking Composed Image Retrieval Evaluation: Een Fijnmazige Benchmark vanuit Beeldbewerking
Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

Jan 22

ByTingyu Song, Yanzhao Zhang, Mingxin Li, Zhuoning Guo, Dingkun Long, Pengjun Xie, Siyue Zhang, Yilun Zhao, Shu Wu

Composed Image Retrieval (CIR) is een cruciale en complexe taak binnen multimodaal begrip. Bestaande CIR-referentiepunten kenmerken zich doorgaans door een beperkt aantal querycategorieën en slagen er niet in de uiteenlopende vereisten van realistische scenario's vast te leggen. Om deze evaluatiekloof te overbruggen, maken we gebruik van beeldbewerking om precieze controle te verkrijgen over de soorten aanpassingen en de inhoud, wat een pijplijn mogelijk maakt voor het synthetiseren van queries in een breed spectrum van categorieën. Met behulp van deze pijplijn construeren we EDIR, een nieuw CIR-referentiepunt met een fijne granulariteit. EDIR omvat 5.000 hoogwaardige queries, gestructureerd in vijf hoofdcategorieën en vijftien subcategorieën. Onze uitgebreide evaluatie van 13 multimodale inbeddingsmodellen onthult een significante kloof in capaciteit; zelfs state-of-the-art modellen (zoals RzenEmbed en GME) hebben moeite om consistent te presteren across alle subcategorieën, wat de rigoureuze aard van ons referentiepunt onderstreept. Door middel van vergelijkende analyse leggen we verder inherente beperkingen in bestaande referentiepunten bloot, zoals modale vooroordelen en onvoldoende dekking van categorieën. Bovendien toont een in-domein trainingsexperiment de haalbaarheid van ons referentiepunt aan. Dit experiment verduidelijkt de uitdagingen van de taak door onderscheid te maken tussen categorieën die oplosbaar zijn met gerichte data en categorieën die intrinsieke beperkingen van de huidige modelarchitecturen blootleggen.

ActionMesh: Geanimeerde 3D Mesh-generatie met Temporele 3D Diffusie
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

Jan 22

ByRemy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier

Het genereren van geanimeerde 3D-objecten staat centraal in veel toepassingen, maar de meeste geavanceerde werken zijn in de praktijk vaak moeilijk toe te passen vanwege hun beperkte opzet, lange rekentijd of beperkte kwaliteit. Wij introduceren ActionMesh, een generatief model dat op productieniveau gereed zijnde 3D-meshes "in actie" voorspelt op een feed-forward-manier. Geïnspireerd door vroege videomodellen, is ons belangrijkste inzicht dat bestaande 3D-diffusiemodellen moeten worden aangepast om een temporele as op te nemen, wat resulteert in een framework dat wij "temporale 3D-diffusie" hebben genoemd. Concreet passen we eerst de 3D-diffusiefase aan om een reeks gesynchroniseerde latente representaties te genereren die tijd-variërende en onafhankelijke 3D-vormen weergeven. Ten tweede ontwerpen we een temporele 3D-auto-encoder die een reeks onafhankelijke vormen vertaalt naar de corresponderende vervormingen van een vooraf gedefinieerde referentievorm, waardoor we een animatie kunnen opbouwen. Door deze twee componenten te combineren, genereert ActionMesh geanimeerde 3D-meshes vanuit verschillende invoeren, zoals een monocular video, een tekstbeschrijving, of zelfs een 3D-mesh met een tekstprompt die de animatie beschrijft. Daarnaast is onze methode, vergeleken met eerdere benaderingen, snel en produceert het resultaten die rig-vrij en topologie-consistent zijn, waardoor snelle iteratie en naadloze toepassingen zoals texturering en retargeting mogelijk worden. We evalueren ons model op standaard video-naar-4D benchmarks (Consistent4D, Objaverse) en melden state-of-the-art prestaties op zowel geometrische nauwkeurigheid als temporele consistentie, wat aantoont dat ons model geanimeerde 3D-meshes kan leveren met ongekende snelheid en kwaliteit.

PROGRESSLM: Op weg naar voortgangsredenering in visueel-taalkundige modellen
PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

Jan 21

ByJianshu Zhang, Chengxuan Qian, Haosen Sun, Haoran Lu, Dingcheng Wang, Letian Xue, Han Liu

Het schatten van taakvoortgang vereist redeneren over langetermijndynamiek in plaats van het herkennen van statische visuele inhoud. Hoewel moderne Vision-Language Models (VLM's) uitblinken in het beschrijven van wat zichtbaar is, is het onduidelijk of ze kunnen afleiden hoe ver een taak gevorderd is op basis van gedeeltelijke observaties. Daartoe introduceren we Progress-Bench, een benchmark voor het systematisch evalueren van voortgangsredenering in VLM's. Naast benchmarking onderzoeken we verder een menselijk geïnspireerd tweefasen paradigma voor voortgangsredenering via zowel training-vrije prompting als een training-gebaseerde aanpak op basis van de gecureerde dataset ProgressLM-45K. Experimenten met 14 VLM's tonen aan dat de meeste modellen nog niet klaar zijn voor taakvoortgangsschatting, waarbij ze gevoeligheid vertonen voor demonstratiemodaliteit en viewpointveranderingen, evenals een slechte afhandeling van onbeantwoordbare gevallen. Hoewel training-vrije prompting die gestructureerde voortgangsredenering afdwingt beperkte en modelafhankelijke verbeteringen oplevert, behaalt de training-gebaseerde ProgressLM-3B consistente verbeteringen, zelfs bij een kleine modelschaal, ondanks training op een taakset die volledig disjunct is van de evaluatietaken. Verdere analyses onthullen karakteristieke foutpatronen en verduidelijken wanneer en waarom voortgangsredenering slaagt of faalt.

Agentische Onzekerheidskwantificering
Agentic Uncertainty Quantification

Jan 22

ByJiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu

Hoewel AI-agenten indrukwekkende capaciteiten hebben getoond in redeneren over lange tijdshorizons, wordt hun betrouwbaarheid ernstig beperkt door de "Spiraal van Hallucinatie", waarbij vroege epistemische fouten zich onomkeerbaar voortplanten. Bestaande methoden staan voor een dilemma: methoden voor kwantificering van onzekerheid (UQ) fungeren typisch als passieve sensoren, die alleen risico's diagnosticeren zonder deze aan te pakken, terwijl zelfreflectiemechanismen lijden onder continue of doelloze correcties. Om deze kloof te overbruggen, stellen we een verenigd Dual-Process Agentic UQ (AUQ) raamwerk voor dat verbaal uitgedrukte onzekerheid omzet in actieve, bidirectionele controle-signalen. Onze architectuur omvat twee complementaire mechanismen: Systeem 1 (Onzekerheidsbewust Geheugen, UAM), dat verbaal uitgedrukt vertrouwen en semantische verklaringen impliciet propageert om blinde besluitvorming te voorkomen; en Systeem 2 (Onzekerheidsbewuste Reflectie, UAR), dat deze verklaringen gebruikt als rationele aanwijzingen om gerichte resolutie tijdens inferentie af te vuren, alleen wanneer nodig. Hierdoor kan de agent efficiënte uitvoering en diepe deliberatie dynamisch in balans brengen. Uitgebreide experimenten op gesloten-lus benchmarks en open-einde diepgaande onderzoektaken tonen aan dat onze trainingsvrije aanpak superieure prestaties en calibratie op trajectniveau bereikt. Wij geloven dat dit principiële AUQ-raamwerk een significante stap vertegenwoordigt naar betrouwbare agenten.

360Anything: Geometrievrije Omzetting van Afbeeldingen en Video's naar 360°
360Anything: Geometry-Free Lifting of Images and Videos to 360°

Jan 22

ByZiyi Wu, Daniel Watson, Andrea Tagliasacchi, David J. Fleet, Marcus A. Brubaker, Saurabh Saxena

Het optillen van perspectiefbeelden en video's naar 360°-panorama's maakt de generatie van een immersieve 3D-wereld mogelijk. Bestaande benaderingen steunen vaak op expliciete geometrische uitlijning tussen de perspectief- en de equirectangulaire projectie (ERP)-ruimte. Dit vereist echter bekende camerametadata, wat de toepassing op in-the-wild data belemmert, waar dergelijke kalibratie typisch afwezig of ruisachtig is. Wij stellen 360Anything voor, een geometrie-vrij raamwerk gebouwd op vooraf getrainde diffusion transformers. Door de perspectiefinput en het panoramadoel eenvoudigweg als tokenreeksen te behandelen, leert 360Anything de perspectief-naar-equirectangulaire mapping op een puur data-gedreven manier, waardoor camerainformatie overbodig wordt. Onze aanzet behaalt state-of-the-art prestaties voor zowel beeld- als videogeneratie van perspectief naar 360°, en overtreft eerdere werken die gebruikmaken van grond-waarheid camerainformatie. Wij traceren ook de hoofdoorzaak van naadartefacten aan de ERP-grenzen naar nul-opvulling in de VAE-encoder, en introduceren Circulaire Latente Codering om naadloze generatie mogelijk te maken. Ten slotte tonen we competitieve resultaten in zero-shot camera beeldhoek- en oriëntatieschatting benchmarks, wat het diepe geometrische begrip en de bredere bruikbaarheid van 360Anything in computertaken aantoont. Aanvullende resultaten zijn beschikbaar op https://360anything.github.io/.

Agentisch Betrouwbaarheidskalibratie
Agentic Confidence Calibration

Jan 22

ByJiaxin Zhang, Caiming Xiong, Chien-Sheng Wu

AI-agenten evolueren snel van passieve taalmodelen naar autonome systemen die complexe, meerstaps taken uitvoeren. Toch blijft hun overmatig zelfvertrouwen bij falen een fundamentele barrière voor inzet in hoog-risico omgevingen. Bestaande kalibratiemethoden, ontwikkeld voor statische enkelvoudige outputs, kunnen de unieke uitdagingen van agent-systemen niet aanpakken, zoals oplopende fouten langs trajecten, onzekerheid van externe tools en ondoorzichtige faalmodi. Om deze uitdagingen het hoofd te bieden, introduceren wij voor het eerst het probleem van Agentic Confidence Calibration en stellen Holistic Trajectory Calibration (HTC) voor, een nieuw diagnostisch raamwerk dat rijke procesniveau-featurees extraheert, variërend van macro-dynamiek tot micro-stabiliteit, over het volledige traject van een agent. Aangedreven door een eenvoudig, interpreteerbaar model, overtreft HTC consequent sterke baseline-methoden in zowel kalibratie als discriminatie, over acht benchmarks, meerdre grote taalmodelen (LLMs) en diverse agent-frameworks. Naast prestaties biedt HTC drie essentiële verbeteringen: het verschaft interpreteerbaarheid door de signalen achter falen bloot te leggen, stelt overdraagbaarheid mogelijk door toepassing over domeinen heen zonder hertraining, en bereikt generalisatie via een General Agent Calibrator (GAC) die de beste kalibratie (laagste ECE) behaalt op de out-of-domain GAIA benchmark. Gezamenlijk vestigen deze bijdragen een nieuw proces-gecentreerd paradigma voor betrouwbaarheidskalibratie, en bieden een raamwerk voor het diagnosticeren en verbeteren van de betrouwbaarheid van AI-agenten.

VIOLA: Naar Video In-Context Leren met Minimale Annotaties
VIOLA: Towards Video In-Context Learning with Minimal Annotations

Jan 22

ByRyo Fujii, Hideo Saito, Ryo Hachiuma

Het generaliseren van Multimodale Large Language Models (MLLM's) naar nieuwe videodomeinen is essentieel voor praktijkimplementatie, maar blijft een uitdaging door de schaarste aan gelabelde data. Hoewel In-Context Learning (ICL) een trainingsvrije aanpassingsroute biedt, zijn standaardmethoden afhankelijk van grote geannoteerde datasets, die vaak onpraktisch zijn in gespecialiseerde omgevingen zoals industriële of chirurgische settings vanwege de vereiste expertannotaties. Om deze kloof te overbruggen, introduceren we VIOLA (Video In-cOntext Learning with minimal Annotation), een label-efficiënt raamwerk dat minimale expertsupervisie combineert met overvloedige ongelabelde data. Ten eerste, om de efficiëntie van een strikt annotatiebudget te maximaliseren, stellen we density-uncertainty-weighted sampling voor. In tegenstelling tot standaard diversiteits- of onzekerheidsstrategieën die het risico lopen visuele uitschieters te selecteren, benut onze methode dichtheidsschatting om samples te identificeren die simultaan divers, representatief en informatief zijn. Ten tweede, om de overige ongelabelde data te benutten zonder ruispropagatie, construeren we een hybride dataset en introduceren we confidence-aware retrieval en confidence-aware prompting. Deze mechanismen modelleren expliciet de betrouwbaarheid van labels, waarbij demonstraties worden opgehaald op basis van een samengestelde score van gelijkenis en betrouwbaarheid, terwijl de MLLM in staat wordt gesteld adaptief onderscheid te maken tussen geverifieerde grondwaarden en ruizige pseudo-labels. Uitgebreide experimenten over negen diverse benchmarks met vier MLLM's tonen aan dat ons raamwerk verschillende baseline-methoden significant overtreft in low-resource settings, en robuuste aanpassing bereikt tegen minimale annotatiekosten.

Van passieve metriek naar actief signaal: de evoluerende rol van onzekerheidskwantificering in grote taalmodellen
From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models

Jan 22

ByJiaxin Zhang, Wendi Cui, Zhuohang Li, Lifu Huang, Bradley Malin, Caiming Xiong, Chien-Sheng Wu

Hoewel Large Language Models (LLM's) opmerkelijke capaciteiten vertonen, blijft hun onbetrouwbaarheid een kritieke barrière voor inzet in hoog-risicodomeinen. Dit overzichtsartikel schetst een functionele evolutie in de aanpak van deze uitdaging: de evolutie van onzekerheid van een passieve diagnostische metriek naar een actief controlesignaal dat het realtime gedrag van het model stuurt. Wij tonen aan hoe onzekerheid wordt ingezet als een actief controlesignaal op drie fronten: bij geavanceerd redeneren om berekeningen te optimaliseren en zelfcorrectie te activeren; bij autonome agents om metacognitieve beslissingen over het gebruik van tools en informatievergaring te sturen; en bij reinforcement learning om reward hacking te mitigeren en zelfverbetering mogelijk te maken via intrinsieke beloningen. Door deze vooruitgang te verankeren in opkomende theoretische kaders zoals Bayesiaanse methoden en Conformal Prediction, bieden wij een verenigd perspectief op deze transformerende trend. Dit overzicht biedt een uitgebreid panorama, een kritische analyse en praktische ontwerppatronen, en betoogt dat het beheersen van de nieuwe trend van onzekerheid essentieel is voor het bouwen van de volgende generatie schaalbare, betrouwbare en vertrouwenswaardige AI.

MirrorBench: Een Uitbreidbaar Framework voor de Evaluatie van User-Proxy Agents op Menselijkheid
MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

Jan 13

ByAshutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli

Grote taalmodellen (LLM's) worden steeds vaker gebruikt als menselijke simulators, zowel voor het evalueren van conversatiesystemen als voor het genereren van fijnstemmingsdata. Naïeve prompts om 'als gebruiker op te treden' leveren echter vaak breedsprakige, onrealistische uitingen op, wat de noodzaak onderstreept van een principiële evaluatie van zogenaamde user proxy agents. Wij presenteren MIRRORBENCH, een reproduceerbaar, uitbreidbaar benchmarkframework dat user proxies uitsluitend evalueert op hun vermogen om mensachtige gebruikersuitingen te produceren voor diverse conversatietaken, expliciet losgekoppeld van het succes bij de downstream-taak. MIRRORBENCH beschikt over een modulaire uitvoeringsengine met getypeerde interfaces, metadata-gestuurde registers, ondersteuning voor meerdere backends, caching en robuuste observeerbaarheid. Het systeem ondersteunt pluggable user proxies, datasets, taken en metrieken, waardoor onderzoekers willekeurige simulators kunnen evalueren binnen een uniform, variantiebewust kader. Wij hebben drie lexicale-diversiteitsmetrieken (MATTR, YULE'S K en HD-D) en drie op LLM-beoordeling gebaseerde metrieken (GTEval, Paarsgewijze Ononderscheidbaarheid en Rubric-and-Reason) opgenomen. Over vier open datasets heen levert MIRRORBENCH variantiebewuste resultaten op en onthult het systematische kloofjes tussen user proxies en echte menselijke gebruikers. Het framework is open source en bevat een eenvoudige command-line interface voor het uitvoeren van experimenten, beheren van configuraties en caching, en genereren van rapporten. Het framework is toegankelijk op https://github.com/SAP/mirrorbench.

Numba-versnelde 2D diffusie-gelimiteerde aggregatie: Implementatie en fractale karakterisering
Numba-Accelerated 2D Diffusion-Limited Aggregation: Implementation and Fractal Characterization

Jan 21

BySandy H. S. Herho, Faiz R. Fajary, Iwan P. Anwar, Faruq Khadami, Nurjanna J. Trilaksono, Rusmawan Suwarman, Dasapta E. Irawan

Wij presenteren dla-ideal-solver, een hoogpresterend raamwerk voor het simuleren van tweedimensionale diffusie-gelimiteerde aggregatie (DLA) met behulp van Numba-versnelde Python. Door gebruik te maken van just-in-time (JIT)-compilatie bereiken we een rekenkundige doorvoer die vergelijkbaar is met legacy statische implementaties, terwijl de flexibiliteit op hoog niveau behouden blijft. Wij onderzoeken de Laplaciaanse groei-instabiliteit bij verschillende injectiegeometrieën en loperconcentraties. Onze analyse bevestigt de robuustheid van de standaard fractale dimensie D_f ≈ 1,71 voor verdunde regimes, in overeenstemming met de universaliteitsklasse van Witten-Sander. Wij melden echter een duidelijke overgang naar Eden-achtige compacte groei (D_f ≈ 1,87) in hoogdichte omgevingen, toegeschreven aan de verzadiging van de schermlengte. Naast de standaard massastraal-schaling gebruiken wij gegeneraliseerde Rényi-dimensies en lacunariteitsmetingen om het monofractale karakter en de ruimtelijke heterogeniteit van de aggregaten te kwantificeren. Dit werk vestigt een reproduceerbare, open-source testomgeving voor het verkennen van fasovergangen in de niet-evenwichts statistische mechanica.

Wigners Vriend als een Schakeling: Benchmarks voor Inter-Takcommunicatiewaarneming op Supergeleidende Quantumhardware
Wigner's Friend as a Circuit: Inter-Branch Communication Witness Benchmarks on Superconducting Quantum Hardware

Jan 22

ByChristopher Altman

Wij implementeren en testen op IBM Quantum-hardware de schakelingfamilie voorgesteld door Violaris voor het schatten van operationele getuigen van communicatie tussen takken, gedefinieerd als correlaties in klassieke meetreeksen geproduceerd door gecompileerde Wigner's-vriend-stijl schakelingen. Wij realiseren een vijf-qubit instantie van het protocol als een inter-register berichtoverdrachtspatroon binnen een enkele schakeling, in plaats van fysieke signalering, en evalueren het gedrag onder realistische ruis van het apparaat en compilatiebeperkingen. De schakeling codeert een tak-voorwaardelijke evolutie van een waarnemerssubsysteem waarvan de dynamiek afhangt van een controle-qubit, gevolgd door een gecontroleerde overdrachtsoperatie die correlaties tussen voorwaardelijke meetcontexten onderzoekt. Uitvoering op de ibm_fez-backend met 20000 shots resulteert in een op populatie gebaseerde zichtbaarheid van 0,877, coherentiegetuigen van 0,840 en -0,811 langs orthogonale assen, en een fasegevoelige grootte van ongeveer 1,17. Hoewel de zichtbaarheidsmetriek ongevoelig is voor sommige klassen van defasering, bieden de coherentiegetuigen een complementaire gevoeligheid voor niet-diagonale ruis. Dit werk test of onderscheidt niet tussen interpretaties van de kwantummechanica. In plaats daarvan biedt het een reproduceerbare pijplijn van operationele beperkingen voor het evalueren van de detecteerbaarheid van niet-ideale kanalen ten opzichte van gekalibreerde apparaatruis.

Evaluatie van LLM-prompts voor educatieve toepassingen
LLM Prompt Evaluation for Educational Applications

Jan 22

ByLangdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris

Naarmate grote taalmodellen (LLM's) steeds vaker worden toegepast in onderwijscontexten, neemt de behoefte toe aan evidence-based methoden voor het ontwerpen en evalueren van LLM-prompts die gepersonaliseerde en pedagogisch afgestemde output genereren. Deze studie presenteert een generaliseerbare, systematische aanpak voor het evalueren van prompts, gedemonstreerd door een analyse van door een LLM gegenereerde vervolgvragen in een gestructureerde dialoogactiviteit. Zes promptsjablonen werden ontworpen en getest. De sjablonen bevatten gevestigde patronen voor prompt engineering, waarbij elke prompt verschillende pedagogische strategieën benadrukte. De promptsjablonen werden vergeleken via een tournament-stijl evaluatieraamwerk dat kan worden aangepast voor andere onderwijsapplicaties. Het toernooi maakte gebruik van het Glicko2-ratingsysteem, waarbij acht beoordelaars vraagparen evalueerden op drie dimensies: vorm, dialoogondersteuning en geschiktheid voor lerenden. De data waren afkomstig van 120 authentieke gebruikersinteracties uit drie verschillende onderwijsimplementaties. Resultaten toonden aan dat één enkele prompt gerelateerd aan strategisch lezen beter presteerde dan andere sjablonen, met winstkansen variërend van 81% tot 100% in paarsgewijze vergelijkingen. Deze prompt combineerde het 'persona'- en 'context manager'-patroon en was ontworpen om metacognitieve leerstrategieën, zoals zelfgestuurd leren, te ondersteunen. De methodologie demonstreert hoe onderwijsonderzoekers systematisch promptontwerpen kunnen evalueren en verbeteren, zodat men verder kan gaan dan ad-hoc prompt engineering naar evidence-based promptontwikkeling voor onderwijsapplicaties.