HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

35 papers found

Tstars-Tryon 1.0: Robuuste en Realistische Virtuele Passen voor Diverse Modeartikelen
Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Apr 21

ByMengting Chen, Zhengrui Chen, Yongchao Du, Zuan Gao, Taihang Hu, Jinsong Lan, Chao Lin, Yefeng Shen, Xingjian Wang, Zhao Wang, Zhengtao Wu, Xiaoli Xu, Zhengze Xu, Hao Yan, Mingzhou Zhang, Jun Zheng, Qinye Zhou, Xiaoyong Zhu, Bo Zheng

Recente vooruitgang in beeldgeneratie en -bewerking heeft nieuwe mogelijkheden geopend voor virtueel passen. Bestaande methoden hebben echter nog steeds moeite met complexe eisen uit de praktijk. Wij presenteren Tstars-Tryon 1.0, een virtueel passesysteem op commerciële schaal dat robuust, realistisch, veelzijdig en uiterst efficiënt is. Ten eerste behoudt ons systeem een hoog slagingspercentage bij uitdagende gevallen zoals extreme houdingen, sterke belichtingsvariatie, bewegingsonscherpte en andere real-world omstandigheden. Ten tweede levert het hoogfotorealistische resultaten op met fijnmazige details, waarbij textuureigenschappen, materiaalkenmerken en structurele eigenschappen van kledingstukken nauwgezet worden behouden, terwijl veelvoorkomende door AI gegenereerde artefacten grotendeels worden vermeden. Ten derde ondersteunt ons model, naast kledingpassen, flexibele multi-imagecompositie (tot 6 referentiebeelden) voor 8 modecategorieën, met gecoördineerde controle over persoonidentiteit en achtergrond. Ten vierde is ons systeem, om latentieknelpunten bij commerciële implementatie te overwinnen, sterk geoptimaliseerd voor inferentiesnelheid, waardoor bijna realtime generatie mogelijk is voor een naadloze gebruikerservaring. Deze mogelijkheden worden gerealiseerd door een geïntegreerd systeemontwerp met een end-to-end modelarchitectuur, een schaalbare data-engine, robuuste infrastructuur en een meerfasen trainingsparadigma. Uitgebreide evaluatie en grootschalige productimplementatie tonen aan dat Tstars-Tryon1.0 een leidende algemene prestaties bereikt. Om toekomstig onderzoek te ondersteunen, publiceren wij tevens een uitgebreide benchmark. Het model is op industriële schaal geïmplementeerd in de Taobao-app, waar het miljoenen gebruikers bedient met tientallen miljoenen verzoeken.

CoInteract: Fysiek-Consistente Mens-Object Interactie Video-synthese via Ruimtelijk-Gestructureerde Co-generatie
CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Apr 21

ByXiangyang Luo, Xiaozhe Xin, Tao Feng, Xu Guo, Meiguang Jin, Junfeng Ma

Het synthetiseren van mens-object interactie (HOI) video's heeft brede praktische waarde in e-commerce, digitale advertenties en virtuele marketing. Huidige diffusiemodellen slagen echter, ondanks hun foto-realistische weergavecapaciteit, nog steeds vaak niet in (i) de structurele stabiliteit van gevoelige regio's zoals handen en gezichten en (ii) fysiek plausibel contact (bijvoorbeeld het vermijden van hand-object interpenetratie). Wij presenteren CoInteract, een end-to-end raamwerk voor HOI-videosynthese, geconditioneerd op een referentiebeeld van een persoon, een referentiebeeld van een product, tekstprompts en spraakaudio. CoInteract introduceert twee complementaire ontwerpen ingebed in een Diffusion Transformer (DiT) backbone. Ten eerste stellen we een Human-Aware Mixture-of-Experts (MoE) voor die tokens routeert naar lichtgewicht, regio-gespecialiseerde experts via ruimtelijk gesuperviseerd routeren, waardoor de fijnmazige structurele betrouwbaarheid verbetert met minimale parameteroverhead. Ten tweede stellen we Spatially-Structured Co-Generation voor, een dual-stream trainingsparadigma dat gezamenlijk een RGB-uiterlijkstroom en een aanvullende HOI-structuurstroom modelleert om interactie-geometrische prioriteiten in te brengen. Tijdens de training let de HOI-stroom op RGB-tokens en regulariseert de supervisie ervan gedeelde backbone-gewichten; tijdens inferentie wordt de HOI-tak verwijderd voor RGB-generatie zonder overhead. Experimentele resultaten tonen aan dat CoInteract bestaande methodes significant overtreft in structurele stabiliteit, logische consistentie en interactie-realisme.

AgentSPEX: Een Agent Specificatie en Uitvoeringstaal
AgentSPEX: An Agent SPecification and EXecution Language

Apr 14

ByPengcheng Wang, Jerry Huang, Jiarui Yao, Rui Pan, Peizhi Niu, Yaowenqi Liu, Ruida Wang, Renhao Lu, Yuwei Guo, Tong Zhang

Taalmodel-agentsystemen maken doorgaans gebruik van reactieve prompting, waarbij een enkele instructie het model door een open opeenvolging van redeneer- en toolgebruikstappen leidt. Hierbij blijven controleflow en tussenliggende staat impliciet, wat het gedrag van de agent potentieel moeilijk te controleren maakt. Orchestratie-frameworks zoals LangGraph, DSPy en CrewAI leggen meer structuur op via expliciete workflowdefinities, maar koppelen de workflowlogica sterk aan Python, waardoor agents moeilijk te onderhouden en aan te passen zijn. In dit artikel introduceren we AgentSPEX, een Agent Specificatie- en Uitvoeringstaal voor het specificeren van LLM-agent-workflows met expliciete controleflow en modulaire structuur, samen met een aanpasbare agent-harnassing. AgentSPEX ondersteunt getypeerde stappen, vertakkingen en lussen, parallelle uitvoering, herbruikbare submodules en expliciet staatbeheer. Deze workflows worden uitgevoerd binnen een agent-harnassing die tooltoegang, een afgeschermde virtuele omgeving en ondersteuning voor checkpointing, verificatie en logging biedt. Verder bieden we een visuele editor met gesynchroniseerde grafische en workflowweergaven voor ontwerp en inspectie. We includeren kant-en-klare agents voor diepgaand onderzoek en wetenschappelijk onderzoek, en we evalueren AgentSPEX op 7 benchmarks. Tot slot tonen we via een gebruikersstudie aan dat AgentSPEX een meer interpreteerbaar en toegankelijk workflow-ontwerpparadigma biedt dan een populair bestaand agentframework.

AnyRecon: Willekeurig Perspectief 3D-reconstructie met Videodiffusiemodel
AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Apr 21

ByYutian Chen, Shi Guo, Renbiao Jin, Tianshuo Yang, Xin Cai, Yawen Luo, Mingxin Yang, Mulin Yu, Linning Xu, Tianfan Xue

Sparse-view 3D-reconstructie is essentieel voor het modelleren van scènes uit casual opnames, maar blijft een uitdaging voor niet-generatieve reconstructie. Bestaande op diffusie gebaseerde benaderingen verlichten deze problemen door het synthetiseren van nieuwe viewpoints, maar zij conditioneren vaak op slechts één of twee opnameframes, wat de geometrische consistentie beperkt en de schaalbaarheid naar grote of diverse scènes hindert. Wij stellen AnyRecon voor, een schaalbaar raamwerk voor reconstructie vanuit willekeurige en ongeordende sparse inputs, dat expliciete geometrische controle behoudt terwijl het flexibele conditioneringscardinaliteit ondersteunt. Om conditionering over lange afstand te ondersteunen, construeert onze methode een persistent globaal scènegeheugen via een vooraf toegevoegde cache voor opnameviews, en verwijdert het temporele compressie om frame-level correspondentie onder grote viewpointveranderingen te behouden. Naast een beter generatief model, vinden wij ook dat de wisselwerking tussen generatie en reconstructie cruciaal is voor grootschalige 3D-scènes. Daarom introduceren wij een geometriebewuste conditioneringsstrategie die generatie en reconstructie koppelt via een expliciet 3D-geometrisch geheugen en geometriegestuurde opname-view retrieval. Om efficiëntie te waarborgen, combineren wij 4-staps diffusiedistillatie met contextvenster sparse attention om de kwadratische complexiteit te reduceren. Uitgebreide experimenten demonstreren robuuste en schaalbare reconstructie over onregelmatige inputs, grote viewpointverschillen en lange trajecten.

TEMPO: Schaalvergroting van testtijd-training voor grote redeneermodellen
TEMPO: Scaling Test-time Training for Large Reasoning Models

Apr 21

ByQingyang Zhang, Xinke Kong, Haitao Wu, Qinghua Hu, Minghao Wu, Baosong Yang, Yu Cheng, Yun Luo, Ganqu Cui, Changqing Zhang

Test-time training (TTT) past modelparameters aan op ongelabelde testinstanties tijdens de inferentiefase, waardoor de capaciteiten continu worden uitgebreid voorbij de reikwijdte van offline training. Ondanks initiële winst bereiken bestaande TTT-methoden voor LRMs snel een plateau en profiteren ze niet van extra rekenkracht tijdens de testfase. Zonder externe kalibratie drijft het zelfgegenereerde beloningssignaal steeds verder af naarmate het beleidsmodel evolueert, wat leidt tot zowel prestatieplateaus als diversiteitscollaps. Wij stellen TEMPO voor, een TTT-raamwerk dat policyverfijning op ongelabelde vragen afwisselt met periodieke herkalibratie van de critic op een gelabelde dataset. Door deze afwisselende procedure te formaliseren via het Expectation-Maximization (EM)-algoritme, tonen we aan dat eerdere methoden kunnen worden geïnterpreteerd als onvolledige varianten die de cruciale herkalibratiestap weglaten. Het opnieuw introduceren van deze stap versterkt de evidence lower bound (ELBO) en maakt aanhoudende verbetering mogelijk. Over diverse modelfamilies (Qwen3 en OLMO3) en redeneertaken heen verbetert TEMPO OLMO3-7B op AIME 2024 van 33,0% naar 51,1% en Qwen3-14B van 42,3% naar 65,8%, waarbij een hoge diversiteit behouden blijft.

PlayCoder: LLM-gegenereerde GUI-code speelbaar maken
PlayCoder: Making LLM-Generated GUI Code Playable

Apr 21

ByZhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo

Grote taalmodellen (LLM's) hebben sterke resultaten behaald in codegeneratie, maar hun vermogen om GUI-applicaties, met name games, te genereren is onvoldoende bestudeerd. Bestaande benchmarks evalueren voornamelijk correctheid via testgevallen, wat ontoereikend is voor GUI-applicaties omdat deze systemen interactief, gebeurtenisgestuurd zijn en correcte toestandsovergangen vereisen bij reeksen gebruikersacties. Hun evaluatie moet daarom interactieflussen en UI-logica in overweging nemen in plaats van alleen geslaagd/mislukt-resultaten. Om dit probleem te bestuderen, introduceren we PlayEval, een repository-aware benchmark opgebouwd uit 43 meertalige GUI-applicaties in Python, TypeScript en JavaScript. In tegenstelling tot eerdere GUI-benchmarks die moeilijk aan te passen zijn aan desktopomgevingen, dekt PlayEval zes grote GUI-applicatiecategorieën en ondersteunt het direct de evaluatie van codegeneratie. We stellen verder Play@k voor, een metriek die meet of ten minste één van de *k* gegenereerde kandidaten van begin tot eind speelbaar is zonder logische fouten. Om betrouwbare evaluatie te ondersteunen, ontwikkelen we PlayTester, een op LLM's gebaseerde agent die taakgerichte GUI-doorlopen uitvoert en logische schendingen automatisch detecteert. Experimenten met 10 state-of-the-art code-LLM's tonen aan dat ze, ondanks hoge compilatiesuccessen, een bijna-nul Play@3 scoren, wat grote zwaktes onthult in het genereren van logisch correcte GUI-applicaties. Om deze beperking aan te pakken, presenteren we PlayCoder, een multi-agent, repository-aware raamwerk dat GUI-applicatiecode genereert, evalueert en iteratief repareert in een gesloten lus. PlayCoder verbetert zowel de functionele correctheid als de semantische afstemming aanzienlijk voor open-source en closed-source modellen, met scores tot 38,1% Exec@3 en 20,3% Play@3. Casestudies tonen verder aan dat het stille logische bugs kan ontdekken die door traditionele metrieken worden gemist en deze kan herstellen via gerichte bewerkingen.

ShadowPEFT: Schaduw Netwerk voor Parameter-Efficiënte Fine-Tuning
ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Apr 21

ByXianming Li, Zongxi Li, Tsz-fung Andrew Lee, Jing Li, Haoran Xie, Qing Li

Parameter-efficiënte fine-tuning (PEFT) verlaagt de trainingskosten van volledige-parameter fine-tuning voor grote taalmodel(len) (LLM's) door alleen een kleine set taakspecifieke parameters te trainen, terwijl het voorgetrainde model wordt bevroren. Bestaande benaderingen, zoals Low-Rank Adaptation (LoRA), bereiken adaptatie echter door onafhankelijke laag-rang verstoringen rechtstreeks in individuele gewichten in te voegen, wat resulteert in een lokale parameterisatie van adaptatie. Wij stellen ShadowPEFT voor, een gecentraliseerd PEFT-raamwerk dat in plaats daarvan laagniveau-verfijning uitvoert via een diepte-gedeelde schaduwmodule. Op elke transformerlaag houdt ShadowPEFT een parallelle schaduwstatus aan en evolueert deze herhaaldelijk voor progressief rijkere verborgen toestanden. Dit ontwerp verschuift adaptatie van gedistribueerde gewichtsruimte-verstoringen naar een gedeeld laagruimte-verfijningsproces. Omdat de schaduwmodule is ontkoppeld van de backbone, kan deze hergebruikt worden over de diepte, onafhankelijk voorgetraind worden, en optioneel worden ingezet in een losgekoppelde modus, wat voordelig is voor edge computing-scenario's. Experimenten op generatie- en begripsbenchmarks tonen aan dat ShadowPEFT evenaart of overtreft prestaties van LoRA en DoRA onder vergelijkbare trainbare-parameterbudgetten. Aanvullende analyses van schaduw-voortraining, kruis-datasettransfer, parameterschaling, inferentielatentie en systeemniveau-evaluatie suggereren dat gecentraliseerde laagruimte-adaptatie een competitief en flexibel alternatief is voor conventionele laag-rang PEFT.

Chat2Workflow: Een Benchmark voor het Genereren van Uitvoerbare Visuele Workflows met Natuurlijke Taal
Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Apr 21

ByYi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang

Momenteel vormen uitvoerbare visuele workflows een mainstream paradigma in praktische industriële implementaties, dankzij hun sterke betrouwbaarheid en beheersbaarheid. In de huidige praktijk worden dergelijke workflows echter vrijwel volledig handmatig geconstrueerd: ontwikkelaars moeten workflows zorgvuldig ontwerpen, prompts voor elke stap schrijven en de logica herhaaldelijk herzien naarmate vereisten evolueren. Dit maakt de ontwikkeling kostbaar, tijdrovend en foutgevoelig. Om te onderzoeken of grote taalmodellen dit meerronde interactieproces kunnen automatiseren, introduceren wij Chat2Workflow, een benchmark voor het direct genereren van uitvoerbare visuele workflows vanuit natuurlijke taal, en stellen een robuust agentframework voor om terugkerende uitvoeringsfouten te verminderen. Chat2Workflow is opgebouwd uit een grote verzameling real-world bedrijfsworkflows, waarbij elke instantie zo is ontworpen dat de gegenereerde workflow getransformeerd en direct geïmplementeerd kan worden op praktische workflowplatforms zoals Dify en Coze. Experimentele resultaten tonen aan dat state-of-the-art taalmodellen weliswaar vaak de hoogover intentie kunnen vastleggen, maar moeite hebben met het genereren van correcte, stabiele en uitvoerbare workflows, vooral onder complexe of veranderende vereisten. Hoewel ons agentframework tot 5,34% verbetering in oplossingspercentage oplevert, positioneert de resterende real-world kloof Chat2Workflow als een fundament voor het bevorderen van industriële automatisering. Code is beschikbaar op https://github.com/zjunlp/Chat2Workflow.

AJ-Bench: Benchmarking van Agent-als-Rechter voor Omgevingsbewuste Evaluatie
AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Apr 20

ByWentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi Gu, Hui Su, Xunliang Cai, Xiangnan He

Naarmate reinforcement learning de training van op grote taalmodellen gebaseerde agenten verder opschaalt, is het betrouwbaar verifiëren van agentgedrag in complexe omgevingen steeds uitdagender geworden. Bestaande benaderingen vertrouwen op op regels gebaseerde verifiers of LLM-as-a-Judge-modellen, die moeite hebben om verder te generaliseren dan smalle domeinen. Agent-as-a-Judge lost deze beperking op door actief te interageren met omgevingen en tools om verifieerbaar bewijsmateriaal te vergaren, hoewel de mogelijkheden ervan nog onvoldoende zijn onderzocht. Wij introduceren een benchmark AJ-Bench om Agent-as-a-Judge systematisch te evalueren in drie domeinen - zoeken, datasystemen en grafische gebruikersinterfaces - bestaande uit 155 taken en 516 geannoteerde trajecten. De benchmark beoordeelt uitgebreid de vaardigheden van judge-agenten op het gebied van informatieverwerving, statusverificatie en procesverificatie. Experimenten tonen consistente prestatieverbeteringen aan ten opzichte van LLM-as-a-Judge-basislijnen, terwijl ze ook substantiële open uitdagingen in op agenten gebaseerde verificatie blootleggen. Onze data en code zijn beschikbaar op https://aj-bench.github.io/.

Dual-View Training voor Instructievolgende Informatie-Retrieval
Dual-View Training for Instruction-Following Information Retrieval

Apr 20

ByQingcheng Zeng, Puxuan Yu, Aman Mehta, Fuheng Zhao, Rajhans Samdani

Instruction-following information retrieval (IF-IR) bestudeert retrievalsystemen die niet alleen documenten moeten vinden die relevant zijn voor een zoekopdracht, maar ook expliciete gebruikersbeperkingen moeten opvolgen, zoals vereiste attributen, uitsluitingen of uitvoerpreferenties. De meeste retrievers worden echter primair getraind voor semantische relevantie en slagen er vaak niet in om onderscheid te maken tussen documenten die bij het onderwerp passen en documenten die aan de instructie voldoen. Wij stellen een dual-view datasynthesestrategie voor op basis van polariteitsomkering: gegeven een zoekopdracht, een document dat relevant is volgens de instructie, en een hard negative die bij de zoekopdracht past maar de instructie schendt, laten we een LLM een complementaire instructie genereren waarbij de twee documenten van relevantielabel wisselen. Door hetzelfde documentenpaar onder complementaire instructies te presenteren die hun relevantielabels omkeren, dwingt het trainingssignaal de retriever om dezelfde kandidaatset opnieuw te evalueren via de instructie, in plaats van te vertrouwen op vaste onderwerpgerelateerde signalen. Op een encoder met 305M parameters verbetert onze methode de prestaties op de FollowIR-benchmark met 45%, waardoor algemene inbeddingsmodellen van vergelijkbare of grotere schaal worden overtroffen. Via directe vergelijkingen bij gelijke databudgets tonen we verder aan dat datadiversiteit en instructietoezicht complementaire rollen spelen: de eerste behoudt de algemene retrievalkwaliteit, terwijl de laatste de instructiegevoeligheid verbetert. Deze resultaten benadrukken de waarde van gerichte datasynthese voor het bouwen van retrievalsystemen die zowel breed inzetbaar als instructiebewust zijn.

Code-Switching Informatie Retrieval: Benchmarks, Analyse en de Grenzen van Huidige Retrievers
Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Apr 19

ByQingcheng Zeng, Yuheng Lu, Zeqi Zhou, Heli Qi, Puxuan Yu, Fuheng Zhao, Hitomi Yanaka, Weihao Xuan, Naoto Yokoya

Codewisseling is een alomtegenwoordig taalkundig fenomeen in de mondiale communicatie, maar moderne informatieherwinningssystemen zijn nog steeds overwegend ontworpen voor, en geëvalueerd binnen, eentalige contexten. Om deze kritieke kloof te overbruggen, presenteren we een holistische studie gewijd aan informatieherwinning met codewisseling. We introduceren CSR-L (Code-Switching Retrieval benchmark-Lite), waarbij we een dataset construeren via menselijke annotatie om de authentieke natuurlijkheid van gemengdtalige zoekopdrachten vast te leggen. Onze evaluatie van statistische, dense en late-interactie paradigma's toont aan dat codewisseling fungeert als een fundamenteel prestatieknelpunt, dat de effectiviteit van zelfs robuuste meertalige modellen aantast. Wij tonen aan dat dit falen voortkomt uit een aanzienlijke divergentie in de embeddingruimte tussen pure en van codewisseling voorziene tekst. Om dit onderzoek op te schalen, stellen we CS-MTEB voor, een uitgebreide benchmark die 11 diverse taken omvat, waar we prestatieverliezen tot 27% waarnemen. Ten slotte tonen we aan dat standaard meertalige technieken zoals vocabulaire-uitbreiding onvoldoende zijn om deze tekortkomingen volledig op te lossen. Deze bevindingen onderstrepen de kwetsbaarheid van huidige systemen en vestigen codewisseling als een cruciaal front voor toekomstige optimalisatie van informatieherwinning.

Begrijpen en Afdwingen van Gewichtsontvlechting in Taakrekenkunde
Understanding and Enforcing Weight Disentanglement in Task Arithmetic

Apr 18

ByShangge Liu, Yuehan Yin, Lei Wang, Qi Fan, Yinghuan Shi, Wenbin Li, Yang Gao, Dacheng Tao

Taakrekening biedt een efficiënte, trainingsvrije methode om vooraf getrainde modellen aan te passen, maar mist een fundamentele theoretische verklaring voor haar succes. Het bestaande concept van "gewichtsontvlechting" beschrijft het ideale resultaat van niet-interfererende taaksamenstelling maar onthult niet de onderliggende oorzaak. Cruciaal is dat de intrinsieke eigenschappen van het vooraf getrainde model (θ_0) of de taakvectoren (τ_t) die deze ontvlechting mogelijk maken, onderbelicht blijven. In dit artikel introduceren we Taak-Functie Specialisatie (TFS), het vermogen van een model om distinctieve interne functies aan verschillende taken toe te wijzen, als fundamenteel principe. We bewijzen eerst dat TFS een voldoende voorwaarde is voor gewichtsontvlechting. Belangrijker is dat we vaststellen dat TFS ook een observeerbaar geometrisch gevolg heeft: orthogonaliteit van gewichtsvectoren. Dit positioneert TFS als de gemeenschappelijke oorzaak voor zowel het gewenste functionele resultaat (ontvlechting) als een meetbare geometrische eigenschap (orthogonaliteit). Deze relatie verschaft het cruciale inzicht voor onze methode: aangezien de abstracte TFS-eigenschap onhanteerbaar is om direct af te dwingen, kunnen we gewichtsontvlechting bevorderen door het concrete geometrische gevolg, orthogonaliteit, vorm te geven. Daarom stellen we OrthoReg voor, een simpele en effectieve regularisatiemethode die actief een interne orthogonale structuur afdwingt op gewichtsaanpassingen (ΔW) die τ_t vormen tijdens fine-tuning. En we bewijzen theoretisch dat OrthoReg ontvlechting bevordert. Uitgebreide experimenten tonen aan dat OrthoReg consistent en significant de prestaties van diverse taakrekeningmethoden verbetert. Code is beschikbaar op https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.

CityRAG: Een Stad Betreden via Ruimtelijk Gegronde Videogeneratie
CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

Apr 21

ByGene Chou, Charles Herrmann, Kyle Genova, Boyang Deng, Songyou Peng, Bharath Hariharan, Jason Y. Zhang, Noah Snavely, Philipp Henzler

Wij behandelen het probleem van het genereren van een 3D-consistente, bevaarbare omgeving die ruimtelijk verankerd is: een simulatie van een werkelijke locatie. Bestaande videogeneratieve modellen kunnen een plausibele reeks genereren die consistent is met een tekst- (T2V) of beeldprompt (I2V). Het vermogen om de echte wereld te reconstrueren onder willekeurige weersomstandigheden en dynamische objectconfiguraties is echter essentieel voor downstream-toepassingen, waaronder autonoom rijden en robotsimulatie. Hiertoe presenteren wij CityRAG, een videogeneratief model dat gebruikmaakt van grote corpora van geo-geregistreerde data als context om de generatie te verankeren aan de fysieke scène, terwijl geleerde prioriteiten voor complexe beweging en uiterlijke veranderingen behouden blijven. CityRAG steunt op tijdelijk niet-uitgelijnde trainingsdata, wat het model leert om de onderliggende scène semantisch te ontwarren van zijn tijdelijke attributen. Onze experimenten tonen aan dat CityRAG coherente, minutenlange, fysiek verankerde videosequenties kan genereren, weers- en lichtomstandigheden over duizenden frames kan handhaven, loopclosure kan bereiken en complexe trajecten kan navigeren om werkelijke geografie te reconstrueren.

Speculatief decoderen voor autoregressieve videogeneratie
Speculative Decoding for Autoregressive Video Generation

Apr 19

ByYuezhou Hu, Jintao Zhang

Autoregressieve videodiffusie ontwikkelt zich als een veelbelovend paradigma voor de synthese van streamende video's, waarbij stapdistillatie de primaire methode is om inferentie te versnellen. Of speculatieve decodering, de dominante versnellingsstrategie voor grote taalmodel(len), effectief kan worden aangepast voor autoregressieve videogeneratie, blijft een open vraag. Dit komt omdat videoblokken continue spatiotemporele tensoren zijn zonder token-level verdeling voor exacte rejection sampling. Wij introduceren SDVG, dat speculatieve decodering toepast op blokgebaseerde autoregressieve videodiffusie door tokenverificatie te vervangen door een router voor beeldkwaliteit. Een 1.3B 'drafter' stelt kandidaatblokken voor via vier denoising-stappen; elk blok wordt VAE-gedecodeerd en gescoord door ImageReward met behulp van 'worst-frame aggregation'—het nemen van de minimale beloning per frame om enkelkaderartefacten te detecteren die gemiddelde waarden zouden maskeren. Blokken met een score boven een vaste drempelwaarde τ worden geaccepteerd in de KV-cache van het 14B-doelmodel; de rest wordt opnieuw gegenereerd door het doelmodel. Twee aanvullende ontwerpkeuzes blijken cruciaal: het eerste blok wordt altijd geforceerd afgewezen om de scènesamenstelling te verankeren, en τ fungeert als een enkele knop die een soepel kwaliteit-snelheid Pareto-front traceert. Op 1003 MovieGenVideoBench-prompts (832x480) behoudt SDVG 98.1% van de VisionReward-kwaliteit van alleen het doelmodel (0.0773 vs. 0.0788) bij een 1.59x versnelling met τ=-0.7, en bereikt 2.09x bij 95.7% kwaliteitsbehoud—terwijl het consistent beter presteert dan generatie met alleen de drafter met meer dan +17%. Het framework is trainingsvrij, vereist geen architectuurwijzigingen en kan naadloos worden geïntegreerd in bestaande autoregressieve videogeneratiepijplijnen.

Doelgerichte Selectie van Voortrainingsgegevens via een Neuron-Geactiveerd Grafiek
Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

Apr 17

ByZijun Wang, Haoqin Tu, Weidong Zhou, Yiyang Zhou, Xiaohuan Zhou, Bingni Zhang, Weiguo Feng, Taifeng Wang, Cihang Xie, Fengze Liu

Dagelijkse taken hebben een doel, en het vooraf trainen van modellen rond dit doel is wat ze tot experts maakt. In dit artikel bestuderen we doelgerichte taalmodelvoorpretraining door Neuron-Activated Graph Ranking (NAG-gebaseerde Rangschikking) te introduceren, een trainingsvrij en interpreteerbaar raamwerk voor de selectie van voorpretrainingsgegevens voor een specifiek doel. In plaats van blackbox-representaties te gebruiken, karakteriseert onze aanpak elke doelinput direct door een spaarse set hoog-impactneuronen in elk kant-en-klare groot taalmodel (LLM). Concreet kwantificeren we neuronimpact en selecteren we de meest invloedrijke neuronen over alle lagen heen in een compacte Neuron-Activated Graph (NAG), en rangschikken we kandidaatgegevens op NAG-gelijkenis met doelvoorbeelden. We voeren experimenten uit over zes benchmarks, waarbij onze NAG-gebaseerde Rangschikking doelgerichte voorpretraining met gemiddeld 4,9% verbetert ten opzichte van willekeurige steekproeven, en ook state-of-the-art baseline-methoden verslaat met 5,3% nauwkeurigheid op HellaSwag. Het blijft ook effectief onder een meer toepasbare multi-doelinstelling, waarbij onze beste opzet twee baseline-methoden respectievelijk met 1,1% en 4,1% overtreft. Verder bieden we een uitgebreide analyse van waarom en hoe onze NAG werkt; bijvoorbeeld, het deactiveren van door NAG geselecteerde neuronen (slechts 0,12% van het totaal) veroorzaakt een prestatie-inval van 23,5%, en het beperken van de NAG tot de laatste laag leidt tot een gemiddelde daling van 4,1%, wat aangeeft dat NAG een spaarse "functionele ruggengraat" vastlegt voor het leren van doelkenmerken. We hebben de code vrijgegeven op https://github.com/asillycat/NAG.

SmartPhotoCrafter: Geïntegreerd Redeneren, Genereren en Optimaliseren voor Automatische Fotobewerking
SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

Apr 21

ByYing Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang

Traditionele bewerking van fotografische beelden vereist doorgaans dat gebruikers voldoende esthetisch inzicht hebben om passende instructies te kunnen geven voor het aanpassen van beeldkwaliteit en cameraparameters. Dit paradigma berust echter op expliciete menselijke instructie van esthetische intentie, die vaak ambigu, incompleet of ontoegankelijk is voor niet-deskundige gebruikers. In dit werk stellen we SmartPhotoCrafter voor, een automatische methode voor het bewerken van fotografische beelden die beeldbewerking formuleert als een sterk gekoppeld redeneer-naar-generatieproces. Het voorgestelde model voert eerst beeldkwaliteitsbegrip uit en identificeert tekortkomingen via de Image Critic-module, waarna de Photographic Artist-module gerichte bewerkingen uitvoert om de aantrekkingskracht van het beeld te vergroten, waardoor expliciete menselijke instructies overbodig worden. Er wordt een meerfasig trainingspipeline gebruikt: (i) Foundation-pre-training om basisesthetisch begrip en bewerkingscapaciteiten op te bouwen, (ii) Adaptatie met redeneringsgestuurde multi-edit supervision om rijke semantische begeleiding te incorporeren, en (iii) Gecoördineerde redeneer-naar-generatie versterkend leren om redenering en generatie gezamenlijk te optimaliseren. Tijdens de training benadrukt SmartPhotoCrafter foto-realistische beeldgeneratie, terwijl het zowel beeldherstel- als retoucheertaken ondersteunt met consistente aandacht voor kleur- en toon gerelateerde semantiek. We construeren ook een fase-specifieke dataset, die progressief redenering en controleerbare generatie, effectieve cross-module samenwerking en uiteindelijk hoogwaardige fotografische verbetering opbouwt. Experimenten tonen aan dat SmartPhotoCrafter bestaande generatieve modellen overtreft bij de taak van automatische fotografische verbetering, waarbij het foto-realistische resultaten bereikt en tegelijkertijd een hogere tonale gevoeligheid voor retoucheerinstructies vertoont. Projectpagina: https://github.com/vivoCameraResearch/SmartPhotoCrafter.

UniMesh: Unificatie van 3D-maasbegrip en -generatie
UniMesh: Unifying 3D Mesh Understanding and Generation

Apr 19

ByPeng Huang, Yifeng Chen, Zeyu Zhang, Hao Tang

Recente vooruitgang in 3D-visie heeft geleid tot gespecialiseerde modellen voor óf 3D-begrip (bijvoorbeeld vormclassificatie, segmentatie, reconstructie) óf 3D-generatie (bijvoorbeeld synthese, completie en bewerking). Deze taken worden echter vaak geïsoleerd aangepakt, wat resulteert in gefragmenteerde architecturen en representaties die kennisoverdracht en holistische scènemodellering belemmeren. Om deze uitdagingen aan te pakken, stellen we UniMesh voor, een unified framework dat 3D-generatie en -begrip gezamenlijk aanleert binnen een enkele architectuur. Ten eerste introduceren we een nieuwe Mesh Head die fungeert als een cross-model interface, en een brug slaat tussen op diffusie gebaseerde beeldgeneratie en impliciete vormdecoders. Ten tweede ontwikkelen we Chain of Mesh (CoM), een geometrische instantiatie van iteratief redeneren die gebruikersgestuurd semantisch mesh-editen mogelijk maakt via een gesloten lus van latent, prompting en regeneratie. Ten derde incorporeren we een zelfreflectiemechanisme gebaseerd op een Actor-Evaluator-Zelfreflectie-triad om fouten in hoogwaardige taken zoals 3D-beschrijving te diagnosticeren en te corrigeren. Experimentele resultaten tonen aan dat UniMesh niet alleen competitieve prestaties behaalt op standaard benchmarks, maar ook nieuwe mogelijkheden ontgrendelt in iteratief editen en wederzijdse verbetering tussen generatie en begrip. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.

RDP LoRA: Geometrie-gestuurde identificatie voor parameter-efficiënte aanpassing in grote taalmodel
RDP LoRA: Geometry-Driven Identification for Parameter-Efficient Adaptation in Large Language Models

Apr 21

ByYusuf Çelebi, Yağız Asker, Özay Ezerceli, Mahmoud ElHussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu

Het finetunen van grote taalmmodellen (LLM's) blijft structureel onzeker ondanks parameter-efficiënte methoden zoals Low-Rank Adaptation (LoRA), omdat de laagspecifieke rollen van interne representaties slecht worden begrepen. Dit leidt tot heuristische beslissingen over waar adaptatie moet worden toegepast. Wij modelleren de evolutie van verborgen toestanden als een hoogdimensionale geometrische trajectorie en stellen het gebruik voor van het Ramer-Douglas-Peucker (RDP)-algoritme, een parameter- en trainingsvrije polygonale vereenvoudigingsmethode die globale structurele transities behoudt terwijl lokale redundante veranderingen worden geëlimineerd, om kritieke breekpunten langs het representatiepad te identificeren. Cruciaal is dat we deze geometrische scharnierpunten niet louter voor analyse gebruiken, maar als een direct beslissingssignaal om te bepalen welke lagen moeten worden aangepast tijdens parameter-efficiënt finetunen. Door deze geometrie-bewuste laagselectiestrategie te integreren in LoRA-finetuning van Qwen3-8B-Base, behalen we superieure prestaties op MMLU-Math met slechts 13 RDP-geselecteerde lagen (81.67%), wat significant beter is dan zowel volledige adaptatie van 36 lagen (79.32%) als willekeurige selectie van 13 lagen (75.56%), evenals het baseline Qwen3-8B-Base-model (74.25%). Deze resultaten tonen aan dat het benutten van de intrinsieke geometrie van representatietrajecten een robuust, interpreteerbaar en trainingsvrij signaal biedt voor het optimaliseren van laagselectie tijdens modeladaptatie.

MM-JudgeBias: Een Benchmark voor het Evalueren van Compositionele Vooroordelen in MLLM-als-Rechter
MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Apr 20

BySua Lee, Sanghee Park, Jinbae Im

Multimodale Large Language Models (MLLM's) worden steeds vaker gebruikt als automatische beoordelaars - een paradigma dat bekend staat als MLLM-as-a-Judge. Hun betrouwbaarheid en kwetsbaarheid voor biases blijven echter onderbelicht. Wij constateren dat veel MLLM-beoordelaars er niet in slagen om cruciale visuele of tekstuele aanwijzingen betrouwbaar te integreren, wat leidt tot onbetrouwbare evaluaties wanneer bewijs ontbreekt of niet overeenkomt, en instabiliteit vertoont onder semantisch irrelevante verstoringen. Om dit aan te pakken, definiëren wij systematisch Compositionele Bias in MLLM-as-a-Judge-systemen en introduceren MM-JudgeBias, een benchmark voor de evaluatie daarvan. MM-JudgeBias introduceert gecontroleerde verstoringen in Query, Afbeelding en Response, en evalueert modelgedrag via twee complementaire metrieken: Bias-Deviation (BD) voor gevoeligheid en Bias-Conformity (BC) voor stabiliteit. Onze dataset van meer dan 1800 gecureerde en verfijnde multimodale samples, afkomstig uit 29 bronbenchmarks, maakt een gedetailleerde diagnose mogelijk van negen bias-types over diverse taken en domeinen. Experimenten met 26 state-of-the-art MLLM's onthullen systematische modaliteitsverwaarlozing en asymmetrische evaluatietendensen, wat de noodzaak onderstreept voor betrouwbaardere beoordelaars.

LoopCTR: De schaalkracht van loops ontsluiten voor voorspelling van doorklikpercentages
LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

Apr 21

ByJiakai Tang, Runfeng Zhang, Weiqiu Wang, Yifei Liu, Chuan Wang, Xu Chen, Yeqiu Yang, Jian Wu, Yuning Jiang, Bo Zheng

Het opschalen van Transformer-gebaseerde click-through rate (CTR)-modellen door meer parameters te stapelen, brengt groeiende reken- en opslagkosten met zich mee, wat een toenemende kloof creëert tussen schaalambities en de stringente beperkingen voor industriële implementatie. Wij stellen LoopCTR voor, dat een loop-schalingsparadigma introduceert waarbij de rekentijd tijdens training wordt verhoogd door recursief hergebruik van gedeelde modelagen, waardoor de rekentijd wordt ontkoppeld van parametergroei. LoopCTR hanteert een sandwicharchitectuur versterkt met Hyper-Connected Residuals en Mixture-of-Experts, en gebruikt procesbewaking op elke loopdiepte om de voordelen van meerdere loops in de gedeelde parameters te coderen. Dit maakt een train-multi-loop, infer-zero-loop strategie mogelijk, waarbij een enkele voorwaartse passage zonder enige loop reeds alle baseline-modellen overtreft. Experimenten op drie publieke benchmarks en één industriële dataset tonen state-of-the-art prestaties aan. Een oracle-analyse onthult verder een onbenut potentieel van 0.02–0.04 AUC, waarbij modellen getraind met minder loops hogere oracle-plafonds vertonen, wat wijst op een veelbelovend front voor adaptieve inferentie.

UDM-GRPO: Stabiele en Efficiënte Groepsrelatief Beleidsoptimalisatie voor Uniforme Discrete Diffusiemodellen
UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

Apr 20

ByJiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang

Het Uniform Discrete Diffusion Model (UDM) is recentelijk naar voren gekomen als een veelbelovend paradigma voor discrete generatieve modellering; de integratie ervan met reinforcement learning is echter grotendeels onontgonnen. Wij observeren dat een naïeve toepassing van GRPO op UDM leidt tot trainingsinstabiliteit en marginale prestatieverbeteringen. Om dit aan te pakken, stellen wij \Ours voor, het eerste framework dat UDM integreert met RL. Onze methode wordt geleid door twee belangrijke inzichten: (i) het behandelen van het uiteindelijke 'schone' sample als de actie verschaft nauwkeurigere en stabielere optimalisatiesignalen; en (ii) het reconstrueren van trajecten via het forward diffusion-proces zorgt voor een betere afstemming van waarschijnlijkheidspaden met de pre-trainingsdistributie. Daarnaast introduceren wij twee strategieën, Reduced-Step en CFG-Free, om de trainings efficiëntie verder te verbeteren. \Ours verbetert de prestaties van het basismodel aanzienlijk voor diverse T2I-taken. Met name de GenEval-nauwkeurigheid verbetert van 69% naar 96% en de PickScore stijgt van 20.46 naar 23.81, wat state-of-the-art prestaties oplevert in zowel continue als discrete settings. Op de OCR-benchmark stijgt de nauwkeurigheid van 8% naar 57%, wat de generalisatiecapaciteit van onze methode verder valideert. Code is beschikbaar op https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.

HP-Edit: Een Post-Trainingsraamwerk op Basis van Menselijke Voorkeuren voor Bildbewerking
HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Apr 21

ByFan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo

Veelvoorkomende beeldbewerkingstaken maken doorgaans gebruik van krachtige generatieve diffusiemodellen als leidend paradigma voor real-world contentbewerking. Tegelijkertijd hebben reinforcement learning (RL) methoden zoals Diffusion-DPO en Flow-GRPO de generatiekwaliteit verder verbeterd, maar het efficiënt toepassen van Reinforcement Learning from Human Feedback (RLHF) op diffusiegebaseerde bewerking blijft grotendeels onontgonnen gebied. Dit komt door een gebrek aan schaalbare menselijke-preferentie datasets en frameworks die zijn afgestemd op diverse bewerkingsbehoeften. Om deze leemte op te vullen, stellen we HP-Edit voor, een post-training framework voor Human Preference-aligned Editing, en introduceren we RealPref-50K, een real-world dataset die acht veelvoorkomende taken omvat en een evenwichtige bewerking van algemene objecten nastreeft. Concreet benut HP-Edit een kleine hoeveelheid menselijke-preferentie scoringsdata en een voorgetraind visueel groot taalmodel (VLM) om HP-Scorer te ontwikkelen – een automatische, op menselijke voorkeuren afgestemde evaluator. Vervolgens gebruiken we HP-Scorer zowel om efficiënt een schaalbare preferentiedataset op te bouwen als om te dienen als beloningsfunctie voor het post-trainen van het bewerkingsmodel. We introduceren ook RealPref-Bench, een benchmark voor het evalueren van real-world bewerkingsprestaties. Uitgebreide experimenten tonen aan dat onze aanpak modellen zoals Qwen-Image-Edit-2509 aanzienlijk verbetert en hun uitvoer beter afstemt op menselijke voorkeuren.

Nauwkeurige en schaalbare uitwisselingscorrelatie met deep learning
Accurate and scalable exchange-correlation with deep learning

Apr 21

ByGiulia Luise, Chin-Wei Huang, Thijs Vogels, Derk P. Kooi, Sebastian Ehlert, Stephanie Lanius, Klaas J. H. Giesbertz, Amir Karton, Deniz Gunceler, Stefano Battaglia, Gregor N. C. Simm, P. Bernát Szabó, Megan Stanley, Wessel P. Bruinsma, Lin Huang, Xinran Wei, José Garrido Torres, Abylay Katbashev, Rodrigo Chavez Zavaleta, Bálint Máté, Sékou-Oumar Kaba, Roberto Sordillo, Yingrong Chen, David B. Williams-Young, Christopher M. Bishop, Jan Hermann, Rianne van den Berg, Paola Gori-Giorgi

Dichtheidsfunctionaaltheorie (DFT) vormt de basis voor een groot deel van de moderne computationele chemie en materiaalkunde. De betrouwbaarheid van op DFT gebaseerde voorspellingen van experimenteel meetbare eigenschappen wordt echter fundamenteel beperkt door de noodzaak om de onbekende uitwisselings-correlatiefunctionaal (XC-functionaal) te benaderen. Het traditionele paradigma voor het verbeteren van de nauwkeurigheid heeft gesteund op steeds complexere, handmatig ontworpen functionaalvormen. Deze aanpak heeft geleid tot een lang bestaande wisselwerking tussen computationele efficiëntie en nauwkeurigheid, die onvoldoende blijkt voor betrouwbare voorspellende modellering van laboratoriumexperimenten. Hier introduceren we Skala, een op deep learning gebaseerd XC-functionaal dat de state-of-the-art hybride functionalen in nauwkeurigheid overtreft op de hoofdgroepchemie-benchmarkset GMTKN55 met een fout van 2,8 kcal/mol, waarbij het de lagere computationele kosten behoudt die kenmerkend zijn voor semi-lokale DFT. Deze aangetoonde breuk met de historische wisselwerking tussen nauwkeurigheid en efficiëntie wordt mogelijk gemaakt door het leren van niet-lokale representaties van elektronische structuur rechtstreeks uit data, waardoor de behoefte aan steeds kostbaardere handmatig ontworpen kenmerken wordt omzeild. Door gebruik te maken van een ongekend volume aan hoogwaardige referentiedata van golffunctiegebaseerde methoden, stellen we vast dat moderne deep learning systematisch verbeterbare neurale uitwisselings-correlatiemodellen mogelijk maakt naarmate de trainingsdatasets groeien, waardoor eerste-principe simulaties in staat worden gesteld om progressief voorspellender te worden.

Wat Maakt een LLM een Goede Optimizer? Een Trajectorieanalyse van LLM-Gestuurd Evolutionair Zoeken
What Makes an LLM a Good Optimizer? A Trajectory Analysis of LLM-Guided Evolutionary Search

Apr 21

ByXinhao Zhang, Xi Chen, François Portet, Maxime Peyrard

Recent onderzoek heeft de belofte aangetoond van het orkestreren van grote taalmodellen (LLM's) binnen evolutionaire en agent-gebaseerde optimalisatiesystemen. De mechanismen die deze optimalisatiewinsten sturen, blijven echter slecht begrepen. In dit werk presenteren we een grootschalige studie naar LLM-gestuurd evolutionair zoeken, waarbij we optimalisatietrajecten verzamelen voor 15 LLM's verspreid over 8 taken. Hoewel zero-shot probleemoplossend vermogen correleert met uiteindelijke optimalisatieresultaten, verklaart het slechts een deel van de variantie: modellen met vergelijkbare initiële capaciteit vertonen vaak drastisch verschillende zoektrajecten en uitkomsten. Door analyse van deze trajecten constateren we dat sterke LLM-optimalisatoren functioneren als lokale verfijnaars, waarbij ze frequente incrementele verbeteringen produceren en de zoektocht geleidelijk localiseren in de semantische ruimte. Daarentegen vertonen zwakkere optimalisatoren grote semantische drift, met sporadische doorbraken gevolgd door stagnatie. Opmerkelijk genoeg voorspellen diverse maten van oplossingsnieuwigheid de uiteindelijke prestatie niet; nieuwigheid is alleen nuttig wanneer de zoektocht voldoende gelokaliseerd blijft rond hoogpresterende regio's van de oplossingsruimte. Onze resultaten benadrukken het belang van trajectanalyse voor het begrijpen en verbeteren van LLM-gebaseerde optimalisatiesystemen en bieden praktische inzichten voor hun ontwerp en training.

Contrastieve Attributie in de Praktijk: Een Interpretatieanalyse van LLM-fouten op Realistische Benchmarks
Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

Apr 20

ByRongyuan Tan, Jue Zhang, Zhuozhao Li, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

Interpretatiemiddelen worden steeds vaker gebruikt om fouten van Large Language Models (LLM's) te analyseren, maar eerder werk richt zich grotendeels op korte prompts of kunstmatige settings, waardoor hun gedrag op veelgebruikte benchmarks onderbelicht blijft. Om deze leemte aan te pakken, bestuderen we contrastieve, op LRP gebaseerde attributie als een praktisch hulpmiddel voor het analyseren van LLM-fouten in realistische settings. We formuleren foutenanalyse als contrastieve attributie, waarbij het logitverschil tussen een incorrecte uitvoertoken en een correct alternatief wordt toegeschreven aan invoertokens en interne modeltoestanden, en introduceren een efficiënte extensie die de constructie van attributiegrafieken over lagen heen voor lange-context invoer mogelijk maakt. Met dit framework voeren we een systematische empirische studie uit over benchmarks, waarbij we attributiepatronen vergelijken tussen datasets, modelgroottes en trainingscheckpoints. Onze resultaten tonen aan dat deze token-level contrastieve attributie in sommige faalgevallen informatieve signalen kan opleveren, maar niet universeel toepasbaar is, wat zowel de bruikbaarheid als de beperkingen ervan voor realistische LLM-foutenanalyse benadrukt. Onze code is beschikbaar op: https://aka.ms/Debug-XAI.

Evaluatie-gestuurde schaalvergroting voor wetenschappelijke ontdekking
Evaluation-driven Scaling for Scientific Discovery

Apr 21

ByHaotian Ye, Haowei Lin, Jingyi Tang, Yizhen Luo, Caiyin Yang, Chang Su, Rahul Thapa, Rui Yang, Ruihua Liu, Zeyu Li, Chong Gao, Dachao Ding, Guangrong He, Miaolei Zhang, Lina Sun, Wenyang Wang, Yuchen Zhong, Zhuohao Shen, Di He, Jianzhu Ma, Stefano Ermon, Tongyang Li, Xiaowen Chu, James Zou, Yuzhi Xu

Taalmodelle

ClawNet: Mens-Symbiotisch Agentennetwerk voor Cross-User Autonome Samenwerking
ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation

Apr 21

ByZhiqin Yang, Zhenyuan Zhang, Xianzhang Jia, Jun Song, Wei Xue, Yonggang Zhang, Yike Guo

Huidige AI-agentframeworks hebben opmerkelijke vooruitgang geboekt in het automatiseren van individuele taken, maar alle bestaande systemen dienen één enkele gebruiker. Menselijke productiviteit berust op de sociale en organisatorische relaties waarmee mensen coördineren, onderhandelen en delegeren. Wanneer agenten verder gaan dan het uitvoeren van taken voor één persoon, en die persoon gaan vertegenwoordigen in samenwerking met anderen, ontbreekt de infrastructuur voor gebruikersoverstijgende agentcollaboratie volledig, laat staan de governancemechanismen die nodig zijn om deze te beveiligen. Wij beargumenteren dat de volgende grens voor AI-agenten niet ligt in sterkere individuele capaciteit, maar in de digitalisering van menselijke samenwerkingsrelaties. Hiertoe stellen wij een mens-symbiotisch agentparadigma voor. Elke gebruiker bezit een permanent gebonden agentsysteem dat namens de eigenaar samenwerkt, en vormt een netwerk waarvan de knooppunten mensen zijn in plaats van agenten. Dit paradigma rust op drie governance-primitieven. Een gelaagde identiteitsarchitectuur scheidt een Manager Agent van meerdere contextspecifieke Identiteitsagenten; de Manager Agent bezit globale kennis maar is architectonisch geïsoleerd van externe communicatie. Afgebakende autorisatie handhaaft toegangscontrole per identiteit en escalatie van grensoverschrijdingen naar de eigenaar. Verantwoordingsplicht op actieniveau logt elke operatie tegen de identiteit en autorisatie van de eigenaar, wat volledige traceerbaarheid garandeert. Wij concretiseren dit paradigma in ClawNet, een identiteit-gestuurd agentcollaboratieframework dat identiteitsbinding en autorisatieverificatie afdwingt via een centrale orchestrator, waardoor meerdere gebruikers veilig kunnen samenwerken via hun respectievelijke agenten.

Het verminderen van multimodale hallucinaties via fasegewijze zelfbeloning
Mitigating Multimodal Hallucination via Phase-wise Self-reward

Apr 20

ByYu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang

Grote Vision-Language Modellen (LVLM's) hebben nog steeds moeite met visuele hallucinaties, waarbij gegenereerde antwoorden inconsistent zijn met de visuele invoer. Bestaande methoden zijn ofwel afhankelijk van grootschalige geannoteerde data voor fine-tuning, wat enorme rekenkosten met zich meebrengt, ofwel gebruiken ze statische post-hoc strategieën die de dynamische aard van het ontstaan van hallucinaties over het hoofd zien. Om deze problemen aan te pakken, introduceren we een nieuw zelf-belonend raamwerk dat dynamische mitigatie van hallucinaties mogelijk maakt tijdens de inferentie, zonder externe supervisie. Empirisch tonen we aan dat visuele hallucinaties fasegewijze dynamische patronen vertonen, met een piek aan het begin van elke semantische fase. Gebaseerd op deze inzichten stellen we PSRD (Phase-wise **Self-Reward Decoding**) voor voor online correctie van hallucinaties, geleid door fasegewijze zelf-beloningssignalen. Om de kosten van herhaalde zelfevaluatie tijdens het decoderen te verminderen, destilleren we het hallucinatie-guidancesignaal uit de LVLM's in een lichtgewicht beloningsmodel. Dit beloningsmodel verschaft vervolgens real-time begeleiding voor gerichte interventie tijdens het decodeerproces, wat precieze onderdrukking van hallucinaties mogelijk maakt. De voorgestelde PSRD vermindert de hallucinatiefrequentie van LLaVA-1.5-7B significant met 50,0% en presteert consistent beter dan bestaande post-hoc methoden op vijf hallucinatie-evaluatiebenchmarks voor vier LVLM's. Verdere analyse bevestigt dat PSRD hallucinatiepropagatie effectief vermindert en een hoogstwaardeerbare afweging bereikt tussen sterke prestaties en inferentie-efficiëntie.

Microtaalmodellen Maken Directe Reacties Mogelijk
Micro Language Models Enable Instant Responses

Apr 21

ByWen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota

Edge-apparaten zoals smartwatches en slimme brillen kunnen zelfs de kleinste taalmodellen van 100M-1B parameters niet continu draaien vanwege beperkingen in stroomverbruik en rekenkracht, terwijl cloud-inferentie vertragingen van meerdere seconden introduceert die de illusie van een responsieve assistent doorbreken. Wij introduceren micro-taalmodellen (μLMs): ultracompacte modellen (8M-30M parameters) die onmiddellijk de eerste 4-8 woorden van een contextueel onderbouwde reactie op het apparaat zelf genereren, terwijl een cloud-model deze voltooit; zo wordt de cloud-latentie gemaskeerd. Wij tonen aan dat nuttige taalgeneratie op deze extreme schaal mogelijk blijft, waarbij onze modellen presteren op het niveau van verschillende bestaande modellen in de klasse van 70M-256M parameters. Wij ontwerpen een collaboratief generatieraamwerk dat het cloud-model herdefinieert als een *continuator* in plaats van een respondent, waardoor naadloze overdrachten midden in een zin mogelijk worden en gestructureerd herstel via drie foutcorrectiemethoden wanneer de lokale opening misgaat. Empirische resultaten tonen aan dat μLMs reacties kunnen initiëren die grotere modellen naadloos voltooien, wat aantoont dat collaboratie met ordes-van-grootte asymmetrie haalbaar is en responsieve AI ontsluit voor extreem resource-beperkte apparaten. Het modelcheckpoint en een demo zijn beschikbaar op https://github.com/Sensente/micro_language_model_swen_project.

Het voorspellen van gehele getallen op basis van continue parameters
Predicting integers from continuous parameters

Apr 13

ByBas Maat, Peter Bloem

Wij bestuderen het probleem van het voorspellen van numerieke labels die beperkt zijn tot de gehele getallen of een subbereik daarvan. Voorbeelden hiervan zijn het aantal 'upvotes' op sociale media posts, of het aantal beschikbare fietsen bij een openbaar uitleenpunt. Hoewel het mogelijk is deze als continue waarden te modelleren en traditionele regressie toe te passen, verandert deze aanpak de onderliggende verdeling van de labels van discreet naar continu. Discrete verdelingen hebben bepaalde voordelen, wat ons brengt tot de vraag of dergelijke integer-labels rechtstreeks gemodelleerd kunnen worden door een discrete verdeling, waarvan de parameters worden voorspeld op basis van de kenmerken van een gegeven instantie. Bovendien richten we ons op de use case van uitvoerverdelingen van neurale netwerken, wat de eis toevoegt dat de parameters van de verdeling continu moeten zijn, zodat backpropagation en gradient descent kunnen worden gebruikt om de gewichten van het netwerk te leren. Wij onderzoeken verschillende opties voor dergelijke verdelingen, sommige bestaand en sommige nieuw, en testen deze op een reeks taken, waaronder tabulair leren, sequentiële voorspelling en beeldgeneratie. Wij concluderen dat over het algemeen de beste prestaties komen van twee verdelingen: Bitwise, die het doelgetal in bits representeert en op elke bit een Bernoulli-verdeling plaatst, en een discreet analogon van de Laplace-verdeling, die een verdeling gebruikt met exponentieel vervallende staarten rond een continu gemiddelde.

MoVE: Het Vertalen van Lachen en Tranen via een Mengsel van Vocalisatie-experts in Spraak-naar-Spraak Vertaling
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

Apr 19

BySzu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee

Recente spraak-naar-spraakvertaling (S2ST) systemen bereiken een hoge semantische nauwkeurigheid, maar verwijderen consequent non-verbale vocalisaties (NV's), zoals gelach en huilen die pragmatische intentie overbrengen, wat de praktische bruikbaarheid ernstig beperkt. Wij pakken dit aan via drie bijdragen. Ten eerste stellen we een synthesepijplijn voor om schaalbare expressieve datasets te creëren en zo de beperking van dataschaarste te overwinnen. Ten tweede stellen we MoVE voor, een Mixture-of-LoRA-Experts architectuur met expressiegespecialiseerde adapters en een router met zachte gewichting die experts mengt om hybride expressieve toestanden vast te leggen. Ten derde tonen we aan dat voorgetrainde AudioLLM's een opmerkelijke data-efficiëntie mogelijk maken: 30 minuten gecureerde data volstaat voor sterke prestaties. Voor Engels-Chinese S2ST reproduceert MoVE, in vergelijking met sterke baseline-systemen, doel-NV's in 76% van de gevallen en behaalt het de hoogste door mensen beoordeelde natuurlijkheid en emotionele trouw van alle vergeleken systemen, terwijl bestaande S2ST-systemen hooguit 14% van de NV's behouden.

De Cognitieve Boete: Het Uitschakelen van Systeem 1- en Systeem 2-redenering in Edge-Native SLM's voor Gedecentraliseerde Consensus
The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

Apr 18

BySyed Muhammad Aqdas Rizvi

Gedecentraliseerde Autonome Organisaties (DAO's) neigen ernaar om Kleine Taalmodellen (KTM's) te verkennen als edge-native constitutionele firewalls om voorstellen te screenen en semantische sociale manipulatie te mitigeren. Hoewel het opschalen van inference-rekenkracht (Systeem 2) de formele logica verbetert, blijft de effectiviteit ervan in sterk adversariële, cryptoeconomische bestuursomgevingen onderbelicht. Om dit aan te pakken, introduceren wij Sentinel-Bench, een empirisch framework van 840 inferenties dat een strikte intra-model ablatie uitvoert op Qwen-3.5-9B. Door latente redenering in- en uit te schakelen over bevroren gewichten, isoleren wij de impact van inference-rekenkracht tegen een adversariële Optimism DAO-dataset. Onze bevindingen onthullen een ernstige omkering van rekenkracht en nauwkeurigheid. De autoregressieve baseline (Systeem 1) behaalde 100% adversariële robuustheid, 100% juridische consistentie en staatfinaliteit in minder dan 13 seconden. Daarentegen introduceerde Systeem 2-redenering catastrofale instabiliteit, fundamenteel gedreven door een percentage van 26,7% Reasoning Non-Convergence (cognitieve ineenstorting). Deze ineenstorting degradeerde de consensusstabiliteit van trial-to-trial naar 72,6% en legde een latentie-overhead van 17x op, wat kritieke kwetsbaarheden introduceerde voor Governance Extractable Value (GEV) en hardware-centralisatie. Hoewel zeldzaam (1,5% van de adversariële trials), hebben wij empirisch "Reasoning-Induced Sycophancy" vastgelegd, waarbij het model aanzienlijk langere interne monologen genereerde (gemiddeld 25.750 karakters) om te rationaliseren dat het in de adversariële val trapte. Wij concluderen dat voor edge-native KTM's die opereren onder Byzantine Fault Tolerance (BFT)-beperkingen, de geparametriseerde intuïtie van Systeem 1 structureel en economisch superieur is aan de iteratieve beraadslaging van Systeem 2 voor gedecentraliseerde consensus. Code en Dataset: https://github.com/smarizvi110/sentinel-bench

Keten-van-Gedachten-Denken Vermindert de Visueel-Ruimtelijke Redeneervaardigheden van Multimodale LLM's
Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Apr 17

BySai Srinivas Kancheti, Aditya Sanjiv Kanade, Vineeth N. Balasubramanian, Tanuja Ganu

Multimodale Redeneermodellen (MRM's) die gebruikmaken van Chain-of-Thought (CoT)-gebaseerd denken hebben een revolutie teweeggebracht in wiskundig en logisch probleemoplossen. Wij tonen echter aan dat dit paradigma moeite heeft met gegeneraliseerde ruimtelijke intelligentie. Wij voeren een uitgebreide evaluatie uit van zeventien modellen over dertien ruimtelijke benchmarks en identificeren een kritieke kloof: CoT-prompting verslechtert consequent de prestaties bij visueel ruimtelijk redeneren. Verder tonen wij door middel van een nieuwe No-Image++-ablatie aan dat MRM's en met CoT-geprompte MLM's lijden onder ernstige shortcut-learning, en dat zij visuele details hallucineren op basis van tekstuele priors, zelfs wanneer de afbeelding afwezig is. Deze bevindingen trekken de effectiviteit van uitsluitend tekstgebaseerde CoT voor ruimtelijke taken in twijfel en benadrukken de noodzaak van visie-gecentreerde redeneerparadigma's.

Mind's Eye: Een benchmark voor visuele abstractie, transformatie en compositie voor multimodale LLM's
Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Apr 17

ByRohit Sinha, Aditya Kanade, Sai Srinivas Kancheti, Vineeth N Balasubramanian, Tanuja Ganu

Multimodale grote taalmodellen (MLLM's) hebben indrukwekkende vooruitgang geboekt op visie-taalbenchmarks, maar hun capaciteit voor visueel-cognitief en visueel-ruimtelijk redeneren blijft minder goed begrepen. Wij introduceren "Mind's Eye", een multiple-choice benchmark van acht visueel-cognitieve taken geïnspireerd op klassieke menselijke intelligentietests en georganiseerd onder een nieuwe "A-R-T"-taxonomie: Abstractie, Relatie en Transformatie. De taken peilen naar kernprocessen van fluïde intelligentie, zoals patrooninductie, relationeel analogieën leggen en mentale transformatie. Wij evalueren een diverse reeks closed-source en open-source MLLM's en vergelijken hun prestaties met die van menselijke deelnemers. Mensen behalen een nauwkeurigheid van 80%, terwijl de best presterende MLLM's onder de 50% blijven. Foutenanalyse onthult tekortkomingen in: (i) de allocatie van visuele aandacht, (ii) interne perceptuele manipulatie, en (iii) zwakke abstractie van onderliggende visuele concepten. Onze bevindingen suggereren dat huidige MLLM's beperkte visueel-ruimtelijke redeneercapaciteiten vertonen in vergelijking met menselijke deelnemers, wat de noodzaak benadrukt van meer cognitief onderbouwde evaluatiekaders.

SPRITE: Van statische ontwerpen naar engine-gereed spel UI
SPRITE: From Static Mockups to Engine-Ready Game UI

Mar 18

ByYunshu Bai, RuiHao Li, Hao Zhang, Chien Her Lim, Ming Yan, Mengtian Li

De implementatie van game UI vereist het vertalen van gestileerde mockups naar interactieve engine-entiteiten. Huidige "Screenshot-to-Code" tools hebben echter vaak moeite met de onregelmatige geometrieën en diepe visuele hiërarchieën die typisch zijn voor game-interfaces. Om deze kloof te overbruggen, introduceren we SPRITE, een pijplijn die statische schermafbeeldingen omzet in bewerkbare engine-assets. Door Vision-Language Models (VLM's) te integreren met een gestructureerde YAML-tussenrepresentatie, vangt SPRITE expliciet complexe containerrelaties en niet-rechthoekige lay-outs op. We evalueerden SPRITE aan de hand van een samengestelde Game UI-benchmark en voerden expertbeoordelingen uit met professionele ontwikkelaars om de reconstructienauwkeurigheid en prototype-efficiëntie te beoordelen. Onze bevindingen tonen aan dat SPRITE de ontwikkeling stroomlijnt door vervelend programmeerwerk te automatiseren en complexe nesting op te lossen. Door snelle iteratie in de engine te vergemakkelijken, vervaagt SPRITE effectief de grenzen tussen artistiek ontwerp en technische implementatie in game-ontwikkeling. Projectpagina: https://baiyunshu.github.io/sprite.github.io/