HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

22 papers found

LLaTiSA: Naar moeilijkheidsgestratificeerd redeneren over tijdreeksen, van visuele waarneming tot semantiek
LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Apr 19

ByYueyang Ding, HaoPeng Zhang, Rui Dai, Yi Wang, Tianyu Zong, Kaikui Liu, Xiangxiang Chu

Een uitgebreid begrip van tijdreeksen blijft een aanzienlijke uitdaging voor grote taalmmodellen (LLM's). Het huidige onderzoek wordt belemmerd door gefragmenteerde taakdefinities en benchmarks met inherente ambiguïteiten, wat een rigoureuze evaluatie en de ontwikkeling van verenigde Tijdreeks Redeneermodellen (TSRM's) verhindert. Om deze kloof te overbruggen, formaliseren we Tijdreeks Redeneren (TSR) via een taxonomie van vier niveaus met toenemende cognitieve complexiteit. We introduceren HiTSR, een hiërarchische tijdreeksredeneerdataset bestaande uit 83k samples met diverse taakcombinaties en geverifieerde Chain-of-Thought (CoT)-trajecten. Gebruikmakend van HiTSR, stellen we LLaTiSA voor, een krachtige TSRM die gevisualiseerde patronen integreert met precisiegekalibreerde numerieke tabellen om het temporeel bewustzijn van Vision-Language Models (VLM's) te verbeteren. Door een meerfasige curriculum fine-tuning strategie bereikt LLaTiSA superieure prestaties en vertoont het robuuste generalisatie buiten de verdeling over diverse TSR-taken en realistische scenario's. Onze code is beschikbaar op https://github.com/RainingNovember/LLaTiSA.

WorldMark: Een Uniforme Benchmark Suite voor Interactieve Videowereldmodellen
WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Apr 23

ByXiaojie Xu, Zhengyuan Lin, Kang He, Yukang Feng, Xiaofeng Mao, Yuanyang Yin, Kaipeng Zhang, Yongtao Ge

Interactieve videogeneratiemodellen zoals Genie, YUME, HY-World en Matrix-Game ontwikkelen zich snel, maar elk model wordt geëvalueerd op zijn eigen benchmark met privé-scènes en trajecten, waardoor een eerlijke vergelijking tussen modellen onmogelijk is. Bestaande openbare benchmarks bieden nuttige metrieken zoals trajectfouten, esthetische scores en op VLM gebaseerde beoordelingen, maar geen enkele biedt de gestandaardiseerde testomstandigheden – identieke scènes, identieke actiesequenties en een uniforme besturingsinterface – die nodig zijn om deze metrieken vergelijkbaar te maken tussen modellen met uiteenlopende inputs. Wij introduceren WorldMark, de eerste benchmark die zo'n gemeenschappelijk speelveld biedt voor interactieve Image-to-Video wereldmodellen. WorldMark levert de volgende bijdragen: (1) een uniforme actiemappinglaag die een gedeelde WASD-stijl actievocabulaire vertaalt naar de native besturingsformaten van elk model, waardoor een gelijkwaardige vergelijking over zes grote modellen op identieke scènes en trajecten mogelijk wordt; (2) een hiërarchische testsuite van 500 evaluatiecases die eerste- en derdepersoonsperspectieven, fotorealistische en gestileerde scènes, en drie moeilijkheidsniveaus van Makkelijk tot Moeilijk over 20-60 seconden omvat; en (3) een modulair evaluatietoolkit voor Visuele Kwaliteit, Besturingsnauwkeurigheid en Wereldconsistentie, zo ontworpen dat onderzoekers onze gestandaardiseerde inputs kunnen hergebruiken terwijl ze hun eigen metrieken inpluggen naarmate het veld evolueert. Wij zullen alle data, evaluatiecode en modeloutputs vrijgeven om toekomstig onderzoek te vergemakkelijken. Naast offline metrieken lanceren we World Model Arena (warena.ai), een online platform waar iedereen toonaangevende wereldmodellen tegen elkaar kan laten strijden in side-by-side gevechten en de live leaderboard kan volgen.

UniT: Op weg naar een verenigde fysieke taal voor mens-naar-humanoïde beleidsleren en wereldmodellering
UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Apr 21

ByBoyu Chen, Yi Chen, Lu Qiu, Jerry Bai, Yuying Ge, Yixiao Ge

De schaalvergroting van humanoïde fundamentmodellen wordt beperkt door de schaarste aan robotgegevens. Hoewel massale egocentrische menselijke data een schaalbare oplossing biedt, blijft het overbruggen van de kloof tussen verschillende belichamingen een fundamentele uitdaging vanwege kinematische verschillen. Wij introduceren UniT (Unified Latent Action Tokenizer via Visual Anchoring), een raamwerk dat een verenigde fysieke taal creëert voor overdracht van mens naar humanoïde. Gebaseerd op de filosofie dat heterogene kinematica universele visuele gevolgen delen, gebruikt UniT een tri-vertakkend kruisreconstructiemechanisme: acties voorspellen visie om kinematica te verankeren aan fysieke uitkomsten, terwijl visie acties reconstrueert om irrelevante visuele verstorende factoren uit te filteren. Tegelijkertijd integreert een fusievertakking deze gezuiverde modaliteiten in een gedeelde discrete latente ruimte van belichamings-agnostische fysieke intenties. Wij valideren UniT in twee paradigma's: 1) Beleidsleren (VLA-UniT): Door deze verenigde tokens te voorspellen, benut het effectief diverse menselijke data om state-of-the-art data-efficiëntie en robuuste generalisatie buiten de verdeling te bereiken op zowel een humanoïde simulatiebenchmark als echte implementaties, waarbij het opmerkelijk genoeg zero-shot taakoverdracht demonstreert. 2) Wereldmodellering (WM-UniT): Door dynamica tussen belichamingen uit te lijnen via verenigde tokens als condities, realiseert het directe actieoverdracht van mens naar humanoïde. Deze uitlijning zorgt ervoor dat menselijke data naadloos vertaalt naar verbeterde actiebestuurbaarheid voor humanoïde videogeneratie. Uiteindelijk biedt UniT, door een sterk uitgelijnde representatie over belichamingen te induceren (empirisch geverifieerd door t-SNE-visualisaties die de convergentie van menselijke en humanoïde kenmerken in een gedeelde variëteit aantonen), een schaalbare weg om uitgebreide menselijke kennis te destilleren tot algemene humanoïde capaciteiten.

StyleID: Een perceptiebewuste dataset en metriek voor stylisatie-agnostische herkenning van gezichtsidentiteit
StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Apr 23

ByKwan Yun, Changmin Lee, Ayeong Jeong, Youngseo Kim, Seungmi Lee, Junyong Noh

Creatieve gezichtsstilering heeft als doel portretten weer te geven in diverse visuele idioomen zoals cartoons, schetsen en schilderijen, waarbij de herkenbare identiteit behouden blijft. Huidige identiteitsencoders, die doorgaans zijn getraind en gekalibreerd op natuurlijke foto's, vertonen echter ernstige broosheid onder stilering. Ze interpreteren veranderingen in textuur of kleurenpalet vaak ten onrechte als identiteitsvervorming of slagen er niet in geometrische overdrijvingen te detecteren. Dit onthult het ontbreken van een stijlonafhankelijk raamwerk om identiteitsconsistentie over verschillende stijlen en intensiteiten te evalueren en te bewaken. Om deze leemte op te vullen, introduceren we StyleID, een dataset en evaluatieraamwerk voor gezichtsidentiteit onder stilering die afgestemd is op menselijke perceptie. StyleID omvat twee datasets: (i) StyleBench-H, een benchmark die menselijke oordelen overzelfde-verschillende verificatie vastlegt bij op diffusie- en flow-matching gebaseerde stilering op meerdere stijlsterktes, en (ii) StyleBench-S, een supervisieset afgeleid van psychometrische herkenningssterkte-curven verkregen via gecontroleerde two-alternative forced-choice (2AFC) experimenten. Met behulp van StyleBench-S fine-tunen we bestaande semantische encoders om hun gelijkenisordeningen af te stemmen op de menselijke perceptie over stijlen en sterktes heen. Experimenten tonen aan dat onze gekalibreerde modellen een significant hogere correlatie met menselijke oordelen en een verbeterde robuustheid opleveren voor out-of-domain, door kunstenaars getekende portretten. Al onze datasets, code en vooraf getrainde modellen zijn openbaar beschikbaar op https://kwanyun.github.io/StyleID_page/.

Co-evoluerende LLM-beslissings- en vaardighedenbankagenten voor langetermijntaken
Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Apr 22

ByXiyang Wu, Zongxia Li, Guangyao Shi, Alexander Duffy, Tyler Marques, Matthew Lyle Olson, Tianyi Zhou, Dinesh Manocha

Langetermijn-interactieve omgevingen vormen een testomgeving voor het evalueren van de vaardigheidsbenutting van agents. Deze omgevingen vereisen meerstapsredenering, het aaneenschakelen van meerdere vaardigheden over vele tijdstappen, en robuuste besluitvorming onder vertraagde beloningen en gedeeltelijke observeerbaarheid. Spellen zijn een goede testomgeving voor het evalueren van vaardigheidsgebruik van agents in dergelijke omgevingen. Grote Taalmodellen (LLM's) vormen een veelbelovend alternatief als spelende agents, maar ze worstelen vaak met consistente besluitvorming op de lange termijn omdat ze een mechanisme missen om gestructureerde vaardigheden te ontdekken, te behouden en te hergebruiken tussen episodes. Wij presenteren COSPLAY, een co-evolutiekader waarin een LLM-beslissingsagent vaardigheden ophaalt uit een leerbare vaardighedenbank om de actiekeuze te sturen, terwijl een door een agent beheerde vaardighedenpijplijn herbruikbare vaardigheden ontdekt uit de ongelabelde rollouts van de agents om een vaardighedenbank te vormen. Ons kader verbetert zowel de beslissingsagent om betere vaardigheidsretrieval en actiegeneratie te leren, terwijl de vaardighedenbank-agent continu vaardigheden samen met hun contracten extraheert, verfijnt en bijwerkt. Experimenten in zes spelomgevingen tonen aan dat COSPLAY met een basismodel van 8B een gemiddelde beloningsverbetering van meer dan 25,1 procent bereikt ten opzichte van vier state-of-the-art LLM-basislijnen in single-player game benchmarks, terwijl het competitief blijft in multi-player sociale redeneerspellen.

Zien in snel en langzaam: De stroom van tijd in video's leren
Seeing Fast and Slow: Learning the Flow of Time in Videos

Apr 23

ByYen-Siang Wu, Rundong Luo, Jingsen Zhu, Tao Tu, Ali Farhadi, Matthew Wallingford, Yu-Chiang Frank Wang, Steve Marschner, Wei-Chiu Ma

Hoe kunnen we vaststellen of een video versneld of vertraagd is afgespeeld? En hoe kunnen we video's genereren met verschillende snelheden? Hoewel video's centraal staan in modern computer vision-onderzoek, is er weinig aandacht geweest voor het waarnemen en controleren van het tijdsverloop. In dit artikel bestuderen we tijd als een leerbaar visueel concept en ontwikkelen we modellen voor het redeneren over en manipuleren van de tijdstroom in video's. We benutten eerst de multimodale signalen en temporele structuur die van nature in video's aanwezig zijn om op een zelfgesuperviseerde manier te leren snelheidsveranderingen te detecteren en de afspeelsnelheid in te schatten. Vervolgens tonen we aan dat deze geleerde temporele redeneermodellen ons in staat stellen de grootste slow-motion videodataset tot nu toe samen te stellen uit lawaaierige, in het wild verzamelde bronnen. Dergelijke slow-motion beelden, doorgaans opgenomen met high-speed camera's, bevatten aanzienlijk rijkere temporele details dan standaardvideo's. Met deze data ontwikkelen we verder modellen die temporele controle mogelijk maken, waaronder snelheidsgeconditioneerde videogeneratie – die beweging produceert met een gespecificeerde afspeelsnelheid – en temporele superresolutie, die video's met een lage framesnelheid en motion blur omzet in sequenties met een hoge framesnelheid en fijnmazige temporele details. Onze bevindingen benadrukken tijd als een manipuleerbare, perceptuele dimensie in videoleren, wat de deur opent naar temporeel controleerbare videogeneratie, temporele forensische detectie en mogelijk rijkere wereldmodellen die begrijpen hoe gebeurtenissen zich in de tijd ontvouwen.

VLAA-GUI: Weten Wanneer te Stoppen, te Herstellen en te Zoeken. Een modulair raamwerk voor GUI-automatisering.
VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

Apr 23

ByQijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie

Autonome GUI-agents worden geconfronteerd met twee fundamentele uitdagingen: vroegtijdig stoppen, waarbij agents voortijdig succes claimen zonder verifieerbaar bewijs, en repetitieve lussen, waarbij agents eindeloos dezelfde mislukkende acties herhalen zonder herstel. Wij presenteren VLAA-GUI, een modulair GUI-agentframework opgebouwd rond drie geïntegreerde componenten die het systeem leiden over wanneer te Stoppen, te Herstellen en te Zoeken. Ten eerste dwingt een verplichte Compleetheidsverifieraar waarneembare UI-succescriteria en verificatie af bij elke eindstap – met een agent-level verifieraar die voltooiingsclaims kruisverhoort met beslissingsregels en claims zonder direct visueel bewijs afwijst. Ten tweede biedt een verplichte Lusverbreker multi-level filtering: hij schakelt de interactiemodus na herhaalde mislukkingen, forceert strategiewijzigingen bij aanhoudende herhaling van de schermstatus en koppelt reflectiesignalen aan strategieveranderingen. Ten derde zoekt een on-demand Zoekagent online naar onbekende workflows door direct een query uit te voeren bij een krachtige LLM met zoekcapaciteit, waarbij resultaten als platte tekst worden teruggegeven. Wij integreren daarnaast een Coderingsagent voor code-intensieve acties en een Verankeringsagent voor precieze actieverankering, beide on-demand aangeroepen wanneer nodig. Wij evalueren VLAA-GUI over vijf top-tier backbones, waaronder Opus 4.5, 4.6 en Gemini 3.1 Pro, op twee benchmarks met Linux- en Windows-taken, en behalen topprestaties op beide (77,5% op OSWorld en 61,0% op WindowsAgentArena). Opmerkelijk is dat drie van de vijf backbones de menselijke prestatie (72,4%) op OSWorld in één poging overtreffen. Ablatiestudies tonen aan dat alle drie de voorgestelde componenten een sterke backbone consistent verbeteren, terwijl een zwakkere backbone meer baat heeft bij deze tools wanneer het stappenbudget voldoende is. Verdere analyse toont ook aan dat de Lusverbreker verspilde stappen voor lusgevoelige modellen bijna halveert.

Hybride Beleidsdistillatie voor LLM's
Hybrid Policy Distillation for LLMs

Apr 22

ByWenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu

Kennisdistillatie (KD) is een krachtig paradigma voor het comprimeren van grote taalmodel(len) (LLM's), waarvan de effectiviteit afhangt van verweven keuzes op het gebied van divergentierichting, optimalisatiestrategie en dataregime. We ontleden het ontwerp van bestaande KD-methoden en presenteren een geïntegreerde visie die verbanden legt tussen hen, waarbij we KD herformuleren als een hergewogen log-waarschijnlijkheidsdoelstelling op tokenniveau. We stellen verder Hybride Beleidsdistillatie (HPD) voor, dat de complementaire voordelen van voorwaartse en reverse KL integreert om modusdekking en moduszoeken in evenwicht te brengen, en off-policy data combineert met lichtgewicht, benaderende on-policy bemonstering. We valideren HPD op wiskundig redeneren met lange generatie evenals op dialoog- en codetaken met korte generatie, waarbij we verbeterde optimalisatiestabiliteit, computationele efficiëntie en uiteindelijke prestaties aantonen across diverse modelfamilies en schalen. De code gerelateerd aan dit werk is beschikbaar op https://github.com/zwhong714/Hybrid-Policy-Distillation.

TingIS: Real-time Ontdekking van Risicogebeurtenissen uit Ruisrijke Klantincidenten op Enterpriseschaal
TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Apr 23

ByJun Wang, Ziyin Zhang, Rui Wang, Hang Yu, Peng Di, Rui Wang

Real-time detectie en mitigatie van technische anomalieën zijn cruciaal voor grootschalige cloud-native diensten, waar zelfs minuten van uitval kunnen resulteren in enorme financiële verliezen en verminderd gebruikersvertrouwen. Hoewel klantincidenten een essentieel signaal vormen voor het ontdekken van risico's die door monitoring worden gemist, blijft het extraheren van bruikbare inzichten uit deze gegevens een uitdaging vanwege extreme ruis, hoge doorvoer en semantische complexiteit van diverse bedrijfsonderdelen. In dit artikel presenteren we TingIS, een end-to-end systeem ontworpen voor enterprise-grade incidentdetectie. De kern van TingIS vormt een multi-staps gebeurtenislinkmotor die efficiënte indexeringstechnieken combineert met Large Language Models (LLM's) om geïnformeerde beslissingen te nemen over gebeurtenissamenvoeging, waardoor stabiele extractie van bruikbare incidenten uit slechts een handvol diverse gebruikersbeschrijvingen mogelijk wordt. Deze motor wordt aangevuld met een gecascadeerd routeringsmechanisme voor precieze bedrijfsattributie en een multidimensionele ruisreductiepijplijn die domeinkennis, statistische patronen en gedragsfiltering integreert. In een productieomgeving met een piekdoorvoer van meer dan 2.000 berichten per minuut en 300.000 berichten per dag behaalt TingIS een P90-waarschuwingslatentie van 3,5 minuten en een detectiepercentage van 95% voor hoogprioritaire incidenten. Benchmarks opgebouwd uit real-world gegevens tonen aan dat TingIS baseline-methoden significant overtreft in routeringsnauwkeurigheid, clusterkwaliteit en signaal-ruisverhouding.

EditCrafter: Afstemningsvrije bewerking van hoogresolutiebeelden via voorgetraind diffusiemodel
EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model

Apr 11

ByKunho Kim, Sumin Seo, Yongjun Cho, Hyungjin Chung

Wij presenteren EditCrafter, een methode voor het bewerken van hoogresolutiebeelden die werkt zonder afstemming en gebruikmaakt van vooraf getrainde tekst-naar-beeld (T2I) diffusiemodellen om beelden te verwerken bij resoluties die aanzienlijk hoger zijn dan die gebruikt tijdens de training. Het benutten van de generatieve prioriteiten van grootschalige T2I-diffusiemodellen maakt de ontwikkeling van een breed scala aan nieuwe generatie- en bewerkingstoepassingen mogelijk. Hoewel talrijke methoden voor beeldbewerking zijn voorgesteld op basis van diffusiemodellen en hoogwaardige bewerkingsresultaten vertonen, zijn ze moeilijk toe te passen op beelden met willekeurige beeldverhoudingen of hogere resoluties, omdat ze alleen werken bij de trainingsresoluties (512x512 of 1024x1024). Een naïeve toepassing van patchgewijze bewerking mislukt met onrealistische objectstructuren en herhaling. Om deze uitdagingen aan te pakken, introduceren wij EditCrafter, een eenvoudige maar effectieve bewerkingspijplijn. EditCrafter werkt door eerst een getegelde inversie uit te voeren, die de oorspronkelijke identiteit van het invoerbeeld met hoge resolutie behoudt. Wij stellen verder een ruisgedempte, manifold-beperkte classifier-free guidance (NDCFG++) voor die is toegesneden op beeldbewerking met hoge resolutie vanuit de geïnverteerde latentie. Onze experimenten tonen aan dat onze EditCrafter indrukwekkende bewerkingsresultaten kan bereiken over verschillende resoluties zonder fine-tuning en optimalisatie.

Context Ontvouwen in Omnigele Modellen
Context Unrolling in Omni Models

Apr 23

ByCeyuan Yang, Zhijie Lin, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Chaorui Deng, Kunchang Li, Zihan Ding, Yuwei Guo, Fuyun Wang, Fangqi Zhu, Xiaonan Nie, Shenhan Zhu, Shanchuan Lin, Hongsheng Li, Weilin Huang, Guang Shi, Haoqi Fan

Wij presenteren Omni, een verenigd multimodaal model dat natieve training heeft ondergaan in diverse modaliteiten, waaronder tekst, afbeeldingen, video's, 3D-geometrie en verborgen representaties. Wij constateren dat een dergelijke training Context Ontvouwing mogelijk maakt, waarbij het model expliciet redeneert over meerdere modale representaties alvorens voorspellingen te produceren. Dit proces stelt het model in staat om complementaire informatie over heterogene modaliteiten te aggregeren, wat een getrouwere benadering van de gedeelde multimodale kennisvariëteit vergemakkelijkt en de redeneernauwkeurigheid voor downstreamtaken verbetert. Hierdoor behaalt Omni sterke prestaties op zowel multimodale generatie- als begripsbenchmarks, terwijl het geavanceerde multimodale redeneervaardigheden demonstreert, waaronder in-context generatie van tekst, afbeeldingen, video en 3D-geometrie.

Vista4D: Video-opnames opnieuw maken met 4D-puntenwolken
Vista4D: Video Reshooting with 4D Point Clouds

Apr 23

ByKuan Heng Lin, Zhizheng Liu, Pablo Salamanca, Yash Kant, Ryan Burgert, Yuancheng Xu, Koichi Namekata, Yiwei Zhao, Bolei Zhou, Micah Goldblum, Paul Debevec, Ning Yu

Wij presenteren Vista4D, een robuust en flexibel raamwerk voor het opnieuw filmen van video's dat de invoervideo en doelcamera's verankert in een 4D-puntenwolk. Concreet hersynthetiseert onze methode, gegeven een invoervideo, de scène met dezelfde dynamiek vanuit een verschillende cameratrajectorie en gezichtspunt. Bestaande methodes voor videoherfilming kampen vaak met artefacten uit diepteschatting van dynamische video's uit de echte wereld, terwijl ze er ook niet in slagen de inhoudsweergave te behouden en nauwkeurige camerabesturing voor uitdagende nieuwe trajecten te handhaven. Wij bouwen een 4D-gebaseerde puntenwolkrepresentatie met statische pixelssegmentatie en 4D-reconstructie om waargenomen inhoud expliciet te behouden en rijke camerasignalen te bieden, en we trainen met gereconstrueerde multiview-dynamische data voor robuustheid tegen puntenwolkartefacten tijdens inferentie in de echte wereld. Onze resultaten tonen een verbeterde 4D-consistentie, camerabesturing en visuele kwaliteit in vergelijking met state-of-the-art basislijnen onder een verscheidenheid aan video's en camerapaden. Bovendien generaliseert onze methode naar toepassingen in de echte wereld, zoals dynamische scène-uitbreiding en 4D-scènehercompositie. Zie onze projectpagina voor resultaten, code en modellen: https://eyeline-labs.github.io/Vista4D

UniGenDet: Een Geïntegreerd Generatief-Discriminatief Kader voor Co-Evolutionaire Beeldgeneratie en Detectie van Gegenereerde Beelden
UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

Apr 23

ByYanran Zhang, Wenzhao Zheng, Yifei Li, Bingyao Yu, Yu Zheng, Lei Chen, Jiwen Lu, Jie Zhou

De afgelopen jaren is er aanzienlijke vooruitgang geboekt op het gebied van zowel beeldgeneratie als de detectie van gegenereerde beelden. Ondanks hun snelle, maar grotendeels onafhankelijke ontwikkeling, hebben deze twee velden verschillende architecturale paradigma's ontwikkeld: het eerste steunt voornamelijk op generatieve netwerken, terwijl het tweede discriminerende architecturen prefereert. Een recente trend in beide domeinen is het gebruik van adversariële informatie om de prestaties te verbeteren, wat het potentieel voor synergie onthult. De aanzienlijke architecturale kloof tussen beide vormt echter een grote uitdaging. In tegenstelling tot eerdere benaderingen stellen wij UniGenDet voor: een verenigd generatief-discriminerend kader voor co-evolutionaire beeldgeneratie en detectie van gegenereerde beelden. Om de taakkloof te overbruggen, ontwerpen we een symbiotisch multimodaal self-attention-mechanisme en een verenigd fine-tuning-algoritme. Deze synergie stelt de generatietaak in staat om de interpreteerbaarheid van authenticiteitsidentificatie te verbeteren, terwijl authenticiteitscriteria de creatie van beelden met hogere fideliteit sturen. Verder introduceren we een detector-informed generatieve aligneringsmechanisme om naadloze informatie-uitwisseling te vergemakkelijken. Uitgebreide experimenten op meerdere datasets tonen aan dat onze methode state-of-the-art prestaties bereikt. Code: https://github.com/Zhangyr2022/UniGenDet{https://github.com/Zhangyr2022/UniGenDet}.

WebGen-R1: Het stimuleren van grote taalmodelen om functionele en esthetische websites te genereren met reinforcement learning
WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

Apr 22

ByJuyong Jiang, Chenglin Cai, Chansung Park, Jiasi Shen, Sunghun Kim, Jianguo Li, Yue Wang

Hoewel Large Language Models (LLM's) uitblinken in het genereren van code op functieniveau, blijven projectniveau-taken zoals het genereren van functionele en visueel aantrekkelijke websites met meerdere pagina's zeer uitdagend. Bestaande werken zijn vaak beperkt tot statische websites met één pagina, terwijl agent-gebaseerde frameworks doorgaans vertrouwen op multi-turn uitvoering met propriëtaire modellen, wat leidt tot aanzienlijke tokenkosten, hoge latentie en broze integratie. Het end-to-end trainen van een kleine LLM met reinforcement learning (RL) is een veelbelovend alternatief, maar wordt geconfronteerd met een kritieke bottleneck bij het ontwerpen van betrouwbare en computationeel haalbare beloningen voor websitegeneratie. In tegenstelling tot coderings-taken met één bestand die kunnen worden geverifieerd met unittests, vereist websitegeneratie de evaluatie van inherent subjectieve esthetiek, interacties tussen pagina's en functionele correctheid. Daartoe stellen wij WebGen-R1 voor, een end-to-end RL-framework toegesneden op websitegeneratie op projectniveau. We introduceren eerst een scaffold-gestuurd, gestructureerd generatieparadigma dat de grote open actieruimte beperkt en de architecturale integriteit bewaart. Vervolgens ontwerpen we een nieuwe gecascadeerde multimodale beloning die structurele garanties naadloos koppelt aan op uitvoering gegronde functionele feedback en visie-gebaseerd esthetisch toezicht. Uitgebreide experimenten tonen aan dat onze WebGen-R1 een 7B-basismodel substantieel transformeert van het genereren van bijna niet-functionele websites naar het produceren van implementeerbare, esthetisch afgestemde websites met meerdere pagina's. Opmerkelijk is dat onze WebGen-R1 niet alleen consistent zwaar geschaalde open-source modellen (tot 72B) overtreft, maar ook de state-of-the-art DeepSeek-R1 (671B) evenaart in functioneel succes, terwijl het deze aanzienlijk overtreft in geldige weergave en esthetische afstemming. Deze resultaten positioneren WebGen-R1 als een levensvatbaar pad voor het schalen van kleine open modellen van codegeneratie op functieniveau naar generatie van webapplicaties op projectniveau.

Coevoluerende representaties in gezamenlijke beeld-kenmerkdiffusie
Coevolving Representations in Joint Image-Feature Diffusion

Apr 19

ByTheodoros Kouzelis, Spyros Gidaris, Nikos Komodakis

Gezamenlijke beeld-functie generatieve modellering is recent naar voren gekomen als een effectieve strategie om diffusietraining te verbeteren door low-level VAE-latenten te koppelen aan high-level semantische functies die zijn geëxtraheerd uit vooraf getrainde visuele encoders. Bestaande benaderingen vertrouwen echter op een vaste representatieruimte, die onafhankelijk van het generatieve doel is geconstrueerd en tijdens de training ongewijzigd blijft. Wij beargumenteren dat de representatieruimte die de diffusie begeleidt, zichzelf zou moeten aanpassen aan de generatieve taak. Hiertoe stellen wij Co-evoluerende Representatie Diffusie (CoReDi) voor, een raamwerk waarin de semantische representatieruimte evolueert tijdens de training door het gezamenlijk leren van een lichtgewicht lineaire projectie met het diffusiemodel. Hoewel het naïef optimaliseren van deze projectie leidt tot gedegenereerde oplossingen, tonen wij aan dat stabiele co-evolutie kan worden bereikt door een combinatie van stop-gradient doelen, normalisatie en gerichte regularisatie die functie-instorting voorkomt. Deze formulering stelt de semantische ruimte in staat om zich progressief te specialiseren voor de behoeften van beeld synthese, waardoor de complementariteit met beeldlatenten wordt verbeterd. Wij passen CoReDi toe op zowel VAE-latente diffusie als pixelruimte-diffusie, en demonstreren dat adaptieve semantische representaties de generatieve modellering in beide settings verbeteren. Experimenten tonen aan dat CoReDi een snellere convergentie en een hogere samplekwaliteit bereikt in vergelijking met gezamenlijke diffusiemodellen die opereren in vaste representatieruimten.

Vertrouwen maar Verifiëren: Introductie van DAVinCI -- Een Raamwerk voor Dubbele Attributie en Verificatie bij Claiminferentie voor Taalmodellen
Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

Apr 23

ByVipula Rawte, Ryan Rossi, Franck Dernoncourt, Nedim Lipka

Grote Taalmodellen (LLM's) hebben opmerkelijke vlotheid en veelzijdigheid getoond bij een breed scala aan NLP-taken, maar blijven vatbaar voor feitelijke onjuistheden en hallucinaties. Deze beperking vormt aanzienlijke risico's in hoog-risicodomeinen zoals gezondheidszorg, recht en wetenschappelijke communicatie, waar vertrouwen en verifieerbaarheid van cruciaal belang zijn. In dit artikel introduceren we DAVinCI - een Dual Attribution and Verification-kader (Kader voor Dubbele Attributie en Verificatie) ontworpen om de feitelijke betrouwbaarheid en interpreteerbaarheid van LLM-output te verbeteren. DAVinCI werkt in twee fasen: (i) het kent gegenereerde beweringen toe aan interne modelcomponenten en externe bronnen; (ii) het verifieert elke bewering met behulp van entailment-gebaseerde redenering en betrouwbaarheidscalibratie. We evalueren DAVinCI op meerdere datasets, waaronder FEVER en CLIMATE-FEVER, en vergelijken de prestaties met standaard verificatie-only-baselines. Onze resultaten tonen aan dat DAVinCI de classificatienauwkeurigheid, attributieprecisie, recall en F1-score met 5-20% significant verbetert. Door een uitgebreide ablatiestudie isoleren we de bijdragen van evidence span-selectie, recalibratiedrempels en retrievalkwaliteit. We geven ook een modulaire DAVinCI-implementatie vrij die kan worden geïntegreerd in bestaande LLM-pipelines. Door attributie en verificatie te combineren, biedt DAVinCI een schaalbaar pad naar auditeerbare, betrouwbare AI-systemen. Dit werk draagt bij aan de groeiende inspanning om LLM's niet alleen krachtig, maar ook verantwoordelijk te maken.

Testtijd-aanpassing voor EEG-fundatiemodellen: Een systematische studie onder real-world distributieverschuivingen
Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts

Apr 18

ByGabriel Jason Lee, Jathurshan Pradeepkumar, Jimeng Sun

Elektro-encefalografie (EEG) foundation-modellen hebben een groot potentieel getoond voor het leren van generaliseerbare representaties uit grootschalige neurale data, maar hun klinische implementatie wordt belemmerd door distributieverschuivingen tussen verschillende klinische omgevingen, apparaten en populaties. Testtijdaanpassing (TTA) biedt een veelbelovende oplossing door modellen in staat te stellen zich aan te passen aan ongelabelde doeldata tijdens inferentie, zonder toegang tot de brondata – een waardevolle eigenschap in zorgomgevingen die worden beperkt door privacyregelgeving en beperkte gelabelde data. De effectiviteit ervan voor EEG is echter grotendeels onvoldoende onderzocht. In dit werk introduceren we NeuroAdapt-Bench, een systematische benchmark voor het evalueren van testtijdaanpassingsmethoden voor EEG foundation-modellen onder realistische distributieverschuivingen. We evalueren representatieve TTA-benaderingen uit andere domeinen over meerdere vooraf getrainde foundation-modellen, diverse downstreamtaken en heterogene datasets die in-distributie, out-of-distributie en extreme modaliteitsverschuivingen (bijv. Ear-EEG) omvatten. Onze resultaten tonen aan dat standaard TTA-methoden inconsistente verbeteringen opleveren en de prestaties vaak verslechteren, waarbij op gradieten gebaseerde benaderingen bijzonder gevoelig zijn voor sterke degradatie. Optimalisatievrije methoden daarentegen tonen een grotere stabiliteit en betrouwbaardere verbeteringen. Deze bevindingen benadrukken de beperkingen van bestaande TTA-technieken voor EEG, bieden richtlijnen voor toekomstige ontwikkeling en onderstrepen de noodzaak van domeinspecifieke aanpassingsstrategieën.

Verklarende Ontvlochten Representatieleren voor Generaliseerbare Auteurschapstoekenning in het Tijdperk van Generatieve AI
Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

Apr 23

ByHieu Man, Van-Cuong Pham, Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

Het leren van robuuste representaties van auteursstijl is cruciaal voor auteursherkenning en de detectie van door AI gegenereerde tekst. Bestaande methoden kampen echter vaak met de verstrengeling van inhoud en stijl, waarbij modellen oppervlakkige correlaties leren tussen de schrijfstijl van auteurs en onderwerpen, wat leidt tot een slechte generalisatie over domeinen heen. Om deze uitdaging aan te pakken, stellen wij de Uitlegbare Auteursvariational Autoencoder (EAVAE) voor, een nieuw framework dat stijl en inhoud expliciet ontwart door middel van een architectuur die scheiding-by-design implementeert. EAVAE traint eerst stijl-encoders voor met supervised contrastief leren op diverse auteurschapsgegevens, en verfijnt deze vervolgens met een Variational Autoencoder (VAE)-architectuur die gebruikmaakt van aparte encoders voor stijl- en inhoudsrepresentaties. De ontwarring wordt afgedwongen door een nieuwe discriminator die niet alleen onderscheidt of paren van stijl-/inhoudsrepresentaties tot dezelfde of verschillende auteurs/inhoudsbronnen behoren, maar ook een natuurlijke taalverklaring genereert voor haar beslissing, waardoor zowel verstorende informatie wordt gereduceerd als de interpreteerbaarheid wordt vergroot. Uitgebreide experimenten tonen de effectiviteit van EAVAE aan. Voor auteursherkenning behalen we state-of-the-art prestaties op diverse datasets, waaronder Amazon Reviews, PAN21 en HRS. Voor de detectie van AI-gegenereerde tekst presteert EAVAE uitstekend in few-shot learning op de M4-dataset. Code en gegevensrepositories zijn online beschikbaar: https://github.com/hieum98/avae en https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.

Tijdelijk Uitgebreide Mixture-of-Experts Modellen
Temporally Extended Mixture-of-Experts Models

Apr 22

ByZeyu Shen, Peter Henderson

Mixture-of-Experts-modellen, die tegenwoordig populair zijn om de capaciteit te vergroten bij een vaste inferentiesnelheid, schakelen bijna elk token van expert. Zodra een model de beschikbare GPU-geheugencapaciteit overstijgt, kan deze constante wisseling optimalisaties zoals offloading en pre-fetching ondoeltreffend maken. Wij betogen dat het *options*-raamwerk uit de reinforcement learning bij uitstek geschikt is om dit probleem aan te pakken en pleiten voor *temporally extended* Mixture-of-Experts-lagen. Voortbordurend op het *option-critic*-raamwerk met deliberatiekosten voegen we aan elke laag een controller toe die leert wanneer te wisselen van expert-set en welke te laden. Door dit toe te passen op GPT-OSS-20B met *low-rank adapters* en een *self-distillation*-beloning, verlaagt onze methode de wisselfrequentie van meer dan 50% naar minder dan 5%, terwijl tot 90% van de nauwkeurigheid van het basismodel behouden blijft op MATH, MMLU en MMMLU. Dit toont aan dat zelfs bestaande vooraf getrainde modellen met lichtgewicht training kunnen worden omgezet naar *temporally extended* MoE's, waarbij de deliberatiekosten modeltrainers in staat stelt een afweging te maken tussen wisselfrequentie en capaciteit. Wij hopen dat dit een principieel pad opent, verankerd in het *options*-raamwerk, voor geheugenefficiënte *serving* en continu leren in alsmaar groeiende MoE-modellen.

Menselijke Bewegingsbegrip zonder Encoder via Gestructureerde Bewegingsbeschrijvingen
Encoder-Free Human Motion Understanding via Structured Motion Descriptions

Apr 23

ByYao Zhang, Zhuchenyang Liu, Thomas Ploetz, Yu Xiao

De wereldkennis en redeneervermogen van op tekst gebaseerde grote taalmmodellen (LLM's) ontwikkelen zich snel, maar huidige benaderingen voor het begrijpen van menselijke beweging, waaronder bewegingsvraagbeantwoording en -beschrijving, hebben deze mogelijkheden nog niet volledig benut. Bestaande op LLM's gebaseerde methoden leren typisch bewegings-taal-alignment via specifieke encoders die bewegingskenmerken projecteren in de embeddedingsruimte van de LLM, waarbij ze beperkt blijven door cross-modale representatie en alignment. Geïnspireerd door biomechanische analyse, waar gewrichtshoeken en kinematica van lichaamsdelen al lang dienen als een precieze beschrijvende taal voor menselijke beweging, stellen wij Gestructureerde Bewegingsbeschrijving (SMD) voor, een op regels gebaseerde, deterministische benadering die gewrichtspositie-reeksen omzet in gestructureerde natuurlijke-taal beschrijvingen van gewrichtshoeken, lichaamsdeelbewegingen en globale trajectorie. Door beweging als tekst te representeren, stelt SMD LLM's in staat om hun vooraf getrainde kennis van lichaamsdelen, ruimtelijke richtingen en bewegingssemantiek direct toe te passen op bewegingredenering, zonder dat geleerde encoders of alignmentmodules nodig zijn. Wij tonen aan dat deze benadering verder gaat dan state-of-the-art resultaten voor zowel bewegingsvraagbeantwoording (66,7% op BABEL-QA, 90,1% op HuMMan-QA) als bewegingsbeschrijving (R@1 van 0,584, CIDEr van 53,16 op HumanML3D), waarbij alle eerdere methoden worden overtroffen. SMD biedt bovendien praktische voordelen: dezelfde tekstinvoer werkt op verschillende LLM's met slechts een lichtgewicht LoRA-aanpassing (gevalideerd op 8 LLM's uit 6 modelfamilies), en de menselijk leesbare representatie maakt interpreteerbare aandachtanalyse over bewegingsbeschrijvingen mogelijk. Code, data en voorgetrainde LoRA-adapters zijn beschikbaar op https://yaozhang182.github.io/motion-smd/.

PersonalAI: Een Systematische Vergelijking van Kennisgraafopslag- en Retrievalbenaderingen voor Gepersonaliseerde LLM-agenten
PersonalAI: A Systematic Comparison of Knowledge Graph Storage and Retrieval Approaches for Personalized LLM agents

Apr 12

ByMikhail Menschikov, Dmitry Evseev, Victoria Dochkina, Ruslan Kostoev, Ilia Perepechkin, Petr Anokhin, Nikita Semenov, Evgeny Burnaev

Het personaliseren van taalmodellen door gebruikersinteractiegeschiedenis effectief te integreren, blijft een centrale uitdaging in de ontwikkeling van adaptieve AI-systemen. Hoewel grote taalmodellen (LLM's), gecombineerd met Retrieval-Augmented Generation (RAG), de feitelijke nauwkeurigheid hebben verbeterd, beschikken ze vaak niet over gestructureerd geheugen en schalen ze onvoldoende in complexe, langdurige interacties. Om dit aan te pakken, stellen we een flexibel extern geheugenkader voor op basis van een kennisgraaf die automatisch door de LLM wordt opgebouwd en bijgewerkt. Voortbouwend op de AriGraph-architectuur introduceren we een nieuwe hybride graafontwerp dat zowel standaard edges als twee soorten hyperedges ondersteunt, wat rijke en dynamische semantische en temporele representaties mogelijk maakt. Ons kader ondersteunt ook diverse retrievalsmechanismen, waaronder A*-traversal, WaterCircles-traversal, beam search en hybride methoden, waardoor het aanpasbaar is aan verschillende datasets en LLM-capaciteiten. We evalueren ons systeem op TriviaQA-, HotpotQA- en DiaASQ-benchmarks en tonen aan dat verschillende geheugen- en retrievalconfiguraties optimale prestaties opleveren afhankelijk van de taak. Daarnaast breiden we de DiaASQ-benchmark uit met temporele annotaties en intern tegenstrijdige beweringen, waarbij we aantonen dat ons systeem robuust en effectief blijft in het beheren van temporele afhankelijkheden en contextbewust redeneren.

3D-VCD: Hallucinatievermindering in 3D-LLM Belichaamde Agents via Visueel Contrastief Decoderen
3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

Apr 9

ByMakanjuola Ogunleye, Eman Abdelrahman, Ismini Lourentzou

Grote multimodale modellen worden steeds vaker gebruikt als de redeneerkern van belichaamde agents in 3D-omgevingen, maar ze blijven vatbaar voor hallucinaties die tot onveilige en ongegronde beslissingen kunnen leiden. Bestaande methoden om hallucinaties tijdens inferentie tegen te gaan, richten zich grotendeels op 2D visie-taal settings en zijn niet overdraagbaar naar belichaamd 3D-redeneren, waar fouten voortkomen uit de aanwezigheid van objecten, ruimtelijke lay-out en geometrische verankering in plaats van pixel-level inconsistenties. Wij introduceren 3D-VCD, het eerste visuele contrastieve decodeerframework tijdens inferentie voor het verminderen van hallucinaties in belichaamde 3D-agents. 3D-VCD construeert een vervormde 3D-scènegraph door semantische en geometrische perturbaties toe te passen op objectgecentreerde representaties, zoals categorisubstituties en corruptie van coördinaten of afmetingen. Door voorspellingen onder de originele en vervormde 3D-contexten te contrasteren, onderdrukt onze methode tokens die ongevoelig zijn voor gegronde scène-evidentie en daarom waarschijnlijk worden gedreven door taalpriors. Wij evalueren 3D-VCD op de 3D-POPE en HEAL benchmarks en tonen aan dat het gegronde redeneren consistent verbetert zonder enige hertraining, waarmee contrastief decoderen tijdens inferentie over gestructureerde 3D-representaties wordt gevestigd als een effectieve en praktische route naar betrouwbaardere belichaamde intelligentie.