Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Een uitgebreid begrip van tijdreeksen blijft een aanzienlijke uitdaging voor grote taalmmodellen (LLM's). Het huidige onderzoek wordt belemmerd door gefragmenteerde taakdefinities en benchmarks met inherente ambiguïteiten, wat een rigoureuze evaluatie en de ontwikkeling van verenigde Tijdreeks Redeneermodellen (TSRM's) verhindert. Om deze kloof te overbruggen, formaliseren we Tijdreeks Redeneren (TSR) via een taxonomie van vier niveaus met toenemende cognitieve complexiteit. We introduceren HiTSR, een hiërarchische tijdreeksredeneerdataset bestaande uit 83k samples met diverse taakcombinaties en geverifieerde Chain-of-Thought (CoT)-trajecten. Gebruikmakend van HiTSR, stellen we LLaTiSA voor, een krachtige TSRM die gevisualiseerde patronen integreert met precisiegekalibreerde numerieke tabellen om het temporeel bewustzijn van Vision-Language Models (VLM's) te verbeteren. Door een meerfasige curriculum fine-tuning strategie bereikt LLaTiSA superieure prestaties en vertoont het robuuste generalisatie buiten de verdeling over diverse TSR-taken en realistische scenario's. Onze code is beschikbaar op https://github.com/RainingNovember/LLaTiSA.
Interactieve videogeneratiemodellen zoals Genie, YUME, HY-World en Matrix-Game ontwikkelen zich snel, maar elk model wordt geëvalueerd op zijn eigen benchmark met privé-scènes en trajecten, waardoor een eerlijke vergelijking tussen modellen onmogelijk is. Bestaande openbare benchmarks bieden nuttige metrieken zoals trajectfouten, esthetische scores en op VLM gebaseerde beoordelingen, maar geen enkele biedt de gestandaardiseerde testomstandigheden – identieke scènes, identieke actiesequenties en een uniforme besturingsinterface – die nodig zijn om deze metrieken vergelijkbaar te maken tussen modellen met uiteenlopende inputs. Wij introduceren WorldMark, de eerste benchmark die zo'n gemeenschappelijk speelveld biedt voor interactieve Image-to-Video wereldmodellen. WorldMark levert de volgende bijdragen: (1) een uniforme actiemappinglaag die een gedeelde WASD-stijl actievocabulaire vertaalt naar de native besturingsformaten van elk model, waardoor een gelijkwaardige vergelijking over zes grote modellen op identieke scènes en trajecten mogelijk wordt; (2) een hiërarchische testsuite van 500 evaluatiecases die eerste- en derdepersoonsperspectieven, fotorealistische en gestileerde scènes, en drie moeilijkheidsniveaus van Makkelijk tot Moeilijk over 20-60 seconden omvat; en (3) een modulair evaluatietoolkit voor Visuele Kwaliteit, Besturingsnauwkeurigheid en Wereldconsistentie, zo ontworpen dat onderzoekers onze gestandaardiseerde inputs kunnen hergebruiken terwijl ze hun eigen metrieken inpluggen naarmate het veld evolueert. Wij zullen alle data, evaluatiecode en modeloutputs vrijgeven om toekomstig onderzoek te vergemakkelijken. Naast offline metrieken lanceren we World Model Arena (warena.ai), een online platform waar iedereen toonaangevende wereldmodellen tegen elkaar kan laten strijden in side-by-side gevechten en de live leaderboard kan volgen.
De schaalvergroting van humanoïde fundamentmodellen wordt beperkt door de schaarste aan robotgegevens. Hoewel massale egocentrische menselijke data een schaalbare oplossing biedt, blijft het overbruggen van de kloof tussen verschillende belichamingen een fundamentele uitdaging vanwege kinematische verschillen. Wij introduceren UniT (Unified Latent Action Tokenizer via Visual Anchoring), een raamwerk dat een verenigde fysieke taal creëert voor overdracht van mens naar humanoïde. Gebaseerd op de filosofie dat heterogene kinematica universele visuele gevolgen delen, gebruikt UniT een tri-vertakkend kruisreconstructiemechanisme: acties voorspellen visie om kinematica te verankeren aan fysieke uitkomsten, terwijl visie acties reconstrueert om irrelevante visuele verstorende factoren uit te filteren. Tegelijkertijd integreert een fusievertakking deze gezuiverde modaliteiten in een gedeelde discrete latente ruimte van belichamings-agnostische fysieke intenties. Wij valideren UniT in twee paradigma's: 1) Beleidsleren (VLA-UniT): Door deze verenigde tokens te voorspellen, benut het effectief diverse menselijke data om state-of-the-art data-efficiëntie en robuuste generalisatie buiten de verdeling te bereiken op zowel een humanoïde simulatiebenchmark als echte implementaties, waarbij het opmerkelijk genoeg zero-shot taakoverdracht demonstreert. 2) Wereldmodellering (WM-UniT): Door dynamica tussen belichamingen uit te lijnen via verenigde tokens als condities, realiseert het directe actieoverdracht van mens naar humanoïde. Deze uitlijning zorgt ervoor dat menselijke data naadloos vertaalt naar verbeterde actiebestuurbaarheid voor humanoïde videogeneratie. Uiteindelijk biedt UniT, door een sterk uitgelijnde representatie over belichamingen te induceren (empirisch geverifieerd door t-SNE-visualisaties die de convergentie van menselijke en humanoïde kenmerken in een gedeelde variëteit aantonen), een schaalbare weg om uitgebreide menselijke kennis te destilleren tot algemene humanoïde capaciteiten.
Creatieve gezichtsstilering heeft als doel portretten weer te geven in diverse visuele idioomen zoals cartoons, schetsen en schilderijen, waarbij de herkenbare identiteit behouden blijft. Huidige identiteitsencoders, die doorgaans zijn getraind en gekalibreerd op natuurlijke foto's, vertonen echter ernstige broosheid onder stilering. Ze interpreteren veranderingen in textuur of kleurenpalet vaak ten onrechte als identiteitsvervorming of slagen er niet in geometrische overdrijvingen te detecteren. Dit onthult het ontbreken van een stijlonafhankelijk raamwerk om identiteitsconsistentie over verschillende stijlen en intensiteiten te evalueren en te bewaken. Om deze leemte op te vullen, introduceren we StyleID, een dataset en evaluatieraamwerk voor gezichtsidentiteit onder stilering die afgestemd is op menselijke perceptie. StyleID omvat twee datasets: (i) StyleBench-H, een benchmark die menselijke oordelen overzelfde-verschillende verificatie vastlegt bij op diffusie- en flow-matching gebaseerde stilering op meerdere stijlsterktes, en (ii) StyleBench-S, een supervisieset afgeleid van psychometrische herkenningssterkte-curven verkregen via gecontroleerde two-alternative forced-choice (2AFC) experimenten. Met behulp van StyleBench-S fine-tunen we bestaande semantische encoders om hun gelijkenisordeningen af te stemmen op de menselijke perceptie over stijlen en sterktes heen. Experimenten tonen aan dat onze gekalibreerde modellen een significant hogere correlatie met menselijke oordelen en een verbeterde robuustheid opleveren voor out-of-domain, door kunstenaars getekende portretten. Al onze datasets, code en vooraf getrainde modellen zijn openbaar beschikbaar op https://kwanyun.github.io/StyleID_page/.
Langetermijn-interactieve omgevingen vormen een testomgeving voor het evalueren van de vaardigheidsbenutting van agents. Deze omgevingen vereisen meerstapsredenering, het aaneenschakelen van meerdere vaardigheden over vele tijdstappen, en robuuste besluitvorming onder vertraagde beloningen en gedeeltelijke observeerbaarheid. Spellen zijn een goede testomgeving voor het evalueren van vaardigheidsgebruik van agents in dergelijke omgevingen. Grote Taalmodellen (LLM's) vormen een veelbelovend alternatief als spelende agents, maar ze worstelen vaak met consistente besluitvorming op de lange termijn omdat ze een mechanisme missen om gestructureerde vaardigheden te ontdekken, te behouden en te hergebruiken tussen episodes. Wij presenteren COSPLAY, een co-evolutiekader waarin een LLM-beslissingsagent vaardigheden ophaalt uit een leerbare vaardighedenbank om de actiekeuze te sturen, terwijl een door een agent beheerde vaardighedenpijplijn herbruikbare vaardigheden ontdekt uit de ongelabelde rollouts van de agents om een vaardighedenbank te vormen. Ons kader verbetert zowel de beslissingsagent om betere vaardigheidsretrieval en actiegeneratie te leren, terwijl de vaardighedenbank-agent continu vaardigheden samen met hun contracten extraheert, verfijnt en bijwerkt. Experimenten in zes spelomgevingen tonen aan dat COSPLAY met een basismodel van 8B een gemiddelde beloningsverbetering van meer dan 25,1 procent bereikt ten opzichte van vier state-of-the-art LLM-basislijnen in single-player game benchmarks, terwijl het competitief blijft in multi-player sociale redeneerspellen.
Hoe kunnen we vaststellen of een video versneld of vertraagd is afgespeeld? En hoe kunnen we video's genereren met verschillende snelheden? Hoewel video's centraal staan in modern computer vision-onderzoek, is er weinig aandacht geweest voor het waarnemen en controleren van het tijdsverloop. In dit artikel bestuderen we tijd als een leerbaar visueel concept en ontwikkelen we modellen voor het redeneren over en manipuleren van de tijdstroom in video's. We benutten eerst de multimodale signalen en temporele structuur die van nature in video's aanwezig zijn om op een zelfgesuperviseerde manier te leren snelheidsveranderingen te detecteren en de afspeelsnelheid in te schatten. Vervolgens tonen we aan dat deze geleerde temporele redeneermodellen ons in staat stellen de grootste slow-motion videodataset tot nu toe samen te stellen uit lawaaierige, in het wild verzamelde bronnen. Dergelijke slow-motion beelden, doorgaans opgenomen met high-speed camera's, bevatten aanzienlijk rijkere temporele details dan standaardvideo's. Met deze data ontwikkelen we verder modellen die temporele controle mogelijk maken, waaronder snelheidsgeconditioneerde videogeneratie – die beweging produceert met een gespecificeerde afspeelsnelheid – en temporele superresolutie, die video's met een lage framesnelheid en motion blur omzet in sequenties met een hoge framesnelheid en fijnmazige temporele details. Onze bevindingen benadrukken tijd als een manipuleerbare, perceptuele dimensie in videoleren, wat de deur opent naar temporeel controleerbare videogeneratie, temporele forensische detectie en mogelijk rijkere wereldmodellen die begrijpen hoe gebeurtenissen zich in de tijd ontvouwen.
Autonome GUI-agents worden geconfronteerd met twee fundamentele uitdagingen: vroegtijdig stoppen, waarbij agents voortijdig succes claimen zonder verifieerbaar bewijs, en repetitieve lussen, waarbij agents eindeloos dezelfde mislukkende acties herhalen zonder herstel. Wij presenteren VLAA-GUI, een modulair GUI-agentframework opgebouwd rond drie geïntegreerde componenten die het systeem leiden over wanneer te Stoppen, te Herstellen en te Zoeken. Ten eerste dwingt een verplichte Compleetheidsverifieraar waarneembare UI-succescriteria en verificatie af bij elke eindstap – met een agent-level verifieraar die voltooiingsclaims kruisverhoort met beslissingsregels en claims zonder direct visueel bewijs afwijst. Ten tweede biedt een verplichte Lusverbreker multi-level filtering: hij schakelt de interactiemodus na herhaalde mislukkingen, forceert strategiewijzigingen bij aanhoudende herhaling van de schermstatus en koppelt reflectiesignalen aan strategieveranderingen. Ten derde zoekt een on-demand Zoekagent online naar onbekende workflows door direct een query uit te voeren bij een krachtige LLM met zoekcapaciteit, waarbij resultaten als platte tekst worden teruggegeven. Wij integreren daarnaast een Coderingsagent voor code-intensieve acties en een Verankeringsagent voor precieze actieverankering, beide on-demand aangeroepen wanneer nodig. Wij evalueren VLAA-GUI over vijf top-tier backbones, waaronder Opus 4.5, 4.6 en Gemini 3.1 Pro, op twee benchmarks met Linux- en Windows-taken, en behalen topprestaties op beide (77,5% op OSWorld en 61,0% op WindowsAgentArena). Opmerkelijk is dat drie van de vijf backbones de menselijke prestatie (72,4%) op OSWorld in één poging overtreffen. Ablatiestudies tonen aan dat alle drie de voorgestelde componenten een sterke backbone consistent verbeteren, terwijl een zwakkere backbone meer baat heeft bij deze tools wanneer het stappenbudget voldoende is. Verdere analyse toont ook aan dat de Lusverbreker verspilde stappen voor lusgevoelige modellen bijna halveert.
Kennisdistillatie (KD) is een krachtig paradigma voor het comprimeren van grote taalmodel(len) (LLM's), waarvan de effectiviteit afhangt van verweven keuzes op het gebied van divergentierichting, optimalisatiestrategie en dataregime. We ontleden het ontwerp van bestaande KD-methoden en presenteren een geïntegreerde visie die verbanden legt tussen hen, waarbij we KD herformuleren als een hergewogen log-waarschijnlijkheidsdoelstelling op tokenniveau. We stellen verder Hybride Beleidsdistillatie (HPD) voor, dat de complementaire voordelen van voorwaartse en reverse KL integreert om modusdekking en moduszoeken in evenwicht te brengen, en off-policy data combineert met lichtgewicht, benaderende on-policy bemonstering. We valideren HPD op wiskundig redeneren met lange generatie evenals op dialoog- en codetaken met korte generatie, waarbij we verbeterde optimalisatiestabiliteit, computationele efficiëntie en uiteindelijke prestaties aantonen across diverse modelfamilies en schalen. De code gerelateerd aan dit werk is beschikbaar op https://github.com/zwhong714/Hybrid-Policy-Distillation.
Real-time detectie en mitigatie van technische anomalieën zijn cruciaal voor grootschalige cloud-native diensten, waar zelfs minuten van uitval kunnen resulteren in enorme financiële verliezen en verminderd gebruikersvertrouwen. Hoewel klantincidenten een essentieel signaal vormen voor het ontdekken van risico's die door monitoring worden gemist, blijft het extraheren van bruikbare inzichten uit deze gegevens een uitdaging vanwege extreme ruis, hoge doorvoer en semantische complexiteit van diverse bedrijfsonderdelen. In dit artikel presenteren we TingIS, een end-to-end systeem ontworpen voor enterprise-grade incidentdetectie. De kern van TingIS vormt een multi-staps gebeurtenislinkmotor die efficiënte indexeringstechnieken combineert met Large Language Models (LLM's) om geïnformeerde beslissingen te nemen over gebeurtenissamenvoeging, waardoor stabiele extractie van bruikbare incidenten uit slechts een handvol diverse gebruikersbeschrijvingen mogelijk wordt. Deze motor wordt aangevuld met een gecascadeerd routeringsmechanisme voor precieze bedrijfsattributie en een multidimensionele ruisreductiepijplijn die domeinkennis, statistische patronen en gedragsfiltering integreert. In een productieomgeving met een piekdoorvoer van meer dan 2.000 berichten per minuut en 300.000 berichten per dag behaalt TingIS een P90-waarschuwingslatentie van 3,5 minuten en een detectiepercentage van 95% voor hoogprioritaire incidenten. Benchmarks opgebouwd uit real-world gegevens tonen aan dat TingIS baseline-methoden significant overtreft in routeringsnauwkeurigheid, clusterkwaliteit en signaal-ruisverhouding.
Wij presenteren EditCrafter, een methode voor het bewerken van hoogresolutiebeelden die werkt zonder afstemming en gebruikmaakt van vooraf getrainde tekst-naar-beeld (T2I) diffusiemodellen om beelden te verwerken bij resoluties die aanzienlijk hoger zijn dan die gebruikt tijdens de training. Het benutten van de generatieve prioriteiten van grootschalige T2I-diffusiemodellen maakt de ontwikkeling van een breed scala aan nieuwe generatie- en bewerkingstoepassingen mogelijk. Hoewel talrijke methoden voor beeldbewerking zijn voorgesteld op basis van diffusiemodellen en hoogwaardige bewerkingsresultaten vertonen, zijn ze moeilijk toe te passen op beelden met willekeurige beeldverhoudingen of hogere resoluties, omdat ze alleen werken bij de trainingsresoluties (512x512 of 1024x1024). Een naïeve toepassing van patchgewijze bewerking mislukt met onrealistische objectstructuren en herhaling. Om deze uitdagingen aan te pakken, introduceren wij EditCrafter, een eenvoudige maar effectieve bewerkingspijplijn. EditCrafter werkt door eerst een getegelde inversie uit te voeren, die de oorspronkelijke identiteit van het invoerbeeld met hoge resolutie behoudt. Wij stellen verder een ruisgedempte, manifold-beperkte classifier-free guidance (NDCFG++) voor die is toegesneden op beeldbewerking met hoge resolutie vanuit de geïnverteerde latentie. Onze experimenten tonen aan dat onze EditCrafter indrukwekkende bewerkingsresultaten kan bereiken over verschillende resoluties zonder fine-tuning en optimalisatie.
Wij presenteren Omni, een verenigd multimodaal model dat natieve training heeft ondergaan in diverse modaliteiten, waaronder tekst, afbeeldingen, video's, 3D-geometrie en verborgen representaties. Wij constateren dat een dergelijke training Context Ontvouwing mogelijk maakt, waarbij het model expliciet redeneert over meerdere modale representaties alvorens voorspellingen te produceren. Dit proces stelt het model in staat om complementaire informatie over heterogene modaliteiten te aggregeren, wat een getrouwere benadering van de gedeelde multimodale kennisvariëteit vergemakkelijkt en de redeneernauwkeurigheid voor downstreamtaken verbetert. Hierdoor behaalt Omni sterke prestaties op zowel multimodale generatie- als begripsbenchmarks, terwijl het geavanceerde multimodale redeneervaardigheden demonstreert, waaronder in-context generatie van tekst, afbeeldingen, video en 3D-geometrie.
Wij presenteren Vista4D, een robuust en flexibel raamwerk voor het opnieuw filmen van video's dat de invoervideo en doelcamera's verankert in een 4D-puntenwolk. Concreet hersynthetiseert onze methode, gegeven een invoervideo, de scène met dezelfde dynamiek vanuit een verschillende cameratrajectorie en gezichtspunt. Bestaande methodes voor videoherfilming kampen vaak met artefacten uit diepteschatting van dynamische video's uit de echte wereld, terwijl ze er ook niet in slagen de inhoudsweergave te behouden en nauwkeurige camerabesturing voor uitdagende nieuwe trajecten te handhaven. Wij bouwen een 4D-gebaseerde puntenwolkrepresentatie met statische pixelssegmentatie en 4D-reconstructie om waargenomen inhoud expliciet te behouden en rijke camerasignalen te bieden, en we trainen met gereconstrueerde multiview-dynamische data voor robuustheid tegen puntenwolkartefacten tijdens inferentie in de echte wereld. Onze resultaten tonen een verbeterde 4D-consistentie, camerabesturing en visuele kwaliteit in vergelijking met state-of-the-art basislijnen onder een verscheidenheid aan video's en camerapaden. Bovendien generaliseert onze methode naar toepassingen in de echte wereld, zoals dynamische scène-uitbreiding en 4D-scènehercompositie. Zie onze projectpagina voor resultaten, code en modellen: https://eyeline-labs.github.io/Vista4D
De afgelopen jaren is er aanzienlijke vooruitgang geboekt op het gebied van zowel beeldgeneratie als de detectie van gegenereerde beelden. Ondanks hun snelle, maar grotendeels onafhankelijke ontwikkeling, hebben deze twee velden verschillende architecturale paradigma's ontwikkeld: het eerste steunt voornamelijk op generatieve netwerken, terwijl het tweede discriminerende architecturen prefereert. Een recente trend in beide domeinen is het gebruik van adversariële informatie om de prestaties te verbeteren, wat het potentieel voor synergie onthult. De aanzienlijke architecturale kloof tussen beide vormt echter een grote uitdaging. In tegenstelling tot eerdere benaderingen stellen wij UniGenDet voor: een verenigd generatief-discriminerend kader voor co-evolutionaire beeldgeneratie en detectie van gegenereerde beelden. Om de taakkloof te overbruggen, ontwerpen we een symbiotisch multimodaal self-attention-mechanisme en een verenigd fine-tuning-algoritme. Deze synergie stelt de generatietaak in staat om de interpreteerbaarheid van authenticiteitsidentificatie te verbeteren, terwijl authenticiteitscriteria de creatie van beelden met hogere fideliteit sturen. Verder introduceren we een detector-informed generatieve aligneringsmechanisme om naadloze informatie-uitwisseling te vergemakkelijken. Uitgebreide experimenten op meerdere datasets tonen aan dat onze methode state-of-the-art prestaties bereikt. Code: https://github.com/Zhangyr2022/UniGenDet{https://github.com/Zhangyr2022/UniGenDet}.
Hoewel Large Language Models (LLM's) uitblinken in het genereren van code op functieniveau, blijven projectniveau-taken zoals het genereren van functionele en visueel aantrekkelijke websites met meerdere pagina's zeer uitdagend. Bestaande werken zijn vaak beperkt tot statische websites met één pagina, terwijl agent-gebaseerde frameworks doorgaans vertrouwen op multi-turn uitvoering met propriëtaire modellen, wat leidt tot aanzienlijke tokenkosten, hoge latentie en broze integratie. Het end-to-end trainen van een kleine LLM met reinforcement learning (RL) is een veelbelovend alternatief, maar wordt geconfronteerd met een kritieke bottleneck bij het ontwerpen van betrouwbare en computationeel haalbare beloningen voor websitegeneratie. In tegenstelling tot coderings-taken met één bestand die kunnen worden geverifieerd met unittests, vereist websitegeneratie de evaluatie van inherent subjectieve esthetiek, interacties tussen pagina's en functionele correctheid. Daartoe stellen wij WebGen-R1 voor, een end-to-end RL-framework toegesneden op websitegeneratie op projectniveau. We introduceren eerst een scaffold-gestuurd, gestructureerd generatieparadigma dat de grote open actieruimte beperkt en de architecturale integriteit bewaart. Vervolgens ontwerpen we een nieuwe gecascadeerde multimodale beloning die structurele garanties naadloos koppelt aan op uitvoering gegronde functionele feedback en visie-gebaseerd esthetisch toezicht. Uitgebreide experimenten tonen aan dat onze WebGen-R1 een 7B-basismodel substantieel transformeert van het genereren van bijna niet-functionele websites naar het produceren van implementeerbare, esthetisch afgestemde websites met meerdere pagina's. Opmerkelijk is dat onze WebGen-R1 niet alleen consistent zwaar geschaalde open-source modellen (tot 72B) overtreft, maar ook de state-of-the-art DeepSeek-R1 (671B) evenaart in functioneel succes, terwijl het deze aanzienlijk overtreft in geldige weergave en esthetische afstemming. Deze resultaten positioneren WebGen-R1 als een levensvatbaar pad voor het schalen van kleine open modellen van codegeneratie op functieniveau naar generatie van webapplicaties op projectniveau.
Gezamenlijke beeld-functie generatieve modellering is recent naar voren gekomen als een effectieve strategie om diffusietraining te verbeteren door low-level VAE-latenten te koppelen aan high-level semantische functies die zijn geëxtraheerd uit vooraf getrainde visuele encoders. Bestaande benaderingen vertrouwen echter op een vaste representatieruimte, die onafhankelijk van het generatieve doel is geconstrueerd en tijdens de training ongewijzigd blijft. Wij beargumenteren dat de representatieruimte die de diffusie begeleidt, zichzelf zou moeten aanpassen aan de generatieve taak. Hiertoe stellen wij Co-evoluerende Representatie Diffusie (CoReDi) voor, een raamwerk waarin de semantische representatieruimte evolueert tijdens de training door het gezamenlijk leren van een lichtgewicht lineaire projectie met het diffusiemodel. Hoewel het naïef optimaliseren van deze projectie leidt tot gedegenereerde oplossingen, tonen wij aan dat stabiele co-evolutie kan worden bereikt door een combinatie van stop-gradient doelen, normalisatie en gerichte regularisatie die functie-instorting voorkomt. Deze formulering stelt de semantische ruimte in staat om zich progressief te specialiseren voor de behoeften van beeld synthese, waardoor de complementariteit met beeldlatenten wordt verbeterd. Wij passen CoReDi toe op zowel VAE-latente diffusie als pixelruimte-diffusie, en demonstreren dat adaptieve semantische representaties de generatieve modellering in beide settings verbeteren. Experimenten tonen aan dat CoReDi een snellere convergentie en een hogere samplekwaliteit bereikt in vergelijking met gezamenlijke diffusiemodellen die opereren in vaste representatieruimten.
Grote Taalmodellen (LLM's) hebben opmerkelijke vlotheid en veelzijdigheid getoond bij een breed scala aan NLP-taken, maar blijven vatbaar voor feitelijke onjuistheden en hallucinaties. Deze beperking vormt aanzienlijke risico's in hoog-risicodomeinen zoals gezondheidszorg, recht en wetenschappelijke communicatie, waar vertrouwen en verifieerbaarheid van cruciaal belang zijn. In dit artikel introduceren we DAVinCI - een Dual Attribution and Verification-kader (Kader voor Dubbele Attributie en Verificatie) ontworpen om de feitelijke betrouwbaarheid en interpreteerbaarheid van LLM-output te verbeteren. DAVinCI werkt in twee fasen: (i) het kent gegenereerde beweringen toe aan interne modelcomponenten en externe bronnen; (ii) het verifieert elke bewering met behulp van entailment-gebaseerde redenering en betrouwbaarheidscalibratie. We evalueren DAVinCI op meerdere datasets, waaronder FEVER en CLIMATE-FEVER, en vergelijken de prestaties met standaard verificatie-only-baselines. Onze resultaten tonen aan dat DAVinCI de classificatienauwkeurigheid, attributieprecisie, recall en F1-score met 5-20% significant verbetert. Door een uitgebreide ablatiestudie isoleren we de bijdragen van evidence span-selectie, recalibratiedrempels en retrievalkwaliteit. We geven ook een modulaire DAVinCI-implementatie vrij die kan worden geïntegreerd in bestaande LLM-pipelines. Door attributie en verificatie te combineren, biedt DAVinCI een schaalbaar pad naar auditeerbare, betrouwbare AI-systemen. Dit werk draagt bij aan de groeiende inspanning om LLM's niet alleen krachtig, maar ook verantwoordelijk te maken.
Elektro-encefalografie (EEG) foundation-modellen hebben een groot potentieel getoond voor het leren van generaliseerbare representaties uit grootschalige neurale data, maar hun klinische implementatie wordt belemmerd door distributieverschuivingen tussen verschillende klinische omgevingen, apparaten en populaties. Testtijdaanpassing (TTA) biedt een veelbelovende oplossing door modellen in staat te stellen zich aan te passen aan ongelabelde doeldata tijdens inferentie, zonder toegang tot de brondata – een waardevolle eigenschap in zorgomgevingen die worden beperkt door privacyregelgeving en beperkte gelabelde data. De effectiviteit ervan voor EEG is echter grotendeels onvoldoende onderzocht. In dit werk introduceren we NeuroAdapt-Bench, een systematische benchmark voor het evalueren van testtijdaanpassingsmethoden voor EEG foundation-modellen onder realistische distributieverschuivingen. We evalueren representatieve TTA-benaderingen uit andere domeinen over meerdere vooraf getrainde foundation-modellen, diverse downstreamtaken en heterogene datasets die in-distributie, out-of-distributie en extreme modaliteitsverschuivingen (bijv. Ear-EEG) omvatten. Onze resultaten tonen aan dat standaard TTA-methoden inconsistente verbeteringen opleveren en de prestaties vaak verslechteren, waarbij op gradieten gebaseerde benaderingen bijzonder gevoelig zijn voor sterke degradatie. Optimalisatievrije methoden daarentegen tonen een grotere stabiliteit en betrouwbaardere verbeteringen. Deze bevindingen benadrukken de beperkingen van bestaande TTA-technieken voor EEG, bieden richtlijnen voor toekomstige ontwikkeling en onderstrepen de noodzaak van domeinspecifieke aanpassingsstrategieën.
Het leren van robuuste representaties van auteursstijl is cruciaal voor auteursherkenning en de detectie van door AI gegenereerde tekst. Bestaande methoden kampen echter vaak met de verstrengeling van inhoud en stijl, waarbij modellen oppervlakkige correlaties leren tussen de schrijfstijl van auteurs en onderwerpen, wat leidt tot een slechte generalisatie over domeinen heen. Om deze uitdaging aan te pakken, stellen wij de Uitlegbare Auteursvariational Autoencoder (EAVAE) voor, een nieuw framework dat stijl en inhoud expliciet ontwart door middel van een architectuur die scheiding-by-design implementeert. EAVAE traint eerst stijl-encoders voor met supervised contrastief leren op diverse auteurschapsgegevens, en verfijnt deze vervolgens met een Variational Autoencoder (VAE)-architectuur die gebruikmaakt van aparte encoders voor stijl- en inhoudsrepresentaties. De ontwarring wordt afgedwongen door een nieuwe discriminator die niet alleen onderscheidt of paren van stijl-/inhoudsrepresentaties tot dezelfde of verschillende auteurs/inhoudsbronnen behoren, maar ook een natuurlijke taalverklaring genereert voor haar beslissing, waardoor zowel verstorende informatie wordt gereduceerd als de interpreteerbaarheid wordt vergroot. Uitgebreide experimenten tonen de effectiviteit van EAVAE aan. Voor auteursherkenning behalen we state-of-the-art prestaties op diverse datasets, waaronder Amazon Reviews, PAN21 en HRS. Voor de detectie van AI-gegenereerde tekst presteert EAVAE uitstekend in few-shot learning op de M4-dataset. Code en gegevensrepositories zijn online beschikbaar: https://github.com/hieum98/avae en https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.
Mixture-of-Experts-modellen, die tegenwoordig populair zijn om de capaciteit te vergroten bij een vaste inferentiesnelheid, schakelen bijna elk token van expert. Zodra een model de beschikbare GPU-geheugencapaciteit overstijgt, kan deze constante wisseling optimalisaties zoals offloading en pre-fetching ondoeltreffend maken. Wij betogen dat het *options*-raamwerk uit de reinforcement learning bij uitstek geschikt is om dit probleem aan te pakken en pleiten voor *temporally extended* Mixture-of-Experts-lagen. Voortbordurend op het *option-critic*-raamwerk met deliberatiekosten voegen we aan elke laag een controller toe die leert wanneer te wisselen van expert-set en welke te laden. Door dit toe te passen op GPT-OSS-20B met *low-rank adapters* en een *self-distillation*-beloning, verlaagt onze methode de wisselfrequentie van meer dan 50% naar minder dan 5%, terwijl tot 90% van de nauwkeurigheid van het basismodel behouden blijft op MATH, MMLU en MMMLU. Dit toont aan dat zelfs bestaande vooraf getrainde modellen met lichtgewicht training kunnen worden omgezet naar *temporally extended* MoE's, waarbij de deliberatiekosten modeltrainers in staat stelt een afweging te maken tussen wisselfrequentie en capaciteit. Wij hopen dat dit een principieel pad opent, verankerd in het *options*-raamwerk, voor geheugenefficiënte *serving* en continu leren in alsmaar groeiende MoE-modellen.
De wereldkennis en redeneervermogen van op tekst gebaseerde grote taalmmodellen (LLM's) ontwikkelen zich snel, maar huidige benaderingen voor het begrijpen van menselijke beweging, waaronder bewegingsvraagbeantwoording en -beschrijving, hebben deze mogelijkheden nog niet volledig benut. Bestaande op LLM's gebaseerde methoden leren typisch bewegings-taal-alignment via specifieke encoders die bewegingskenmerken projecteren in de embeddedingsruimte van de LLM, waarbij ze beperkt blijven door cross-modale representatie en alignment. Geïnspireerd door biomechanische analyse, waar gewrichtshoeken en kinematica van lichaamsdelen al lang dienen als een precieze beschrijvende taal voor menselijke beweging, stellen wij Gestructureerde Bewegingsbeschrijving (SMD) voor, een op regels gebaseerde, deterministische benadering die gewrichtspositie-reeksen omzet in gestructureerde natuurlijke-taal beschrijvingen van gewrichtshoeken, lichaamsdeelbewegingen en globale trajectorie. Door beweging als tekst te representeren, stelt SMD LLM's in staat om hun vooraf getrainde kennis van lichaamsdelen, ruimtelijke richtingen en bewegingssemantiek direct toe te passen op bewegingredenering, zonder dat geleerde encoders of alignmentmodules nodig zijn. Wij tonen aan dat deze benadering verder gaat dan state-of-the-art resultaten voor zowel bewegingsvraagbeantwoording (66,7% op BABEL-QA, 90,1% op HuMMan-QA) als bewegingsbeschrijving (R@1 van 0,584, CIDEr van 53,16 op HumanML3D), waarbij alle eerdere methoden worden overtroffen. SMD biedt bovendien praktische voordelen: dezelfde tekstinvoer werkt op verschillende LLM's met slechts een lichtgewicht LoRA-aanpassing (gevalideerd op 8 LLM's uit 6 modelfamilies), en de menselijk leesbare representatie maakt interpreteerbare aandachtanalyse over bewegingsbeschrijvingen mogelijk. Code, data en voorgetrainde LoRA-adapters zijn beschikbaar op https://yaozhang182.github.io/motion-smd/.
Het personaliseren van taalmodellen door gebruikersinteractiegeschiedenis effectief te integreren, blijft een centrale uitdaging in de ontwikkeling van adaptieve AI-systemen. Hoewel grote taalmodellen (LLM's), gecombineerd met Retrieval-Augmented Generation (RAG), de feitelijke nauwkeurigheid hebben verbeterd, beschikken ze vaak niet over gestructureerd geheugen en schalen ze onvoldoende in complexe, langdurige interacties. Om dit aan te pakken, stellen we een flexibel extern geheugenkader voor op basis van een kennisgraaf die automatisch door de LLM wordt opgebouwd en bijgewerkt. Voortbouwend op de AriGraph-architectuur introduceren we een nieuwe hybride graafontwerp dat zowel standaard edges als twee soorten hyperedges ondersteunt, wat rijke en dynamische semantische en temporele representaties mogelijk maakt. Ons kader ondersteunt ook diverse retrievalsmechanismen, waaronder A*-traversal, WaterCircles-traversal, beam search en hybride methoden, waardoor het aanpasbaar is aan verschillende datasets en LLM-capaciteiten. We evalueren ons systeem op TriviaQA-, HotpotQA- en DiaASQ-benchmarks en tonen aan dat verschillende geheugen- en retrievalconfiguraties optimale prestaties opleveren afhankelijk van de taak. Daarnaast breiden we de DiaASQ-benchmark uit met temporele annotaties en intern tegenstrijdige beweringen, waarbij we aantonen dat ons systeem robuust en effectief blijft in het beheren van temporele afhankelijkheden en contextbewust redeneren.
Grote multimodale modellen worden steeds vaker gebruikt als de redeneerkern van belichaamde agents in 3D-omgevingen, maar ze blijven vatbaar voor hallucinaties die tot onveilige en ongegronde beslissingen kunnen leiden. Bestaande methoden om hallucinaties tijdens inferentie tegen te gaan, richten zich grotendeels op 2D visie-taal settings en zijn niet overdraagbaar naar belichaamd 3D-redeneren, waar fouten voortkomen uit de aanwezigheid van objecten, ruimtelijke lay-out en geometrische verankering in plaats van pixel-level inconsistenties. Wij introduceren 3D-VCD, het eerste visuele contrastieve decodeerframework tijdens inferentie voor het verminderen van hallucinaties in belichaamde 3D-agents. 3D-VCD construeert een vervormde 3D-scènegraph door semantische en geometrische perturbaties toe te passen op objectgecentreerde representaties, zoals categorisubstituties en corruptie van coördinaten of afmetingen. Door voorspellingen onder de originele en vervormde 3D-contexten te contrasteren, onderdrukt onze methode tokens die ongevoelig zijn voor gegronde scène-evidentie en daarom waarschijnlijk worden gedreven door taalpriors. Wij evalueren 3D-VCD op de 3D-POPE en HEAL benchmarks en tonen aan dat het gegronde redeneren consistent verbetert zonder enige hertraining, waarmee contrastief decoderen tijdens inferentie over gestructureerde 3D-representaties wordt gevestigd als een effectieve en praktische route naar betrouwbaardere belichaamde intelligentie.