Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren GLM-4.5, een open-source Mixture-of-Experts (MoE) groot taalmodel met in totaal 355B parameters en 32B geactiveerde parameters, uitgerust met een hybride redeneermethode die zowel denk- als directe antwoordmodi ondersteunt. Door middel van meerfasige training op 23T tokens en uitgebreide na-training met expertmodeliteratie en reinforcement learning, behaalt GLM-4.5 sterke prestaties op agent-, redeneer- en coderings (ARC) taken, met scores van 70,1% op TAU-Bench, 91,0% op AIME 24 en 64,2% op SWE-bench Verified. Met aanzienlijk minder parameters dan verschillende concurrenten, staat GLM-4.5 op de 3e plaats overall onder alle geëvalueerde modellen en op de 2e plaats op agentbenchmarks. We brengen zowel GLM-4.5 (355B parameters) als een compacte versie, GLM-4.5-Air (106B parameters), uit om onderzoek naar redeneren en agent-AI-systemen te bevorderen. Code, modellen en meer informatie zijn beschikbaar op https://github.com/zai-org/GLM-4.5.
Virtueel passen heeft als doel een realistisch beeld te synthetiseren van een persoon die een bepaald kledingstuk draagt, maar het nauwkeurig modelleren van de overeenkomst tussen kleding en lichaam blijft een hardnekkige uitdaging, vooral bij variaties in houding en uiterlijk. In dit artikel stellen we Voost voor - een uniform en schaalbaar raamwerk dat zowel virtueel passen als uitproberen gezamenlijk leert met een enkele diffusie-transformer. Door beide taken gezamenlijk te modelleren, stelt Voost elk kleding-persoon paar in staat om beide richtingen te begeleiden en ondersteunt het flexibele conditionering over generatierichting en kledingcategorie, waardoor de redenering over de relatie tussen kleding en lichaam wordt verbeterd zonder taakspecifieke netwerken, aanvullende verliezen of extra labels. Daarnaast introduceren we twee technieken voor inferentietijd: aandachtstemperatuurschaling voor robuustheid tegen variaties in resolutie of masker, en zelfcorrigerende steekproeven die gebruikmaken van bidirectionele consistentie tussen taken. Uitgebreide experimenten tonen aan dat Voost state-of-the-art resultaten behaalt op zowel pass- als uitprobeerbenchmarks, en consequent sterke basislijnen overtreft in uitlijningsnauwkeurigheid, visuele geloofwaardigheid en generalisatie.
Agents gebaseerd op Large Language Models (LLMs) blinken uit in diverse taken, maar ze hebben last van broos procedureel geheugen dat handmatig is ontworpen of verstrengeld is in statische parameters. In dit werk onderzoeken we strategieën om agents te voorzien van een leerbaar, bijwerkbaar en levenslang procedureel geheugen. We stellen Memp voor, dat eerdere agenttrajecten destilleert tot zowel gedetailleerde, stap-voor-stap instructies als abstracties op hoger niveau, zoals scripts, en we verkennen de impact van verschillende strategieën voor het Bouwen, Ophalen en Bijwerken van procedureel geheugen. In combinatie met een dynamisch regime dat de inhoud continu bijwerkt, corrigeert en afschaft, evolueert deze repository gelijk op met nieuwe ervaringen. Empirische evaluatie op TravelPlanner en ALFWorld laat zien dat naarmate de geheugenrepository wordt verfijnd, agents gestaag hogere slagingspercentages en grotere efficiëntie behalen bij vergelijkbare taken. Bovendien behoudt procedureel geheugen dat is opgebouwd vanuit een sterker model zijn waarde: het migreren van het procedureel geheugen naar een zwakker model levert aanzienlijke prestatieverbeteringen op.
De opkomst van Multimodale Grote Taalmodellen (MLLMs) heeft de ontwikkeling van autonome agents die werken op Grafische Gebruikersinterfaces (GUIs) met puur visuele input gestimuleerd. Een fundamentele uitdaging is het robuust verankeren van natuurlijke taal-instructies. Dit vereist een nauwkeurige ruimtelijke uitlijning, die de coördinaten van elk element precies lokaliseert, en, nog kritischer, een correcte semantische uitlijning, die de instructies koppelt aan het functioneel geschikte UI-element. Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) effectief is gebleken bij het verbeteren van de ruimtelijke uitlijning voor deze MLLMs, constateren we dat inefficiënte verkenning een knelpunt vormt voor semantische uitlijning, wat modellen ervan weerhoudt moeilijke semantische associaties te leren. Om dit verkenningsprobleem aan te pakken, presenteren we Adaptive Exploration Policy Optimization (AEPO), een nieuw beleidsoptimalisatiekader. AEPO maakt gebruik van een strategie voor het genereren van meerdere antwoorden om bredere verkenning af te dwingen, die vervolgens wordt geleid door een theoretisch onderbouwde Adaptive Exploration Reward (AER)-functie, afgeleid uit de eerste principes van efficiëntie eta=U/C. Onze met AEPO getrainde modellen, InfiGUI-G1-3B en InfiGUI-G1-7B, vestigen nieuwe state-of-the-art resultaten op meerdere uitdagende GUI-verankeringsbenchmarks, met significante relatieve verbeteringen van tot wel 9,0% ten opzichte van de naïeve RLVR-baseline op benchmarks die zijn ontworpen om generalisatie en semantisch begrip te testen. Bronnen zijn beschikbaar op https://github.com/InfiXAI/InfiGUI-G1.
Recentelijk hebben Large Reasoning Models (LRMs) opmerkelijke capaciteiten getoond in coderedenering door de lengte van Chain-of-Thought (CoT) op te schalen. Overmatig lange redeneersporen brengen echter aanzienlijke uitdagingen met zich mee op het gebied van trainingskosten, inferentielatentie en implementeerbaarheid. Hoewel verschillende CoT-compressiebenaderingen zijn ontstaan om deze uitdaging aan te pakken, kampen ze met inherente afwegingen: token-niveau methoden verstoren vaak de syntactische en logische samenhang, terwijl stap-niveau methoden gebaseerd op perplexiteit er niet in slagen om de logisch kritieke redeneerstappen betrouwbaar vast te leggen. In dit artikel stellen we ASAP (Anchor-guided, Surprisal-based Pruning) voor, een nieuw grof-naar-fijn raamwerk voor CoT-compressie. ASAP voert eerst anchor-guided pruning uit om de kernredeneringsstructuur te behouden, wat de zoekruimte voor verdere verwerking efficiënt reduceert. Vervolgens maakt het logica-bewuste pruning mogelijk door logisch essentiële redeneerstappen te selecteren op basis van een nieuwe first-token surprisal metriek. Ten slotte leert ASAP modellen om deze beknopte CoTs autonoom te genereren en te benutten tijdens inferentie, waardoor efficiënte redenering in codetaken mogelijk wordt. Experimenten tonen aan dat ASAP state-of-the-art nauwkeurigheid bereikt over meerdere codegeneratiebenchmarks, terwijl de trainings- en inferentiekosten aanzienlijk worden verlaagd. Op de uitdagende LiveCodeBench v4_v5 benchmark reduceert onze aanpak de token-generatie met 23,5% en de inferentielatentie met 43,5% vergeleken met de sterkste baseline, terwijl een competitieve nauwkeurigheid van 36,19% in Pass@1 wordt behaald. Onze resultaten belichten een veelbelovende richting voor het bouwen van krachtige en efficiënte LRMs.
Massieve activaties zijn scalaire waarden in de verborgen toestanden van transformers die waarden bereiken die vele ordes van grootte groter zijn dan typische activaties en waarvan is aangetoond dat ze cruciaal zijn voor de functionaliteit van het model. Hoewel eerder onderzoek deze fenomenen heeft gekarakteriseerd in volledig getrainde modellen, blijven de temporele dynamiek van hun opkomst tijdens het trainen slecht begrepen. Wij presenteren de eerste uitgebreide analyse van de ontwikkeling van massieve activaties gedurende het trainen van transformers, waarbij we de Pythia-model familie als testomgeving gebruiken. Door systematische analyse van verschillende modelgroottes over meerdere trainingscheckpoints, tonen we aan dat de opkomst van massieve activaties voorspelbare wiskundige patronen volgt die nauwkeurig kunnen worden gemodelleerd met een exponentieel-gemoduleerde logaritmische functie met vijf sleutelparameters. We ontwikkelen een machine learning-framework om deze wiskundige parameters te voorspellen op basis van alleen architectuurspecificaties, waarbij we hoge nauwkeurigheid bereiken voor steady-state gedrag en matige nauwkeurigheid voor de timing en grootte van de opkomst. Deze bevindingen stellen architecten in staat om belangrijke aspecten van de opkomst van massieve activaties te voorspellen en mogelijk te beïnvloeden door ontwerpkeuzes, met significante implicaties voor modelstabiliteit, de duur van de trainingscyclus, interpreteerbaarheid en optimalisatie. Onze bevindingen tonen aan dat de opkomst van massieve activaties wordt bepaald door het modelontwerp en kan worden voorzien, en mogelijk beheerst, voordat het trainen begint.
Neural Radiance Fields (NeRF) en Gaussian Splatting (GS) hebben recentelijk een revolutie teweeggebracht in 3D-scèneweergave en -rendering. NeRF bereikt hoogwaardige synthese van nieuwe gezichtspunten door volumetrische representaties te leren via neurale netwerken, maar de impliciete codering maakt bewerken en fysieke interactie uitdagend. Daarentegen representeert GS scènes als expliciete verzamelingen van Gaussische primitieven, wat real-time rendering, snellere training en intuïtievere manipulatie mogelijk maakt. Deze expliciete structuur heeft GS bijzonder geschikt gemaakt voor interactief bewerken en integratie met op fysica gebaseerde simulatie. In dit artikel introduceren we GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing), een hybride model dat de fotorealistische renderkwaliteit van NeRF combineert met de bewerkbare en gestructureerde representatie van GS. In plaats van sferische harmonischen te gebruiken voor uiterlijkmodellering, kennen we elke Gaussische primitief een trainbare feature-embedding toe. Deze embeddings worden gebruikt om een NeRF-netwerk te conditioneren op basis van de k dichtstbijzijnde Gaussische primitieven voor elk querypunt. Om deze conditionering efficiënt te maken, introduceren we Ray-Traced Gaussian Proximity Search (RT-GPS), een snelle zoekmethode naar de dichtstbijzijnde Gaussische primitieven gebaseerd op een aangepaste ray-tracing-pipeline. We integreren ook een multi-resolutie hash-grid om Gaussische features te initialiseren en bij te werken. Samen maken deze componenten real-time, locatiebewust bewerken mogelijk: wanneer Gaussische primitieven worden verplaatst of aangepast, wordt hun geïnterpoleerde invloed direct weerspiegeld in de gerenderde output. Door de sterke punten van impliciete en expliciete representaties te combineren, ondersteunt GENIE intuïtieve scènemanipulatie, dynamische interactie en compatibiliteit met fysieke simulatie, waardoor de kloof tussen geometrisch gebaseerd bewerken en neurale rendering wordt overbrugd. De code is te vinden op (https://github.com/MikolajZielinski/genie).
Vision-Language Models (VLMs) hebben opmerkelijke generalisatiecapaciteiten getoond over een breed scala aan taken. Hun prestaties blijven echter vaak suboptimaal wanneer ze direct worden toegepast op specifieke downstreamscenario's zonder taakspecifieke aanpassing. Om hun bruikbaarheid te vergroten terwijl de data-efficiëntie behouden blijft, heeft recent onderzoek zich steeds meer gericht op onbewaakte aanpassingsmethoden die niet afhankelijk zijn van gelabelde data. Ondanks de groeiende interesse in dit gebied, ontbreekt het nog aan een uniforme, taakgerichte overzichtsstudie gewijd aan onbewaakte VLM-aanpassing. Om deze kloof te overbruggen, presenteren we een uitgebreid en gestructureerd overzicht van het vakgebied. We stellen een taxonomie voor op basis van de beschikbaarheid en aard van ongelabelde visuele data, waarbij bestaande benaderingen worden ingedeeld in vier belangrijke paradigma's: Data-Free Transfer (geen data), Unsupervised Domain Transfer (overvloedige data), Episodic Test-Time Adaptation (batchdata) en Online Test-Time Adaptation (streamingdata). Binnen dit kader analyseren we kernmethodologieën en aanpassingsstrategieën die bij elk paradigma horen, met als doel een systematisch begrip van het vakgebied te creëren. Daarnaast bespreken we representatieve benchmarks voor diverse toepassingen en belichten we openstaande uitdagingen en veelbelovende richtingen voor toekomstig onderzoek. Een actief onderhouden repository van relevante literatuur is beschikbaar op https://github.com/tim-learn/Awesome-LabelFree-VLMs.
De droom om AI-assistenten te creëren die even capabel en veelzijdig zijn als de fictieve J.A.R.V.I.S. uit Iron Man heeft lang de verbeelding geprikkeld. Met de evolutie van (multi-modale) grote taalmodellen ((M)LLMs) is deze droom dichter bij de werkelijkheid gekomen, aangezien (M)LLM-gebaseerde agents die gebruikmaken van rekenapparaten (bijvoorbeeld computers en mobiele telefoons) door te opereren binnen de omgevingen en interfaces (bijvoorbeeld Grafische Gebruikersinterface (GUI)) die door besturingssystemen (OS) worden geboden om taken te automatiseren, aanzienlijk zijn gevorderd. Dit artikel presenteert een uitgebreid overzicht van deze geavanceerde agents, aangeduid als OS Agents. We beginnen met het verhelderen van de basisprincipes van OS Agents, waarbij we hun belangrijkste componenten verkennen, waaronder de omgeving, observatieruimte en actieruimte, en essentiële capaciteiten schetsen zoals begrip, planning en verankering. Vervolgens onderzoeken we methodologieën voor het construeren van OS Agents, met een focus op domeinspecifieke foundation-modellen en agentframeworks. Een gedetailleerde review van evaluatieprotocollen en benchmarks benadrukt hoe OS Agents worden beoordeeld over diverse taken. Ten slotte bespreken we huidige uitdagingen en identificeren we veelbelovende richtingen voor toekomstig onderzoek, waaronder veiligheid en privacy, personalisatie en zelf-evolutie. Dit overzicht heeft als doel de stand van het onderzoek naar OS Agents te consolideren, inzichten te bieden om zowel academisch onderzoek als industriële ontwikkeling te begeleiden. Een open-source GitHub-repository wordt onderhouden als een dynamische bron om verdere innovatie op dit gebied te bevorderen. We presenteren een 9-pagina versie van ons werk, geaccepteerd door ACL 2025, om een beknopt overzicht van het domein te bieden.
We presenteren MeshLLM, een nieuw framework dat gebruikmaakt van grote taalmodel- len (LLM's) om tekstgeserialiseerde 3D-meshes te begrijpen en te genereren. Onze aanpak lost belangrijke beperkingen op in bestaande methoden, waaronder de beperkte schaal van datasets wanneer deze worden afgestemd op de tokenlengte van LLM's en het verlies van 3D-structuurinformatie tijdens mesh-serialisatie. We introduceren een Primitive-Mesh- decompositiestrategie, waarbij 3D-meshes worden opgedeeld in structureel betekenisvolle subeenheden. Dit maakt de creatie mogelijk van een grootschalige dataset met 1500k+ samples, bijna 50 keer groter dan eerdere methoden, wat beter aansluit bij de schaalwetten van LLM's. Bovendien stellen we voor om gezichtsconnectiviteit af te leiden uit vertices en lokale mesh-assemblagetrainingsstrategieën, wat het vermogen van LLM's om mesh- topologie en ruimtelijke structuren vast te leggen aanzienlijk verbetert. Experimenten tonen aan dat MeshLLM de state-of-the-art LLaMA-Mesh overtreft in zowel de kwaliteit van mesh-generatie als vormbegrip, wat het grote potentieel ervan aantoont in het verwerken van tekstgeserialiseerde 3D-meshes.
Multimodale Large Language Models (MLLMs) hebben opmerkelijke prestaties getoond in talen met veel bronnen. Hun effectiviteit neemt echter aanzienlijk af in de context van talen met weinig bronnen. Huidige methoden voor meertalige verbetering zijn vaak beperkt tot de tekstmodaliteit of vertrouwen uitsluitend op machinaal vertalen. Hoewel dergelijke benaderingen modellen helpen basislinguïstische vaardigheden te verwerven en "dunne beschrijvingen" te produceren, negeren ze het belang van multimodale informatiewaarde en culturele verankering, die beide cruciaal zijn voor het effectief bedienen van gebruikers van talen met weinig bronnen. Om deze kloof te overbruggen, identificeren we in deze studie twee belangrijke doelstellingen voor een echt effectieve MLLM in omgevingen met talen met weinig bronnen, namelijk 1) linguïstische capaciteit en 2) culturele verankering, met speciale nadruk op cultureel bewustzijn. Om deze dubbele doelstellingen te bereiken, stellen we een dual-source strategie voor die de verzameling van gegevens begeleidt die zijn afgestemd op elk doel, waarbij native web alt-teksten voor cultuur en MLLM-gegenereerde bijschriften voor linguïstiek worden gebruikt. Als concrete implementatie introduceren we MELLA, een multimodale, meertalige dataset. Experimentele resultaten tonen aan dat na fine-tuning op MELLA er een algemene prestatieverbetering is voor de acht talen op verschillende MLLM-backbones, waarbij modellen "dikke beschrijvingen" produceren. We verifiëren dat de prestatieverbeteringen voortkomen uit zowel de verbetering van culturele kennis als de verbetering van linguïstische capaciteit. Onze dataset is te vinden op https://opendatalab.com/applyMultilingualCorpus.
Vision language models (VLMs) hebben opmerkelijke capaciteiten getoond in het integreren van linguïstisch en visueel redeneren, maar blijven fundamenteel beperkt in het begrijpen van dynamische spatiotemporele interacties. Mensen volgen en redeneren moeiteloos over objectbewegingen, rotaties en perspectiefverschuivingen – vaardigheden die essentieel zijn voor een robuust begrip van de dynamische echte wereld, maar die opvallend ontbreken in huidige VLMs. In dit artikel introduceren we VLM4D, de eerste benchmark die specifiek is ontworpen om de spatiotemporele redeneervaardigheden van VLMs te evalueren. Onze benchmark bestaat uit diverse real-world en synthetische video’s, vergezeld van zorgvuldig samengestelde vraag-antwoordparen die de nadruk leggen op translationele en rotationele bewegingen, perspectiefbewustzijn en bewegingscontinuïteit. Door uitgebreide evaluaties van state-of-the-art open en closed-source VLMs identificeren we significante prestatiekloof ten opzichte van menselijke baselines, wat fundamentele tekortkomingen in bestaande modellen benadrukt. Uitgebreide analyse toont aan dat VLMs vooral moeite hebben met het integreren van meerdere visuele aanwijzingen en het behouden van temporele samenhang. We verkennen verder veelbelovende richtingen, zoals het benutten van 4D feature field reconstructie en gerichte spatiotemporele supervised fine-tuning, en demonstreren hun effectiviteit in het verbeteren van spatiotemporeel begrip. Ons werk heeft als doel diepere verkenning aan te moedigen naar het verbeteren van de ruimtelijke en temporele verankering van VLMs, om zo de weg te effenen naar capabelere en betrouwbaardere visuele intelligentie voor dynamische omgevingen.
De opkomst van Multimodale Grote Taalmodellen (MLLMs) heeft aanzienlijke vooruitgang geboekt in de mogelijkheden van Grafische Gebruikersinterface (GUI)-agenten. Desalniettemin kampen bestaande technieken voor training en inferentie van GUI-agenten nog steeds met een dilemma op het gebied van redeneringsontwerpen, ineffectieve beloningen en visuele ruis. Om deze problemen aan te pakken, introduceren we UI-AGILE, een uitgebreid framework dat GUI-agenten verbetert tijdens zowel de trainings- als de inferentiefase. Voor de training stellen we een reeks verbeteringen voor aan het Supervised Fine-Tuning (SFT)-proces: 1) een Continue Beloningsfunctie om hoge precisie bij het grondvesten te stimuleren; 2) een "Eenvoudig Denken"-beloning om planning te balanceren met snelheid en nauwkeurigheid bij het grondvesten; en 3) een Cropping-gebaseerde Herbemonsteringsstrategie om het probleem van schaarse beloningen te verminderen en het leren bij complexe taken te verbeteren. Voor inferentie presenteren we Gedetailleerd Grondvesten met Selectie, een nieuwe methode die de nauwkeurigheid bij het grondvesten op hoogresolutie-displays aanzienlijk verbetert door de afbeelding op te delen in kleinere, beheersbare delen. Experimenten tonen aan dat UI-AGILE de state-of-the-art prestaties behaalt op twee benchmarks, ScreenSpot-Pro en ScreenSpot-v2. Zo leidt het gebruik van zowel onze voorgestelde trainings- als inferentieverbeteringsmethoden tot een verbetering van 23% in de nauwkeurigheid bij het grondvesten ten opzichte van de beste baseline op ScreenSpot-Pro.
Recente benaderingen voor 3D-relighting hebben veelbelovende resultaten laten zien bij het integreren van generatieve priors voor 2D-beeldrelighting om het uiterlijk van een 3D-representatie te veranderen terwijl de onderliggende structuur behouden blijft. Echter, generatieve priors die worden gebruikt voor 2D-relighting en die direct relighten vanuit een invoerbeeld, maken geen gebruik van intrinsieke eigenschappen van het onderwerp die kunnen worden afgeleid, noch kunnen ze multi-view data op grote schaal in overweging nemen, wat leidt tot suboptimaal relighting. In dit artikel presenteren we Lightswitch, een nieuw gefinetuned materiaal-relighting diffusieframework dat efficiënt een willekeurig aantal invoerbeelden relight naar een doelverlichtingsconditie, waarbij aanwijzingen van afgeleide intrinsieke eigenschappen worden geïntegreerd. Door multi-view en materiaalinformatie samen te gebruiken met een schaalbare denoising-methode, relight onze methode consistent en efficiënt dichte multi-view data van objecten met diverse materiaalsamenstellingen. We laten zien dat de kwaliteit van onze 2D-relightingvoorspellingen de vorige state-of-the-art relighting priors overtreft die direct relighten vanuit beelden. We demonstreren verder dat LightSwitch evenaart of overtreft in vergelijking met state-of-the-art diffusie inverse rendering-methoden bij het relighten van synthetische en echte objecten in slechts 2 minuten.