Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Videogeneratietechnieken hebben opmerkelijke vooruitgang geboekt en beloven de basis te vormen voor interactieve wereldverkenning. Bestaande datasets voor videogeneratie zijn echter niet goed geschikt voor training in wereldverkenning, omdat ze enkele beperkingen hebben: beperkte locaties, korte duur, statische scènes en een gebrek aan annotaties over verkenning en de wereld. In dit artikel introduceren we Sekai (wat "wereld" betekent in het Japans), een hoogwaardige first-person view wereldwijde videodataset met rijke annotaties voor wereldverkenning. Het bestaat uit meer dan 5.000 uur aan wandel- of dronebeelden (FPV en UVA) uit meer dan 100 landen en regio's verspreid over 750 steden. We ontwikkelen een efficiënt en effectief toolbox om video's te verzamelen, voor te bewerken en te annoteren met locatie, scène, weer, drukte, bijschriften en cameratrajecten. Experimenten tonen de kwaliteit van de dataset aan. En we gebruiken een subset om een interactief videowereldverkenningmodel te trainen, genaamd YUME (wat "droom" betekent in het Japans). We geloven dat Sekai het gebied van videogeneratie en wereldverkenning ten goede zal komen en waardevolle toepassingen zal stimuleren.
Recente vooruitgang in visie-taalmodelen (VLMs) heeft gebruik gemaakt van grote taalmodelen (LLMs) om prestaties te bereiken die vergelijkbaar zijn met closed-source systemen zoals GPT-4V. Het inzetten van deze modellen in real-world scenario's, met name op apparaten met beperkte middelen, blijft echter een uitdaging vanwege hun aanzienlijke rekenkundige eisen. Dit heeft de interesse gewekt in het destilleren van kennis uit grote VLMs naar kleinere, efficiëntere tegenhangers. Een belangrijke uitdaging hierbij is de diversiteit van VLM-architecturen, die gebaseerd zijn op verschillende LLMs en gebruik maken van verschillende tokentypes, variërend in vocabulairegrootte, tokensplitsingen en tokenindexordening. Om deze uitdaging van beperking tot een specifiek VLM-type aan te pakken, presenteren we Generation after Recalibration (GenRecal), een nieuw, algemeen toepasbaar destillatiekader voor VLMs. GenRecal bevat een Recalibrator die feature-representaties tussen heterogene VLMs uitlijnt en aanpast, waardoor effectieve kennisoverdracht tussen verschillende soorten VLMs mogelijk wordt. Door uitgebreide experimenten op meerdere uitdagende benchmarks tonen we aan dat GenRecal de basisprestaties aanzienlijk verbetert en uiteindelijk grootschalige open- en closed-source VLMs overtreft.
Het trainen van LLM's op gedecentraliseerde en beperkte rekenknooppunten, zoals meerdere on-site instanties, verlaagt de trainingskosten en maakt modeldemocratisering mogelijk. De onvermijdelijke uitdaging hierbij is het uitvallen van knooppunten door fouten en het planningsbeleid van de operator, wat leidt tot het verlies van een fase - een deel van het model. De conventionele benaderingen om van fouten te herstellen zijn het gebruik van checkpointing, waarbij periodiek een kopie van het volledige model naar een extra opslag wordt gestuurd, of redundante berekeningen. Deze benaderingen veroorzaken aanzienlijke communicatie- en/of rekenoverhead, zelfs in gevallen zonder fouten, en schalen slecht in omgevingen met grote modellen. In dit artikel stellen we CheckFree voor, een efficiënte herstelmethode waarbij een falende fase wordt vervangen door een gewogen gemiddelde van de dichtstbijzijnde naburige fasen. In tegenstelling tot de state-of-the-art vereist CheckFree geen extra berekeningen of opslag. Vanwege de aard van het middelen van naburige fasen kan het echter alleen fouten in tussenliggende fasen herstellen. We breiden onze methode verder uit naar CheckFree+ met uit-de-volgorde pijplijnuitvoering om crashes van de eerste en laatste fasen te tolereren. Dankzij uit-de-volgorde pijplijnen wordt het gedrag van die fasen nagebootst door hun naburige fasen, wat CheckFree+ in staat stelt ze te herstellen door simpelweg de gewichten van de directe buur te kopiëren. Om de (de)embedding-lagen te kunnen herstellen, kopieert CheckFree+ die lagen naar de naburige fasen, wat relatief weinig opslagoverhead vereist. We evalueren onze methode uitgebreid op LLaMa-modellen van modelgroottes van 124M tot 1,5B met variërende faalfrequenties. In het geval van lage en gemiddelde faalpercentages (5-10%) presteren CheckFree en CheckFree+ beter dan zowel checkpointing als redundante berekeningen in termen van convergentie in kloktijd met meer dan 12%. Beide van onze voorstellen kunnen worden uitgevoerd via onze code beschikbaar op: https://github.com/gensyn-ai/CheckFree.
Recente ontwikkelingen in Large Reasoning Models (LRMs) die zijn getraind met Long Chain-of-Thought (Long CoT) redenering hebben opmerkelijke cross-domein generalisatiecapaciteiten aangetoond. De onderliggende mechanismen die deze transfer ondersteunen, blijven echter slecht begrepen. Wij veronderstellen dat cross-domein generalisatie voortkomt uit gedeelde abstracte redeneerprototypen — fundamentele redeneerpatronen die de essentie van problemen over domeinen heen vastleggen. Deze prototypen minimaliseren de nuances van de representatie, waardoor duidelijk wordt dat schijnbaar diverse taken zijn geworteld in gedeelde redeneerstructuren. Op basis van deze hypothese stellen we ProtoReasoning voor, een raamwerk dat het redeneervermogen van LLMs verbetert door schaalbare en verifieerbare prototypische representaties te benutten (Prolog voor logisch redeneren, PDDL voor planning). ProtoReasoning kenmerkt zich door: (1) een geautomatiseerde pijplijn voor prototypeconstructie die problemen omzet in corresponderende prototypische representaties; (2) een uitgebreid verificatiesysteem dat betrouwbare feedback biedt via Prolog/PDDL-interpreters; (3) de schaalbaarheid om problemen willekeurig binnen de prototyperuimte te synthetiseren terwijl de correctheid wordt gewaarborgd. Uitgebreide experimenten tonen aan dat ProtoReasoning een verbetering van 4,7% behaalt ten opzichte van basismodellen voor logisch redeneren (Enigmata-Eval), 6,3% voor plannings taken, 4,0% voor algemeen redeneren (MMLU) en 1,0% voor wiskunde (AIME24). Belangrijk is dat onze ablatiestudies bevestigen dat leren in de prototyperuimte ook een verbeterde generalisatie naar structureel vergelijkbare problemen laat zien in vergelijking met training uitsluitend op natuurlijke taalrepresentaties, wat onze hypothese bevestigt dat redeneerprototypen de basis vormen voor generaliseerbaar redeneren in grote taalmodellen.
AI-agents zijn tegenwoordig grotendeels geïsoleerd - ze halen en redeneren over enorme hoeveelheden digitale informatie en kennis die online is verkregen; of ze interageren met de fysieke wereld door middel van belichaamde perceptie, planning en actie - maar zelden beide. Deze scheiding beperkt hun vermogen om taken op te lossen die geïntegreerde fysieke en digitale intelligentie vereisen, zoals koken met online recepten, navigeren met dynamische kaartgegevens, of het interpreteren van real-world herkenningspunten met behulp van webkennis. Wij introduceren Embodied Web Agents, een nieuw paradigma voor AI-agents die naadloos belichaming en web-schaal redeneren overbruggen. Om dit concept operationeel te maken, ontwikkelen we eerst de Embodied Web Agents-taakomgevingen, een geïntegreerd simulatieplatform dat realistische 3D binnen- en buitenomgevingen nauw integreert met functionele webinterfaces. Op basis van dit platform construeren en publiceren we de Embodied Web Agents Benchmark, die een diverse reeks taken omvat, waaronder koken, navigatie, winkelen, toerisme en geolocatie - allemaal vereisen ze gecoördineerd redeneren over fysieke en digitale domeinen voor een systematische beoordeling van cross-domein intelligentie. Experimentele resultaten onthullen aanzienlijke prestatiekloof tussen state-of-the-art AI-systemen en menselijke capaciteiten, wat zowel uitdagingen als kansen vaststelt op het snijvlak van belichaamde cognitie en web-schaal kennis toegang. Alle datasets, codes en websites zijn openbaar beschikbaar op onze projectpagina https://embodied-web-agent.github.io/.
We presenteren een automatisch spraakherkenningssysteem (ASR) voor twee sprekers dat DiCoW combineert -- een diarization-geconditioneerde variant van Whisper -- met DiariZen, een diarization-pipeline gebouwd op Pyannote. We evalueren eerst beide systemen in out-of-domain (OOD) meertalige scenario's zonder enige fine-tuning. In dit scenario presteert DiariZen consistent beter dan het baseline Pyannote-diarizationmodel, wat een sterke generalisatie aantoont. Ondanks dat DiCoW alleen op Engelstalige data is getraind voor doelspreker-ASR, behoudt het een solide meertalige prestaties, wat aangeeft dat aanpassingen aan de encoder de meertalige mogelijkheden van Whisper behouden. Vervolgens fine-tunen we zowel DiCoW als DiariZen op de MLC-SLM challenge-data. De gefinetunde DiariZen blijft het gefinetunde Pyannote-baselinemodel overtreffen, terwijl DiCoW verdere verbeteringen ziet door domeinaanpassing. Ons uiteindelijke systeem behaalt een micro-gemiddelde tcpWER/CER van 16,75% en eindigt als tweede in Taak 2 van de MLC-SLM challenge. Tot slot identificeren we verschillende inconsistenties in de labeling van de trainingsdata -- zoals ontbrekende spraaksegmenten en onjuiste stilteannotaties -- die de fine-tuning van diarization kunnen belemmeren. We stellen eenvoudige mitigatiestrategieën voor om deze problemen aan te pakken en de robuustheid van het systeem te verbeteren.
Het evalueren van open-ended langvormige generatie is uitdagend omdat het moeilijk is om duidelijk te definiëren wat goede van slechte uitvoer onderscheidt. Bestaande methoden missen vaak cruciale aspecten zoals samenhang, stijl of relevantie, of worden beïnvloed door vooraf getrainde data, waardoor de evaluatie van open-ended langvormige generatie een onderbelicht probleem blijft. Om deze kloof te overbruggen, stellen we PrefBERT voor, een scoringsmodel voor het evalueren van open-ended langvormige generatie in GRPO en het begeleiden van de training met verschillende beloningen voor goede en slechte uitvoer. Getraind op twee datasets voor respons-evaluatie met diverse langvormige stijlen en Likert-gewaardeerde kwaliteit, ondersteunt PrefBERT GRPO effectief door betere semantische beloningsfeedback te bieden dan traditionele metrieken zoals ROUGE-L en BERTScore. Door middel van uitgebreide evaluaties, waaronder LLM-als-rechter, menselijke beoordelingen en kwalitatieve analyse, tonen we aan dat PrefBERT, getraind op multi-zins- en paragraaflengte-responsen, betrouwbaar blijft over verschillende lange passages en goed aansluit bij de verifieerbare beloningen die GRPO nodig heeft. Menselijke evaluaties bevestigen dat het gebruik van PrefBERT als beloningssignaal voor het trainen van beleidsmodellen resulteert in responsen die beter aansluiten bij menselijke voorkeuren dan die getraind met traditionele metrieken. Onze code is beschikbaar op https://github.com/zli12321/long_form_rl.
De snelle vooruitgang van Large Language Models heeft agentische systemen bevorderd in besluitvorming, coördinatie en taakuitvoering. Toch ontbreekt het bestaande frameworks voor het genereren van agentische systemen aan volledige autonomie, waarbij het ontbreken van het genereren van agents vanaf nul, zelfoptimaliserende agentfunctionaliteit en samenwerking de aanpassings- en schaalbaarheid beperken. Wij stellen SwarmAgentic voor, een framework voor volledig geautomatiseerde generatie van agentische systemen dat agentische systemen vanaf nul opbouwt en zowel agentfunctionaliteit als samenwerking als onderling afhankelijke componenten gezamenlijk optimaliseert via taalgedreven exploratie. Om efficiënte zoektochten over systeemniveau structuren mogelijk te maken, onderhoudt SwarmAgentic een populatie van kandidaatsystemen en evolueert deze via feedback-gestuurde updates, geïnspireerd door Particle Swarm Optimization (PSO). We evalueren onze methode op zes real-world, open-ended en verkennende taken die betrekking hebben op hoogwaardige planning, systeemniveau coördinatie en creatief redeneren. Met alleen een taakbeschrijving en een objectieve functie presteert SwarmAgentic beter dan alle baseline-methoden, met een relatieve verbetering van +261,8% ten opzichte van ADAS op de TravelPlanner-benchmark, wat de effectiviteit van volledige automatisering in structureel onbeperkte taken benadrukt. Dit framework markeert een belangrijke stap in de richting van schaalbare en autonome ontwerpen van agentische systemen, waarbij zwermintelligentie wordt verbonden met volledig geautomatiseerde multi-agent systeemgeneratie. Onze code is openbaar beschikbaar op https://yaoz720.github.io/SwarmAgentic/.
We introduceren SciVer, de eerste benchmark specifiek ontworpen om het vermogen van foundationmodellen te evalueren om claims te verifiëren binnen een multimodale wetenschappelijke context. SciVer bestaat uit 3.000 door experts geannoteerde voorbeelden uit 1.113 wetenschappelijke artikelen, verdeeld over vier subsets, die elk een veelvoorkomend redeneertype in multimodale wetenschappelijke claimverificatie vertegenwoordigen. Om een gedetailleerde evaluatie mogelijk te maken, bevat elk voorbeeld door experts geannoteerd ondersteunend bewijs. We beoordelen de prestaties van 21 state-of-the-art multimodale foundationmodellen, waaronder o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision en Qwen2.5-VL. Ons experiment toont een aanzienlijk prestatieverschil tussen deze modellen en menselijke experts op SciVer. Door een diepgaande analyse van retrieval-augmented generation (RAG) en door mensen uitgevoerde foutevaluaties, identificeren we kritieke beperkingen in huidige open-source modellen, wat belangrijke inzichten biedt om het begrip en redeneervermogen van modellen in multimodale wetenschappelijke literatuurtaken te verbeteren.
Recentelijk hebben Large Language Models (LLMs) die tijdens de testfase worden geschaald, uitzonderlijke redeneervaardigheden getoond bij wetenschappelijke en professionele taken door lange ketens van gedachten (CoT) te genereren. Als een cruciaal onderdeel voor de ontwikkeling van deze redeneermodellen maakt reinforcement learning (RL), geïllustreerd door Proximal Policy Optimization (PPO) en zijn varianten, het mogelijk dat modellen leren door middel van trial and error. PPO kan echter tijdrovend zijn vanwege zijn inherente on-policy aard, wat verder wordt verergerd door toenemende responslengtes. In dit werk stellen we Truncated Proximal Policy Optimization (T-PPO) voor, een nieuwe uitbreiding van PPO die de trainings efficiëntie verbetert door het beleidsupdateproces en de lengtebeperkte responsgeneratie te stroomlijnen. T-PPO verlicht het probleem van lage hardwarebenutting, een inherent nadeel van volledig gesynchroniseerde lang-generatieprocedures, waarbij resources vaak ongebruikt blijven tijdens de wachtperiodes voor volledige rollouts. Onze bijdragen zijn tweeledig. Ten eerste stellen we Extended Generalized Advantage Estimation (EGAE) voor voor voordeelschatting afgeleid van onvolledige responsen, terwijl de integriteit van beleidsleren behouden blijft. Ten tweede ontwikkelen we een computationeel geoptimaliseerd mechanisme dat onafhankelijke optimalisatie van het beleids- en waardemodel mogelijk maakt. Door selectief prompts en afgekapte tokens te filteren, vermindert dit mechanisme overbodige berekeningen en versnelt het het trainingsproces zonder in te leveren op convergentieprestaties. We demonstreren de effectiviteit en efficiëntie van T-PPO op AIME 2024 met een 32B basismodel. De experimentele resultaten tonen aan dat T-PPO de trainings efficiëntie van redenerende LLMs met tot 2,5x verbetert en zijn bestaande concurrenten overtreft.
Het automatisch creëren van 3D-scènes voor een immersieve VR-ervaring is al decennia lang een belangrijk onderzoeksgebied. Bestaande methoden zijn echter vaak gebaseerd op het modelleren van hoogpolygonale meshes met achteraf vereenvoudiging of op massieve 3D-Gaussiaanse modellen, wat resulteert in een complexe pijplijn of beperkte visuele realiteit. In dit artikel tonen we aan dat dergelijke uitgebreide modellering niet nodig is om een overtuigende immersieve ervaring te bereiken. We introduceren ImmerseGen, een nieuw agent-gestuurd framework voor compacte en fotorealistische wereldmodellering. ImmerseGen representeert scènes als hiërarchische composities van lichtgewicht geometrische proxies, zoals vereenvoudigde terrein- en billboard-meshes, en genereert een fotorealistisch uiterlijk door RGBA-texturen op deze proxies te synthetiseren. Specifiek stellen we terrein-geconditioneerde texturering voor voor gebruikersgerichte basiswereldsynthese, en RGBA-assettexturering voor midden- en voorgrondscènes. Deze herformulering biedt verschillende voordelen: (i) het vereenvoudigt modellering door agents in staat te stellen generatieve modellen te begeleiden bij het produceren van samenhangende texturen die naadloos in de scène integreren; (ii) het omzeilt het creëren en reduceren van complexe geometrie door direct fotorealistische texturen op proxies te synthetiseren, waardoor de visuele kwaliteit behouden blijft zonder degradatie; (iii) het maakt compacte representaties mogelijk die geschikt zijn voor real-time rendering op mobiele VR-headsets. Om scènecreatie vanuit tekstprompts te automatiseren, introduceren we VLM-gebaseerde modelleringsagents die zijn versterkt met semantische grid-gebaseerde analyse voor verbeterd ruimtelijk redeneren en nauwkeurige plaatsing van assets. ImmerseGen verrijkt scènes verder met dynamische effecten en omgevingsgeluid om multisensorische immersie te ondersteunen. Experimenten met scènegeneratie en live VR-demonstraties tonen aan dat ImmerseGen superieure fotorealiteit, ruimtelijke samenhang en renderingefficiëntie bereikt in vergelijking met eerdere methoden. Projectwebpagina: https://immersegen.github.io.
Het vermogen om algemene lichaamsbewegingen in de echte wereld te volgen, is een nuttige manier om algemene humanoïde robots te ontwikkelen. Het bereiken hiervan kan echter uitdagend zijn vanwege de temporele en kinematische diversiteit van de bewegingen, de capaciteit van het beleid en de moeilijkheid van de coördinatie tussen het boven- en onderlichaam. Om deze problemen aan te pakken, stellen wij GMT voor, een algemeen en schaalbaar bewegingsvolgsysteem dat een enkel geïntegreerd beleid traint om humanoïde robots in staat te stellen diverse bewegingen in de echte wereld te volgen. GMT is gebaseerd op twee kerncomponenten: een Adaptieve Steekproefstrategie en een Motion Mixture-of-Experts (MoE)-architectuur. De Adaptieve Steekproefstrategie balanceert automatisch eenvoudige en moeilijke bewegingen tijdens de training. De MoE zorgt voor een betere specialisatie van verschillende regio's van het bewegingsmanifold. Wij tonen door middel van uitgebreide experimenten in zowel simulatie als de echte wereld de effectiviteit van GMT aan, waarbij state-of-the-art prestaties worden behaald over een breed spectrum van bewegingen met behulp van een verenigd algemeen beleid. Video's en aanvullende informatie zijn te vinden op https://gmt-humanoid.github.io.
Grote multimodale Mixture-of-Experts (MoEs) schalen het modelformaat effectief op om de prestaties te verbeteren terwijl het aantal actieve parameters constant blijft. Eerdere werken maakten echter voornamelijk gebruik van experts met volledige precisie tijdens sparse up-cycling. Hoewel ze superieure prestaties laten zien op eindtaken, introduceert het grote aantal experts een hoger geheugengebruik, wat aanzienlijke uitdagingen oplevert voor implementatie op edge-apparaten. In dit werk stellen we MoTE voor, een schaalbare en geheugenefficiënte aanpak om Mixture-of-Ternary-Experts-modellen te trainen vanuit een dicht checkpoint. In plaats van minder experts met hoge precisie te trainen, stellen we voor om meer experts met lage precisie te trainen tijdens up-cycling. Specifiek gebruiken we het vooraf getrainde FFN als een gedeelde expert en trainen we ternair gerouteerde experts met parameters in {-1, 0, 1}. Uitgebreide experimenten tonen aan dat onze aanpak een veelbelovende schaalbaarheidstrend vertoont naarmate het modelformaat toeneemt. MoTE bereikt vergelijkbare prestaties als de baseline MoE-LLaVA met volledige precisie, terwijl het een lager geheugengebruik biedt. Bovendien is onze aanpak compatibel met post-training kwantiseringsmethoden, en het voordeel wordt verder versterkt wanneer het geheugenbeperking lager wordt. Met hetzelfde geheugengebruik van 3,4GB voor experts en gecombineerd met post-training kwantisering, presteert MoTE beter dan MoE-LLaVA met een winst van 4,3% gemiddelde nauwkeurigheid op eindtaken, wat de effectiviteit en het potentieel voor geheugenbeperkte apparaten aantoont.
Het bouwen van beeldclassificatiemodellen blijft omslachtig in domeinen met schaarse data, waar het verzamelen van grote gelabelde datasets onpraktisch is. In-context learning (ICL) is naar voren gekomen als een veelbelovend paradigma voor few-shot beeldclassificatie (FSIC), waardoor modellen kunnen generaliseren over domeinen zonder gradient-gebaseerde aanpassing. Echter heeft eerder werk grotendeels een cruciaal onderdeel van ICL-gebaseerde FSIC-pipelines over het hoofd gezien: de rol van beeld-embeddings. In dit werk presenteren we PictSure, een ICL-framework dat het embeddingmodel – zijn architectuur, voorafgaande training en trainingsdynamiek – centraal stelt in de analyse. We onderzoeken systematisch de effecten van verschillende typen visuele encoders, doelen voor voorafgaande training en fine-tuning strategieën op de prestaties van downstream FSIC. Onze experimenten tonen aan dat het trainingssucces en de prestaties buiten het domein sterk afhankelijk zijn van hoe de embeddingmodellen zijn voorgetraind. Hierdoor slaagt PictSure erin bestaande ICL-gebaseerde FSIC-modellen te overtreffen op benchmarks buiten het domein die aanzienlijk verschillen van de trainingsdistributie, terwijl vergelijkbare resultaten worden behouden op taken binnen het domein. Code is te vinden op https://github.com/PictSure/pictsure-library.
Multimodale Large Language Models (MLLMs) blinken uit in taken zoals multimodale redenering en cross-modale retrievals, maar worden geconfronteerd met implementatie-uitdagingen in real-world scenario’s vanwege gedistribueerde multimodale data en strenge privacy-eisen. Federated Learning (FL) biedt een oplossing door gezamenlijke modeltraining mogelijk te maken zonder data te centraliseren. Het realiseren van FL voor MLLMs brengt echter aanzienlijke uitdagingen met zich mee, waaronder hoge rekenkundige eisen, beperkte clientcapaciteit, aanzienlijke communicatiekosten en heterogene clientdata. Bestaande FL-methoden gaan ervan uit dat volledige modellen aan de clientzijde worden geïmplementeerd, een aanname die niet opgaat voor grootschalige MLLMs vanwege hun enorme omvang en communicatiebehoeften. Om deze beperkingen aan te pakken, stellen we FedNano voor, het eerste FL-framework dat het LLM centraliseert op de server terwijl het NanoEdge introduceert, een lichtgewicht module voor client-specifieke aanpassing. NanoEdge maakt gebruik van modality-specifieke encoders, connectors en trainbare NanoAdapters met low-rank aanpassing. Dit ontwerp elimineert de noodzaak om het LLM op clients te implementeren, waardoor de opslag aan de clientzijde met 95% wordt verminderd, en de communicatie-overhead beperkt blijft tot slechts 0,01% van de modelparameters. Door alleen compacte NanoAdapter-updates te verzenden, kan FedNano omgaan met heterogene clientdata en resourcebeperkingen terwijl de privacy wordt gewaarborgd. Experimenten tonen aan dat FedNano eerdere FL-baselines overtreft, de kloof tussen de schaal van MLLMs en de haalbaarheid van FL overbrugt, en schaalbare, gedecentraliseerde multimodale AI-systemen mogelijk maakt.
Recente vooruitgang in Grote Visueel-Taalmodellen gebaseerd op Grote Taalmodellen heeft het afstemmen van visuele kenmerken op LLM-representaties gevestigd als het dominante paradigma. Echter, overgenomen LLM-architectuurontwerpen introduceren suboptimale kenmerken voor multimodale verwerking. Ten eerste vertonen LVLM's een bimodale verdeling in aandachtstoewijzing, wat leidt tot het progressief verwaarlozen van middelste visuele inhoud naarmate de context uitbreidt. Ten tweede slagen conventionele positionele coderingsschema's er niet in om vitale 2D-structurele relaties te behouden bij het verwerken van dynamische afbeeldingen met hoge resolutie. Om deze beperkingen aan te pakken, stellen we CoMemo voor - een dual-path architectuur die een Contextbeeldpad combineert met een beeldgeheugenpad voor visuele verwerking, waardoor het verwaarlozen van visuele informatie effectief wordt verlicht. Daarnaast introduceren we RoPE-DHR, een nieuw positioneel coderingsmechanisme dat gebruikmaakt van thumbnail-gebaseerde positionele aggregatie om 2D-ruimtelijk bewustzijn te behouden terwijl het verval op afstand in uitgebreide sequenties wordt verminderd. Evaluaties over zeven benchmarks, waaronder lang-context begrip, multi-beeld redeneren en visuele vraagbeantwoording, tonen de superieure prestaties van CoMemo aan in vergelijking met conventionele LVLM-architecturen. De projectpagina is beschikbaar op https://lalbj.github.io/projects/CoMemo/.
Diffusiegebaseerde beeldgeneratiemodellen blinken uit in het produceren van hoogwaardige synthetische inhoud, maar kampen met trage en rekenkundig dure inferentie. Eerdere werkzaamheden hebben geprobeerd dit te verlichten door kenmerken binnen diffusie-transformers tussen inferentiestappen te cachen en te hergebruiken. Deze methoden vertrouwen echter vaak op rigide heuristieken die resulteren in beperkte versnelling of slechte generalisatie over verschillende architecturen. Wij stellen Evolutionair Cachen om Diffusiemodellen te Versnellen (ECAD) voor, een genetisch algoritme dat efficiënte, per-model cacheschema's leert die een Pareto-front vormen, met behulp van slechts een kleine set calibratieprompts. ECAD vereist geen aanpassingen aan netwerkparameters of referentiebeelden. Het biedt aanzienlijke versnellingen in inferentie, maakt fijnmazige controle over de kwaliteit-latentie trade-off mogelijk, en past zich naadloos aan verschillende diffusiemodellen aan. Opmerkelijk is dat de geleerde schema's van ECAD effectief kunnen generaliseren naar resoluties en modelvarianten die niet zijn gezien tijdens de calibratie. We evalueren ECAD op PixArt-alpha, PixArt-Sigma en FLUX-1.dev met behulp van meerdere metrieken (FID, CLIP, Image Reward) over diverse benchmarks (COCO, MJHQ-30k, PartiPrompts), en tonen consistente verbeteringen aan ten opzichte van eerdere benaderingen. Op PixArt-alpha identificeert ECAD een schema dat de vorige state-of-the-art methode overtreft met 4.47 COCO FID terwijl de inferentieversnelling wordt verhoogd van 2.35x naar 2.58x. Onze resultaten vestigen ECAD als een schaalbare en generaliseerbare aanpak voor het versnellen van diffusie-inferentie. Onze projectwebsite is beschikbaar op https://aniaggarwal.github.io/ecad en onze code is beschikbaar op https://github.com/aniaggarwal/ecad.
Recente benchmarks hebben de feitelijke consistentie en retorische robuustheid van Large Language Models (LLMs) onderzocht. Er bestaat echter een kennislacune over hoe directionele framing van feitelijk juiste uitspraken de overeenstemming van het model beïnvloedt, een veelvoorkomend scenario voor LLM-gebruikers. AssertBench pakt dit aan door bewijsondersteunde feiten te bemonsteren uit FEVEROUS, een dataset voor feitenverificatie. Voor elk (door bewijs ondersteund) feit construeren we twee framingprompts: één waarin de gebruiker beweert dat de uitspraak feitelijk correct is, en een andere waarin de gebruiker beweert dat deze onjuist is. Vervolgens registreren we de overeenstemming en redenering van het model. Het gewenste resultaat is dat het model standvastig blijft en een consistente waarheidsevaluatie behoudt over beide framings, in plaats van zijn evaluatie te veranderen om met de gebruiker in te stemmen. AssertBench isoleert framing-geïnduceerde variabiliteit van de onderliggende feitelijke kennis van het model door resultaten te stratificeren op basis van de nauwkeurigheid van het model op dezelfde claims wanneer deze neutraal worden gepresenteerd. Op deze manier beoogt deze benchmark het vermogen van een LLM te meten om "bij zijn standpunt te blijven" wanneer het wordt geconfronteerd met tegenstrijdige gebruikersbeweringen over hetzelfde feit. De volledige broncode is beschikbaar op https://github.com/achowd32/assert-bench.
Computer use agents zijn op LLM gebaseerde agents die rechtstreeks kunnen interageren met een grafische gebruikersinterface, door het verwerken van schermafbeeldingen of toegankelijkheidsbomen. Hoewel deze systemen aan populariteit winnen, is hun veiligheid grotendeels over het hoofd gezien, ondanks het feit dat het evalueren en begrijpen van hun potentieel voor schadelijk gedrag essentieel is voor brede adoptie. Om dit gat te dichten, introduceren we OS-Harm, een nieuwe benchmark voor het meten van de veiligheid van computer use agents. OS-Harm is gebouwd bovenop de OSWorld-omgeving en heeft als doel modellen te testen op drie categorieën van schade: opzettelijk misbruik door gebruikers, prompt injection-aanvallen en modelmisgedrag. Om deze gevallen te dekken, creëren we 150 taken die verschillende soorten veiligheidsschendingen omvatten (pesten, auteursrechtinbreuk, desinformatie, data-exfiltratie, etc.) en vereisen dat de agent interageert met een verscheidenheid aan OS-applicaties (e-mailclient, code-editor, browser, etc.). Bovendien stellen we een geautomatiseerde rechter voor om zowel de nauwkeurigheid als de veiligheid van agents te evalueren, die een hoge overeenstemming bereikt met menselijke annotaties (0.76 en 0.79 F1-score). We evalueren computer use agents op basis van een reeks frontier modellen - zoals o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - en bieden inzichten in hun veiligheid. In het bijzonder neigen alle modellen ertoe om direct te voldoen aan veel opzettelijke misbruikverzoeken, zijn relatief kwetsbaar voor statische prompt injections, en voeren af en toe onveilige acties uit. De OS-Harm benchmark is beschikbaar op https://github.com/tml-epfl/os-harm.