Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Sparse-Linear Attention (SLA) combineert sparse en lineaire aandacht om diffusiemodellen te versnellen en heeft sterke prestaties getoond in videogeneratie. Echter, (i) SLA vertrouwt op een heuristische splitsing die berekeningen toewijst aan de sparse of lineaire tak op basis van de grootte van de aandachtswaarden, wat suboptimaal kan zijn. Daarnaast identificeren we (ii) na een formele analyse van de aandachtfout in SLA een mismatch tussen SLA en een directe ontbinding in sparse en lineaire aandacht. Wij stellen SLA² voor, dat (I) een leerbare router introduceert die dynamisch selecteert of elke aandachtberekening sparse of lineaire aandacht moet gebruiken, (II) een meer getrouwde en directe sparse-lineaire aandachtformulering die een leerbare ratio gebruikt om de sparse en lineaire takken te combineren, en (III) een sparse + low-bit aandachtontwerp, waarbij low-bit aandacht wordt geïntroduceerd via quantization-aware fine-tuning om de kwantiseringsfout te verminderen. Experimenten tonen aan dat SLA² bij videodiffusiemodellen 97% attentiesparsheid kan bereiken en een 18,6x versnelling van de aandacht levert, waarbij de generatiekwaliteit behouden blijft.
The performance of autonomous Web GUI agents heavily relies on the quality and quantity of their training data. However, a fundamental bottleneck persists: collecting interaction trajectories from real-world websites is expensive and difficult to verify. The underlying state transitions are hidden, leading to reliance on inconsistent and costly external verifiers to evaluate step-level correctness. To address this, we propose AutoWebWorld, a novel framework for synthesizing controllable and verifiable web environments by modeling them as Finite State Machines (FSMs) and use coding agents to translate FSMs into interactive websites. Unlike real websites, where state transitions are implicit, AutoWebWorld explicitly defines all states, actions, and transition rules. This enables programmatic verification: action correctness is checked against predefined rules, and task success is confirmed by reaching a goal state in the FSM graph. AutoWebWorld enables a fully automated search-and-verify pipeline, generating over 11,663 verified trajectories from 29 diverse web environments at only $0.04 per trajectory. Training on this synthetic data significantly boosts real-world performance. Our 7B Web GUI agent outperforms all baselines within 15 steps on WebVoyager. Furthermore, we observe a clear scaling law: as the synthetic data volume increases, performance on WebVoyager and Online-Mind2Web consistently improves.
Ondanks de snelle vooruitgang in multimodale foundation-modellen, ontbreekt het de embodied intelligence-gemeenschap nog steeds aan een uniform, fysiek onderbouwd foundation-model dat perceptie, redeneren en planning integreert binnen real-world ruimtelijk-temporele dynamiek. Wij introduceren RynnBrain, een open-source ruimtelijk-temporeel foundation-model voor embodied intelligence. RynnBrain versterkt vier kerncapaciteiten in een uniform raamwerk: uitgebreid egocentrisch begrip, diverse ruimtelijk-temporele lokalisatie, fysiek onderbouwd redeneren en fysica-bewuste planning. De RynnBrain-familie omvat drie foundation-model schalen (2B, 8B en 30B-A3B MoE) en vier nage-trainde varianten afgestemd op downstream embodied taken (d.w.z. RynnBrain-Nav, RynnBrain-Plan en RynnBrain-VLA) of complexe ruimtelijke redeneertaken (d.w.z. RynnBrain-CoP). In uitgebreide evaluaties op 20 embodied benchmarks en 8 algemene visuele begrip benchmarks, overtreffen onze RynnBrain foundation-modellen bestaande embodied foundation-modellen met een aanzienlijke marge. De nage-trainde modelreeks onderstreept verder twee belangrijke potenties van het RynnBrain foundation-model: (i) het mogelijk maken van fysiek onderbouwd redeneren en plannen, en (ii) het dienen als een sterke vooraf getrainde backbone die efficiënt kan worden aangepast aan diverse embodied taken.
Computer-Aided Design (CAD) biedt snelle, bewerkbare modellering voor engineering en productie. Recente vooruitgang in AI maakt nu volledige automatisering haalbaar voor diverse CAD-taken. De vooruitgang wordt echter belemmerd door een dataknelpunt: openbare corpora bevatten voornamelijk schets-extrude-reeksen, ontberen complexe bewerkingen, compositie van meerdere bewerkingen en ontwerpintentie, wat effectieve fine-tuning belemmert. Pogingen om dit te omzeilen met bevroren VLMs leveren vaak eenvoudige of ongeldige programma's op vanwege beperkte 3D-verankering in huidige foundation-modellen. Wij presenteren CADEvolve, een op evolutie gebaseerde pijplijn en dataset die start vanuit eenvoudige primitieven en, via VLM-gestuurde bewerkingen en validaties, incrementeel CAD-programma's laat groeien naar industriële complexiteit. Het resultaat is 8k complexe onderdelen uitgedrukt als uitvoerbare CadQuery parametrische generators. Na multi-stapse nabewerking en augmentatie verkrijgen we een uniforme dataset van 1,3 miljoen scripts, gekoppeld aan gerenderde geometrie en gebruikmakend van de volledige CadQuery-bewerkingsset. Een VLM die op CADEvolve is gefinetuned behaalt state-of-the-art resultaten voor de Image2CAD-taak across de DeepCAD, Fusion 360 en MCB benchmarks.
Visuele loco-manipulatie van willekeurige objecten in ongestructureerde omgevingen met humanoïde robots vereist nauwkeurige eindeffector (EE)-regeling en een generaliseerbaar begrip van de scène via visuele invoer (bijv. RGB-D-beelden). Bestaande benaderingen zijn gebaseerd op imitation learning in de echte wereld en vertonen beperkte generalisatie door de moeilijkheid om grootschalige trainingsdatasets te verzamelen. Dit artikel presenteert een nieuw paradigma, HERO, voor object-locomotie-manipulatie met humanoïde robots dat de sterke generalisatie en open-vocabulary-begrip van grote vision-modellen combineert met sterke regelprestaties uit gesimuleerde training. Wij bereiken dit door een nauwkeurig residual-aware EE-volgbeleid te ontwerpen. Dit EE-volgbeleid combineert klassieke robotica met machine learning. Het gebruikt a) inverse kinematica om residuele eindeffector-doelen om te zetten in referentietrajecten, b) een geleerd neuraal voorwaarts model voor nauwkeurige voorwaartse kinematica, c) doelaanpassing en d) herplanning. Gezamenlijk helpen deze innovaties ons de eindeffector-volgfout met 3,2x te verminderen. Wij gebruiken deze nauwkeurige eindeffector-volger om een modulair systeem voor loco-manipulatie te bouwen, waarbij wij open-vocabulary grote vision-modellen gebruiken voor sterke visuele generalisatie. Ons systeem kan functioneren in diverse real-world omgevingen, van kantoren tot coffeeshops, waar de robot in staat is diverse alledaagse objecten (bijv. mokken, appels, speelgoed) betrouwbaar te manipuleren op oppervlakken met hoogtes variërend van 43cm tot 92cm. Systematische modulaire en end-to-end tests in simulatie en de echte wereld demonstreren de effectiviteit van onze voorgestelde ontwerpaanpak. Wij geloven dat de vooruitgang in dit artikel nieuwe manieren kan openen om humanoïde robots te trainen om te interageren met dagelijkse objecten.
Het bereiken van samenwerking tussen zelfbelang-gedreven agents blijft een fundamentele uitdaging in multi-agent reinforcement learning. Recent onderzoek toonde aan dat wederzijdse samenwerking kan worden geïnduceerd tussen "leerbewuste" agents die rekening houden met en de leer dynamiek van hun medespelers beïnvloeden. Bestaande benaderingen steunen echter typisch op hardgecodeerde, vaak inconsistente, aannames over de leerregels van medespelers of leggen een strikte scheiding op tussen "naïeve leerders" die op snelle tijdschalen updaten en "meta-leerders" die deze updates observeren. Hier tonen we aan dat de in-context leercapaciteiten van sequentiemodellen leerbewustzijn ten opzichte van medespelers mogelijk maken zonder hardgecodeerde aannames of expliciete tijdschaalscheiding. We laten zien dat het trainen van sequentiemodel-agenten tegen een diverse verdeling van medespelers van nature in-context best-response strategieën induceert, die effectief functioneren als leeralgoritmen op de snelle intra-episode tijdschaal. We ontdekken dat het coöperatieve mechanisme dat in eerder werk werd geïdentificeerd – waarbij kwetsbaarheid voor afpersing wederzijdse beïnvloeding aandrijft – van nature opkomt in deze setting: in-context aanpassing maakt agents kwetsbaar voor afpersing, en de resulterende wederzijdse druk om de in-context leer dynamiek van de tegenstander te beïnvloeden lost op in het aanleren van coöperatief gedrag. Onze resultaten suggereren dat standaard gedecentraliseerd reinforcement learning op sequentiemodellen, gecombineerd met diversiteit onder medespelers, een schaalbare weg biedt naar het aanleren van coöperatieve gedragingen.
Wij introduceren de Massive Audio Embedding Benchmark (MAEB), een grootschalige benchmark die 30 taken omvat op het gebied van spraak, muziek, omgevingsgeluiden en cross-modale audio-tekst redenering in 100+ talen. We evalueren 50+ modellen en constateren dat geen enkel model dominant is over alle taken: contrastieve audio-tekstmodellen excelleren in de classificatie van omgevingsgeluiden (bijv. ESC50), maar scoren bijna willekeurig op meertalige spraaktaken (bijv. SIB-FLEURS), terwijl op spraak voorgetrainde modellen het omgekeerde patroon vertonen. Clustering blijft voor alle modellen een uitdaging, waarbij zelfs het best presterende model slechts bescheiden resultaten behaalt. We observeren dat modellen die uitblinken in akoestisch begrip vaak slecht presteren op linguïstische taken, en vice versa. We tonen ook aan dat de prestaties van audio-encoders op MAEB sterk correleren met hun prestaties wanneer ze worden gebruikt in audio large language models. MAEB is afgeleid van MAEB+, een verzameling van 98 taken. MAEB is ontworpen om taakdiversiteit te behouden terwijl de evaluatiekosten worden verlaagd, en het integreert in het MTEB-ecosysteem voor uniforme evaluatie over tekst-, beeld- en audiomodaliteiten. We brengen MAEB en alle 98 taken uit, samen met code en een leaderboard, op https://github.com/embeddings-benchmark/mteb.
Standaard feitelijkheidsevaluaties van LLM's behandelen alle fouten als gelijkwaardig, waardoor onduidelijk blijft of fouten voortkomen uit ontbrekende kennis ('lege planken') of uit beperkte toegang tot gecodeerde feiten ('verloren sleutels'). Wij stellen een gedragsraamwerk voor dat feitelijke kennis profileert op het niveau van feiten in plaats van vragen, waarbij elk feit wordt gekarakteriseerd door of het is gecodeerd, en vervolgens door hoe toegankelijk het is: niet kan worden opgehaald, direct kan worden opgehaald, of alleen kan worden opgehaald met berekeningen tijdens de inferentie ('denken'). Om dergelijke profilering te ondersteunen, introduceren we WikiProfile, een nieuwe benchmark die is geconstrueerd via een geautomatiseerde pijplijn met een geprompte LLM ondersteund door webzoekopdrachten. Uit meer dan 4 miljoen antwoorden van 13 LLM's blijkt dat codering bij topmodellen op onze benchmark bijna verzadigd is, waarbij GPT-5 en Gemini-3 95-98% van de feiten coderen. Toegankelijkheid blijft echter een grote bottleneck: veel fouten die voorheen werden toegeschreven aan ontbrekende kennis, blijken voort te komen uit het niet kunnen toegang krijgen tot die kennis. Deze fouten zijn systematisch en treffen onevenredig vaak feiten uit de lange staart en omgekeerde vragen. Ten slotte tonen we aan dat denken de toegankelijkheid verbetert en een aanzienlijk deel van de fouten kan herstellen, wat aangeeft dat toekomstige winst mogelijk minder afhangt van schaalvergroting en meer van methoden die verbeteren hoe modellen gebruikmaken van wat ze al gecoderd hebben.
AI-agenten worden steeds vaker ingezet voor het uitvoeren van belangrijke taken. Hoewel stijgende nauwkeurigheidsscores op standaardbenchmarks snelle vooruitgang suggereren, falen veel agenten in de praktijk nog steeds. Deze discrepantie benadrukt een fundamentele beperking van huidige evaluaties: het comprimeren van agentgedrag tot een enkele succescategorie verhult kritieke operationele tekortkomingen. Met name wordt genegeerd of agenten consistent gedrag vertonen over verschillende runs, verstoringen kunnen weerstaan, voorspelbaar falen, of een begrensde foutgevoeligheid hebben. Geworteld in veiligheidskritieke engineering bieden wij een holistisch prestatieprofiel door twaalf concrete metrieken voor te stellen die de betrouwbaarheid van agenten ontleden langs vier cruciale dimensies: consistentie, robuustheid, voorspelbaarheid en veiligheid. Door 14 agentmodellen te evalueren over twee complementaire benchmarks, constateren wij dat recente vermogenswinsten slechts kleine verbeteringen in betrouwbaarheid hebben opgeleverd. Door deze hardnekkige beperkingen bloot te leggen, complementeren onze metrieken traditionele evaluaties en bieden zij instrumenten om te redeneren over hoe agenten presteren, afnemen in kwaliteit en falen.
State-of-the-art Vision-Language-Action (VLA)-modellen blinken uit in semantische generalisatie, maar hebben moeite om te generaliseren naar onbekende fysieke bewegingen in nieuwe omgevingen. Wij introduceren DreamZero, een World Action Model (WAM) gebouwd op een voorgetrainde video-diffusie-backbone. In tegenstelling tot VLA's leren WAM's fysieke dynamiek door toekomstige wereldstatussen en acties te voorspellen, waarbij video wordt gebruikt als een dichte representatie van hoe de wereld evolueert. Door video en actie gezamenlijk te modelleren, leert DreamZero effectief diverse vaardigheden aan van heterogene robotgegevens, zonder afhankelijk te zijn van repetitieve demonstraties. Dit resulteert in een meer dan 2x verbetering in generalisatie naar nieuwe taken en omgevingen vergeleken met state-of-the-art VLA's in echte robotexperimenten. Cruciaal is dat we, door model- en systeemoptimalisaties, een autoregressief video-diffusiemodel van 14B in staat stellen real-time closed-loop controle uit te voeren op 7Hz. Ten slotte demonstreren we twee vormen van cross-embodiment transfer: demonstraties met alleen video van andere robots of mensen leveren een relatieve verbetering van meer dan 42% op in de prestaties van onbekende taken met slechts 10-20 minuten aan gegevens. Verrassender nog stelt DreamZero few-shot embodiment-aanpassing mogelijk, waarbij het met slechts 30 minuten speelgegevens naar een nieuwe embodiment wordt overgedragen, terwijl de zero-shot generalisatie behouden blijft.
Snelle-gewichten-architecturen bieden een veelbelovend alternatief voor op aandacht gebaseerde transformers voor modellering met lange context door een constant geheugengebruik te handhaven, ongeacht de contextlengte. Hun potentieel wordt echter beperkt door het next-token prediction (NTP) trainingsparadigma. NTP optimaliseert voorspellingen per enkel token en negeert semantische samenhang over meerdere tokens na een prefix. Hierdoor leren snelle-gewichten-modellen, die hun parameters dynamisch bijwerken om contextuele informatie op te slaan, suboptimale representaties aan die geen langere-afstandsafhankelijkheden vastleggen. Wij introduceren REFINE (Reinforced Fast weIghts with Next sEquence prediction), een raamwerk voor reinforcement learning dat snelle-gewichten-modellen traint met het next-sequence prediction (NSP) doel. REFINE selecteert informatieve tokenposities op basis van voorspellingsentropie, genereert multi-token rollouts, kent zelf-gesuperviseerde reeksniveau-beloningen toe en optimaliseert het model met group relative policy optimization (GRPO). REFINE is toepasbaar gedurende de volledige trainingslevenscyclus van vooraf getrainde taalmodellen: midden-in-de-training, na-de-training en training-tijdens-het-testen. Onze experimenten met LaCT-760M en DeltaNet-1.3B tonen aan dat REFINE consistent beter presteert dan supervised fine-tuning met NTP voor taken zoals needle-in-a-haystack retrieval, vraag-antwoordtaken met lange context en diverse taken in LongBench. REFINE biedt een effectief en veelzijdig raamwerk voor het verbeteren van lange-contextmodellering in snelle-gewichten-architecturen.
Wij introduceren SAM 3D Body (3DB), een promptbaar model voor het herstellen van een volledig 3D-menselijk maaswerk (HMR) vanuit een enkele afbeelding, dat state-of-the-art prestaties demonstreert met sterke generalisatie en consistente nauwkeurigheid onder diverse real-world omstandigheden. 3DB schat de menselijke houding van het lichaam, de voeten en de handen. Het is het eerste model dat een nieuwe parametrische maasweergave gebruikt, Momentum Human Rig (MHR), die de skeletstructuur en de oppervlaktevorm ontkoppelt. 3DB maakt gebruik van een encoder-decoder architectuur en ondersteunt aanvullende prompts, waaronder 2D-sleutelpunten en maskers, wat gebruikersgestuurde inferentie mogelijk maakt, vergelijkbaar met de SAM-familie van modellen. Wij verkrijgen hoogwaardige annotaties via een pijplijn voor meerfasenannotatie die verschillende combinaties gebruikt van handmatige sleutelpuntannotatie, differentieerbare optimalisatie, multi-view geometrie en detectie van dichte sleutelpunten. Onze data-engine selecteert en verwerkt gegevens efficiënt om gegevensdiversiteit te waarborgen, waarbij ongebruikelijke houdingen en zeldzame beeldvormingsomstandigheden worden verzameld. Wij presenteren een nieuwe evaluatiedataset, georganiseerd volgens houdings- en uiterlijkcategorieën, die een genuanceerde analyse van modelgedrag mogelijk maakt. Onze experimenten tonen superieure generalisatie en substantiële verbeteringen ten opzichte van eerdere methoden aan, zowel in kwalitatieve gebruikersvoorkeurstudies als in traditionele kwantitatieve analyses. Zowel 3DB als MHR zijn open-source.
Distribution Matching Distillation (DMD) is een krachtig versnellingsparadigma, maar de stabiliteit ervan wordt vaak aangetast in de Verboden Zone, regio's waar de echte leraar onbetrouwbare begeleiding biedt terwijl de kunstmatige leraar onvoldoende afstotende kracht uitoefent. In dit werk stellen we een geünificeerd optimalisatiekader voor dat eerdere technieken herinterpreteert als impliciete strategieën om deze aangetaste regio's te vermijden. Gebaseerd op dit inzicht introduceren we Adaptive Matching Distillation (AMD), een zelfcorrigerend mechanisme dat beloningsproxies gebruikt om Verboden Zones expliciet te detecteren en te ontvluchten. AMD prioriteert dynamisch corrigerende gradiënten via structurele signaalontleding en introduceert Repulsive Landscape Sharpening om steile energiebarrières af te dwingen tegen instorting in faalmodi. Uitgebreide experimenten in beeld- en videogeneratietaken (bijv. SDXL, Wan2.1) en rigoureuze benchmarks (bijv. VBench, GenEval) tonen aan dat AMD de sample-getrouwheid en trainingsrobuustheid aanzienlijk verbetert. AMD verbetert bijvoorbeeld de HPSv2-score op SDXL van 30.64 naar 31.25, wat state-of-the-art baseline-methoden overtreft. Deze bevindingen valideren dat het expliciet corrigeren van optimalisatietrajecten binnen Verboden Zones essentieel is om de prestatielimiet van generatieve modellen met weinig stappen te verleggen.
Moderne AI-agenten zijn krachtig, maar slagen er vaak niet in om af te stemmen op de idiosyncratische, evoluerende voorkeuren van individuele gebruikers. Eerdere benaderingen zijn typisch afhankelijk van statische datasets, waarbij ofwel impliciete voorkeursmodellen worden getraind op interactiegeschiedenis, ofwel gebruikersprofielen worden gecodeerd in extern geheugen. Deze benaderingen hebben echter moeite met nieuwe gebruikers en met voorkeuren die in de loop van de tijd veranderen. Wij introduceren Personalized Agents from Human Feedback (PAHF), een raamwerk voor continue personalisatie waarin agenten online leren van live-interactie met behulp van expliciet, per gebruiker geheugen. PAHF operationaliseert een drie-stappenlus: (1) het vragen om opheldering vóór een actie om ambiguïteit op te lossen, (2) het verankeren van acties in voorkeuren die uit het geheugen worden opgehaald, en (3) het integreren van feedback na een actie om het geheugen bij te werken wanneer voorkeuren verschuiven. Om deze capaciteit te evalueren, ontwikkelen we een vierfasenprotocol en twee benchmarks in 'embodied manipulation' en online winkelen. Deze benchmarks kwantificeren het vermogen van een agent om initiële voorkeuren vanaf nul te leren en vervolgens aan te passen aan persona-verschuivingen. Onze theoretische analyse en empirische resultaten tonen aan dat de integratie van expliciet geheugen met dubbele feedbackkanalen cruciaal is: PAHF leert aanzienlijk sneller en presteert consistent beter dan zowel baseline-modellen zonder geheugen als met enkelvoudige kanalen, waardoor de initiële personalisatiefout wordt verminderd en snelle aanpassing aan voorkeursverschuivingen mogelijk wordt.
Multimodale agenten met een lange-termijnhorizon zijn afhankelijk van extern geheugen; op gelijkenis gebaseerde retrievel levert echter vaak verouderde, onbetrouwbare of tegenstrijdige items op, wat tot overmoedige fouten kan leiden. Wij stellen de Multimodale Geheugen Agent (MMA) voor, die aan elk opgehaald geheugenitem een dynamische betrouwbaarheidsscore toekent door bronbetrouwbaarheid, temporeel verval en conflictbewuste netwerkconsensus te combineren, en dit signaal gebruikt om bewijsmateriaal te herwegen en zich van oordeel te onthouden wanneer de ondersteuning onvoldoende is. Wij introduceren ook MMA-Bench, een programmatisch gegenereerde benchmark voor geloofsdynamiek met gecontroleerde sprekersbetrouwbaarheid en gestructureerde tekst-visie tegenstrijdigheden. Met dit framework leggen wij het "Visuele Placebo-effect" bloot, dat onthult hoe op RAG gebaseerde agenten latente visuele vooroordelen van foundation models overnemen. Op FEVER evenaart MMA de basislijnnauwkeurigheid, maar vermindert de variantie met 35,2% en verbetert het selectieve nut; op LoCoMo verbetert een veiligheidsgerichte configuratie de actiegerichte nauwkeurigheid en vermindert het aantal foute antwoorden; op MMA-Bench bereikt MMA 41,18% Type-B nauwkeurigheid in Visiemodus, terwijl de basislijn onder hetzelfde protocol inzakt tot 0,0%. Code: https://github.com/AIGeeksGroup/MMA.
We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters
Een kernaspect van de menselijke waarneming is gesitueerd bewustzijn: het vermogen om onszelf te verhouden tot de fysieke omgeving en te redeneren over mogelijke acties in een context. De meeste bestaande benchmarks voor multimodale foundationmodellen (MFM's) leggen echter de nadruk op omgevingsgerichte ruimtelijke relaties (relaties tussen objecten in een scène), terwijl ze waarnemer-gerichte relaties die redeneren vereisen ten opzichte van het gezichtspunt, de houding en de beweging van de agent grotendeels over het hoofd zien. Om deze kloof te overbruggen, introduceren we SAW-Bench (Situated Awareness in the Real World), een nieuwe benchmark voor het evalueren van egocentrisch gesitueerd bewustzijn met behulp van real-world video's. SAW-Bench omvat 786 zelf opgenomen video's, vastgelegd met Ray-Ban Meta (Gen 2) slimme brillen in diverse binnen- en buitenomgevingen, en meer dan 2.071 door mensen geannoteerde vraag-antwoordparen. Het onderzoekt het waarnemer-gerichte begrip van een model met zes verschillende bewustzijnstaken. Onze uitgebreide evaluatie toont een prestatiekloof tussen mens en model van 37,66%, zelfs met het best presterende MFM, Gemini 3 Flash. Naast deze kloof onthult onze diepgaande analyse verschillende opmerkelijke bevindingen; zo kunnen modellen bijvoorbeeld wel partiële geometrische aanwijzingen in egocentrische video's benutten, maar slagen ze er vaak niet in om een coherente camerageometrie af te leiden, wat leidt tot systematische ruimtelijke redeneerfouten. Wij positioneren SAW-Bench als een benchmark voor gesitueerde ruimtelijke intelligentie, die verder gaat dan passieve observatie naar het begrijpen van fysiek verankerde, waarnemer-gerichte dynamiek.
We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS
Multimodale Large Language Models (MLLM's) hebben een significante vooruitgang geboekt in 'embodied AI', en het gebruik ervan om robotintelligentie te benchmarken is een cruciale trend geworden. Bestaande kaders zijn echter overwegend beperkt tot manipulatie met één arm, waardoor ze de ruimtelijk-temporele coördinatie die nodig is voor bimanuele taken, zoals het optillen van een zware pan, niet vastleggen. Om dit aan te pakken, introduceren wij BiManiBench, een hiërarchische benchmark die MLLM's evalueert op drie niveaus: fundamenteel ruimtelijk redeneren, hoog-niveau actieplanning en laag-niveau eind-effectorcontrole. Ons kader isoleert unieke bimanuele uitdagingen, zoals de reikwijdte van de arm en kinematische beperkingen, en onderscheidt zo perceptuele hallucinaties van planningsfouten. Analyse van meer dan 30 state-of-the-art modellen toont aan dat MLLM's, ondanks hun vaardigheid in hoog-niveau redeneren, moeite hebben met ruimtelijke verankering en controle met twee armen, wat vaak leidt tot onderlinge interferentie en volgordefouten. Deze bevindingen suggereren dat het huidige paradigma een diepgaand begrip van onderlinge kinematische beperkingen mist, en benadrukken de noodzaak voor toekomstig onderzoek om zich te richten op het vermijden van botsingen tussen armen en fijnmazige temporele sequentiebepaling.
Generatieve grote visueel-taalmodelen (LVLM's) hebben recent indrukwekkende prestatieverbeteringen bereikt, en hun gebruikersbasis groeit snel. De beveiliging van LVLM's, met name in een langdurige multi-turn context, is echter grotendeels onvoldoende onderzocht. In dit artikel beschouwen we het realistische scenario waarin een aanvaller een gemanipuleerde afbeelding uploadt naar het web/sociale media. Een goedaardige gebruiker downloadt deze afbeelding en gebruikt deze als invoer voor het LVLM. Onze nieuwe stille Visuele Geheugeninjectie (VMI) aanval is zo ontworpen dat het LVLM bij normale prompts nominaal gedrag vertoont, maar zodra de gebruiker een triggerende prompt geeft, produceert het LVLM een specifiek voorgeschreven doelbericht om de gebruiker te manipuleren, bijvoorbeeld voor adversariële marketing of politieke overreding. In vergelijking met eerder werk dat zich richtte op single-turn aanvallen, is VMI effectief zelfs na een lang multi-turn gesprek met de gebruiker. We demonstreren onze aanval op verschillende recente open-weight LVLM's. Dit artikel toont daarmee aan dat grootschalige manipulatie van gebruikers mogelijk is met verstoorde afbeeldingen in multi-turn gesprekssettings, wat pleit voor betere robuustheid van LVLM's tegen deze aanvallen. We geven de broncode vrij op https://github.com/chs20/visual-memory-injection.
The opioid epidemic continues to ravage communities worldwide, straining healthcare systems, disrupting families, and demanding urgent computational solutions. To combat this lethal opioid crisis, graph learning methods have emerged as a promising paradigm for modeling complex drug-related phenomena. However, a significant gap remains: there is no comprehensive benchmark for systematically evaluating these methods across real-world opioid crisis scenarios. To bridge this gap, we introduce OPBench, the first comprehensive opioid benchmark comprising five datasets across three critical application domains: opioid overdose detection from healthcare claims, illicit drug trafficking detection from digital platforms, and drug misuse prediction from dietary patterns. Specifically, OPBench incorporates diverse graph structures, including heterogeneous graphs and hypergraphs, to preserve the rich and complex relational information among drug-related data. To address data scarcity, we collaborate with domain experts and authoritative institutions to curate and annotate datasets while adhering to privacy and ethical guidelines. Furthermore, we establish a unified evaluation framework with standardized protocols, predefined data splits, and reproducible baselines to facilitate fair and systematic comparison among graph learning methods. Through extensive experiments, we analyze the strengths and limitations of existing graph learning methods, thereby providing actionable insights for future research in combating the opioid crisis. Our source code and datasets are available at https://github.com/Tianyi-Billy-Ma/OPBench.