HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

21 papers found

SLA2: Sparse-Lineaire Attention met Leerbaar Routeren en QAT
SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Feb 13

ByJintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez

Sparse-Linear Attention (SLA) combineert sparse en lineaire aandacht om diffusiemodellen te versnellen en heeft sterke prestaties getoond in videogeneratie. Echter, (i) SLA vertrouwt op een heuristische splitsing die berekeningen toewijst aan de sparse of lineaire tak op basis van de grootte van de aandachtswaarden, wat suboptimaal kan zijn. Daarnaast identificeren we (ii) na een formele analyse van de aandachtfout in SLA een mismatch tussen SLA en een directe ontbinding in sparse en lineaire aandacht. Wij stellen SLA² voor, dat (I) een leerbare router introduceert die dynamisch selecteert of elke aandachtberekening sparse of lineaire aandacht moet gebruiken, (II) een meer getrouwde en directe sparse-lineaire aandachtformulering die een leerbare ratio gebruikt om de sparse en lineaire takken te combineren, en (III) een sparse + low-bit aandachtontwerp, waarbij low-bit aandacht wordt geïntroduceerd via quantization-aware fine-tuning om de kwantiseringsfout te verminderen. Experimenten tonen aan dat SLA² bij videodiffusiemodellen 97% attentiesparsheid kan bereiken en een 18,6x versnelling van de aandacht levert, waarbij de generatiekwaliteit behouden blijft.

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Feb 15

ByYifan Wu, Yiran Peng, Yiyu Chen, Jianhao Ruan, Zijie Zhuang, Cheng Yang, Jiayi Zhang, Man Chen, Yenchi Tseng, Zhaoyang Yu, Liang Chen, Yuyao Zhai, Bang Liu, Chenglin Wu, Yuyu Luo

The performance of autonomous Web GUI agents heavily relies on the quality and quantity of their training data. However, a fundamental bottleneck persists: collecting interaction trajectories from real-world websites is expensive and difficult to verify. The underlying state transitions are hidden, leading to reliance on inconsistent and costly external verifiers to evaluate step-level correctness. To address this, we propose AutoWebWorld, a novel framework for synthesizing controllable and verifiable web environments by modeling them as Finite State Machines (FSMs) and use coding agents to translate FSMs into interactive websites. Unlike real websites, where state transitions are implicit, AutoWebWorld explicitly defines all states, actions, and transition rules. This enables programmatic verification: action correctness is checked against predefined rules, and task success is confirmed by reaching a goal state in the FSM graph. AutoWebWorld enables a fully automated search-and-verify pipeline, generating over 11,663 verified trajectories from 29 diverse web environments at only $0.04 per trajectory. Training on this synthetic data significantly boosts real-world performance. Our 7B Web GUI agent outperforms all baselines within 15 steps on WebVoyager. Furthermore, we observe a clear scaling law: as the synthetic data volume increases, performance on WebVoyager and Online-Mind2Web consistently improves.

RynnBrain: Open Embodied Foundation Models
RynnBrain: Open Embodied Foundation Models

Feb 13

ByRonghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao

Ondanks de snelle vooruitgang in multimodale foundation-modellen, ontbreekt het de embodied intelligence-gemeenschap nog steeds aan een uniform, fysiek onderbouwd foundation-model dat perceptie, redeneren en planning integreert binnen real-world ruimtelijk-temporele dynamiek. Wij introduceren RynnBrain, een open-source ruimtelijk-temporeel foundation-model voor embodied intelligence. RynnBrain versterkt vier kerncapaciteiten in een uniform raamwerk: uitgebreid egocentrisch begrip, diverse ruimtelijk-temporele lokalisatie, fysiek onderbouwd redeneren en fysica-bewuste planning. De RynnBrain-familie omvat drie foundation-model schalen (2B, 8B en 30B-A3B MoE) en vier nage-trainde varianten afgestemd op downstream embodied taken (d.w.z. RynnBrain-Nav, RynnBrain-Plan en RynnBrain-VLA) of complexe ruimtelijke redeneertaken (d.w.z. RynnBrain-CoP). In uitgebreide evaluaties op 20 embodied benchmarks en 8 algemene visuele begrip benchmarks, overtreffen onze RynnBrain foundation-modellen bestaande embodied foundation-modellen met een aanzienlijke marge. De nage-trainde modelreeks onderstreept verder twee belangrijke potenties van het RynnBrain foundation-model: (i) het mogelijk maken van fysiek onderbouwd redeneren en plannen, en (ii) het dienen als een sterke vooraf getrainde backbone die efficiënt kan worden aangepast aan diverse embodied taken.

CADEvolve: Realistisch CAD creëren via Programma-evolutie
CADEvolve: Creating Realistic CAD via Program Evolution

Feb 18

ByMaksim Elistratov, Marina Barannikov, Gregory Ivanov, Valentin Khrulkov, Anton Konushin, Andrey Kuznetsov, Dmitrii Zhemchuzhnikov

Computer-Aided Design (CAD) biedt snelle, bewerkbare modellering voor engineering en productie. Recente vooruitgang in AI maakt nu volledige automatisering haalbaar voor diverse CAD-taken. De vooruitgang wordt echter belemmerd door een dataknelpunt: openbare corpora bevatten voornamelijk schets-extrude-reeksen, ontberen complexe bewerkingen, compositie van meerdere bewerkingen en ontwerpintentie, wat effectieve fine-tuning belemmert. Pogingen om dit te omzeilen met bevroren VLMs leveren vaak eenvoudige of ongeldige programma's op vanwege beperkte 3D-verankering in huidige foundation-modellen. Wij presenteren CADEvolve, een op evolutie gebaseerde pijplijn en dataset die start vanuit eenvoudige primitieven en, via VLM-gestuurde bewerkingen en validaties, incrementeel CAD-programma's laat groeien naar industriële complexiteit. Het resultaat is 8k complexe onderdelen uitgedrukt als uitvoerbare CadQuery parametrische generators. Na multi-stapse nabewerking en augmentatie verkrijgen we een uniforme dataset van 1,3 miljoen scripts, gekoppeld aan gerenderde geometrie en gebruikmakend van de volledige CadQuery-bewerkingsset. Een VLM die op CADEvolve is gefinetuned behaalt state-of-the-art resultaten voor de Image2CAD-taak across de DeepCAD, Fusion 360 en MCB benchmarks.

Leren van mensachtige eind-effectorbesturing voor open-vocabulair visueel loco-manipulatie
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Feb 18

ByRunpei Dong, Ziyan Li, Xialin He, Saurabh Gupta

Visuele loco-manipulatie van willekeurige objecten in ongestructureerde omgevingen met humanoïde robots vereist nauwkeurige eindeffector (EE)-regeling en een generaliseerbaar begrip van de scène via visuele invoer (bijv. RGB-D-beelden). Bestaande benaderingen zijn gebaseerd op imitation learning in de echte wereld en vertonen beperkte generalisatie door de moeilijkheid om grootschalige trainingsdatasets te verzamelen. Dit artikel presenteert een nieuw paradigma, HERO, voor object-locomotie-manipulatie met humanoïde robots dat de sterke generalisatie en open-vocabulary-begrip van grote vision-modellen combineert met sterke regelprestaties uit gesimuleerde training. Wij bereiken dit door een nauwkeurig residual-aware EE-volgbeleid te ontwerpen. Dit EE-volgbeleid combineert klassieke robotica met machine learning. Het gebruikt a) inverse kinematica om residuele eindeffector-doelen om te zetten in referentietrajecten, b) een geleerd neuraal voorwaarts model voor nauwkeurige voorwaartse kinematica, c) doelaanpassing en d) herplanning. Gezamenlijk helpen deze innovaties ons de eindeffector-volgfout met 3,2x te verminderen. Wij gebruiken deze nauwkeurige eindeffector-volger om een modulair systeem voor loco-manipulatie te bouwen, waarbij wij open-vocabulary grote vision-modellen gebruiken voor sterke visuele generalisatie. Ons systeem kan functioneren in diverse real-world omgevingen, van kantoren tot coffeeshops, waar de robot in staat is diverse alledaagse objecten (bijv. mokken, appels, speelgoed) betrouwbaar te manipuleren op oppervlakken met hoogtes variërend van 43cm tot 92cm. Systematische modulaire en end-to-end tests in simulatie en de echte wereld demonstreren de effectiviteit van onze voorgestelde ontwerpaanpak. Wij geloven dat de vooruitgang in dit artikel nieuwe manieren kan openen om humanoïde robots te trainen om te interageren met dagelijkse objecten.

Multi-agent samenwerking door in-context medespeler-inferentie
Multi-agent cooperation through in-context co-player inference

Feb 18

ByMarissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans

Het bereiken van samenwerking tussen zelfbelang-gedreven agents blijft een fundamentele uitdaging in multi-agent reinforcement learning. Recent onderzoek toonde aan dat wederzijdse samenwerking kan worden geïnduceerd tussen "leerbewuste" agents die rekening houden met en de leer dynamiek van hun medespelers beïnvloeden. Bestaande benaderingen steunen echter typisch op hardgecodeerde, vaak inconsistente, aannames over de leerregels van medespelers of leggen een strikte scheiding op tussen "naïeve leerders" die op snelle tijdschalen updaten en "meta-leerders" die deze updates observeren. Hier tonen we aan dat de in-context leercapaciteiten van sequentiemodellen leerbewustzijn ten opzichte van medespelers mogelijk maken zonder hardgecodeerde aannames of expliciete tijdschaalscheiding. We laten zien dat het trainen van sequentiemodel-agenten tegen een diverse verdeling van medespelers van nature in-context best-response strategieën induceert, die effectief functioneren als leeralgoritmen op de snelle intra-episode tijdschaal. We ontdekken dat het coöperatieve mechanisme dat in eerder werk werd geïdentificeerd – waarbij kwetsbaarheid voor afpersing wederzijdse beïnvloeding aandrijft – van nature opkomt in deze setting: in-context aanpassing maakt agents kwetsbaar voor afpersing, en de resulterende wederzijdse druk om de in-context leer dynamiek van de tegenstander te beïnvloeden lost op in het aanleren van coöperatief gedrag. Onze resultaten suggereren dat standaard gedecentraliseerd reinforcement learning op sequentiemodellen, gecombineerd met diversiteit onder medespelers, een schaalbare weg biedt naar het aanleren van coöperatieve gedragingen.

MAEB: Massieve Audio Embeddings Benchmark
MAEB: Massive Audio Embedding Benchmark

Feb 17

ByAdnan El Assadi, Isaac Chung, Chenghao Xiao, Roman Solomatin, Animesh Jha, Rahul Chand, Silky Singh, Kaitlyn Wang, Ali Sartaz Khan, Marc Moussa Nasser, Sufen Fong, Pengfei He, Alan Xiao, Ayush Sunil Munot, Aditya Shrivastava, Artem Gazizov, Niklas Muennighoff, Kenneth Enevoldsen

Wij introduceren de Massive Audio Embedding Benchmark (MAEB), een grootschalige benchmark die 30 taken omvat op het gebied van spraak, muziek, omgevingsgeluiden en cross-modale audio-tekst redenering in 100+ talen. We evalueren 50+ modellen en constateren dat geen enkel model dominant is over alle taken: contrastieve audio-tekstmodellen excelleren in de classificatie van omgevingsgeluiden (bijv. ESC50), maar scoren bijna willekeurig op meertalige spraaktaken (bijv. SIB-FLEURS), terwijl op spraak voorgetrainde modellen het omgekeerde patroon vertonen. Clustering blijft voor alle modellen een uitdaging, waarbij zelfs het best presterende model slechts bescheiden resultaten behaalt. We observeren dat modellen die uitblinken in akoestisch begrip vaak slecht presteren op linguïstische taken, en vice versa. We tonen ook aan dat de prestaties van audio-encoders op MAEB sterk correleren met hun prestaties wanneer ze worden gebruikt in audio large language models. MAEB is afgeleid van MAEB+, een verzameling van 98 taken. MAEB is ontworpen om taakdiversiteit te behouden terwijl de evaluatiekosten worden verlaagd, en het integreert in het MTEB-ecosysteem voor uniforme evaluatie over tekst-, beeld- en audiomodaliteiten. We brengen MAEB en alle 98 taken uit, samen met code en een leaderboard, op https://github.com/embeddings-benchmark/mteb.

Lege planken of verloren sleutels? Het ophalen van informatie is de bottleneck voor parametrische feitelijkheid.
Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Feb 15

ByNitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona

Standaard feitelijkheidsevaluaties van LLM's behandelen alle fouten als gelijkwaardig, waardoor onduidelijk blijft of fouten voortkomen uit ontbrekende kennis ('lege planken') of uit beperkte toegang tot gecodeerde feiten ('verloren sleutels'). Wij stellen een gedragsraamwerk voor dat feitelijke kennis profileert op het niveau van feiten in plaats van vragen, waarbij elk feit wordt gekarakteriseerd door of het is gecodeerd, en vervolgens door hoe toegankelijk het is: niet kan worden opgehaald, direct kan worden opgehaald, of alleen kan worden opgehaald met berekeningen tijdens de inferentie ('denken'). Om dergelijke profilering te ondersteunen, introduceren we WikiProfile, een nieuwe benchmark die is geconstrueerd via een geautomatiseerde pijplijn met een geprompte LLM ondersteund door webzoekopdrachten. Uit meer dan 4 miljoen antwoorden van 13 LLM's blijkt dat codering bij topmodellen op onze benchmark bijna verzadigd is, waarbij GPT-5 en Gemini-3 95-98% van de feiten coderen. Toegankelijkheid blijft echter een grote bottleneck: veel fouten die voorheen werden toegeschreven aan ontbrekende kennis, blijken voort te komen uit het niet kunnen toegang krijgen tot die kennis. Deze fouten zijn systematisch en treffen onevenredig vaak feiten uit de lange staart en omgekeerde vragen. Ten slotte tonen we aan dat denken de toegankelijkheid verbetert en een aanzienlijk deel van de fouten kan herstellen, wat aangeeft dat toekomstige winst mogelijk minder afhangt van schaalvergroting en meer van methoden die verbeteren hoe modellen gebruikmaken van wat ze al gecoderd hebben.

Op weg naar een wetenschap van AI-agentbetrouwbaarheid
Towards a Science of AI Agent Reliability

Feb 18

ByStephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan

AI-agenten worden steeds vaker ingezet voor het uitvoeren van belangrijke taken. Hoewel stijgende nauwkeurigheidsscores op standaardbenchmarks snelle vooruitgang suggereren, falen veel agenten in de praktijk nog steeds. Deze discrepantie benadrukt een fundamentele beperking van huidige evaluaties: het comprimeren van agentgedrag tot een enkele succescategorie verhult kritieke operationele tekortkomingen. Met name wordt genegeerd of agenten consistent gedrag vertonen over verschillende runs, verstoringen kunnen weerstaan, voorspelbaar falen, of een begrensde foutgevoeligheid hebben. Geworteld in veiligheidskritieke engineering bieden wij een holistisch prestatieprofiel door twaalf concrete metrieken voor te stellen die de betrouwbaarheid van agenten ontleden langs vier cruciale dimensies: consistentie, robuustheid, voorspelbaarheid en veiligheid. Door 14 agentmodellen te evalueren over twee complementaire benchmarks, constateren wij dat recente vermogenswinsten slechts kleine verbeteringen in betrouwbaarheid hebben opgeleverd. Door deze hardnekkige beperkingen bloot te leggen, complementeren onze metrieken traditionele evaluaties en bieden zij instrumenten om te redeneren over hoe agenten presteren, afnemen in kwaliteit en falen.

Wereldactiemodellen zijn zero-shot-beleidsregels.
World Action Models are Zero-shot Policies

Feb 17

BySeonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

State-of-the-art Vision-Language-Action (VLA)-modellen blinken uit in semantische generalisatie, maar hebben moeite om te generaliseren naar onbekende fysieke bewegingen in nieuwe omgevingen. Wij introduceren DreamZero, een World Action Model (WAM) gebouwd op een voorgetrainde video-diffusie-backbone. In tegenstelling tot VLA's leren WAM's fysieke dynamiek door toekomstige wereldstatussen en acties te voorspellen, waarbij video wordt gebruikt als een dichte representatie van hoe de wereld evolueert. Door video en actie gezamenlijk te modelleren, leert DreamZero effectief diverse vaardigheden aan van heterogene robotgegevens, zonder afhankelijk te zijn van repetitieve demonstraties. Dit resulteert in een meer dan 2x verbetering in generalisatie naar nieuwe taken en omgevingen vergeleken met state-of-the-art VLA's in echte robotexperimenten. Cruciaal is dat we, door model- en systeemoptimalisaties, een autoregressief video-diffusiemodel van 14B in staat stellen real-time closed-loop controle uit te voeren op 7Hz. Ten slotte demonstreren we twee vormen van cross-embodiment transfer: demonstraties met alleen video van andere robots of mensen leveren een relatieve verbetering van meer dan 42% op in de prestaties van onbekende taken met slechts 10-20 minuten aan gegevens. Verrassender nog stelt DreamZero few-shot embodiment-aanpassing mogelijk, waarbij het met slechts 30 minuten speelgegevens naar een nieuwe embodiment wordt overgedragen, terwijl de zero-shot generalisatie behouden blijft.

Versterkte Snelle Gewichten met Voorspelling van Volgende Reeksen
Reinforced Fast Weights with Next-Sequence Prediction

Feb 18

ByHee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky

Snelle-gewichten-architecturen bieden een veelbelovend alternatief voor op aandacht gebaseerde transformers voor modellering met lange context door een constant geheugengebruik te handhaven, ongeacht de contextlengte. Hun potentieel wordt echter beperkt door het next-token prediction (NTP) trainingsparadigma. NTP optimaliseert voorspellingen per enkel token en negeert semantische samenhang over meerdere tokens na een prefix. Hierdoor leren snelle-gewichten-modellen, die hun parameters dynamisch bijwerken om contextuele informatie op te slaan, suboptimale representaties aan die geen langere-afstandsafhankelijkheden vastleggen. Wij introduceren REFINE (Reinforced Fast weIghts with Next sEquence prediction), een raamwerk voor reinforcement learning dat snelle-gewichten-modellen traint met het next-sequence prediction (NSP) doel. REFINE selecteert informatieve tokenposities op basis van voorspellingsentropie, genereert multi-token rollouts, kent zelf-gesuperviseerde reeksniveau-beloningen toe en optimaliseert het model met group relative policy optimization (GRPO). REFINE is toepasbaar gedurende de volledige trainingslevenscyclus van vooraf getrainde taalmodellen: midden-in-de-training, na-de-training en training-tijdens-het-testen. Onze experimenten met LaCT-760M en DeltaNet-1.3B tonen aan dat REFINE consistent beter presteert dan supervised fine-tuning met NTP voor taken zoals needle-in-a-haystack retrieval, vraag-antwoordtaken met lange context en diverse taken in LongBench. REFINE biedt een effectief en veelzijdig raamwerk voor het verbeteren van lange-contextmodellering in snelle-gewichten-architecturen.

SAM 3D Body: Robuiste Volledige-Lichaam Menselijk Mesh Herstel
SAM 3D Body: Robust Full-Body Human Mesh Recovery

Feb 17

ByXitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani

Wij introduceren SAM 3D Body (3DB), een promptbaar model voor het herstellen van een volledig 3D-menselijk maaswerk (HMR) vanuit een enkele afbeelding, dat state-of-the-art prestaties demonstreert met sterke generalisatie en consistente nauwkeurigheid onder diverse real-world omstandigheden. 3DB schat de menselijke houding van het lichaam, de voeten en de handen. Het is het eerste model dat een nieuwe parametrische maasweergave gebruikt, Momentum Human Rig (MHR), die de skeletstructuur en de oppervlaktevorm ontkoppelt. 3DB maakt gebruik van een encoder-decoder architectuur en ondersteunt aanvullende prompts, waaronder 2D-sleutelpunten en maskers, wat gebruikersgestuurde inferentie mogelijk maakt, vergelijkbaar met de SAM-familie van modellen. Wij verkrijgen hoogwaardige annotaties via een pijplijn voor meerfasenannotatie die verschillende combinaties gebruikt van handmatige sleutelpuntannotatie, differentieerbare optimalisatie, multi-view geometrie en detectie van dichte sleutelpunten. Onze data-engine selecteert en verwerkt gegevens efficiënt om gegevensdiversiteit te waarborgen, waarbij ongebruikelijke houdingen en zeldzame beeldvormingsomstandigheden worden verzameld. Wij presenteren een nieuwe evaluatiedataset, georganiseerd volgens houdings- en uiterlijkcategorieën, die een genuanceerde analyse van modelgedrag mogelijk maakt. Onze experimenten tonen superieure generalisatie en substantiële verbeteringen ten opzichte van eerdere methoden aan, zowel in kwalitatieve gebruikersvoorkeurstudies als in traditionele kwantitatieve analyses. Zowel 3DB als MHR zijn open-source.

Optimalisatie van Few-Step Generatie met Adaptieve Matching Distillatie
Optimizing Few-Step Generation with Adaptive Matching Distillation

Feb 7

ByLichen Bai, Zikai Zhou, Shitong Shao, Wenliang Zhong, Shuo Yang, Shuo Chen, Bojun Chen, Zeke Xie

Distribution Matching Distillation (DMD) is een krachtig versnellingsparadigma, maar de stabiliteit ervan wordt vaak aangetast in de Verboden Zone, regio's waar de echte leraar onbetrouwbare begeleiding biedt terwijl de kunstmatige leraar onvoldoende afstotende kracht uitoefent. In dit werk stellen we een geünificeerd optimalisatiekader voor dat eerdere technieken herinterpreteert als impliciete strategieën om deze aangetaste regio's te vermijden. Gebaseerd op dit inzicht introduceren we Adaptive Matching Distillation (AMD), een zelfcorrigerend mechanisme dat beloningsproxies gebruikt om Verboden Zones expliciet te detecteren en te ontvluchten. AMD prioriteert dynamisch corrigerende gradiënten via structurele signaalontleding en introduceert Repulsive Landscape Sharpening om steile energiebarrières af te dwingen tegen instorting in faalmodi. Uitgebreide experimenten in beeld- en videogeneratietaken (bijv. SDXL, Wan2.1) en rigoureuze benchmarks (bijv. VBench, GenEval) tonen aan dat AMD de sample-getrouwheid en trainingsrobuustheid aanzienlijk verbetert. AMD verbetert bijvoorbeeld de HPSv2-score op SDXL van 30.64 naar 31.25, wat state-of-the-art baseline-methoden overtreft. Deze bevindingen valideren dat het expliciet corrigeren van optimalisatietrajecten binnen Verboden Zones essentieel is om de prestatielimiet van generatieve modellen met weinig stappen te verleggen.

Leren van Gepersonaliseerde Agents op Basis van Menselijke Feedback
Learning Personalized Agents from Human Feedback

Feb 18

ByKaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi, Yuanshun Yao, Shaoliang Nie, Mingyang Zhang, Lijuan Liu, Jaime Fernández Fisac, Shuyan Zhou, Saghar Hosseini

Moderne AI-agenten zijn krachtig, maar slagen er vaak niet in om af te stemmen op de idiosyncratische, evoluerende voorkeuren van individuele gebruikers. Eerdere benaderingen zijn typisch afhankelijk van statische datasets, waarbij ofwel impliciete voorkeursmodellen worden getraind op interactiegeschiedenis, ofwel gebruikersprofielen worden gecodeerd in extern geheugen. Deze benaderingen hebben echter moeite met nieuwe gebruikers en met voorkeuren die in de loop van de tijd veranderen. Wij introduceren Personalized Agents from Human Feedback (PAHF), een raamwerk voor continue personalisatie waarin agenten online leren van live-interactie met behulp van expliciet, per gebruiker geheugen. PAHF operationaliseert een drie-stappenlus: (1) het vragen om opheldering vóór een actie om ambiguïteit op te lossen, (2) het verankeren van acties in voorkeuren die uit het geheugen worden opgehaald, en (3) het integreren van feedback na een actie om het geheugen bij te werken wanneer voorkeuren verschuiven. Om deze capaciteit te evalueren, ontwikkelen we een vierfasenprotocol en twee benchmarks in 'embodied manipulation' en online winkelen. Deze benchmarks kwantificeren het vermogen van een agent om initiële voorkeuren vanaf nul te leren en vervolgens aan te passen aan persona-verschuivingen. Onze theoretische analyse en empirische resultaten tonen aan dat de integratie van expliciet geheugen met dubbele feedbackkanalen cruciaal is: PAHF leert aanzienlijk sneller en presteert consistent beter dan zowel baseline-modellen zonder geheugen als met enkelvoudige kanalen, waardoor de initiële personalisatiefout wordt verminderd en snelle aanpassing aan voorkeursverschuivingen mogelijk wordt.

MMA: Multimodale Geheugenagent
MMA: Multimodal Memory Agent

Feb 18

ByYihao Lu, Wanru Cheng, Zeyu Zhang, Hao Tang

Multimodale agenten met een lange-termijnhorizon zijn afhankelijk van extern geheugen; op gelijkenis gebaseerde retrievel levert echter vaak verouderde, onbetrouwbare of tegenstrijdige items op, wat tot overmoedige fouten kan leiden. Wij stellen de Multimodale Geheugen Agent (MMA) voor, die aan elk opgehaald geheugenitem een dynamische betrouwbaarheidsscore toekent door bronbetrouwbaarheid, temporeel verval en conflictbewuste netwerkconsensus te combineren, en dit signaal gebruikt om bewijsmateriaal te herwegen en zich van oordeel te onthouden wanneer de ondersteuning onvoldoende is. Wij introduceren ook MMA-Bench, een programmatisch gegenereerde benchmark voor geloofsdynamiek met gecontroleerde sprekersbetrouwbaarheid en gestructureerde tekst-visie tegenstrijdigheden. Met dit framework leggen wij het "Visuele Placebo-effect" bloot, dat onthult hoe op RAG gebaseerde agenten latente visuele vooroordelen van foundation models overnemen. Op FEVER evenaart MMA de basislijnnauwkeurigheid, maar vermindert de variantie met 35,2% en verbetert het selectieve nut; op LoCoMo verbetert een veiligheidsgerichte configuratie de actiegerichte nauwkeurigheid en vermindert het aantal foute antwoorden; op MMA-Bench bereikt MMA 41,18% Type-B nauwkeurigheid in Visiemodus, terwijl de basislijn onder hetzelfde protocol inzakt tot 0,0%. Code: https://github.com/AIGeeksGroup/MMA.

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Feb 16

ByAryan Das, Koushik Biswas, Swalpa Kumar Roy, Badri Narayana Patro, Vinay Kumar Verma

We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters

Leren van situationeel bewustzijn in de echte wereld
Learning Situated Awareness in the Real World

Feb 18

ByChuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang

Een kernaspect van de menselijke waarneming is gesitueerd bewustzijn: het vermogen om onszelf te verhouden tot de fysieke omgeving en te redeneren over mogelijke acties in een context. De meeste bestaande benchmarks voor multimodale foundationmodellen (MFM's) leggen echter de nadruk op omgevingsgerichte ruimtelijke relaties (relaties tussen objecten in een scène), terwijl ze waarnemer-gerichte relaties die redeneren vereisen ten opzichte van het gezichtspunt, de houding en de beweging van de agent grotendeels over het hoofd zien. Om deze kloof te overbruggen, introduceren we SAW-Bench (Situated Awareness in the Real World), een nieuwe benchmark voor het evalueren van egocentrisch gesitueerd bewustzijn met behulp van real-world video's. SAW-Bench omvat 786 zelf opgenomen video's, vastgelegd met Ray-Ban Meta (Gen 2) slimme brillen in diverse binnen- en buitenomgevingen, en meer dan 2.071 door mensen geannoteerde vraag-antwoordparen. Het onderzoekt het waarnemer-gerichte begrip van een model met zes verschillende bewustzijnstaken. Onze uitgebreide evaluatie toont een prestatiekloof tussen mens en model van 37,66%, zelfs met het best presterende MFM, Gemini 3 Flash. Naast deze kloof onthult onze diepgaande analyse verschillende opmerkelijke bevindingen; zo kunnen modellen bijvoorbeeld wel partiële geometrische aanwijzingen in egocentrische video's benutten, maar slagen ze er vaak niet in om een coherente camerageometrie af te leiden, wat leidt tot systematische ruimtelijke redeneerfouten. Wij positioneren SAW-Bench als een benchmark voor gesitueerde ruimtelijke intelligentie, die verder gaat dan passieve observatie naar het begrijpen van fysiek verankerde, waarnemer-gerichte dynamiek.

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Feb 16

ByAryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma

We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS

BiManiBench: Een Hiërarchische Benchmark voor het Evalueren van Bimanuele Coördinatie van Multimodale Large Language Models
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Feb 9

ByXin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin, Xiu Li

Multimodale Large Language Models (MLLM's) hebben een significante vooruitgang geboekt in 'embodied AI', en het gebruik ervan om robotintelligentie te benchmarken is een cruciale trend geworden. Bestaande kaders zijn echter overwegend beperkt tot manipulatie met één arm, waardoor ze de ruimtelijk-temporele coördinatie die nodig is voor bimanuele taken, zoals het optillen van een zware pan, niet vastleggen. Om dit aan te pakken, introduceren wij BiManiBench, een hiërarchische benchmark die MLLM's evalueert op drie niveaus: fundamenteel ruimtelijk redeneren, hoog-niveau actieplanning en laag-niveau eind-effectorcontrole. Ons kader isoleert unieke bimanuele uitdagingen, zoals de reikwijdte van de arm en kinematische beperkingen, en onderscheidt zo perceptuele hallucinaties van planningsfouten. Analyse van meer dan 30 state-of-the-art modellen toont aan dat MLLM's, ondanks hun vaardigheid in hoog-niveau redeneren, moeite hebben met ruimtelijke verankering en controle met twee armen, wat vaak leidt tot onderlinge interferentie en volgordefouten. Deze bevindingen suggereren dat het huidige paradigma een diepgaand begrip van onderlinge kinematische beperkingen mist, en benadrukken de noodzaak voor toekomstig onderzoek om zich te richten op het vermijden van botsingen tussen armen en fijnmazige temporele sequentiebepaling.

Visuele Geheugeninjectieaanvallen voor Meerronde Gesprekken
Visual Memory Injection Attacks for Multi-Turn Conversations

Feb 17

ByChristian Schlarmann, Matthias Hein

Generatieve grote visueel-taalmodelen (LVLM's) hebben recent indrukwekkende prestatieverbeteringen bereikt, en hun gebruikersbasis groeit snel. De beveiliging van LVLM's, met name in een langdurige multi-turn context, is echter grotendeels onvoldoende onderzocht. In dit artikel beschouwen we het realistische scenario waarin een aanvaller een gemanipuleerde afbeelding uploadt naar het web/sociale media. Een goedaardige gebruiker downloadt deze afbeelding en gebruikt deze als invoer voor het LVLM. Onze nieuwe stille Visuele Geheugeninjectie (VMI) aanval is zo ontworpen dat het LVLM bij normale prompts nominaal gedrag vertoont, maar zodra de gebruiker een triggerende prompt geeft, produceert het LVLM een specifiek voorgeschreven doelbericht om de gebruiker te manipuleren, bijvoorbeeld voor adversariële marketing of politieke overreding. In vergelijking met eerder werk dat zich richtte op single-turn aanvallen, is VMI effectief zelfs na een lang multi-turn gesprek met de gebruiker. We demonstreren onze aanval op verschillende recente open-weight LVLM's. Dit artikel toont daarmee aan dat grootschalige manipulatie van gebruikers mogelijk is met verstoorde afbeeldingen in multi-turn gesprekssettings, wat pleit voor betere robuustheid van LVLM's tegen deze aanvallen. We geven de broncode vrij op https://github.com/chs20/visual-memory-injection.

OPBench: A Graph Benchmark to Combat the Opioid Crisis

Feb 16

ByTianyi Ma, Yiyang Li, Yiyue Qian, Zheyuan Zhang, Zehong Wang, Chuxu Zhang, Yanfang Ye

The opioid epidemic continues to ravage communities worldwide, straining healthcare systems, disrupting families, and demanding urgent computational solutions. To combat this lethal opioid crisis, graph learning methods have emerged as a promising paradigm for modeling complex drug-related phenomena. However, a significant gap remains: there is no comprehensive benchmark for systematically evaluating these methods across real-world opioid crisis scenarios. To bridge this gap, we introduce OPBench, the first comprehensive opioid benchmark comprising five datasets across three critical application domains: opioid overdose detection from healthcare claims, illicit drug trafficking detection from digital platforms, and drug misuse prediction from dietary patterns. Specifically, OPBench incorporates diverse graph structures, including heterogeneous graphs and hypergraphs, to preserve the rich and complex relational information among drug-related data. To address data scarcity, we collaborate with domain experts and authoritative institutions to curate and annotate datasets while adhering to privacy and ethical guidelines. Furthermore, we establish a unified evaluation framework with standardized protocols, predefined data splits, and reproducible baselines to facilitate fair and systematic comparison among graph learning methods. Through extensive experiments, we analyze the strengths and limitations of existing graph learning methods, thereby providing actionable insights for future research in combating the opioid crisis. Our source code and datasets are available at https://github.com/Tianyi-Billy-Ma/OPBench.

Leren van mensachtige eind-effectorbesturing voor open-vocabulair visueel loco-manipulatie
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Feb 18

ByRunpei Dong, Ziyan Li, Xialin He, Saurabh Gupta