HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

21 papers found

Heterogene Agent Collaboratief Versterkend Leren
Heterogeneous Agent Collaborative Reinforcement Learning

Mar 3

ByZhixia Zhang, Zixuan Huang, Xin Xia, Deqing Wang, Fuzhen Zhuang, Shuai Ma, Ning Ding, Yaodong Yang, Jianxin Li, Yikun Ban

179

Wij introduceren Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), een nieuw leerparadigma dat de inefficiënties van geïsoleerde on-policy optimalisatie aanpakt. HACRL maakt collaboratieve optimalisatie met onafhankelijke uitvoering mogelijk: heterogene agents delen geverifieerde rollouts tijdens de training om elkaar wederzijds te verbeteren, terwijl ze tijdens inference onafhankelijk opereren. In tegenstelling tot op LLM's gebaseerde multi-agent reinforcement learning (MARL) vereist HACRL geen gecoördineerde inzet, en anders dan on-/off-policy distillatie maakt het bidirectioneel wederzijds leren tussen heterogene agents mogelijk in plaats van eenrichtingsverkeer van leraar naar leerling. Voortbouwend op dit paradigma stellen wij HACPO voor, een collaboratief RL-algoritme dat principieel rollout-delen mogelijk maakt om de benutting van samples en kennisoverdracht tussen agents te maximaliseren. Om capaciteitsverschillen en verschuivingen in beleidsdistributies tegen te gaan, introduceert HACPO vier toegesneden mechanismen met theoretische garanties voor zuivere advantage-schatting en optimalisatiecorrectheid. Uitgebreide experimenten met diverse heterogene modelcombinaties en redeneerbenchmarks tonen aan dat HACPO consistent alle deelnemende agents verbetert, waarbij het GSPO met gemiddeld 3,3% overtreft terwijl slechts de helft van de rollout-kosten wordt gebruikt.

Helios: Een Model voor het Genereren van Lange Video's in Echt Real-Time
Helios: Real Real-Time Long Video Generation Model

Mar 4

ByShenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan

163

Wij introduceren Helios, het eerste 14B-videogeneratiemodel dat met 19,5 FPS draait op een enkele NVIDIA H100 GPU en minutenlange generatie ondersteunt, terwijl het de kwaliteit evenaart van een sterke baseline. Wij boeken doorbraken op drie cruciale dimensies: (1) robuustheid tegen drifting in lange video's zonder veelgebruikte anti-driftingheuristieken zoals self-forcing, error-banks of keyframe sampling; (2) realtime-generatie zonder standaardversnellings-technieken zoals KV-cache, sparse/lineaire aandacht of kwantisering; en (3) training zonder parallelle of gesharde frameworks, waardoor batchgroottes op het niveau van beelddiffusie mogelijk zijn terwijl tot vier 14B-modellen in 80 GB GPU-geheugen passen. Concreet is Helios een 14B autoregressief diffusiemodel met een uniforme invoerweergave die T2V-, I2V- en V2V-taken native ondersteunt. Om drifting bij lange-videogeneratie tegen te gaan, karakteriseren we typische faalmodi en introduceren we eenvoudige maar effectieve trainingsstrategieën die drifting expliciet simuleren tijdens de training, terwijl repetitieve beweging bij de bron wordt geëlimineerd. Voor efficiëntie comprimeren we de historische en ruiscontext sterk en verminderen we het aantal samplingstappen, wat resulteert in computationele kosten die vergelijkbaar zijn met – of lager dan – die van 1,3B videogeneratieve modellen. Bovendien introduceren we infrastructuuroptimalisaties die zowel inferentie als training versnellen en het geheugengebruik verminderen. Uitgebreide experimenten tonen aan dat Helios consistente superieure prestaties levert ten opzichte van eerdere methoden voor zowel korte als lange videogeneratie. Wij zijn van plan de code, het basismodel en het gedistilleerde model vrij te geven om verdere ontwikkeling door de gemeenschap te ondersteunen.

T2S-Bench & Structure-of-Thought: Het benchmarken en aansturen van uitgebreide tekst-naar-structuurredenering
T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Mar 4

ByQinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen

114

Bedenk hoe mensen complexe leestaken aanpakken: sleutelpunten markeren, hun onderlinge relaties afleiden en informatie structureren om het begrip en de reacties te sturen. Kunnen grote taalmodellen eveneens baat hebben bij tekststructuur om hun tekstverwerkingsprestaties te verbeteren? Om dit te onderzoeken, introduceren we in dit werk eerst 'Structure of Thought' (SoT), een prompttechniek die modellen expliciet begeleidt bij het opbouwen van tussenliggende tekststructuren, wat consequent de prestaties verbetert bij acht taken en drie modelfamilies. Voortbordurend op dit inzicht presenteren we T2S-Bench, de eerste benchmark die is ontworpen om de tekst-naar-structuur capaciteiten van modellen te evalueren en te verbeteren. T2S-Bench omvat 1.800 voorbeelden verspreid over 6 wetenschappelijke domeinen en 32 structurele typen, rigoureus opgebouwd om nauwkeurigheid, eerlijkheid en kwaliteit te waarborgen. Evaluatie van 45 gangbare modellen toont een aanzienlijk verbeterpotentieel: de gemiddelde nauwkeurigheid voor de multi-hop redeneertaak is slechts 52,1%, en zelfs het meest geavanceerde model behaalt slechts 58,1% knooppuntnauwkeurigheid bij end-to-end extractie. Bovendien levert SoT alleen al op Qwen2.5-7B-Instruct een gemiddelde verbetering van +5,7% op over acht uiteenlopende tekstverwerkingstaken, en fine-tuning op T2S-Bench verhoogt deze winst verder tot +8,6%. Deze resultaten onderstrepen de waarde van expliciete tekststructurering en de complementaire bijdragen van SoT en T2S-Bench. De dataset en evaluatiecode zijn vrijgegeven op https://t2s-bench.github.io/T2S-Bench-Page/.

Proact-VL: Een proactieve VideoLLM voor realtime AI-gezelschapsagenten
Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Mar 3

ByWeicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian

Proactieve en realtime interactieve ervaringen zijn essentieel voor mensachtige AI-gezelschappen, maar worden geconfronteerd met drie belangrijke uitdagingen: (1) het bereiken van inferentie met lage latentie onder continue streaminginputs, (2) autonoom beslissen wanneer te reageren, en (3) het beheersen van zowel kwaliteit als hoeveelheid gegenereerde inhoud om aan realtime beperkingen te voldoen. In dit werk concretiseren we AI-gezelschappen via twee gamingscenario's, commentator en gids, geselecteerd vanwege hun geschiktheid voor automatische evaluatie. We introduceren de Live Gaming Benchmark, een grootschalige dataset met drie representatieve scenario's: solo-commentaar, co-commentaar en gebruikersbegeleiding, en presenteren Proact-VL, een algemeen framework dat multimodale taalmodellen vormt tot proactieve, realtime interactieve agents die in staat zijn tot mensachtige omgevingswaarneming en interactie. Uitgebreide experimenten tonen aan dat Proact-VL superieure responstijd en kwaliteit bereikt terwijl het sterke videobegripcapaciteiten behoudt, wat de praktische bruikbaarheid voor realtime interactieve toepassingen aantoont.

MemSifter: Uitbesteding van LLM-geheugenretrieval via resultaatgestuurd proxy-redeneren
MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

Mar 3

ByJiejun Tan, Zhicheng Dou, Liancheng Zhang, Yuyang Hu, Yiruo Cheng, Ji-Rong Wen

Aangezien Large Language Models (LLM's) steeds vaker worden ingezet voor langdurige taken, is het effectief behouden van een langetermijngeheugen een kritieke uitdaging geworden. Huidige methoden kampen vaak met een afweging tussen kosten en nauwkeurigheid. Eenvoudige opslagmethoden slagen er vaak niet in relevante informatie op te halen, terwijl complexe indexeringsmethoden (zoals geheugengrafen) zware berekeningen vereisen en tot informatieverlies kunnen leiden. Bovendien is het rekenintensief en traag om voor alle herinneringen te vertrouwen op het werkende LLM. Om deze beperkingen aan te pakken, stellen we MemSifter voor, een nieuw framework dat het geheugenophaalproces delegeert naar een kleinschalig proxy-model. In plaats van de last op het primaire werkende LLM te vergroten, gebruikt MemSifter een kleiner model om over de taak te redeneren voordat de benodigde informatie wordt opgehaald. Deze aanpak vereist geen zware berekeningen tijdens de indexeringsfase en voegt tijdens de inferentie minimale overhead toe. Om het proxy-model te optimaliseren, introduceren we een geheugenspecifiek Reinforcement Learning (RL) trainingsparadigma. We ontwerpen een taakresultaat-gerichte beloning op basis van de daadwerkelijke prestaties van het werkende LLM bij het voltooien van de taak. De beloning meet de werkelijke bijdrage van opgehaalde herinneringen door middel van meerdere interacties met het werkende LLM, en onderscheidt opgehaalde rangschikkingen op basis van trapsgewijs afnemende bijdragen. Daarnaast gebruiken we trainingstechnieken zoals Curriculum Learning en Model Merging om de prestaties te verbeteren. We evalueerden MemSifter op acht LLM-geheugenbenchmarks, inclusief Deep Research-taken. De resultaten tonen aan dat onze methode de prestaties van bestaande state-of-the-art benaderingen evenaart of overtreft op zowel ophaalnauwkeurigheid als uiteindelijke taakvoltooiing. MemSifter biedt een efficiënte en schaalbare oplossing voor langetermijngeheugen van LLM's. We hebben de modelgewichten, code en trainingsdata openbaar gemaakt om verder onderzoek te ondersteunen.

ArtHOI: Gearticuleerde Mens-Object Interactiesynthese door 4D-reconstructie op basis van videovoorkennis
ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Mar 4

ByZihao Huang, Tianqi Liu, Zhaoxi Chen, Shaocong Xu, Saining Zhang, Lixing Xiao, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu

Het synthetiseren van fysiek plausibele gearticuleerde mens-objectinteracties (HOI) zonder 3D/4D-supervisie blijft een fundamentele uitdaging. Hoewel recente zero-shot-benaderingen videodiffusiemodellen inzetten om mens-objectinteracties te synthetiseren, zijn deze grotendeels beperkt tot manipulatie van rigide objecten en ontbreekt het aan expliciete 4D-geometrische redenering. Om deze kloof te overbruggen, formuleren wij gearticuleerde HOI-synthese als een 4D-reconstructieprobleem vanuit monocular videopriors: uitgaande van alleen een door een diffusiemodel gegenereerde video, reconstrueren we een volledige gearticuleerde 4D-scène zonder enige 3D-supervisie. Deze op reconstructie gebaseerde aanpak behandelt de gegenereerde 2D-video als supervisie voor een inverse rendering-probleem, waarbij geometrisch consistente en fysiek plausibele 4D-scènes worden hersteld die van nature contact, articulatie en temporele coherentie respecteren. Wij introduceren ArtHOI, het eerste zero-shot-raamwerk voor gearticuleerde mens-objectinteractiesynthese via 4D-reconstructie vanuit videopriors. Onze belangrijkste ontwerpkeuzes zijn: 1) Op optische stroming gebaseerde partssegmentatie: het gebruik van optische stroming als geometrische cue om dynamische van statische regio's in monocular video te onderscheiden; 2) Ontkoppelde reconstructiepijplijn: gezamenlijke optimalisatie van menselijke beweging en objectarticulatie is instabiel onder monoculaire ambiguïteit, dus herstellen we eerst de objectarticulatie, en synthetiseren we vervolgens menselijke beweging geconditioneerd op de gereconstrueerde objecttoestanden. ArtHOI overbrugt op video gebaseerde generatie en geometrisch bewuste reconstructie, en produceert interacties die zowel semantisch uitgelijnd als fysiek onderbouwd zijn. Over diverse gearticuleerde scènes heen (bijv. het openen van koelkasten, kasten, magnetrons) presteert ArtHOI aanzienlijk beter dan eerdere methoden op het gebied van contactnauwkeurigheid, penetratiereductie en articulatiefideliteit, en breidt zero-shot-interactiesynthese uit voorbij rigide manipulatie door middel van reconstructie-geïnformeerde synthese.

Phi-4-reasoning-vision-15B Technisch Rapport
Phi-4-reasoning-vision-15B Technical Report

Mar 4

ByJyoti Aneja, Michael Harrison, Neel Joshi, Tyler LaBonte, John Langford, Eduardo Salinas

Wij presenteren Phi-4-reasoning-vision-15B, een compact open-weight multimodaal redeneermodel, en delen de motivaties, ontwerpkeuzes, experimenten en inzichten die de ontwikkeling ervan hebben gevormd. Ons doel is om praktische inzichten bij te dragen aan de onderzoeksgemeenschap over het bouwen van kleinere, efficiënte multimodale redeneermodellen en om de resultaten van deze inzichten te delen als een open-weight model dat goed presteert in algemene visuele en taaltaakstellingen en uitblinkt in wetenschappelijk en wiskundig redeneren en het begrijpen van gebruikersinterfaces. Onze bijdragen omvatten het aantonen dat zorgvuldige architectuurkeuzes en rigoureuze datacuratie kleinere, open-weight multimodale modellen in staat stellen om competitieve prestaties te leveren met aanzienlijk minder rekenkracht en tokens tijdens training en inferentie. De grootste verbeteringen komen van systematische filtering, foutcorrectie en synthetische augmentatie – wat bevestigt dat data-kwaliteit de belangrijkste hefboom voor modelprestaties blijft. Systematische ablatiestudies tonen aan dat encoders met hoge resolutie en dynamische resolutie tot consistente verbeteringen leiden, aangezien accurate perceptie een voorwaarde is voor hoogwaardig redeneren. Ten slotte stelt een hybride mix van redeneer- en niet-redeneerdata met expliciete modus-tokens een enkel model in staat om snelle directe antwoorden te geven voor eenvoudigere taken en chain-of-thought-redenering toe te passen voor complexe problemen.

Memex(RL): Schaalvergroting van LLM-agenten met lange-termijnhorizon via Geïndexeerd Ervaringgeheugen
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Mar 4

ByZhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei

Grootschalige taalmodel (LLM) agenten worden fundamenteel beperkt door eindige contextvensters bij langetermijntaken. Naarmate trajecten langer worden, wordt het bijhouden van tool-uitvoer en tussenredeneringen in de context al snel onhaalbaar: de werkcontext wordt onhanteerbaar lang, overschrijdt uiteindelijk het contextbudget en maakt ver verwijderde informatie moeilijker te gebruiken, zelfs wanneer deze nog aanwezig is. Bestaande oplossingen verkorten de context doorgaans via afkapping of lopende samenvattingen, maar deze methoden zijn fundamenteel lossy omdat ze eerder bewijs comprimeren of verwijderen. Wij introduceren Memex, een geïndexeerd ervaringsgeheugenmechanisme dat de context comprimeert zonder bewijs te verwijderen. Memex houdt een compacte werkcontext bij die bestaat uit beknopte gestructureerde samenvattingen en stabiele indexen, terwijl volledige onderliggende interacties worden opgeslagen in een externe ervaringsdatabase onder deze indexen. De agent kan vervolgens beslissen wanneer een index moet worden gederefereerd om het exacte, benodigde eerder bewijs voor het huidige subdoel terug te halen. We optimaliseren zowel schrijf- als leesgedrag met ons reinforcement learning-framework MemexRL, door middel van reward shaping afgestemd op geïndexeerd geheugengebruik binnen een contextbudget, zodat de agent leert wat samengevat moet worden, wat gearchiveerd moet worden, hoe het geïndexeerd moet worden en wanneer het opgehaald moet worden. Dit resulteert in een aanzienlijk minder lossy vorm van langetermijngeheugen dan benaderingen die alleen op samenvattingen vertrouwen. Verder bieden we een theoretische analyse die het potentieel toont van de Memex-lus om beslissingskwaliteit te behouden met begrensde dereferentie, terwijl de effectieve in-context berekening begrensd blijft naarmate de geschiedenis groeit. Empirisch gezien verbetert de met MemexRL getrainde Memex-agent op uitdagende langetermijntaken de taaksucces, terwijl een aanzienlijk kleinere werkcontext wordt gebruikt.

V_1: Unificatie van Generatie en Zelfverificatie voor Parallelle Redeneerders
V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Mar 4

ByHarman Singh, Xiuyu Li, Kusha Sareen, Monishwaran Maheswaran, Sijun Tan, Xiaoxia Wu, Junxiong Wang, Alpay Ariyak, Qingyang Wu, Samir Khaki, Rishabh Tiwari, Long Lian, Yucheng Lu, Boyi Li, Alane Suhr, Ben Athiwaratkun, Kurt Keutzer

Test-time scaling voor complexe redeneertaken toont aan dat het benutten van rekencapaciteit tijdens de inferentie – bijvoorbeeld door het onafhankelijk bemonsteren en aggregeren van meerdere oplossingen – leidt tot aanzienlijk betere taakresultaten. Een kritieke bottleneck is echter verificatie: bemonstering is alleen effectief als correcte oplossingen betrouwbaar kunnen worden geïdentificeerd tussen de kandidaten. Terwijl bestaande benaderingen kandidaten doorgaans onafhankelijk evalueren via scalaire scores, tonen wij aan dat modellen aanzienlijk sterker zijn in paarsgewijze zelfverificatie. Gebruikmakend van dit inzicht introduceren wij V_1, een raamwerk dat generatie en verificatie verenigt door middel van efficiënte paarsgewijze rangschikking. V_1 bestaat uit twee componenten: V_1-Infer, een onzekerheidsgestuurd algoritme dat een op toernooien gebaseerde rangschikking gebruikt om rekenkracht voor zelfverificatie dynamisch toe te wijzen aan kandidaat-paren waarvan de relatieve juistheid het meest onzeker is; en V_1-PairRL, een RL-raamwerk dat een enkel model gezamenlijk traint als zowel generator als paarsgewijze zelfverificateur, zodat de verificateur zich aanpast aan de evoluerende distributie van de generator. Op benchmarks voor codegeneratie (LiveCodeBench, CodeContests, SWE-Bench) en wiskundig redeneren (AIME, HMMT) verbetert V_1-Infer Pass@1 met tot 10% ten opzichte van puntsgewijze verificatie en presteert het beter dan recente test-time scaling-methoden, terwijl het aanzienlijk efficiënter is. Bovendien behaalt V_1-PairRL 7–9% test-time scaling-winst ten opzichte van standaard RL en puntsgewijze gezamenlijke training, en verbetert het de basis-Pass@1 met tot 8,7% ten opzichte van standaard RL in een codegeneratie-omgeving.

CubeComposer: Spatio-temporele autoregressieve 4K 360°-videogeneratie vanuit perspectiefvideo
CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Mar 4

ByLingen Li, Guangzhi Wang, Xiaoyu Li, Zhaoyang Zhang, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan

Het genereren van hoogwaardige 360° panoramische video's vanuit perspectiefinvoer is een van de cruciale toepassingen voor virtual reality (VR), waarbij hoge-resolutie video's bijzonder belangrijk zijn voor een immersieve ervaring. Bestaande methoden worden beperkt door de rekenkundige beperkingen van standaard diffusiemodellen, ondersteunen slechts native generatie met een resolutie van ≤ 1K en zijn afhankelijk van suboptimale post-superresolutie om de resolutie te verhogen. Wij introduceren CubeComposer, een nieuw spatio-temporeel autoregressief diffusiemodel dat natively 4K-resolutie 360° video's genereert. Door video's te decomponeren in kubusprojectie-representaties met zes vlakken, synthetiseert CubeComposer inhoud autoregressief volgens een goed uitgedachte spatio-temporele volgorde, waardoor de geheugenvraag wordt verminderd terwijl hoog-resolutie output mogelijk wordt gemaakt. Specifiek, om uitdagingen in multi-dimensionale autoregressie aan te pakken, stellen wij voor: (1) een spatio-temporele autoregressieve strategie die de 360° videogeneratie coördineert over kubusvlakken en tijdvensters voor coherente synthese; (2) een kubusvlak contextbeheermechanisme, uitgerust met een sparse context attention-ontwerp om de efficiëntie te verbeteren; en (3) continuïteitsbewuste technieken, inclusief kubusbewuste positionele codering, opvulling en blending om grensnaden te elimineren. Uitgebreide experimenten op benchmarkdatasets tonen aan dat CubeComposer state-of-the-art methoden overtreft in native resolutie en visuele kwaliteit, en praktische VR-toepassingsscènes ondersteunt. Projectpagina: https://lg-li.github.io/project/cubecomposer

Specificiteit-bewuste reinforcement learning voor fijnmazige open-wereldclassificatie
Specificity-aware reinforcement learning for fine-grained open-world classification

Mar 3

BySamuele Angheben, Davide Berasi, Alessandro Conti, Elisa Ricci, Yiming Wang

Het classificeren van fijnmazige visuele concepten in open-wereldomgevingen, d.w.z. zonder een vooraf gedefinieerde set labels, vereist dat modellen zowel nauwkeurig als specifiek zijn. Recente redenerende grote multimodale modellen (LMM's) vertonen een sterk visueel begripsvermogen, maar hebben de neiging tot overdreven generieke voorspellingen bij het uitvoeren van fijnmazige beeldclassificatie. Onze voorlopige analyse toont aan dat modellen wel degelijk intrinsieke fijnmazige domeinkennis bezitten. Het bevorderen van specifiekere voorspellingen (specificiteit) zonder correcte voorspellingen (correctheid) aan te tasten, blijft echter een niet-triviale en onderbelichte uitdaging. In dit werk onderzoeken we hoe redenerende LMM's gestuurd kunnen worden naar voorspellingen die zowel correct als specifiek zijn. Wij stellen een nieuw specificiteitsbewust reinforcement learning-raamwerk voor, SpeciaRL, om redenerende LMM's te finetunen voor fijnmazige beeldclassificatie in een open-wereldomgeving. SpeciaRL introduceert een dynamisch, op een verifier gebaseerd beloningssignaal verankerd aan de beste voorspellingen binnen online rollouts, om specificiteit te bevorderen met respect voor de capaciteiten van het model om incorrecte voorspellingen te voorkomen. Onze out-of-domain experimenten tonen aan dat SpeciaRL de beste balans biedt tussen correctheid en specificiteit over uitgebreide fijnmazige benchmarks, waarbij bestaande methoden worden overtroffen en de open-wereld fijnmazige beeldclassificatie wordt gevorderd. Code en model zijn openbaar beschikbaar op https://github.com/s-angheben/SpeciaRL.

AgilePruner: Een Empirische Studie naar Aandacht en Diversiteit voor Adaptieve Visuele Token-pruning in Grote Visueel-Taalmodellen
AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Mar 1

ByChangwoo Baek, Jouwon Song, Sohyeon Kim, Kyeongbo Kong

Grote Vision-Language Modellen (LVLMs) hebben visuele token-reductiestrategieën aangenomen om de aanzienlijke rekenkosten te beperken die worden veroorzaakt door uitgebreide visuele tokenreeksen. Hoewel eerdere werken zich voornamelijk richten op op aandacht gebaseerde of op diversiteit gebaseerde reductiemethoden, blijft een diepgaande analyse van de kenmerken en beperkingen van deze benaderingen grotendeels onontgonnen. In dit werk voeren we een grondige empirische analyse uit met behulp van effectieve rang (erank) als maatstaf voor kenmerkdiversiteit en aandachtsscore-entropie om de verwerkingsmechanismen van visuele tokens te onderzoeken en de sterke en zwakke punten van elke benadering te analyseren. Onze analyse onthult twee inzichten: (1) Onze kwantitatieve analyse op basis van erank toont aan dat veel op diversiteit gerichte reductiemethoden aanzienlijk minder kenmerkdiversiteit behouden dan beoogd; bovendien onthult analyse met de CHAIR-dataset dat de diversiteit die ze wel behouden nauw verbonden is met een verhoogde hallucinatiefrequentie in vergelijking met op aandacht gebaseerde reductie. (2) We observeren verder dat op aandacht gebaseerde benaderingen effectiever zijn op eenvoudige afbeeldingen waar visueel bewijs geconcentreerd is, terwijl op diversiteit gebaseerde methoden complexe afbeeldingen met verspreide kenmerken beter verwerken. Voortbouwend op deze empirische inzichten tonen we aan dat het incorporeren van beeldbewuste aanpassingen in bestaande hybride reductiestrategieën hun prestaties consistent verbetert. We bieden ook een minimale instantiatie van onze empirische bevindingen door middel van een eenvoudig adaptief reductiemechanisme, dat sterke en betrouwbare prestaties bereikt op zowel standaardbenchmarks als hallucinatiespecifieke evaluaties. Onze projectpagina is beschikbaar op https://cvsp-lab.github.io/AgilePruner.

InfinityStory: Onbeperkte Videogeneratie met Wereldconsistentie en Karakterbewuste Shotovergangen
InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Mar 4

ByMohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

Het genereren van langdurige verhalende video's met consistente visuele narratieven blijft een grote uitdaging in videosynthese. Wij presenteren een nieuw framework, een dataset en een model dat drie kritieke beperkingen aanpakt: achtergrondconsistentie tussen shots, naadloze overgangen tussen shots met meerdere subjecten, en schaalbaarheid naar urenlange verhalen. Onze aanpak introduceert een generatiepijplijn met achtergrondconsistentie die visuele samenhang tussen scènes behoudt, terwijl karakteridentiteit en ruimtelijke relaties bewaard blijven. Verder stellen we een transitiebewuste videosynthesemodule voor die vloeiende shotovergangen genereert voor complexe scenario's waarbij meerdere subjecten beeldin- of uitgaan, wat verder gaat dan de enkelvoudige-subjectbeperkingen van eerder werk. Om dit te ondersteunen, dragen we bij met een synthetische dataset van 10.000 multi-subject transitie-sequenties die ondervertegenwoordigde dynamische scènecomposities omvat. Op VBench behaalt InfinityStory de hoogste Achtergrondconsistentie (88.94), hoogste Subjectconsistentie (82.11) en de beste algemene gemiddelde rangschikking (2.80), wat verbeterde stabiliteit, vloeiendere overgangen en betere temporele coherentie aantoont.

RIVER: Een Real-Time Interactiebenchmark voor Video-LLM's
RIVER: A Real-Time Interaction Benchmark for Video LLMs

Mar 4

ByYansong Shi, Qingsong Zhao, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang

De snelle vooruitgang van multimodale grote taalmodellen heeft indrukwekkende capaciteiten getoond, maar bijna allemaal functioneren ze volgens een offline paradigma, wat real-time interactiviteit belemmert. Om deze kloof te overbruggen, introduceren we de Real-tIme Video intERaction Bench (RIVER Bench), ontworpen voor het evalueren van online videobegrip. RIVER Bench introduceert een nieuw raamwerk bestaande uit Retrospectief Geheugen, Live-Waarneming en Proactieve Anticipatietaken, dat interactieve dialogen nauwkeurig nabootst in plaats van op volledige video's in één keer te reageren. We voerden gedetailleerde annotaties uit met video's uit diverse bronnen en van uiteenlopende lengtes, en definieerden het real-time interactieve formaat precies. Evaluaties across verschillende modelcategorieën tonen aan dat offline modellen weliswaar goed presteren in taken met enkele vraag-antwoordparen, maar moeite hebben met real-time verwerking. Om de beperkingen van bestaande modellen in online video-interactie aan te pakken, met name hun tekortkomingen in langetermijngeheugen en toekomstperceptie, stelden we een algemene verbetermethode voor die modellen in staat stelt flexibeler real-time met gebruikers te interacteren. Wij zijn van mening dat dit werk de ontwikkeling van real-time interactieve videobegripsmodellen aanzienlijk zal bevorderen en toekomstig onderzoek in dit opkomende veld zal inspireren. Datasets en code zijn openbaar beschikbaar op https://github.com/OpenGVLab/RIVER.

MIBURI: Op weg naar expressieve interactieve gebaarsynthese
MIBURI: Towards Expressive Interactive Gesture Synthesis

Mar 3

ByM. Hamza Mughal, Rishabh Dabral, Vera Demberg, Christian Theobalt

Belichaamde Conversatie Agents (ECA's) streven ernaar menselijke face-to-face interactie na te bootsen door middel van spraak, gebaren en gezichtsuitdrukkingen. Huidige op grote taalmodellen (LLM) gebaseerde conversatieagentschappen missen belichaming en de expressieve gebaren die essentieel zijn voor natuurlijke interactie. Bestaande oplossingen voor ECA's produceren vaak rigide, weinig gevarieerde bewegingen die ongeschikt zijn voor mensachtige interactie. Generatieve methoden voor de synthese van spraak-ondersteunende gebaren leveren daarentegen wel natuurlijke lichaamsgebaren op, maar zijn afhankelijk van toekomstige spraakcontext en vereisen lange uitvoeringstijden. Om deze kloof te overbruggen, presenteren wij MIBURI, het eerste online, causale framework voor het genereren van expressieve volledige lichaamsgebaren en gezichtsuitdrukkingen gesynchroniseerd met real-time gesproken dialoog. Wij gebruiken lichaamsdeel-bewuste gebarencodecs die hiërarchische bewegingsdetails coderen in meerniveau discrete tokens. Deze tokens worden vervolgens autoregressief gegenereerd door een tweedimensionaal causaal framework, geconditioneerd op op LLM gebaseerde spraak-tekst embeddings, waarbij zowel temporele dynamiek als beweginghiërarchie op deel-niveau in realtime wordt gemodelleerd. Verder introduceren wij hulpdoelstellingen om expressieve en gevarieerde gebaren te stimuleren en convergentie naar statische poses te voorkomen. Vergelijkende evaluaties tonen aan dat onze causale en real-time aanpak natuurlijke en contextueel afgestemde gebaren produceert in vergelijking met recente baselines. Wij nodigen de lezer uit om de demovideo's te bekijken op https://vcai.mpi-inf.mpg.de/projects/MIBURI/.

SWE-CI: Evaluatie van Agent-capaciteiten in het Onderhouden van Codebases via Continue Integratie
SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Mar 4

ByJialong Chen, Xander Xu, Hu Wei, Chuan Chen, Bing Zhao

Door grote taalmodellen (LLM) aangedreven agents hebben sterke capaciteiten getoond bij het automatiseren van software-engineeringtaken, zoals statische bugreparatie, zoals blijkt uit benchmarks zoals SWE-bench. In de praktijk is de ontwikkeling van volwassen software echter meestal gebaseerd op complexe vereistewijzigingen en langdurige functie-iteraties – een proces dat statische, eenmalige reparatieparadigma's niet kunnen vatten. Om deze kloof te overbruggen, stellen wij SWE-CI voor, de eerste repository-brede benchmark die is opgebouwd rond de Continuous Integration-cyclus, met als doel het evaluatieparadigma voor codegeneratie te verschuiven van statische, kortetermijn-functionele correctheid naar dynamische, langetermijn-onderhoudbaarheid. De benchmark omvat 100 taken, waarbij elke taak gemiddeld overeenkomt met een evolutiegeschiedenis van 233 dagen en 71 opeenvolgende commits in een real-world coderepository. SWE-CI vereist dat agents deze taken systematisch oplossen via tientallen rondes van analyse en code-iteraties. SWE-CI biedt waardevolle inzichten in hoe goed agents de codekwaliteit kunnen waarborgen gedurende een langdurig evolutieproces.

MUSE: Een Run-Gecentreerd Platform voor Multimodale Uniforme Veiligheidsevaluatie van Grote Taalmodellen
MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Mar 3

ByZhongxi Wang, Yueqian Lin, Jingyang Zhang, Hai Helen Li, Yiran Chen

Veiligheidsbeoordeling en red-teaming van grote taalmodellen blijven overwegend tekstgericht, en bestaande raamwerken missen de infrastructuur om systematisch te testen of alignment zich uitstrekt tot audio-, beeld- en video-inputs. Wij presenteren MUSE (Multimodal Unified Safety Evaluation), een open-source, run-gecentreerd platform dat automatische cross-modale payload-generatie, drie multi-turn aanvalsalgoritmen (Crescendo, PAIR, Violent Durian), provider-agnostische modelroutering en een LLM-rechter met een vijfniveau veiligheidstaxonomie integreert in een enkel browsergebaseerd systeem. Een dual-metric raamwerk onderscheidt harde Attack Success Rate (alleen Compliance) van zachte ASR (inclusief Gedeeltelijke Compliance), waarbij gedeeltelijke informatielekkage wordt vastgelegd die binaire metrieken missen. Om te onderzoeken of alignment generaliseert over modaliteitsgrenzen heen, introduceren wij Inter-Turn Modality Switching (ITMS), dat multi-turn aanvallen uitbreidt met modaliteitsrotatie per beurt. Experimenten met zes multimodale LLM's van vier providers tonen aan dat multi-turn strategieën tot 90-100% ASR kunnen bereiken tegen modellen met een bijna perfecte single-turn weigering. ITMS verhoogt de finale ASR niet uniform op reeds verzadigde basislijnen, maar versnelt de convergentie door verdedigingen in vroege beurten te destabiliseren, en ablatie toont aan dat de richting van modaliteitseffecten modelspecifiek is in plaats van universeel, wat de noodzaak van providerbewuste cross-modale veiligheidstests onderstreept.

EmbodiedSplat: Online Feed-Forward Semantische 3D Gaussische Splatting voor Open-Vocabulair 3D-scènebegrip
EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

Mar 4

BySeungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee

Het direct begrijpen van een 3D-scène tijdens de verkenning ervan is essentieel voor *embodied* taken, waarbij een agent de 3D-scène online en bijna in realtime moet opbouwen en begrijpen. In deze studie stellen we EmbodiedSplat voor, een online *feed-forward* 3DGS voor open-vocabulary scènebegrip, dat gelijktijdige online 3D-reconstructie en 3D-semantisch begrip mogelijk maakt vanuit een stroom van beelden. In tegenstelling tot bestaande open-vocabulary 3DGS-methoden, die typisch beperkt zijn tot een offline of per-scène optimalisatie-instelling, zijn onze doelstellingen tweeledig: 1) Reconstructie van de semantisch ingebedde 3DGS van de volledige scène uit meer dan 300 beelden in een stroom, op een online manier. 2) Hoog generaliseerbaar naar nieuwe scènes dankzij een *feed-forward* ontwerp, en ondersteuning van bijna realtime 3D-semantische reconstructie in combinatie met realtime 2D-modellen. Om deze doelstellingen te bereiken, stellen we een Online Sparse Coefficients Field voor met een CLIP Global Codebook, dat de 2D CLIP-embeddingen koppelt aan elke 3D-Gaussiaan terwijl het geheugengebruik wordt geminimaliseerd en de volledige semantische generaliseerbaarheid van CLIP behouden blijft. Verder genereren we 3D-geometriebewuste CLIP-features door de puntenwolk van de 3DGS te aggregeren via een 3D U-Net, om het ontbrekende 3D-geometrische voorafgaande inzicht aan te vullen voor de op 2D gerichte taal-embeddingen. Uitgebreide experimenten op diverse indoor-datasets, waaronder ScanNet, ScanNet++ en Replica, demonstreren zowel de effectiviteit als de efficiëntie van onze methode. Bekijk onze projectpagina op https://0nandon.github.io/EmbodiedSplat/.

BeamPERL: Parameter-efficiënt RL met verifieerbare beloningen specialiseert compacte LLM's voor gestructureerde balkmechanica-redenering
BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Mar 4

ByTarjei Paule Hage, Markus J. Buehler

Kan reinforcement learning met harde, verifieerbare beloningen een compact taalmodel leren redeneren over natuurkunde, of leert het vooral om patronen te herkennen die naar correcte antwoorden leiden? Wij onderzoeken deze vraag door een redeneermodel van 1,5 miljard parameters te trainen op balkstatica, een klassiek technisch probleem, met behulp van parameter-efficiënte RLVR met binaire correctheidsbeloningen van symbolische oplossers, zonder door docenten gegenereerde redeneersporen. Het beste BeamPERL-checkpoint behaalt een verbetering van 66,7% in Pass@1 ten opzichte van het basismodel. De aangeleerde competentie is echter anisotroop: het model generaliseert compositioneel (meer belastingen) maar faalt onder topologische verschuivingen (verplaatste steunpunten) die dezelfde evenwichtsvergelijkingen vereisen. Tussentijdse checkpoints leveren het sterkste redeneervermogen op, terwijl voortgezette optimalisatie de robuustheid vermindert terwijl de beloning behouden blijft. Deze bevindingen onthullen een belangrijke beperking van uitlijningsmethoden op uitkomstniveau: reinforcement learning met exacte natuurkundebeloningen induceert procedurele oplossingssjablonen in plaats van internalisatie van de onderliggende vergelijkingen. De precisie van het beloningssignaal – zelfs wanneer het analytisch exact is – garandeert op zichzelf geen overdraagbaar natuurkundig redeneervermogen. Onze resultaten suggereren dat verifieerbare beloningen mogelijk moeten worden gecombineerd met gestructureerde redeneersteigers om verder te gaan dan sjabloonherkenning naar robuuste wetenschappelijke redenering.

HDINO: Een beknopte en efficiënte open-vocabulary detector
HDINO: A Concise and Efficient Open-Vocabulary Detector

Mar 3

ByHao Zhang, Yiqun Wang, Qinran Lin, Runze Fan, Yong Li

Ondanks de groeiende belangstelling voor open-vocabulary objectdetectie in recente jaren, zijn de meeste bestaande methoden sterk afhankelijk van handmatig samengestelde, fijnmazige trainingsdatasets en van resource-intensieve, laaggewijze kruismodale feature-extractie. In dit artikel stellen we HDINO voor, een beknopte doch efficiënte open-vocabulary objectdetector die de afhankelijkheid van deze componenten opheft. Concreet stellen we een tweefasige trainingsstrategie voor, gebaseerd op het transformer-gebaseerde DINO-model. In de eerste fase worden ruisrijke samples behandeld als aanvullende positieve objectinstanties om een One-to-Many Semantisch Afstemmingsmechanisme (O2M) tussen de visuele en tekstuele modaliteiten te construeren, waardoor semantische afstemming wordt bevorderd. Een op initiële detectiemoeilijkheid gebaseerd Moeilijkheidsgewogen Classificatieverlies (DWCL) wordt eveneens ontworpen om harde voorbeelden te delven en de modelprestatie verder te verbeteren. In de tweede fase wordt een lichtgewicht feature-fusiemodule toegepast op de afgestemde representaties om de gevoeligheid voor linguïstische semantiek te vergroten. Onder de Swin Transformer-T instelling behaalt HDINO-T 49.2 mAP op COCO met gebruik van 2.2M trainingsafbeeldingen uit twee publiek beschikbare detectiedatasets, zonder enige handmatige datacuratie en het gebruik van groundingdata, waarmee het Grounding DINO-T en T-Rex2 met respectievelijk 0.8 mAP en 2.8 mAP overtreft – modellen die zijn getraind op 5.4M en 6.5M afbeeldingen. Na fine-tuning op COCO behalen HDINO-T en HDINO-L verdere scores van 56.4 mAP en 59.2 mAP, wat de effectiviteit en schaalbaarheid van onze aanpak benadrukt. Code en modellen zijn beschikbaar op https://github.com/HaoZ416/HDINO.

GroupEnsemble: Efficiënte Onzekerheidschatting voor DETR-gebaseerde Objectdetectie
GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

Mar 2

ByYutong Yang, Katarina Popović, Julian Wiederer, Markus Braun, Vasileios Belagiannis, Bin Yang

Detection Transformer (DETR) en zijn varianten vertonen sterke prestaties bij objectdetectie, een kerntaak voor autonome systemen. Een cruciale beperking van deze modellen is echter dat hun betrouwbaarheidsscores alleen de semantische onzekerheid weerspiegelen, zonder rekening te houden met de even belangrijke ruimtelijke onzekerheid. Dit resulteert in een onvolledige beoordeling van de detectiebetrouwbaarheid. Deep Ensembles kunnen dit probleem wel aanpakken door hoogwaardige schattingen van de ruimtelijke onzekerheid te leveren. Hun enorme geheugenverbruik maakt ze echter onpraktisch voor real-world toepassingen. Een goedkopere alternatief, Monte Carlo (MC) Dropout, heeft te lijden onder hoge latentie vanwege de behoefte aan meerdere forward passes tijdens de inferentie om de onzekerheid te schatten. Om deze beperkingen aan te pakken, introduceren we GroupEnsemble, een efficiënte en effectieve methode voor onzekerheidsschatting voor DETR-achtige modellen. GroupEnsemble voorspelt gelijktijdig meerdere individuele detectiesets door aanvullende, diverse groepen objectqueries aan de transformer-decoder toe te voegen tijdens de inferentie. Elke querygroep wordt afzonderlijk getransformeerd door de gedeelde decoder en voorspelt een complete detectieset voor dezelfde invoer. Er wordt een aandachtmasker toegepast op de decoder om interacties tussen queries van verschillende groepen te voorkomen, waardoor elke groep onafhankelijk detecteert om betrouwbare, op ensembles gebaseerde onzekerheidsschatting te bereiken. Door gebruik te maken van de inherente parallelliteit van de decoder, schat GroupEnsemble de onzekerheid efficiënt in een enkele forward pass zonder sequentiële herhaling. We hebben onze methode gevalideerd in autonome rijsituaties en alledaagse scènes met respectievelijk de Cityscapes- en COCO-datasets. De resultaten tonen aan dat een hybride aanpak, die MC-Dropout en GroupEnsemble combineert, Deep Ensembles op verschillende metrieken overtreft tegen een fractie van de kosten. De code is beschikbaar op https://github.com/yutongy98/GroupEnsemble.