HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

23 papers found

Stream-R1: Betrouwbaarheid-Perplexiteit Bewuste Beloningsdistillatie voor Stroomvideo-generatie
Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

May 5

ByBin Wu, Mengqi Huang, Shaojin Wu, Weinan Jia, Yuxin Wang, Zhendong Mao, Yongdong Zhang

108

Distillatiegebaseerde versnelling is fundamenteel geworden voor het praktisch toepasbaar maken van autoregressieve streaming videodiffusiemodellen, waarbij distribution matching distillation (DMD) de de facto keuze is. Bestaande methoden trainen de student echter om de output van de leraar ongedifferentieerd na te bootsen, waarbij elke rollout, elk frame en elke pixel als even betrouwbare supervisie wordt behandeld. Wij stellen dat dit de gedistilleerde kwaliteit beperkt, omdat het twee complementaire assen van variantie in DMD-supervisie over het hoofd ziet: Inter-Betrouwbaarheid tussen student-rollouts waarvan de supervisie in betrouwbaarheid varieert, en Intra-Perplexiteit tussen ruimtelijke regio's en temporele frames die ongelijk bijdragen aan waar kwaliteit nog verbeterd kan worden. Het doelverwart dus twee vragen onder een uniform gewicht: of men van elke rollout moet leren, en waar men de optimalisatie binnen die rollout moet concentreren. Om dit aan te pakken, stellen wij Stream-R1 voor, een Reliability-Perplexity Aware Reward Distillation-kader dat het distillatiedoel adaptief herweegt op zowel rollout- als spatiotemporeel-elementniveau via een enkel gedeeld beloningsgeleid mechanisme. Op het Inter-Betrouwbaarheidsniveau herschaalt Stream-R1 het verlies van elke rollout met een exponent van een voorgetrainde videobeloningsscore, zodat rollouts met betrouwbare supervisie de optimalisatie domineren. Op het Intra-Perplexiteitsniveau back-propageert het hetzelfde beloningsmodel om per-pixel gradient saliency te extraheren, wat wordt verwerkt in ruimtelijke en temporele gewichten die de optimalisatiedruk concentreren op regio's en frames waar verfijning de grootste verwachte winst oplevert. Een adaptief balancerend mechanisme voorkomt dat een enkele kwaliteitsas domineert over visuele kwaliteit, bewegingskwaliteit en tekstuitlijning. Stream-R1 behaalt consistente verbeteringen op alle drie de dimensies ten opzichte van distillatie-baselines op standaard streaming video-generatie benchmarks, zonder architecturale aanpassing of extra inferentiekosten.

Stream-T1: Test-Time Schaling voor Streaming Videogeneratie
Stream-T1: Test-Time Scaling for Streaming Video Generation

May 6

ByYijing Tu, Shaojin Wu, Mengqi Huang, Wenchuan Wang, Yuxin Wang, Chunxiao Liu, Zhendong Mao

Hoewel Test-Time Scaling (TTS) een veelbelovende richting biedt om videogeneratie te verbeteren zonder de oplopende kosten van training, kampen huidige test-time videogeneratiemethoden op basis van diffusiemodellen met exorbitante kandidaatverkenkingskosten en een gebrek aan temporele sturing. Om deze structurele knelpunten aan te pakken, stellen wij voor de focus te verleggen naar streaming videogeneratie. Wij constateren dat de chunk-gewijze synthese en het beperkte aantal denoiseringsstappen hiervan intrinsiek geschikt zijn voor TTS, waardoor de rekenkosten aanzienlijk worden verlaagd en tegelijkertijd fijnmazige temporele controle mogelijk wordt. Gedreven door dit inzicht introduceerden wij Stream-T1, een baanbrekend, alomvattend TTS-raamwerk dat uitsluitend is toegesneden op streaming videogeneratie. Concreet bestaat Stream-T1 uit drie eenheden: (1) Stream-Scaled Noise Propagation, dat het initiële latente ruis van de te genereren chunk actief verfijnt met behulp van bewezen, hoogwaardige ruis van de vorige chunk, effectief temporele afhankelijkheid estableert en de historische Gaussiaanse prior gebruikt om de huidige generatie te sturen; (2) Stream-Scaled Reward Pruning, dat gegenereerde kandidaten uitgebreid evalueert om een optimale balans te vinden tussen lokale ruimtelijke esthetiek en globale temporele coherentie door onmiddellijke kortetermijnevaluaties te integreren met op een schuifvenster gebaseerde langetermijnevaluaties; (3) Stream-Scaled Memory Sinking, dat de context die uit de KV-cache wordt verdreven dynamisch routeert naar verschillende updatepaden geleid door de feedbackbeloning, zodat eerder gegenereerde visuele informatie effectief de daaropvolgende videostroom verankert en stuurt. Geëvalueerd op zowel uitgebreide 5s- als 30s-videobenchmarks toont Stream-T1 een aanzienlijke superioriteit aan, waarbij het de temporele consistentie, bewegingsvloeiendheid en framegebaseerde visuele kwaliteit significant verbetert.

RLDX-1 Technisch Rapport
RLDX-1 Technical Report

May 5

ByDongyoung Kim, Huiwon Jang, Myungkyu Koo, Suhyeok Jang, Taeyoung Kim, Beomjun Kim, Byungjun Yoon, Changsung Jang, Daewon Choi, Dongsu Han, Donguk Lee, Heeseung Kwon, Hojin Jeon, Jaehyun Kang, Jaekyoung Bae, Jihyuk Lee, Jimin Lee, John Won, Joonwoo Ahn, Junhyeong Park, Junyoung Sung, Kyungmin Lee, Minseong Han, Minsung Yoon, Sejune Joo, Seonil Son, Seungcheol Park, Seunggeun Cho, Seungjun Moon, Seungku Kim, Yonghoon Dong, Yongjin Cho, Youngchan Kim, Chang Hwan Kim, Dohyeon Kim, Hazel Lee, Heecheol Kim, Hensen Ahn, Hyungkyu Ryu, Hyunsoo Choi, Hyunsoo Shin, Jaeheon Jung, Jaewoo Kim, Jinwook Kim, Joochul Chang, Joonsoo Kim, Junghun Park, Jungwoo Park, Junho Cho, Junhyeok Park, Junwon Lee, Kangwook Lee, Kwanghoon Kim, Kyoungwhan Choe, Manoj Bhadu, Nayoung Oh, Sangjun Kim, Sangwoo Kim, Seunghoon Shim, Seunghyun Kim, Seungjun Lee, Seungyup Ka, Sungryol Yang, Wook Jung, Yashu Shukla, Yeonjae Lee, Yeonwoo Bae, Jinwoo Shin

Hoewel Vision-Language-Action-modellen (VLA's) aanzienlijke vooruitgang hebben geboekt in de richting van mensachtige, generalistische robotbeleidspolicies dankzij de veelzijdige intelligentie (zoals brede scènebegrip en taalgestuurde generalisatie) die is overgenomen van vooraf getrainde Vision-Language-modellen, worstelen ze nog steeds met complexe real-world taken die een breder scala aan functionele capaciteiten vereisen (bijvoorbeeld bewegingbewustzijn, geheugenbewuste besluitvorming en fysieke sensing). Om dit aan te pakken, introduceren we RLDX-1, een general-purpose robotpolicy voor behendige manipulatie, gebouwd op de Multi-Stream Action Transformer (MSAT). Dit is een architectuur die deze capaciteiten verenigt door heterogene modaliteiten te integreren via modaliteit-specifieke streams met cross-modale gezamenlijke zelf-attentie. RLDX-1 combineert deze architectuur verder met systeemniveau ontwerpkeuzes, waaronder het synthetiseren van trainingsdata voor zeldzame manipulatiescenario's, leerprocedures gespecialiseerd voor mensachtige manipulatie, en inferentie-optimalisaties voor real-time inzet. Door empirische evaluatie tonen we aan dat RLDX-1 consistent superieure prestaties levert vergeleken met recente frontier VLA's (zoals π_{0.5} en GR00T N1.6) in zowel simulatiebenchmarks als real-world taken die brede functionele capaciteiten vereisen die verder gaan dan algemene veelzijdigheid. In het bijzonder toont RLDX-1 superioriteit in ALLEX humanoïde taken door slagingspercentages van 86,8% te behalen, terwijl π_{0.5} en GR00T N1.6 rond de 40% halen. Dit benadrukt het vermogen van RLDX-1 om een humanoïde robot met een hoog aantal vrijheidsgraden (DoF) aan te sturen onder diverse functionele eisen. Gezamenlijk positioneren deze resultaten RLDX-1 als een veelbelovende stap in de richting van betrouwbare VLA's voor complexe, contactrijke en dynamische real-world behendige manipulatie.

OpenSearch-VL: Een Open Recept voor Grensverleggende Multimodale Zoekagenten
OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

May 6

ByShuang Chen, Kaituo Feng, Hangting Chen, Wenxuan Huang, Dasen Dai, Quanxin Shou, Yunlong Lin, Xiangyu Yue, Shenghua Gao, Tianyu Pang

Deep search is uitgegroeid tot een cruciale capaciteit voor geavanceerde multimodale agents, waardoor modellen complexe vragen kunnen oplossen via actief zoeken, verificatie van bewijsmateriaal en meerstapsredenering. Ondanks snelle vooruitgang blijven topklasse multimodale zoekagents moeilijk reproduceerbaar, grotendeels door het ontbreken van open hoogwaardige trainingsdata, transparante traject-synthesepijplijnen of gedetailleerde trainingsrecepten. Daarom introduceren we OpenSearch-VL, een volledig open-source recept voor het trainen van geavanceerde multimodale deep search agents met agent-gerichte reinforcement learning. Ten eerste ontwikkelden we een toegewijde pijplijn om hoogwaardige trainingsdata te construeren via Wikipedia-padmonstering, fuzzy entity herschrijving en source-anchor visuele verankering, die gezamenlijk shortcuts en instorting van eenstapsretrieval verminderen. Gebaseerd op deze pijplijn cureren we twee trainingsdatasets: SearchVL-SFT-36k voor SFT en SearchVL-RL-8k voor RL. Daarnaast ontwerpen we een diverse toolomgeving die tekstzoeken, beeldzoeken, OCR, bijsnijden, verscherpen, superresolutie en perspectiefcorrectie verenigt, waardoor agents actieve waarneming kunnen combineren met externe kennisverwerving. Ten slotte stellen we een multi-turn fatal-aware GRPO-trainingsalgoritme voor dat cascade-toolfouten aanpakt door post-fout tokens te maskeren, terwijl nuttige pre-fout redenering behouden blijft via eenzijdige advantage clamping. Gebouwd op dit recept levert OpenSearch-VL substantiële prestatieverbeteringen, met gemiddeld meer dan 10 punten verbetering over zeven benchmarks, en behaalt het resultaten vergelijkbaar met propriëtaire commerciële modellen bij verschillende taken. We zullen alle data, code en modellen vrijgeven om open onderzoek naar multimodale deep search agents te ondersteunen.

HERMES++: Op weg naar een uniform wereldmodel voor rijscenario's voor 3D-scènebegrip en -generatie
HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Apr 30

ByXin Zhou, Dingkang Liang, Xiwu Chen, Feiyang Tan, Dingyuan Zhang, Hengshuang Zhao, Xiang Bai

Rijdende wereldmodellen vormen een cruciale technologie voor autonoom rijden door de dynamiek van de omgeving te simuleren. Bestaande methoden richten zich echter voornamelijk op het genereren van toekomstige scenario's, waarbij een uitgebreid 3D-scènebegrip vaak over het hoofd wordt gezien. Anderzijds tonen Large Language Models (LLM's) indrukwekkende redeneervaardigheden, maar missen ze het vermogen om toekomstige geometrische evolutie te voorspellen, wat een significante kloof creëert tussen semantische interpretatie en fysieke simulatie. Om deze kloof te overbruggen, stellen we HERMES++ voor, een verenigd rijdend wereldmodel dat 3D-scènebegrip en toekomstige geometrievoorspelling integreert binnen een enkel framework. Onze aanpak adresseert de uiteenlopende vereisten van deze taken door middel van synergetische ontwerpen. Ten eerste consolideert een BEV-representatie multi-view ruimtelijke informatie in een structuur die compatibel is met LLM's. Ten tweede introduceren we LLM-gestuurde wereldqueries om kennisoverdracht vanuit de begripstak te vergemakkelijken. Ten derde is een Current-to-Future Link ontworpen om de temporele kloof te overbruggen, waarbij geometrische evolutie wordt geconditioneerd op semantische context. Tot slot hanteren we een Joint Geometric Optimization-strategie om structurele integriteit af te dwingen, waarbij expliciete geometrische beperkingen worden geïntegreerd met impliciete latente regularisatie om interne representaties af te stemmen op geometrisch-bewuste prior knowledge. Uitgebreide evaluaties op meerdere benchmarks valideren de effectiviteit van onze methode. HERMES++ behaalt sterke prestaties en overtreft gespecialiseerde aanpakken in zowel toekomstige pointcloud-voorspelling als 3D-scènebegriptaken. Het model en de code zullen openbaar worden vrijgegeven op https://github.com/H-EmbodVis/HERMESV2.

PhysForge: Het Genereren van Fysisch Onderbouwde 3D-Assets voor Interactieve Virtuele Werelden
PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

May 6

ByYunhan Yang, Chunshi Wang, Junliang Ye, Yang Li, Zanxin Chen, Zehuan Huang, Yao Mu, Zhuo Chen, Chunchao Guo, Xihui Liu

Het synthetiseren van fysisch onderbouwde 3D-assets vormt een kritieke bottleneck voor interactieve virtuele werelden en 'embodied AI'. Bestaande methodes richten zich voornamelijk op statische geometrie en negeren de functionele eigenschappen die essentieel zijn voor interactie. Wij stellen dat de generatie van interactieve assets geworteld moet zijn in functionele logica en hiërarchische fysica. Om deze kloof te overbruggen, introduceren wij PhysForge, een ontkoppeld tweestapsraamwerk ondersteund door PhysDB, een grootschalige dataset van 150.000 assets met viervoudige fysieke annotaties. Eerst fungeert een VLM als een 'fysisch architect' om een 'Hiërarchisch Fysisch Blauwdruk' te plannen, die materiaal-, functionele en kinematische beperkingen definieert. Vervolgens realiseert een fysisch onderbouwd diffusiemodel deze blauwdruk door hoogwaardige geometrie te synthetiseren samen met precieze kinematische parameters via een nieuw KineVoxel Injection (KVI)-mechanisme. Experimenten tonen aan dat PhysForge functioneel plausibele, simulatieklare assets produceert, en zo een robuuste data-engine biedt voor interactieve 3D-inhoud en 'embodied agents'.

Herziening van Redeneergericht Zoeken: Evaluatie en Verbetering van Retrievers in Agent-gebaseerde Zoeksystemen
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

May 5

ByYilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang, Chen Zhao, Arman Cohan

Reasoning-intensief retrieval heeft als doel bewijsmateriaal naar voren te halen dat downstream redenering ondersteunt, in plaats van slechts overeenkomst in onderwerpsgelijkenis. Deze capaciteit wordt steeds belangrijker voor agent-gebaseerde zoeksystemen, waarbij retrievers complementair bewijsmateriaal moeten aanleveren tijdens iteratief zoeken en synthese. Bestaand werk blijft echter beperkt op zowel evaluatie- als trainingsvlak: benchmarks zoals BRIGHT bieden smalle gold sets en evalueren retrievers geïsoleerd, terwijl synthetische trainingscorpora vaak optimaliseren voor relevantie van een enkele passage in plaats van voor de constructie van een bewijsmateriaal-portfolio. Wij introduceren BRIGHT-Pro, een door experts geannoteerde benchmark die elke query uitbreidt met multi-aspect gold evidence en retrievers evalueert onder zowel statische als agent-gebaseerde zoekprotocollen. Verder construeren wij RTriever-Synth, een aspect-gedecomponeerd synthetisch corpus dat complementaire positieve voorbeelden en positief-geconditioneerde harde negatieven genereert, en gebruiken dit om RTriever-4B via LoRA fine-tuning aan te passen vanuit Qwen3-Embedding-4B. Experimenten met lexicale, algemene en reasoning-intensieve retrievers tonen aan dat aspect-bewuste en agent-gebaseerde evaluatie gedrag blootlegt dat verborgen blijft onder standaard metrieken, terwijl RTriever-4B een substantiële verbetering laat zien ten opzichte van het basismodel.

D-OPSD: On-Policy Zelfdistillatie voor het Continue Afstemmen van Stap-gedistilleerde Diffusiemodellen
D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

May 6

ByDengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu, Zhen Li, Peng Gao, Harry Yang, Steven Hoi

Het landschap van hoogwaardige beeldgeneratiemodellen verschuift momenteel van inefficiënte multi-step modellen naar efficiënte few-step tegenhangers (zoals Z-Image-Turbo en FLUX.2-klein). Deze modellen brengen echter aanzienlijke uitdagingen met zich mee voor directe continue supervised fine-tuning. Zo zou het toepassen van veelgebruikte fine-tuningtechnieken hun inherente few-step inferentievermogen aantasten. Om dit aan te pakken, stellen we D-OPSD voor, een nieuwe trainingsparadigma voor step-gedistilleerde diffusiemodellen dat on-policy learning mogelijk maakt tijdens supervised fine-tuning. We ontdekken eerst dat het moderne diffusiemodel, waarbij de LLM/VLM als encoder fungeert, de in-context mogelijkheden van zijn encoder kan overnemen. Dit stelt ons in staat om de training te vormen als een on-policy zelfdistillatieproces. Concreet laten we het model tijdens de training optreden als zowel leraar als leerling met verschillende contexten: de leerling wordt alleen geconditioneerd op de tekstfeature, terwijl de leraar wordt geconditioneerd op de multimodale feature van zowel de tekstprompt als de doelafbeelding. De training minimaliseert de twee voorspelde distributies over de eigen roll-outs van de leerling. Door optimalisatie op het eigen traject en onder eigen supervisie stelt D-OPSD het model in staat nieuwe concepten, stijlen, etc. aan te leren zonder het oorspronkelijke few-step vermogen op te offeren.

Unificatie van Video-editing via Bliksemsnelle In-Context Sparse Attention
Lightning Unified Video Editing via In-Context Sparse Attention

May 6

ByShitong Shao, Zikai Zhou, Haopeng Li, Yingwei Song, Wenliang Zhong, Lichen Bai, Zeke Xie

Videobewerking is geëvolueerd naar In-Context Learning (ICL) paradigma's, maar de resulterende kwadratische aandachtskosten creëren een kritieke computationele bottleneck. In dit werk stellen we In-context Sparse Attention (ISA) voor, het eerste bijna verliesvrije empirische sparse framework toegesneden op ICL-videobewerking. Ons ontwerp is gebaseerd op twee belangrijke inzichten: ten eerste vertonen contexttokens een aanzienlijk lagere salientie dan brontokens; ten tweede bewijzen we theoretisch en valideren we empirisch dat queryscherpte correleert met benaderingsfout. Gemotiveerd door deze bevindingen implementeert ISA een efficiënte preselectiestrategie om overbodige context uit te dunnen, gevolgd door een dynamisch querygroeperingsmechanisme dat queries met een hoge fout doorstuurt naar volledige aandacht en queries met een lage fout naar een computationeel efficiënte Taylor sparse aandacht van de nulde orde. Verder bouwen we \texttt{LIVEditor}, een nieuw lightning-videobewerkingsmodel via ISA en een voorgestelde videobewerkingsdatapijplijn die een dataset van 1,7 miljoen hoogwaardige items heeft samengesteld. Uitgebreide experimenten tonen aan dat LIVEditor een ~60% reductie in latentie van de aandachtmodule bereikt, terwijl het state-of-the-art methoden overtreft op EditVerseBench, IVE-Bench en VIE-Bench, waardoor bijna verliesvrije versnelling wordt geleverd zonder in te boeten aan visuele kwaliteit.

Het Ontwaken van Ruimtelijke Intelligentie in Verenigde Multimodale Begrip en Generatie
Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

May 5

ByLin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan

Wij presenteren JoyAI-Image, een verenigd multimodaal fundamentmodel voor visueel begrip, tekst-naar-beeld-generatie en instructiegestuurd beeldbewerken. JoyAI-Image koppelt een ruimtelijk versterkt Multimodaal Taalmodel (MLLM) aan een Multimodale Diffusion Transformer (MMDiT), waardoor waarneming en generatie kunnen interacteren via een gedeelde multimodale interface. Rond deze architectuur bouwen we een schaalbaar trainingsrecept dat verenigde instructie-afstemming, toezicht op lange-tekstweergave, ruimtelijk verankerde gegevens, en zowel algemene als ruimtelijke bewerkingssignalen combineert. Dit ontwerp geeft het model brede multimodale capaciteiten terwijl het ruimtelijk bewust redeneren en controleerbare visuele synthese versterkt. Experimenten op het gebied van begrip, generatie, lange-tekstweergave en bewerkingsbenchmarks tonen aan dat JoyAI-Image state-of-the-art of zeer concurrerende prestaties bereikt. Belangrijker nog, de bidirectionele lus tussen versterkt begrip, controleerbare ruimtelijke bewerking en redeneren met nieuwe perspectief-ondersteuning stelt het model in staat verder te gaan dan algemene visuele competentie naar sterkere ruimtelijke intelligentie. Deze resultaten wijzen op een veelbelovend pad voor verenigde visuele modellen in downstream-toepassingen zoals visie-taal-actie-systemen en wereldmodellen.

MiniCPM-o 4.5: Op weg naar realtime full-duplex omnimodale interactie
MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

Apr 30

ByJunbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao

Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft AI-mogelijkheden gebracht van statische offline gegevensverwerking naar real-time streaminginteractie, maar ze blijven toch ver verwijderd van menselijke multimodale interactie. De belangrijkste knelpunten zijn niet langer alleen modaliteitsdekking of latentie, maar het interactieparadigma zelf. Ten eerste zijn waarneming en reactie nog steeds gescheiden in afwisselende fasen, wat modellen verhindert nieuwe invoer te verwerken voor tijdige aanpassing tijdens de generatie. Ten tweede blijven de meeste huidige modellen reactief; ze reageren alleen op expliciete gebruikersverzoeken in plaats van proactief op te treden in de zich ontwikkelende multimodale omgeving. Wij presenteren MiniCPM-o 4.5, onze nieuwste poging tot mensachtige multimodale interactie, die deze hiaten vermindert door real-time full-duplex omnimodale interactie. Het kan tegelijkertijd in real-time zien, luisteren en spreken, terwijl het ook proactief gedrag vertoont, zoals het geven van herinneringen of commentaar op basis van zijn continue begrip van de live scène. De kerntechniek achter MiniCPM-o 4.5 is Omni-Flow, een uniform streamingkader dat omnimodale invoer en uitvoer uitlijnt langs een gedeelde temporele as. Deze formulering zet conventionele beurtgebonden interactie om in een full-duplex, tijdelijk uitgelijnd proces, waardoor gelijktijdige waarneming en reactie mogelijk wordt en proactief gedrag binnen hetzelfde kader kan ontstaan. Met in totaal 9B parameters benadert MiniCPM-o 4.5 Gemini 2.5 Flash in visie-taalcapaciteiten en levert het state-of-the-art open-source prestaties op zijn schaal. Het overtreft ook Qwen3-Omni-30B-A3B in omnimodaal begrip en levert betere spraakgeneratie, met aanzienlijk hogere reken efficiëntie. Aangedreven door zijn efficiënte architectuurontwerp en inferentie-optimalisatie kan het model real-time full-duplex omnimodale interactie uitvoeren op edge-apparaten met minder dan 12GB RAM-gebruik.

Parameter-efficiënte multi-view bekwaamheidsschatting: Van discriminerende classificatie naar generatieve feedback
Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

May 5

ByEdoardo Bianchi, Antonio Liotta

Het inschatten van hoe goed iemand een handeling uitvoert, in plaats van welke handeling wordt uitgevoerd, is cruciaal voor coaching, revalidatie en talentherkenning. Deze taak is uitdagend omdat vaardigheid wordt weergegeven in subtiele verschillen in timing, balans, lichaamsmechanica en uitvoering, die vaak verspreid zijn over meerdere camerabeelden en korte temporele gebeurtenissen. We bespreken drie recente bijdragen aan multi-view vaardigheidsinschatting op Ego-Exo4D. SkillFormer introduceert een parameter-efficiënte discriminerende architectuur voor selectieve multi-view fusie; PATS verbetert temporele sampling door lokaal dichte fragmenten van fundamentele bewegingen te behouden; en ProfVLM herformuleert vaardigheidsinschatting als conditionele taalgeneratie, waarbij zowel een vaardigheidslabel als expert-achtige feedback wordt gegenereerd via een gegradeerde cross-view projectiemodule en een compact taalbackbone. Gezamenlijk bereiken deze methoden state-of-the-art nauwkeurigheid op Ego-Exo4D met tot 20x minder trainbare parameters en tot 3x minder trainingsepochs dan video-transformer-baselines, terwijl ze verschuiven van gesloten-set classificatie naar interpreteerbare feedbackgeneratie. Deze resultaten benadrukken een verschuiving naar efficiënte, multi-view systemen die selectieve fusie, vaardigheidsbewuste sampling en actiegerichte generatieve feedback combineren.

ResRL: Verbetering van Redeneervermogen van LLM's via Residuële Reinforcement Learning met Projectie van Negatieve Voorbeelden
ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

May 1

ByZihan Lin, Xiaohan Wang, Jie Cao, Jiajun Chai, Li Wang, Xiaodong Lu, Wei Lin, Ran He, Guojun Yin

Versterkend Leren met Verifieerbare Beloningen (RLVR) verbetert het redeneervermogen van grote taalmmodellen (LLM's), maar vertoont doorgaans beperkte generatiediversiteit door een overmatige stimulering van positieve beloningen. Hoewel methoden zoals Negative Sample Reinforcement (NSR) dit probleem verzachten door de straf van negatieve voorbeelden zwaarder te laten wegen, kunnen zij de semantische verdelingen die worden gedeeld door positieve en negatieve reacties onderdrukken. Om het redeneervermogen te vergroten zonder diversiteit te verliezen, stelt dit artikel negative sample projectie Residu Versterkend Leren (ResRL) voor, dat vergelijkbare semantische verdelingen tussen positieve en negatieve reacties ontkoppelt. We verbinden Lazy Likelihood Displacement (LLD) theoretisch aan negatief-positieve hoofdgradiëntinterferentie en leiden een single-forward proxy af die de representatie-uitlijning begrenst om conservatief voordeelherweging te sturen. ResRL projecteert vervolgens verborgen representaties van negatieve tokens op een op SVD gebaseerde positieve deelruimte met lage rang en gebruikt projectieresiduen om negatieve gradiënten te moduleren, waardoor het redeneervermogen wordt verbeterd terwijl diversiteit behouden blijft. De methode presteert gemiddeld beter dan sterke basismethoden op twaalf benchmarks voor Wiskunde, Code, Agenttaken en Functie-aanroeping. Opmerkelijk is dat ResRL NSR overtreft op wiskundig redeneren met 9,4% in Avg@16 en 7,0% in Pass@128. Code is beschikbaar op https://github.com/1229095296/ResRL.git.

MedSkillAudit: Een Domeinspecifiek Auditraamwerk voor Vaardigheden van Onderzoeksagentschappen in de Medische Sector
MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

Apr 22

ByYingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie

Achtergrond: Agentvaardigheden worden steeds vaker als modulaire, herbruikbare eenheden ingezet in AI-agentsystemen. Medische onderzoeksvaardigheden voor agents vereisen meer veiligheidsmaatregelen dan algemene evaluatie, waaronder wetenschappelijke integriteit, methodologische validiteit, reproduceerbaarheid en veiligheidsgrenzen. Deze studie ontwikkelde en evalueerde preliminair een domeinspecifiek auditkader voor medische onderzoeksvaardigheden van agents, met focus op betrouwbaarheid ten opzichte van expertbeoordeling. Methoden: We ontwikkelden MedSkillAudit (skill-auditor@1.0), een gelaagd kader dat de implementatiegereedheid van vaardigheden beoordeelt vóór ingebruikname. We evalueerden 75 vaardigheden verdeeld over vijf medische onderzoekscategorieën (15 per categorie). Twee experts kenden onafhankelijk een kwaliteitsscore (0-100), een ordinale implementatieclassificatie (Productie Gereed / Beperkte Release / Alleen Beta / Afkeuren) en een vlag voor hoog-risico falen toe. De overeenstemming tussen systeem en expert werd gekwantificeerd met ICC(2,1) en lineair gewogen Cohen's kappa, gebenchmarkt tegen de inter-beoordelaarsbasislijn van menselijke experts. Resultaten: De gemiddelde consensuskwaliteitsscore was 72.4 (SD = 13.0); 57.3% van de vaardigheden viel onder de drempel voor Beperkte Release. MedSkillAudit behaalde een ICC(2,1) = 0.449 (95% BI: 0.250-0.610), wat hoger was dan de inter-beoordelaars-ICC van 0.300 tussen experts. De divergentie tussen systeem- en consensusscores (SD = 9.5) was kleiner dan de divergentie tussen experts onderling (SD = 12.4), zonder directionele bias (Wilcoxon p = 0.613). Protocolontwerp liet de sterkste overeenstemming op categorieniveau zien (ICC = 0.551); Academisch Schrijven vertoonde een negatieve ICC (-0.567), wat een structurele mismatch tussen rubric en expert reflecteerde. Conclusies: Domeinspecifieke pre-implementatie audits kunnen een praktische basis vormen voor het beheren van medische onderzoeksvaardigheden van agents, door algemene kwaliteitscontroles aan te vullen met gestructureerde auditwerkstromen toegesneden op wetenschappelijke use cases.

APEX: Grootschalige voorspelling van populariteit voor AI-gegenereerde muziek met esthetisch geïnformeerde multitask-learning
APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

May 5

ByJaavid Aktar Husain, Dorien Herremans

Het voorspellen van muziekpopulariteit heeft een groeiende onderzoeksinteresse gewekt, vanwege de relevantie voor artiesten, platformen en aanbevelingssystemen. De explosieve opkomst van door AI gegenereerde muziekplatforms heeft echter een geheel nieuw en grotendeels onontgonnen landschap gecreëerd, waar dagelijks een stroom van liedjes wordt geproduceerd en geconsumeerd zonder de traditionele indicatoren zoals artiestenreputatie of labelondersteuning. Een cruciale, maar nog ononderzochte factor in deze zoektocht is de esthetische kwaliteit. Wij presenteren APEX, het eerste grootschalige multi-task leerframework voor door AI gegenereerde muziek, getraind op meer dan 211.000 nummers (10.000 uur audio) van Suno en Udio. Dit framework voorspelt gezamenlijk op betrokkenheid gebaseerde populariteitssignalen – streams en likes-scores – naast vijf perceptuele esthetische kwaliteitsdimensies, op basis van bevroren audio-embeddingen die zijn geëxtraheerd uit MERT, een zelfgesuperviseerd muziekbegripsmodel. Esthetische kwaliteit en populariteit vangen complementaire aspecten van muziek die samen waardevol blijken: in een out-of-distribution evaluatie op de Music Arena-dataset, die bestaat uit paarsgewijze menselijke voorkeursgevechten over elf generatieve muzieksystemen die niet tijdens de training zijn gezien, verbetert het opnemen van esthetische kenmerken consistent de voorkeursvoorspelling. Dit toont een sterke generalisatie van de geleerde representaties aan over verschillende generatieve architecturen heen.

Diffusiemodel als Algemene Segmentatieleerder
Diffusion Model as a Generalist Segmentation Learner

Apr 27

ByHaoxiao Wang, Antao Xiang, Haiyang Sun, Peilin Sun, Changhao Pan, Yifu Chen, Minjie Hong, Weijie Wang, Shuang Chen, Yue Chen, Zhou Zhao

Diffusiemodellen worden hoofdzakelijk getraind voor beeldgeneratie, maar hun trajecten voor ruisverwijdering coderen rijke, ruimtelijk uitgelijnde visuele voorkennis. In dit artikel tonen we aan dat deze voorkennis kan worden gebruikt voor tekstgeconditioneerde semantische en open-vocabulariumsegmentatie, en dat deze aanpak kan worden gegeneraliseerd naar diverse downstreamtaken om een algemene diffusiesegmentatieframework te creëren. Concreet introduceren we DiGSeg (Diffusion Models as a Generalist Segmentation Learner), dat een voorgetraind diffusiemodel hergebruikt als een uniform segmentatieframework. Onze aanpak codeert de invoerafbeelding en de grondwaarheidsmasker in de latente ruimte en concateneert ze als conditioneringssignalen voor de diffusie U-Net. Een parallelle, op CLIP uitgelijnde tekstweg injecteert taalfeatures op meerdere schalen, waardoor het model tekstuele zoekopdrachten kan uitlijnen met evoluerende visuele representaties. Dit ontwerp transformeert een standaard diffusie-backbone in een universele interface die gestructureerde segmentatiemaskers produceert, geconditioneerd op zowel uiterlijk als willekeurige tekstprompts. Uitgebreide experimenten demonstreren state-of-the-art prestaties op standaard benchmarks voor semantische segmentatie, evenals sterke open-vocabulariumgeneralizatie en domeinoverschrijdende transfer naar medische, remote sensing- en landbouwsituaties - zonder domeinspecifieke architecturale aanpassingen. Deze resultaten geven aan dat moderne diffusie-backbones kunnen dienen als generalistische segmentatieleerders in plaats van pure generators, waardoor de kloof tussen visuele generatie en visueel begrip wordt verkleind.

SWE-WebDevBench: Evaluatie van Coderingsagent Applicatieplatforms als Virtuele Softwarebureaus
SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies

May 6

BySiddhant Saxena, Nilesh Trivedi, Vinayaka Jyothi

De opkomst van "vibe coding"-platforms, waar gebruikers applicaties beschrijven in natuurlijke taal en AI-agenten autonoom full-stack software genereren, heeft de behoefte gecreëerd aan een rigoureuze evaluatie die verder gaat dan code-level benchmarks. Om ze te beoordelen als virtuele softwareontwikkelingsbureaus op het gebied van het begrijpen van zakelijke vereisten, het nemen van architectuur-beslissingen, het schrijven van productiecode, het afhandelen van iteratieve wijzigingen en het waarborgen van bedrijfsgereedheid, introduceren we SWE-WebDev Bench, een evaluatieraamwerk met 68 metrieken, verdeeld over 25 primaire en 43 diagnostische metrieken in zeven groepen, georganiseerd langs drie dimensies: Interactiemodus (App Creation Request (ACR) vs. App Modification Request (AMR)), Bureau-perspectief (Product Manager (PM), Engineering, Ops) en Complexiteitsniveau (T4 multi-role SaaS, T5 AI-native). Onze evaluatie (zes platforms, drie domeinen, 18 evaluatiecellen) onthult vier terugkerende tekortkomingen in de huidige generatie AI-app-builders: (1) Een specificatieknelpunt, waarbij platforms rijke zakelijke vereisten comprimeren tot overgesimplificeerde technische plannen, (2) Een alomtegenwoordige ontkoppeling van frontend en backend, waarbij visueel verfijnde UI's afwezige of defecte backend-infrastructuur maskeren, (3) Een steile productiegereedheidskloof, waarbij geen enkel platform meer dan 60% scoort op engineeringkwaliteit en de menselijke inspanning na generatie aanzienlijk varieert tussen platforms, en (4) Wijdverspreide beveiligings- en infrastructuurfouten, waarbij geen enkel platform meer dan 65% Security Score haalt tegen een streefcijfer van 90% en de afhandeling van gelijktijdige verzoeken slechts 6% bedraagt. Deze observaties zijn beschrijvend voor onze steekproef en vereisen replicatie op grotere schaal om de algemene geldigheid vast te stellen. We geven SWE-WebDev Bench vrij als een community benchmark om dergelijke replicatie mogelijk te maken en platformbouwers te helpen deze hiaten te identificeren en aan te pakken. Code en benchmarkbronnen zijn beschikbaar op: https://github.com/snowmountainAi/webdevbench en https://webdevbench.com/.

Drift ombuigen tot Beperking: Robuuste Redeneeralignering in Niet-stationaire Omgevingen
Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Environments

May 2

ByXiaoyu Yang, En Yu, Wei Duan, Jie Lu

Dit artikel identificeert een kritieke maar onderbelichte uitdaging in het uitlijnen van redeneerprocessen van meerdere multimodale grote taalmmodellen (MLLM's): in niet-stationaire omgevingen evolueren de diverse redeneerdistributies van bronmodellen vaak onvoorspelbaar, wat systematische biases en drift doorgeeft aan het doelmodel. Om dit aan te pakken, formuleren we multi-source reasoning alignment als een constraint satisfaction probleem onder de concept drift theorie. Wij stellen Autonome Preference Optimization (APO) voor, een nieuw raamwerk dat inter-model divergenties niet als ruis behandelt, maar als dynamische negatieve constraints. APO werkt via een tweefasenprotocol: eerst projecteert supervised bootstrapping het doelmodel in de capaciteitenunie van de bronmodellen; vervolgens synthetiseert constraint-aware optimization een consistent consensusmanifold door expliciet driftende trajecten te onderdrukken via een multi-negatief Plackett-Luce doel. Uitgebreide experimenten met interpretatie van thoraxfoto's tonen aan dat ons 7B-model superieure robuustheid bereikt, en zelfs de gemiddelde nauwkeurigheid van propriëtaire bronmodellen overtreft. Verder publiceren wij CXR-MAX, een grootschalige benchmark bestaande uit 170.982 redeneertrajecten van zeven grootschalige MLLM's, om onderzoek naar reasoning alignment onder drift te faciliteren. Code en data zijn beschikbaar op: https://github.com/XiaoyuYoung/APO.

Het eerste token weet: Enkelvoudige decodeerbetrouwbaarheid voor hallucinatiedetectie
The First Token Knows: Single-Decode Confidence for Hallucination Detection

May 6

ByMina Gabriel

Zelfconsistentie detecteert hallucinaties door meerdere bemonsterde antwoorden op een vraag te genereren en overeenstemming te meten, maar dit vereist herhaalde decoding en kan gevoelig zijn voor lexicale variatie. Semantische zelfconsistentie verbetert dit door bemonsterde antwoorden op betekenis te clusteren met natuurlijke taalinferentie, maar het voegt zowel bemonsteringskosten als externe inferentie-overhead toe. Wij tonen aan dat eerste-token-betrouwbaarheid, phi_first, berekend uit de genormaliseerde entropie van de top-K logits bij het eerste inhoudsdragende antwoordtoken van een enkele gretige decode, gelijk is aan of bescheiden beter presteert dan semantische zelfconsistentie bij gesloten-boek feitelijke vraag-antwoordtaken met korte antwoorden. Over drie 7-8B instructie-afgestemde modellen en twee benchmarks heen bereikt phi_first een gemiddelde AUROC van 0,820, vergeleken met 0,793 voor semantische overeenstemming en 0,791 voor standaard zelfconsistentie op oppervlaktevorm. Een subsumptietest toont aan dat phi_first matig tot sterk gecorreleerd is met semantische overeenstemming, en het combineren van de twee signalen levert slechts een kleine AUROC-verbetering op ten opzichte van phi_first alleen. Deze resultaten suggereren dat veel van de onzekerheidsinformatie die wordt vastgelegd door multi-sample-overeenstemming reeds beschikbaar is in de initiële tokenverdeling van het model. Wij beargumenteren dat phi_first standaard gerapporteerd zou moeten worden als een laagkosten-basislijn alvorens over te gaan op op bemonstering gebaseerde onzekerheidsschatting.

Wanneer te Denken, Wanneer te Spreken: Het Leren van Openbaarmakingsbeleid voor LLM-redeneerprocessen
When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning

May 6

ByJiaqi Wei, Xuehang Guo, Pengfei Yu, Xiang Zhang, Wanli Ouyang, Siqi Sun, Qingyun Wang, Chenyu You

In single-stream autoregressieve interfaces werken dezelfde tokens zowel als update van de modelstatus als als onherroepelijke publieke commitment. Deze koppeling creëert een stiltebelasting: extra beraad stelt de eerste taakrelevante content uit, terwijl naïef vroeg streamen het risico loopt op voorbarige commitments die latere generaties beïnvloeden. Wij introduceren Side-by-Side (SxS) Interleaved Reasoning, waarmee de timing van openbaarmaking een controleerbare beslissing wordt binnen standaard autoregressieve generatie. SxS verweeft gedeeltelijke openbaarmakingen met voortgezette private redenering in dezelfde context, maar geeft content pas vrij wanneer deze wordt ondersteund door de redenering tot dan toe. Om een dergelijke pacing aan te leren zonder vulmateriaal te stimuleren, construeren we *entailment*-gealigneerde verweven trajecten door antwoordprefixen te matchen met ondersteunende redeneerprefixen, en trainen we met SFT voor de dual-action semantiek en met RL om de redeneerprestatie onder het nieuwe formaat te herstellen. Over twee Qwen3-architecturen/schalen (MoE Qwen3-30B-A3B, dense Qwen3-4B) en zowel in-domein (AIME25) als uit-domein (GPQA-Diamond) benchmarks verbetert SxS de nauwkeurigheid–content-latency Pareto trade-offs onder token-level proxies zoals de wachttijd tussen updates.

CreativityBench: Evaluatie van Creatief Redeneren bij Agents via Affordance-Gebaseerd Hergebruik van Hulpmiddelen
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

May 6

ByCheng Qian, Hyeonjeong Ha, Jiayu Liu, Jeonghwan Kim, Jiateng Liu, Bingxuan Li, Aditi Tiwari, Dwip Dalal, Zhenhailong Wang, Xiusi Chen, Mahdi Namazifar, Yunzhu Li, Heng Ji

Recente vooruitgang in grote taalmodellen heeft geleid tot sterke prestaties op het gebied van redeneer- en omgevingsinteractietaken, maar hun vermogen voor creatief probleemoplossen blijft onderbelicht. Wij bestuderen dit vermogen door de lens van creatief gereedschapsgebruik, waarbij een model beschikbare objecten een nieuwe functie geeft door te redeneren over hun affordanties (gebruiksmogelijkheden) en attributen in plaats van te vertrouwen op canoniek gebruik. Als eerste stap introduceren we CreativityBench, een benchmark voor het evalueren van op affordanties gebaseerde creativiteit in grote taalmodellen. Hiertoe bouwen we een grootschalige kennisbank voor affordanties met 4K entiteiten en 150K+ affordantie-annotaties, die objecten, onderdelen, attributen en uitvoerbare gebruiksmogelijkheden expliciet koppelt. Op basis van deze kennisbank genereren we 14K gegronde taken die vereisen dat niet-voor de hand liggende, maar fysiek plausibele oplossingen worden geïdentificeerd onder bepaalde beperkingen. Evaluaties van 10 state-of-the-art grote taalmodellen, inclusief closed- en open-source modellen, tonen aan dat modellen vaak een plausibel object kunnen selecteren, maar falen in het identificeren van de correcte onderdelen, hun affordanties en het onderliggende fysieke mechanisme dat nodig is om de taak op te lossen, wat leidt tot een significante daling in prestaties. Verder satureren verbeteringen door modelschaling snel, vertaalt sterk algemeen redeneervermogen zich niet betrouwbaar naar het ontdekken van creatieve affordanties, en leveren veelgebruikte inferentiestrategieën zoals Chain-of-Thought beperkte winst op. Deze resultaten suggereren dat creatief gereedschapsgebruik een grote uitdaging blijft voor huidige modellen, en dat CreativityBench een nuttige testomgeving biedt voor het bestuderen van deze ontbrekende dimensie van intelligentie, met potentiële implicaties voor plannings- en redeneermodules in toekomstige agents.

TT4D: Een Pijplijn en Dataset voor 4D-Reconstructie van Tafeltennis uit Monoculaire Video's
TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos

May 2

ByNima Rahmanian, Daniel Kienzle, Thomas Gossard, Dvij Kalaria, Rainer Lienhart, Shankar Sastry

Wij presenteren TT4D, een grootschalige, hoogfideliteit dataset voor tafeltennis. De dataset biedt meer dan 140 uur aan gereconstrueerde enkel- en dubbelspelen vanuit monoscopische televisiebeelden, voorzien van multimodale annotaties zoals hoogwaardige camerakalibraties, nauwkeurige 3D-balposities, balrotatie (spin), tijdssegmentatie en 3D-meshes van spelers over tijd. Deze rijke data vormt een nieuwe basis voor virtuele herhalingen, diepgaande spelersanalyse en robotleren. De combinatie van schaal en precisie in de dataset wordt bereikt door een nieuwe reconstructiepipeline. Eerdere methodes segmenteren eerst een spelreeks in afzonderlijke slagen op basis van het 2D-balpad, en proberen pas daarna reconstructie. Op 2D gebaseerde tijdssegmentatie faalt echter bij occlusie en wisselende camerastandpunten, wat een betrouwbare reconstructie verhindert. Wij keren dit paradigma om door eerst het volledige, niet-gesegmenteerde 2D-balpad naar 3D te tillen met een getraind 'lifting'-netwerk. Dit 3D-traject stelt ons vervolgens in staat om op betrouwbare wijze tijdssegmentatie uit te voeren. Het getrainde netwerk leidt ook de balrotatie af, gaat om met onbetrouwbare baldetecties en reconstrueert het baltraject succesvol bij sterke occlusie. Deze 'lift-first'-aanpak is noodzakelijk, aangezien onze pipeline de enige methode is die tafeltennisspelen kan reconstrueren vanuit algemene monoscopische televisiebeelden. Wij demonstreren de kwaliteit van de dataset via twee downstream-taken: het schatten van de positie & snelheid van het racket bij impact, en het trainen van een generatief model voor competitieve rally's.

KinDER: Een Benchmark voor Fysiek Redeneren voor Robotleren en Planning
KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning

May 4

ByYixuan Huang, Bowen Li, Vaibhav Saxena, Yichao Liang, Utkarsh Aashu Mishra, Liang Ji, Lihan Zha, Jimmy Wu, Nishanth Kumar, Sebastian Scherer, Danfei Xu, Tom Silver

Robotische systemen die interageren met de fysieke wereld moeten redeneren over kinematische en dynamische beperkingen opgelegd door hun eigen belichaming, hun omgeving en de taak die voorligt. Wij introduceren KinDER, een benchmark voor Kinematisch en Dynamisch Belichaamd Redeneren die zich richt op fysieke redeneeruitdagingen die ontstaan bij robotleren en -planning. KinDER omvat 25 procedureel gegenereerde omgevingen, een Gymnasium-compatibele Python-bibliotheek met geparametriseerde vaardigheden en demonstraties, en een gestandaardiseerde evaluatiesuite met 13 geïmplementeerde basislijnen die taak- en bewegingsplanning, imitatieleren, reinforcement learning en op foundation-modellen gebaseerde benaderingen omvatten. De omgevingen zijn ontworpen om vijf kernuitdagingen voor fysiek redeneren te isoleren: basis ruimtelijke relaties, niet-grijpbare multi-objectmanipulatie, gereedschapsgebruik, combinatorische geometrische beperkingen en dynamische beperkingen, losgekoppeld van perceptie, taalbegrip en toepassingsspecifieke complexiteit. Empirische evaluatie toont aan dat bestaande methoden moeite hebben met het oplossen van veel van de omgevingen, wat duidt op aanzienlijke hiaten in huidige benaderingen van fysiek redeneren. Wij voegen ook real-to-sim-to-real experimenten toe op een mobiele manipulator om de correspondentie tussen simulatie en fysieke interactie in de echte wereld te beoordelen. KinDER is volledig open-source en bedoeld om systematische vergelijking tussen diverse paradigma's mogelijk te maken voor de vooruitgang van fysiek redeneren in de robotica. Website en code: https://prpl-group.com/kinder-site/