Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

Mind2Web 2: Evaluatie van Agentisch Zoeken met Agent-als-Rechter
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Jun 26, 2025

Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su

451

Agentische zoeksystemen zoals Deep Research-systemen, waarbij grote taalmodellen autonoom het web doorzoeken, informatie synthetiseren en uitgebreide, met citaties onderbouwde antwoorden teruggeven, vertegenwoordigen een grote verschuiving in hoe gebruikers omgaan met informatie op webschaal. Hoewel ze een grotere efficiëntie en cognitieve ontlasting beloven, hebben de toenemende complexiteit en openheid van agentisch zoeken de bestaande evaluatiebenchmarks en -methodologieën overstegen, die grotendeels uitgaan van korte zoekhorizons en statische antwoorden. In dit artikel introduceren we Mind2Web 2, een benchmark van 130 realistische, hoogwaardige en langetermijntaken die realtime webbrowsing en uitgebreide informatiesynthese vereisen, opgebouwd met meer dan 1.000 uur menselijke arbeid. Om de uitdaging van het evalueren van tijdvariërende en complexe antwoorden aan te pakken, stellen we een nieuw Agent-as-a-Judge-framework voor. Onze methode construeert taakspecifieke beoordelaarsagenten op basis van een boomstructuurrubriekontwerp om zowel de correctheid van antwoorden als bronvermelding automatisch te beoordelen. We voeren een uitgebreide evaluatie uit van negen toonaangevende agentische zoeksystemen en menselijke prestaties, samen met een gedetailleerde foutenanalyse om inzichten te verkrijgen voor toekomstige ontwikkeling. Het best presterende systeem, OpenAI Deep Research, kan al 50-70% van de menselijke prestaties bereiken terwijl het de helft van de tijd besteedt, wat een groot potentieel laat zien. Samen biedt Mind2Web 2 een rigoureuze basis voor de ontwikkeling en benchmarking van de volgende generatie agentische zoeksystemen.

FaSTA^: Snelle-Trage Toolpath Agent met Subroutine Mining voor Efficiënte Multi-turn Beeldbewerking
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

Jun 26, 2025

Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou

402

We ontwikkelen een kostenefficiënte neurosymbolische agent om uitdagende meerstaps beeldbewerkingstaken aan te pakken, zoals "Detecteer de bank in de afbeelding en kleur deze roze. Verwijder ook de kat voor een duidelijker beeld en kleur de muur geel." Deze agent combineert snelle, hoogwaardige subtakenplanning door grote taalmodellen (LLMs) met langzame, nauwkeurige toolgebruik en lokale A^* zoekacties per subtask om een kostenefficiënte toolpath te vinden – een reeks aanroepen van AI-tools. Om de kosten van A^* voor vergelijkbare subtaken te besparen, voeren we inductief redeneren uit op eerder succesvolle toolpaths via LLMs om continu veelgebruikte subroutines te extraheren/verfijnen en deze te hergebruiken als nieuwe tools voor toekomstige taken in een adaptieve snel-langzaam planning, waarbij eerst de hogere subroutines worden verkend, en alleen wanneer deze falen, wordt de laagniveau A^* zoekactie geactiveerd. De herbruikbare symbolische subroutines besparen aanzienlijk verkenningskosten voor dezelfde typen subtaken die worden toegepast op vergelijkbare afbeeldingen, wat resulteert in een mensachtige snel-langzaam toolpath agent "FaSTA^*": snelle subtakenplanning gevolgd door regelgebaseerde subroutineselectie per subtask wordt eerst geprobeerd door LLMs, wat naar verwachting de meeste taken zal dekken, terwijl langzame A^* zoekacties alleen worden geactiveerd voor nieuwe en uitdagende subtaken. Door vergelijking met recente beeldbewerkingstechnieken, tonen we aan dat FaSTA^* aanzienlijk computationeel efficiënter is, terwijl het competitief blijft met de state-of-the-art baseline in termen van slagingspercentage.

WorldVLA: Op Weg naar een Autoregressief Actie Wereldmodel
WorldVLA: Towards Autoregressive Action World Model

Jun 26, 2025

Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen

363

We presenteren WorldVLA, een autoregressief actiewereldmodel dat actie- en beeldbegrip en -generatie verenigt. Onze WorldVLA integreert het Vision-Language-Action (VLA)-model en het wereldmodel in één enkel raamwerk. Het wereldmodel voorspelt toekomstige beelden door zowel actie- als beeldbegrip te benutten, met als doel de onderliggende fysica van de omgeving te leren om de actiegeneratie te verbeteren. Tegelijkertijd genereert het actiemodel de daaropvolgende acties op basis van beeldobservaties, wat helpt bij visueel begrip en op zijn beurt de visuele generatie van het wereldmodel ondersteunt. We tonen aan dat WorldVLA losstaande actie- en wereldmodellen overtreft, wat de wederzijdse versterking tussen het wereldmodel en het actiemodel benadrukt. Daarnaast constateren we dat de prestaties van het actiemodel verslechteren bij het genereren van reeksen acties op een autoregressieve manier. Dit fenomeen kan worden toegeschreven aan het beperkte generalisatievermogen van het model voor actievoorspelling, wat leidt tot de doorvoering van fouten van eerdere acties naar latere. Om dit probleem aan te pakken, stellen we een aandachtmaskerstrategie voor die selectief eerdere acties maskeert tijdens de generatie van de huidige actie, wat een aanzienlijke prestatieverbetering laat zien in de taak van actiechunkgeneratie.

MADrive: Geheugen-versterkte modellering van rijsituaties
MADrive: Memory-Augmented Driving Scene Modeling

Jun 26, 2025

Polina Karpikova, Daniil Selikhanovych, Kirill Struminsky, Ruslan Musaev, Maria Golitsyna, Dmitry Baranchuk

361

Recente vooruitgang in scène-reconstructie heeft geleid tot zeer realistische modellering van autonome rij-omgevingen (AD) met behulp van 3D Gaussian splatting. De resulterende reconstructies blijven echter sterk verbonden aan de oorspronkelijke observaties en hebben moeite met het ondersteunen van fotorealistische synthese van aanzienlijk gewijzigde of nieuwe rijscenario's. Dit werk introduceert MADrive, een geheugen-augmented reconstructieframework dat is ontworpen om de mogelijkheden van bestaande scène-reconstructiemethoden uit te breiden door waargenomen voertuigen te vervangen door visueel vergelijkbare 3D-assets die worden opgehaald uit een grootschalige externe geheugenbank. Specifiek presenteren we MAD-Cars, een gecureerde dataset van {sim}70K 360{\deg} auto-video's die in het wild zijn vastgelegd, en introduceren we een retrievemodule die de meest vergelijkbare auto-instanties in de geheugenbank vindt, de bijbehorende 3D-assets uit video reconstrueert en ze integreert in de doelscène door middel van oriëntatie-uitlijning en herbelichting. De resulterende vervangingen bieden complete multi-view representaties van voertuigen in de scène, waardoor fotorealistische synthese van aanzienlijk gewijzigde configuraties mogelijk wordt, zoals aangetoond in onze experimenten. Projectpagina: https://yandex-research.github.io/madrive/

Waar vind je Grokking in LLM-pretraining? Monitor Memorisatie-naar-Generalizatie zonder Test
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Jun 26, 2025

Ziyue Li, Chenrui Fan, Tianyi Zhou

272

Grokking, d.w.z. dat de testprestaties blijven verbeteren lang nadat de trainingsverlies is geconvergeerd, is recentelijk waargenomen bij het trainen van neurale netwerken, wat het mechanisme van generalisatie en andere opkomende capaciteiten zoals redeneren mysterieus maakt. Terwijl eerdere studies meestal kleine modellen trainen op een paar speelse of zeer specifieke taken voor duizenden epochs, voeren wij de eerste studie uit van grokking op checkpoints tijdens een eenmalige pretraining van een groot taalmodel (LLM) van 7B, namelijk OLMoE. We berekenen het trainingsverlies en evalueren de generalisatie op diverse benchmarktaken, waaronder wiskundig redeneren, codegeneratie en taken voor het ophalen van algemene kennis en domeinspecifieke kennis. Onze studie bevestigt voor het eerst dat grokking nog steeds plaatsvindt tijdens de pretraining van grootschalige foundationmodellen, hoewel verschillende gegevens asynchroon de grokkingfasen kunnen ingaan. We ontrafelen verder het "opkomen van generalisatie" van grokking door de interne dynamiek van LLM's te onderzoeken. Specifiek vinden we dat de paden van trainingsvoorbeelden (d.w.z. expertkeuzes over lagen heen) evolueren van willekeurig, voorbeeld-specifiek naar meer gestructureerd en deelbaar tussen voorbeelden tijdens grokking. Ook neemt de complexiteit van het pad van een voorbeeld af ondanks het geconvergeerde verlies. Dit wijst op een conversie van memorisatie naar generalisatie, wat een mechanistische verklaring biedt voor vertraagde generalisatie. In de studie ontwikkelen we twee nieuwe metrieken om de padafstand en de complexiteit van een enkel pad te kwantificeren. We tonen hun vermogen aan om de verbetering van generalisatie op diverse downstreamtaken te voorspellen. Ze zijn efficiënt, eenvoudig te berekenen en uitsluitend afhankelijk van trainingsgegevens. Daarom hebben ze praktische waarde voor pretraining, waardoor we de generalisatieprestaties kunnen monitoren zonder finetuning en testen. Theoretisch tonen we aan dat meer gestructureerde paden de modelcomplexiteit verminderen en de generalisatiegrens verbeteren.

Leren om de middelste lagen van Transformers over te slaan
Learning to Skip the Middle Layers of Transformers

Jun 26, 2025

Tim Lawson, Laurence Aitchison

163

Conditionele berekening is een populaire strategie om Transformers efficiënter te maken. Bestaande methoden richten zich vaak op individuele modules (bijvoorbeeld mixture-of-experts lagen) of slaan lagen onafhankelijk van elkaar over. Interpretatieonderzoek heeft echter aangetoond dat de middelste lagen van Transformers meer redundantie vertonen en dat vroege lagen informatie aggregeren in tokenposities. Geleid door deze inzichten stellen we een nieuwe architectuur voor die dynamisch een variabel aantal lagen van het midden naar buiten overslaat. In het bijzonder bepaalt een geleerd gatingmechanisme of een symmetrisch blok van centrale lagen moet worden overgeslagen op basis van de invoer, en een gated attentionmechanisme voorkomt dat volgende tokens aandacht besteden aan overgeslagen tokenposities. Residunormen worden beheerst met een 'sandwich'- of 'perilayernorm'-schema en gatesparsity met een adaptief regularisatieverlies. We hadden als doel de rekenvereisten voor 'eenvoudigere' tokens te verminderen en mogelijk een opkomende multi-level representatiehiërarchie te bevorderen, maar op de onderzochte schalen bereikt onze aanpak geen verbeteringen in de afweging tussen validatie-kruisentropie en geschatte FLOPs vergeleken met dichte baselines met minder lagen. We hebben onze code vrijgegeven op https://github.com/tim-lawson/skip-middle.

SAM4D: Segmenteren van alles in camera- en LiDAR-streams
SAM4D: Segment Anything in Camera and LiDAR Streams

Jun 26, 2025

Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li

151

We presenteren SAM4D, een multi-modale en temporele foundation model ontworpen voor promptbare segmentatie over camera- en LiDAR-streams. Unified Multi-modal Positional Encoding (UMPE) wordt geïntroduceerd om camera- en LiDAR-features uit te lijnen in een gedeelde 3D-ruimte, wat naadloze cross-modale prompting en interactie mogelijk maakt. Daarnaast stellen we Motion-aware Cross-modal Memory Attention (MCMA) voor, dat gebruikmaakt van ego-motion compensatie om temporele consistentie en lange-termijn feature retrieval te verbeteren, wat robuuste segmentatie garandeert in dynamisch veranderende autonome rijscènes. Om annotatieknelpunten te vermijden, ontwikkelen we een multi-modale geautomatiseerde data-engine die VFM-gestuurde video masklets, spatiotemporele 4D-reconstructie en cross-modale masklet-fusie combineert. Dit framework genereert camera-LiDAR-uitgelijnde pseudo-labels met een snelheid die ordes van grootte sneller is dan menselijke annotatie, terwijl de semantische trouw afgeleid van VFM behouden blijft in point cloud representaties. We voeren uitgebreide experimenten uit op het geconstrueerde Waymo-4DSeg, die de krachtige cross-modale segmentatiecapaciteit en het grote potentieel in data-annotatie van het voorgestelde SAM4D aantonen.

Heel-lichaamsgeconditioneerde egocentrische videovoorspelling
Whole-Body Conditioned Egocentric Video Prediction

Jun 26, 2025

Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik

111

We trainen modellen om Ego-centrische Video's te voorspellen op basis van menselijke acties (PEVA), gegeven de vorige video en een actie die wordt weergegeven door de relatieve 3D lichaamshouding. Door te conditioneren op kinematische houdingstrajecten, gestructureerd door de hiërarchie van lichaamsgewrichten, leert ons model te simuleren hoe fysieke menselijke acties de omgeving vormen vanuit een first-person perspectief. We trainen een auto-regressieve conditionele diffusie-transformer op Nymeria, een grootschalige dataset van real-world egocentrische video's en lichaamshoudingcaptures. Daarnaast ontwerpen we een hiërarchisch evaluatieprotocol met steeds uitdagendere taken, wat een uitgebreide analyse mogelijk maakt van de voorspellings- en controlecapaciteiten van het model in een belichaamde context. Ons werk vertegenwoordigt een eerste poging om de uitdagingen aan te pakken van het modelleren van complexe real-world omgevingen en belichaamde agentgedragingen met videovoorspelling vanuit het perspectief van een mens.

PhysRig: Differentieerbaar Fysica-Gebaseerd Skinning- en Rigging-Framework voor Realistische Modellering van Gearticuleerde Objecten
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Jun 26, 2025

Hao Zhang, Haolan Xu, Chun Feng, Varun Jampani, Narendra Ahuja

112

Skinning en rigging zijn fundamentele componenten in animatie, gereconstrueerde gearticuleerde objecten, motieoverdracht en 4D-generatie. Bestaande benaderingen vertrouwen voornamelijk op Linear Blend Skinning (LBS), vanwege de eenvoud en differentieerbaarheid ervan. LBS introduceert echter artefacten zoals volumeverlies en onnatuurlijke vervormingen, en het slaagt er niet in om elastische materialen zoals zachte weefsels, vacht en flexibele aanhangsels (bijv. olifantenslurpen, oren en vetweefsel) te modelleren. In dit werk stellen we PhysRig voor: een differentieerbaar, op fysica gebaseerd skinning- en rigging-framework dat deze beperkingen overwint door het rigide skelet in te bedden in een volumetrische representatie (bijv. een tetrahedraal mesh), die wordt gesimuleerd als een vervormbare soft-body structuur aangedreven door het geanimeerde skelet. Onze methode maakt gebruik van continuümmechanica en discretiseert het object als deeltjes ingebed in een Euleriaans achtergrondraster om differentieerbaarheid ten opzichte van zowel materiaaleigenschappen als skeletbeweging te garanderen. Daarnaast introduceren we materiaalprototypes, waardoor de leerruimte aanzienlijk wordt verkleind terwijl een hoge expressiviteit behouden blijft. Om ons framework te evalueren, construeren we een uitgebreide synthetische dataset met behulp van meshes uit Objaverse, The Amazing Animals Zoo en MixaMo, die diverse objectcategorieën en bewegingspatronen omvat. Onze methode presteert consistent beter dan traditionele LBS-gebaseerde benaderingen en genereert realistischer en fysisch plausibelere resultaten. Bovendien demonstreren we de toepasbaarheid van ons framework in de pose-overdrachtstaak, wat de veelzijdigheid ervan voor het modelleren van gearticuleerde objecten benadrukt.

Arch-Router: Het Afstemmen van LLM-Routing op Menselijke Voorkeuren
Arch-Router: Aligning LLM Routing with Human Preferences

Jun 19, 2025

Co Tran, Salman Paracha, Adil Hafeez, Shuguang Chen

102

Met de snelle opkomst van grote taalmodellen (LLM's) – elk geoptimaliseerd voor verschillende sterktes, stijlen of latentie/kostenprofielen – is routering een essentiële techniek geworden om het gebruik van verschillende modellen operationeel te maken. Bestaande LLM-routeringsbenaderingen hebben echter twee belangrijke beperkingen: ze evalueren prestaties met behulp van benchmarks die vaak geen rekening houden met menselijke voorkeuren die worden gestuurd door subjectieve evaluatiecriteria, en ze selecteren meestal uit een beperkte pool van modellen. In dit werk stellen we een voorkeursafgestemd routeringsraamwerk voor dat modelselectie begeleidt door queries te matchen met door de gebruiker gedefinieerde domeinen (bijv. reizen) of actietypen (bijv. beeldbewerking) – wat een praktisch mechanisme biedt om voorkeuren in routeringsbeslissingen te coderen. Specifiek introduceren we Arch-Router, een compact 1,5B-model dat leert om queries toe te wijzen aan domein-actievoorkeuren voor routeringsbeslissingen. Onze aanpak ondersteunt ook het naadloos toevoegen van nieuwe modellen voor routering zonder hertraining of architectuurwijzigingen te vereisen. Experimenten op conversatiedatasets tonen aan dat onze aanpak state-of-the-art (SOTA) resultaten behaalt in het matchen van queries met menselijke voorkeuren, en daarbij toonaangevende propriëtaire modellen overtreft. Onze aanpak vangt subjectieve evaluatiecriteria en maakt routeringsbeslissingen transparanter en flexibeler. Ons model is beschikbaar op: https://huggingface.co/katanemo/Arch-Router-1.5B.

FairyGen: Verhalend tekenfilmvideo van een enkele door een kind getekende figuur
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Jun 26, 2025

Jiayi Zheng, Xiaodong Cun

We stellen FairyGen voor, een automatisch systeem voor het genereren van verhaalgedreven tekenfilmvideo's vanuit een enkele tekening van een kind, waarbij het unieke artistieke stijl trouw behouden blijft. In tegenstelling tot eerdere methoden voor verhalenvertelling die zich vooral richten op karakterconsistentie en basisbeweging, ontrafelt FairyGen expliciet karaktermodellering van gestileerde achtergrondgeneratie en integreert het cinematografische shotontwerp om expressief en samenhangend verhalenvertellen te ondersteunen. Gegeven een enkele karakterschets, gebruiken we eerst een MLLM om een gestructureerd storyboard te genereren met shotniveau-beschrijvingen die omgevingsinstellingen, karakteracties en cameraperspectieven specificeren. Om visuele consistentie te waarborgen, introduceren we een stijlpropagatie-adapter die de visuele stijl van het karakter vastlegt en toepast op de achtergrond, waardoor de volledige visuele identiteit van het karakter trouw behouden blijft terwijl stijlconsistente scènes worden gesynthetiseerd. Een shotontwerpmodule verbetert verder de visuele diversiteit en cinematografische kwaliteit door frame-cropping en multi-view-synthese op basis van het storyboard. Om het verhaal te animeren, reconstrueren we een 3D-proxy van het karakter om fysiek plausibele bewegingsreeksen af te leiden, die vervolgens worden gebruikt om een MMDiT-gebaseerd beeld-naar-video-diffusiemodel te finetunen. We stellen verder een tweefasen-bewegingscustomisatie-adapter voor: de eerste fase leert uiterlijkkenmerken van temporeel ongeordende frames, waarbij identiteit van beweging wordt ontrafeld; de tweede fase modelleert temporele dynamiek met behulp van een timestep-shift-strategie met bevroren identiteitsgewichten. Eenmaal getraind, rendert FairyGen direct diverse en samenhangende videoscènes die zijn afgestemd op het storyboard. Uitgebreide experimenten tonen aan dat ons systeem animaties produceert die stilistisch trouw zijn, narratief gestructureerd met natuurlijke beweging, wat het potentieel voor gepersonaliseerde en boeiende verhalenanimatie benadrukt. De code zal beschikbaar zijn op https://github.com/GVCLab/FairyGen.

Een Agentisch Systeem voor Diagnose van Zeldzame Ziekten met Traceerbare Redenering
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Jun 25, 2025

Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie

Zeldzame ziekten treffen wereldwijd gezamenlijk meer dan 300 miljoen individuen, maar tijdige en accurate diagnose blijft een wijdverbreide uitdaging. Dit komt grotendeels door hun klinische heterogeniteit, lage individuele prevalentie en de beperkte bekendheid die de meeste clinici hebben met zeldzame aandoeningen. Hier introduceren we DeepRare, het eerste zeldzame ziekte-diagnose agentsysteem aangedreven door een groot taalmodel (LLM), dat in staat is om heterogene klinische invoer te verwerken. Het systeem genereert gerangschikte diagnostische hypothesen voor zeldzame ziekten, elk vergezeld van een transparante redeneerketen die tussenliggende analytische stappen koppelt aan verifieerbaar medisch bewijs. DeepRare bestaat uit drie belangrijke componenten: een centrale host met een langetermijngeheugenmodule; gespecialiseerde agentservers die verantwoordelijk zijn voor domeinspecifieke analytische taken, waarbij meer dan 40 gespecialiseerde tools en web-schaal, up-to-date medische kennisbronnen worden geïntegreerd, waardoor toegang tot de meest actuele klinische informatie wordt gegarandeerd. Dit modulaire en schaalbare ontwerp maakt complexe diagnostische redenering mogelijk terwijl traceerbaarheid en aanpasbaarheid behouden blijven. We evalueren DeepRare op acht datasets. Het systeem toont uitzonderlijke diagnostische prestaties onder 2.919 ziekten, met een nauwkeurigheid van 100% voor 1013 ziekten. In HPO-gebaseerde evaluaties presteert DeepRare aanzienlijk beter dan 15 andere methoden, zoals traditionele bioinformatica-diagnosetools, LLM's en andere agentsystemen, met een gemiddelde Recall@1-score van 57,18% en overtreft het de op een na beste methode (Reasoning LLM) met een aanzienlijke marge van 23,79 procentpunten. Voor multi-modale invoerscenario's behaalt DeepRare 70,60% bij Recall@1 vergeleken met Exomiser's 53,20% in 109 gevallen. Handmatige verificatie van redeneerketens door klinische experts bereikt 95,40% overeenstemming. Bovendien is het DeepRare-systeem geïmplementeerd als een gebruiksvriendelijke webapplicatie http://raredx.cn/doctor.

Generatieve Blokkenwereld: Objecten Verplaatsen in Afbeeldingen
Generative Blocks World: Moving Things Around in Pictures

Jun 25, 2025

Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad

We beschrijven Generative Blocks World om te interageren met de scène van een gegenereerde afbeelding door het manipuleren van eenvoudige geometrische abstracties. Onze methode representeert scènes als assemblages van convexe 3D-primitieven, en dezelfde scène kan worden weergegeven door verschillende aantallen primitieven, waardoor een editor hele structuren of kleine details kan verplaatsen. Zodra de scènegeometrie is bewerkt, wordt de afbeelding gegenereerd door een op stroming gebaseerde methode die is geconditioneerd op diepte en een textuuraanwijzing. Onze textuuraanwijzing houdt rekening met de gewijzigde 3D-primitieven en overtreft de textuurconsistentie die wordt geboden door bestaande key-value caching-technieken. Deze textuuraanwijzingen (a) maken nauwkeurige object- en camerabewegingen mogelijk en (b) behouden grotendeels de identiteit van de afgebeelde objecten. Kwantitatieve en kwalitatieve experimenten tonen aan dat onze aanpak eerdere werken overtreft in visuele geloofwaardigheid, bewerkbaarheid en compositionele generalisatie.

DiLoCoX: Een Laag-Communicatie Groot-Schaal Trainingsraamwerk voor Gedecentraliseerde Clusters
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

Jun 26, 2025

Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich

De gedistribueerde training van foundation models, met name grote taalmodellen (LLMs), vereist een hoog niveau van communicatie. Hierdoor is het sterk afhankelijk van een gecentraliseerd cluster met snelle en betrouwbare interconnecties. Kunnen we training uitvoeren op langzame netwerken en daarmee de kracht van gedecentraliseerde clusters benutten bij het omgaan met modellen die meer dan 100 miljard parameters bevatten? In dit artikel introduceren we DiLoCoX, een low-communication, grootschalig gedecentraliseerd clustertrainingsframework. Het combineert Pipeline Parallelism met een Dual Optimizer Policy, One-Step-Delay Overlap van communicatie en lokale training, en een Adaptief Gradient Compressie Schema. Deze combinatie verbetert aanzienlijk de schaal van parameters en de snelheid van modelpre-training. We rechtvaardigen de voordelen van de one-step-delay overlap van communicatie en lokale training, evenals het adaptieve gradient compressie schema, door middel van een theoretische convergentieanalyse. Empirisch tonen we aan dat DiLoCoX in staat is om een 107B foundation model te pre-trainen over een 1Gbps netwerk. Vergeleken met vanilla AllReduce kan DiLoCoX een 357x versnelling bereiken in gedistribueerde training, terwijl de degradatie in modelconvergentie verwaarloosbaar blijft. Voor zover wij weten, is dit het eerste gedecentraliseerde trainingsframework dat met succes is toegepast op modellen met meer dan 100 miljard parameters.

DuaShepherd: Integratie van stapsgewijze correctheid en potentiële beloningen voor wiskundige redenering
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

Jun 21, 2025

Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu

In dit artikel introduceren we DuaShepherd, een nieuw raamwerk voor beloningsmodellering dat twee complementaire beloningssignalen integreert, namelijk correctheid en potentieel, om de wiskundige redeneervaardigheden van Large Language Models (LLM's) te verbeteren. Terwijl correctheidsgebaseerde signalen de nadruk leggen op het identificeren van stapsgewijze fouten, richten potentieelgebaseerde signalen zich op de waarschijnlijkheid om het juiste eindantwoord te bereiken. We hebben een geautomatiseerde pijplijn ontwikkeld voor het construeren van een grootschalige dataset voor beloningsmodellering met beide signalen. Een geünificeerde, multi-head architectuur werd onderzocht om de twee beloningsmodellen te trainen in een multi-task opzet, waarbij voordelen werden aangetoond van het parallel leren van zowel correctheid als potentieel. Door deze twee signalen te combineren in een samengestelde waarschijnlijkheid, behaalt ons model consistente prestatieverbeteringen op meerdere benchmarks. Empirische evaluaties op MATH500 en ProcessBench bevestigen dat deze gecombineerde beloning aanzienlijk beter presteert dan modellen die alleen op één beloningstype zijn getraind, en bereikt state-of-the-art prestaties onder vergelijkbare resourcebeperkingen.

MuseControlLite: Multifunctionele Muziekgeneratie met Lichtgewicht Conditioners
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

Jun 23, 2025

Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang

Wij stellen MuseControlLite voor, een lichtgewicht mechanisme ontworpen om tekst-naar-muziekgeneratiemodellen te finetunen voor precieze conditionering met behulp van diverse tijdsvariërende muzikale attributen en referentie-audiosignalen. De belangrijkste bevinding is dat positionele embeddings, die zelden worden gebruikt door tekst-naar-muziekgeneratiemodellen in de conditioner voor tekstcondities, cruciaal zijn wanneer de conditie van belang een functie van tijd is. Met melodiecontrole als voorbeeld tonen onze experimenten aan dat het simpelweg toevoegen van roterende positionele embeddings aan de ontkoppelde cross-attentielagen de controle-nauwkeurigheid verhoogt van 56,6% naar 61,1%, terwijl 6,75 keer minder trainbare parameters nodig zijn dan state-of-the-art finetuning-mechanismen, gebruikmakend van hetzelfde vooraf getrainde diffusie-Transformer-model van Stable Audio Open. We evalueren diverse vormen van muzikaal attribuutcontrole, audio-inpainting en audio-outpainting, en demonstreren verbeterde bestuurbaarheid ten opzichte van MusicGen-Large en Stable Audio Open ControlNet tegen aanzienlijk lagere finetuningkosten, met slechts 85M trainbare parameters. Broncode, modelcheckpoints en demo-voorbeelden zijn beschikbaar op: https://musecontrollite.github.io/web/.

HeurAgenix: Benutten van LLM's voor het Oplossen van Complexe Combinatorische Optimalisatieproblemen
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Jun 18, 2025

Xianliang Yang, Ling Zhang, Haolong Qian, Lei Song, Jiang Bian

Heuristische algoritmen spelen een cruciale rol bij het oplossen van combinatorische optimalisatieproblemen (CO), maar traditionele ontwerpen zijn sterk afhankelijk van handmatige expertise en hebben moeite om te generaliseren over diverse instanties. Wij introduceren HeurAgenix, een tweefasen hyper-heuristisch raamwerk aangedreven door grote taalmodellen (LLM's) dat eerst heuristieken ontwikkelt en vervolgens automatisch daartussen selecteert. In de heuristische evolutiefase benut HeurAgenix een LLM om seed-heuristische oplossingen te vergelijken met oplossingen van hogere kwaliteit en herbruikbare evolutiestrategieën te extraheren. Tijdens het oplossen van problemen kiest het dynamisch de meest veelbelovende heuristiek voor elke probleemtoestand, geleid door het waarnemingsvermogen van het LLM. Voor flexibiliteit kan deze selector een state-of-the-art LLM zijn of een fijn afgestemd lichtgewicht model met lagere inferentiekosten. Om het gebrek aan betrouwbare supervisie veroorzaakt door de complexiteit van CO te verminderen, stellen we de lichtgewicht heuristische selector af met een dubbele beloningsmechanisme dat gezamenlijk gebruikmaakt van signalen uit selectievoorkeuren en toestandswaarneming, waardoor robuuste selectie mogelijk wordt onder ruisachtige annotaties. Uitgebreide experimenten op canonieke benchmarks tonen aan dat HeurAgenix niet alleen bestaande LLM-gebaseerde hyper-heuristieken overtreft, maar ook gespecialiseerde oplossers evenaart of overstijgt. Code is beschikbaar op https://github.com/microsoft/HeurAgenix.

Een Agentisch Systeem voor Diagnose van Zeldzame Ziekten met Traceerbare Redenering
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Jun 25, 2025

Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie

Dagelijkse Papers

Mind2Web 2: Evaluatie van Agentisch Zoeken met Agent-als-Rechter
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

FaSTA^: Snelle-Trage Toolpath Agent met Subroutine Mining voor Efficiënte Multi-turn Beeldbewerking
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

WorldVLA: Op Weg naar een Autoregressief Actie Wereldmodel
WorldVLA: Towards Autoregressive Action World Model

MADrive: Geheugen-versterkte modellering van rijsituaties
MADrive: Memory-Augmented Driving Scene Modeling

Waar vind je Grokking in LLM-pretraining? Monitor Memorisatie-naar-Generalizatie zonder Test
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Leren om de middelste lagen van Transformers over te slaan
Learning to Skip the Middle Layers of Transformers

SAM4D: Segmenteren van alles in camera- en LiDAR-streams
SAM4D: Segment Anything in Camera and LiDAR Streams

Heel-lichaamsgeconditioneerde egocentrische videovoorspelling
Whole-Body Conditioned Egocentric Video Prediction

PhysRig: Differentieerbaar Fysica-Gebaseerd Skinning- en Rigging-Framework voor Realistische Modellering van Gearticuleerde Objecten
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Arch-Router: Het Afstemmen van LLM-Routing op Menselijke Voorkeuren
Arch-Router: Aligning LLM Routing with Human Preferences

FairyGen: Verhalend tekenfilmvideo van een enkele door een kind getekende figuur
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Een Agentisch Systeem voor Diagnose van Zeldzame Ziekten met Traceerbare Redenering
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Generatieve Blokkenwereld: Objecten Verplaatsen in Afbeeldingen
Generative Blocks World: Moving Things Around in Pictures

DiLoCoX: Een Laag-Communicatie Groot-Schaal Trainingsraamwerk voor Gedecentraliseerde Clusters
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

DuaShepherd: Integratie van stapsgewijze correctheid en potentiële beloningen voor wiskundige redenering
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

MuseControlLite: Multifunctionele Muziekgeneratie met Lichtgewicht Conditioners
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

HeurAgenix: Benutten van LLM's voor het Oplossen van Complexe Combinatorische Optimalisatieproblemen
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Support

Support

Dagelijkse Papers

Mind2Web 2: Evaluatie van Agentisch Zoeken met Agent-als-Rechter
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

FaSTA^: Snelle-Trage Toolpath Agent met Subroutine Mining voor Efficiënte Multi-turn Beeldbewerking
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

WorldVLA: Op Weg naar een Autoregressief Actie Wereldmodel
WorldVLA: Towards Autoregressive Action World Model

MADrive: Geheugen-versterkte modellering van rijsituaties
MADrive: Memory-Augmented Driving Scene Modeling

Waar vind je Grokking in LLM-pretraining? Monitor Memorisatie-naar-Generalizatie zonder Test
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Leren om de middelste lagen van Transformers over te slaan
Learning to Skip the Middle Layers of Transformers

SAM4D: Segmenteren van alles in camera- en LiDAR-streams
SAM4D: Segment Anything in Camera and LiDAR Streams

Heel-lichaamsgeconditioneerde egocentrische videovoorspelling
Whole-Body Conditioned Egocentric Video Prediction

PhysRig: Differentieerbaar Fysica-Gebaseerd Skinning- en Rigging-Framework voor Realistische Modellering van Gearticuleerde Objecten
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Arch-Router: Het Afstemmen van LLM-Routing op Menselijke Voorkeuren
Arch-Router: Aligning LLM Routing with Human Preferences

FairyGen: Verhalend tekenfilmvideo van een enkele door een kind getekende figuur
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Een Agentisch Systeem voor Diagnose van Zeldzame Ziekten met Traceerbare Redenering
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Generatieve Blokkenwereld: Objecten Verplaatsen in Afbeeldingen
Generative Blocks World: Moving Things Around in Pictures

DiLoCoX: Een Laag-Communicatie Groot-Schaal Trainingsraamwerk voor Gedecentraliseerde Clusters
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

DuaShepherd: Integratie van stapsgewijze correctheid en potentiële beloningen voor wiskundige redenering
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

MuseControlLite: Multifunctionele Muziekgeneratie met Lichtgewicht Conditioners
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

HeurAgenix: Benutten van LLM's voor het Oplossen van Complexe Combinatorische Optimalisatieproblemen
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges