HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

24 papers found

DataFlow: Een LLM-gestuurd Kader voor Uniforme Gegevensvoorbereiding en Workflowautomatisering in het Tijdperk van Data-Gedreven AI
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Dec 18

ByHao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang

217

De snelgroeiende vraag naar hoogwaardige data voor Large Language Models (LLM's) heeft de behoefte aan schaalbare, betrouwbare en semantisch rijke datavoorbereidingspijplijnen geïntensiveerd. Huidige praktijken worden echter nog steeds gedomineerd door ad-hoc scripts en losjes gespecificeerde workflows, die gebrek hebben aan principiële abstracties, reproduceerbaarheid belemmeren en beperkte ondersteuning bieden voor model-in-the-loop data-generatie. Om deze uitdagingen aan te pakken, presenteren wij DataFlow, een uniform en uitbreidbaar LLM-gestuurd framework voor datavoorbereiding. DataFlow is ontworpen met systeemniveau-abstractions die modulaire, herbruikbare en samenstelbare datatransformaties mogelijk maken, en biedt een PyTorch-stijl pijplijnconstructie-API voor het bouwen van debugbare en optimaliseerbare dataflows. Het framework bestaat uit bijna 200 herbruikbare operatoren en zes domeingenerieke pijplijnen voor tekst, wiskundig redeneren, code, Text-to-SQL, agent-gebaseerde RAG en grootschalige kennisextractie. Om de bruikbaarheid verder te verbeteren, introduceren we DataFlow-Agent, dat natuurlijke-taalspecificaties automatisch vertaalt naar uitvoerbare pijplijnen via operator-synthese, pijplijnplanning en iteratieve verificatie. In zes representatieve use cases verbetert DataFlow consistent de prestaties van downstream LLM's. Onze wiskunde-, code- en tekstpijplijnen overtreffen door mensen samengestelde datasets en gespecialiseerde synthetische baselines, met een verbetering van tot +3% in uitvoeringsnauwkeurigheid voor Text-to-SQL ten opzichte van SynSQL, gemiddelde verbeteringen van +7% op code benchmarks, en winst van 1–3 punten op MATH, GSM8K en AIME. Bovendien stelt een uniforme 10K-sample dataset, gegenereerd door DataFlow, basismodellen in staat tegenhangers te overtreffen die zijn getraind op 1M Infinity-Instruct data. Deze resultaten tonen aan dat DataFlow een praktisch en hoogpresterend substraat biedt voor betrouwbare, reproduceerbare en schaalbare LLM-datavoorbereiding, en een systeemniveau-fundering legt voor toekomstige data-gerichte AI-ontwikkeling.

De Prisma-hypothese: Het Harmoniseren van Semantische en Pixelrepresentaties via Geünificeerde Auto-encodering
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Dec 22

ByWeichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu

Diepe representaties tussen modaliteiten zijn inherent met elkaar verweven. In dit artikel analyseren wij systematisch de spectrale kenmerken van diverse semantische en pixelencoders. Opmerkelijk genoeg onthult ons onderzoek een hoogst inspirerende en zelden verkende correspondentie tussen het featurespectrum van een encoder en zijn functionele rol: semantische encoders vangen voornamelijk laagfrequente componenten op die abstracte betekenis coderen, terwijl pixelencoders daarnaast hoogfrequente informatie behouden die fijnmazige details overbrengt. Deze heuristische bevinding biedt een verenigend perspectief dat encoder-gedrag verbindt met zijn onderliggende spectrale structuur. Wij definiëren dit als de Prismahypothese, waarbij elke datamodaliteit kan worden gezien als een projectie van de natuurlijke wereld op een gedeeld featurespectrum, net zoals bij een prisma. Voortbordurend op dit inzicht presenteren wij Unified Autoencoding (UAE), een model dat semantische structuur en pixeldetails harmoniseert via een innovatieve frequentiebandmodulator, waardoor hun naadloze co-existentie mogelijk wordt. Uitgebreide experimenten op ImageNet- en MS-COCO-benchmarks bevestigen dat onze UAE semantische abstractie en pixel-level nauwkeurigheid effectief verenigt in een enkele latente ruimte met state-of-the-art prestaties.

Regiogebonden In-Context Generatie voor Instructievideo-bewerking
Region-Constraint In-Context Generation for Instructional Video Editing

Dec 19

ByZhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei

Het in-context generatieparadigma heeft recentelijk zijn kracht getoond bij instructiegebaseerde beeldbewerking, zowel wat betreft data-efficiëntie als synthesekwaliteit. Het toepassen van dergelijk in-context leren op instructiegebaseerde videobewerking is echter niet triviaal. Zonder specificatie van bewerkingsgebieden kunnen de resultaten lijden onder onnauwkeurige bewerkingsregio's en tokeninterferentie tussen bewerkings- en niet-bewerkingsgebieden tijdens denoisen. Om deze problemen aan te pakken, presenteren wij ReCo, een nieuw paradigma voor instructiegebaseerde videobewerking dat op een nieuwe manier constraintmodellering tussen bewerkings- en niet-bewerkingsgebieden tijdens in-context generatie onderzoekt. Technisch gezien concateneert ReCo bron- en doelvideo in de breedte voor gezamenlijk denoisen. Om videodiffusieleren te kalibreren, benut ReCo twee regularisatietermen, namelijk latente regularisatie en aandachtregularisatie, die respectievelijk worden toegepast op één-stap-terug gedenoiste latente representaties en aandachtmaps. De eerste vergroot het latente verschil van het bewerkingsgebied tussen bron- en doelvideo's, terwijl het dat van niet-bewerkingsgebieden verkleint, waardoor de modificatie van het bewerkingsgebied wordt benadrukt en onverwachte contentgeneratie daarbuiten wordt verminderd. De tweede onderdrukt de aandacht van tokens in het bewerkingsgebied voor tokens in het tegenhangergebied van de bronvideo, waardoor hun interferentie tijdens de generatie van nieuwe objecten in de doelvideo wordt gemitigeerd. Verder stellen wij een grootschalige, hoogwaardige videobewerkingsdataset voor, genaamd ReCo-Data, bestaande uit 500K instructie-videoparen om modeltraining te bevorderen. Uitgebreide experimenten uitgevoerd op vier belangrijke instructiegebaseerde videobewerkingstaken demonstreren de superioriteit van onze methode.

QuCo-RAG: Kwantificering van Onzekerheid uit het Pre-trainingscorpus voor Dynamische Retrieval-Augmented Generation
QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Dec 22

ByDehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng

Dynamische Retrieval-Augmented Generation bepaalt adaptief wanneer er tijdens het genereren moet worden opgehaald om hallucinaties in grote taalmodellen (LLM's) te verminderen. Bestaande methoden vertrouwen echter op modelinterne signalen (bijvoorbeeld logits, entropie), die fundamenteel onbetrouwbaar zijn omdat LLM's doorgaans slecht gekalibreerd zijn en vaak een hoog vertrouwen tonen in foutieve uitvoer. Wij stellen QuCo-RAG voor, dat verschuift van subjectief vertrouwen naar objectieve statistieken berekend uit pre-trainingsdata. Onze methode kwantificeert onzekerheid in twee fasen: (1) vóór generatie identificeren we laagfrequente entiteiten die wijzen op kennislacunes in de lange staart; (2) tijdens generatie verifiëren we de co-voorkomen van entiteiten in het pre-trainingscorpus, waarbij nul co-voorkomen vaak een hallucinatierisico signaleert. Beide fasen benutten Infini-gram voor milliseconde-latentie queries over 4 biljoen tokens, waarbij retrieval wordt geactiveerd bij hoge onzekerheid. Experimenten op multi-hop QA benchmarks tonen aan dat QuCo-RAG EM-winst behaalt van 5–12 punten ten opzichte van state-of-the-art baselines met OLMo-2-modellen, en effectief transferleert naar modellen met niet-openbare pre-trainingsdata (Llama, Qwen, GPT), met EM-verbeteringen tot 14 punten. Domeingeneralizatie op biomedische QA valideert verder de robuustheid van ons paradigma. Deze resultaten vestigen corpusgebaseerde verificatie als een principieel, praktisch modelagnostisch paradigma voor dynamische RAG. Onze code is openbaar beschikbaar op https://github.com/ZhishanQ/QuCo-RAG.

WorldWarp: Propagatie van 3D-geometrie met asynchrone videodiffusie
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

Dec 22

ByHanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang

Het genereren van videobeelden met een lange reikwijdte en geometrische consistentie stelt ons voor een fundamenteel dilemma: enerzijds vereist consistentie strikte naleving van 3D-geometrie in de pixelruimte, terwijl state-of-the-art generatieve modellen het meest effectief opereren in een gecamouflageerde latente ruimte. Deze kloof zorgt ervoor dat huidige methoden moeite hebben met occlusiegebieden en complexe camerabewegingen. Om deze kloof te overbruggen, stellen we WorldWarp voor: een raamwerk dat een 3D-structuuranker koppelt aan een 2D-generatieve verfijner. Voor geometrische verankering onderhoudt WorldWarp een online 3D-geometrische cache, opgebouwd via Gaussian Splatting (3DGS). Door historische content expliciet naar nieuwe gezichtspunten te transformeren, fungeert deze cache als een structurele scaffold, waarmee elk nieuw frame de bestaande geometrie respecteert. Statische transformatie laat echter onvermijdelijk gaten en artefacten achter door occlusies. Wij lossen dit op met een Spatio-Temporeel Diffusie (ST-Diff) model, ontworpen voor een "opvul-en-revise" doelstelling. Onze belangrijkste innovatie is een ruimtelijk-temporeel variërend ruisschema: lege regio's krijgen volledige ruis om generatie te activeren, terwijl getransformeerde regio's gedeeltelijke ruis krijgen voor verfijning. Door de 3D-cache bij elke stap dynamisch bij te werken, handhaaft WorldWarp consistentie over videosegmenten. Hierdoor bereikt het state-of-the-art kwaliteit door ervoor te zorgen dat 3D-logica de structuur leidt, terwijl diffusielogica de textuur perfectioneert. Projectpagina: https://hyokong.github.io/worldwarp-page/.

Oneindige-Homografie als Robuuste Conditionering voor Camera-Gestuurde Videogeneratie
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

Dec 18

ByMin-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo

Recente vooruitgang in videodiffusiemodellen heeft een groeiende interesse gewekt in camera-gestuurde novel-view videogeneratie voor dynamische scènes, met als doel makers cinematografische camerabesturingsmogelijkheden te bieden in de postproductie. Een belangrijke uitdaging bij camera-gestuurde videogeneratie is het waarborgen van trouw aan de gespecificeerde camerapositie, terwijl viewconsistentie behouden blijft en occluded geometrie wordt afgeleid uit beperkte observaties. Om dit aan te pakken, trainen bestaande methodes ofwel een traject-geconditioneerd videogeneratiemodel op een dataset van traject-videoparen, of schatten ze diepte uit de invoervideo om deze te reprojecteren langs een doeltraject en de niet-geprojecteerde gebieden te genereren. Desalniettemin worstelen bestaande methodes met het genereren van camera-positie-getrouwe, hoogwaardige video's om twee hoofdredenen: (1) op reprojectie gebaseerde benaderingen zijn zeer gevoelig voor fouten veroorzaakt door onnauwkeurige diepteschatting; en (2) de beperkte diversiteit aan cameratrajecten in bestaande datasets beperkt geleerde modellen. Om deze beperkingen aan te pakken, presenteren we InfCam, een dieptevrij, camera-gestuurd video-naar-video generatieraamwerk met hoge positiegetrouwheid. Het raamwerk integreert twee kernelementen: (1) infinite homography warping, dat 3D-camerarotaties direct codeert binnen de 2D-latente ruimte van een videodiffusiemodel. Door conditionering op deze ruisvrije rotatie-informatie wordt de residuele parallaxterm voorspeld via end-to-end training om hoge camera-positiegetrouwheid te bereiken; en (2) een data-augmentatiepijplijn die bestaande synthetische multiview-datasets omzet in sequenties met diverse trajecten en brandpuntsafstanden. Experimentele resultaten tonen aan dat InfCam baseline-methodes overtreft in camerapositienauwkeurigheid en visuele getrouwheid, en goed generaliseert van synthetische naar real-world data. Link naar onze projectpagina: https://emjay73.github.io/InfCam/

LoGoPlanner: Navigatiebeleid Gegrond in Lokalisatie met Metrisch-bewuste Visuele Geometrie
LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Dec 22

ByJiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang

Trajectorieplanning in ongestructureerde omgevingen is een fundamentele en uitdagende capaciteit voor mobierobots. Traditionele modulaire pijplijnen kampen met latentie en cascade-fouten tussen perceptie-, lokalisatie-, mapping- en planningsmodules. Recente end-to-end leermethoden vertalen ruwe visuele observaties direct naar stuursignalen of trajecten, wat een grotere prestaties en efficiëntie in open-wereldomgevingen belooft. Echter, de meeste bestaande end-to-end methoden blijven afhankelijk van aparte lokalisatiemodules die accurate extrinsieke sensorkalibratie vereisen voor toestandsschatting, wat de generalisatie over verschillende robotconfiguraties en omgevingen beperkt. Wij introduceren LoGoPlanner, een op lokalisatie gebaseerd end-to-end navigatieraamwerk dat deze beperkingen aanpakt door: (1) het finetunen van een visueel-geometrische backbone met lange-termijnhorizon om voorspellingen te gronden in absolute metrieke schaal, waardoor impliciete toestandsschatting voor accurate lokalisatie wordt verschaft; (2) het reconstrueren van omringende scènegeometrie uit historische observaties om dichte, fijnmazige omgevingsbewustzoning te leveren voor betrouwbare obstakelvermijding; en (3) het conditioneren van het beleid op impliciete geometrie opgestart door de bovengenoemde hulptaken, waardoor foutpropagatie wordt verminderd. Wij evalueren LoGoPlanner in zowel simulatie- als real-world settings, waar het volledig end-to-end ontwerp cumulatieve fouten vermindert terwijl metrieke-geometriegeheugen de planningsconsistentie en obstakelvermijding verbetert, wat leidt tot meer dan 27,3% verbetering ten opzichte van baseline-methoden met perfecte lokalisatie en sterke generalisatie over robotconfiguraties en omgevingen. De code en modellen zijn openbaar gemaakt op de https://steinate.github.io/logoplanner.github.io/{projectpagina}.

Kunnen LLM's Studentenmoeilijkheden Inschatten? Afstemming tussen Mens en AI over Moeilijkheidsgraad met Vaardigheidssimulatie voor het Voorspellen van Itemmoeilijkheid
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

Dec 21

ByMing Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou

Nauwkeurige inschatting van de moeilijkheidsgraad van items (vragen of taken) is cruciaal voor onderwijsassessment, maar lijdt onder het 'cold start'-probleem. Hoewel grote taalmodellen bovenmenselijke probleemoplossende vermogens demonstreren, blijft het een open vraag of ze de cognitieve worsteling van menselijke leerders kunnen waarnemen. In dit werk presenteren we een grootschalige empirische analyse van Human-AI Moeilijkheidsafstemming voor meer dan 20 modellen binnen diverse domeinen zoals medische kennis en wiskundig redeneren. Onze bevindingen onthullen een systematische misalignering waarbij opschaling van modelgrootte niet betrouwbaar helpt; in plaats van af te stemmen op mensen, convergeren modellen naar een gedeelde machineconsensus. We observeren dat hoge prestaties vaak een accurate moeilijkheidsinschatting belemmeren, aangezien modellen moeite hebben om de beperkingen in het kunnen van studenten te simuleren, zelfs wanneer ze expliciet worden aangezet om specifieke vaardigheidsniveaus aan te nemen. Verder identificeren we een kritisch gebrek aan introspectie, aangezien modellen niet in staat zijn hun eigen beperkingen te voorspellen. Deze resultaten suggereren dat algemeen probleemoplossend vermogen geen begrip van menselijke cognitieve worstelingen impliceert, wat de uitdaging benadrukt van het gebruik van huidige modellen voor geautomatiseerde moeilijkheidsvoorspelling.

Is There a Better Source Distribution than Gaussian? Exploring Source Distributions for Image Flow Matching

Dec 20

ByJunho Lee, Kwanseok Kim, Joonseok Lee

Flow matching has emerged as a powerful generative modeling approach with flexible choices of source distribution. While Gaussian distributions are commonly used, the potential for better alternatives in high-dimensional data generation remains largely unexplored. In this paper, we propose a novel 2D simulation that captures high-dimensional geometric properties in an interpretable 2D setting, enabling us to analyze the learning dynamics of flow matching during training. Based on this analysis, we derive several key insights about flow matching behavior: (1) density approximation can paradoxically degrade performance due to mode discrepancy, (2) directional alignment suffers from path entanglement when overly concentrated, (3) Gaussian's omnidirectional coverage ensures robust learning, and (4) norm misalignment incurs substantial learning costs. Building on these insights, we propose a practical framework that combines norm-aligned training with directionally-pruned sampling. This approach maintains the robust omnidirectional supervision essential for stable flow learning, while eliminating initializations in data-sparse regions during inference. Importantly, our pruning strategy can be applied to any flow matching model trained with a Gaussian source, providing immediate performance gains without the need for retraining. Empirical evaluations demonstrate consistent improvements in both generation quality and sampling efficiency. Our findings provide practical insights and guidelines for source distribution design and introduce a readily applicable technique for improving existing flow matching models. Our code is available at https://github.com/kwanseokk/SourceFM.

Redeneerpalet: Modulatie van Redeneren via Latente Contextualisatie voor Beheerbare Verkenning voor (V)LM's
Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

Dec 19

ByRujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng

Exploratiecapaciteit beïnvloedt zowel de prestaties tijdens inferentie als de training met reinforcement learning (RL) voor grote (vision-)taalmodellen, omdat stochastische bemonstering vaak redundante redeneerpaden oplevert met weinig hoogwaardige diversiteit. Dit artikel stelt Reasoning Palette voor, een nieuw latent-modulatieraamwerk dat het model voorziet van een stochastische latente variabele voor strategische contextualisering, die de interne planning vóór de token-generatie begeleidt. Deze latente context wordt afgeleid uit de gemiddeld gepoolde embedding van een vraag-antwoordpaar via een variational autoencoder (VAE), waarbij elke bemonsterde latente variabele mogelijk een afzonderlijke redeneercontext codeert. Tijdens inferentie wordt een bemonsterde latente variabele gedecodeerd naar leerbare tokenprefixen en voorgevoegd aan de invoerprompt, waardoor de interne redeneertrajectorie van het model wordt gemoduleerd. Op deze manier voert het model interne bemonstering uit van redeneerstrategieën vóór de generatie van de uitvoer, wat de stijl en structuur van de volledige responssequentie vormgeeft. Een korte opwarmfase met supervised fine-tuning (SFT) stelt het model in staat zich aan te passen aan deze latente conditionering. Binnen RL-optimalisatie vergemakkelijkt Reasoning Palette gestructureerde exploratie door on-demand injectie van diverse redeneermodi mogelijk te maken, wat de exploratie-efficiëntie en het volgehouden leervermogen aanzienlijk verbetert. Experimenten op meerdere redeneerbenchmarks tonen aan dat onze methode interpreteerbare en controleerbare sturing over het strategisch gedrag van het (vision-)taalmodel mogelijk maakt, waardoor consistente prestatieverbeteringen worden bereikt ten opzichte van standaard RL-methoden.

UCoder: Onbewaakte Codegeneratie door Interne Verkenning van Grote Taalmodellen
UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

Dec 19

ByJiajun Wu, Jian Yang, Wei Zhang, Lin Jing, Yuqing Ma, Ensheng Shi, Yuchi Ma, Zhoujun Li, Xianglong Liu

Grootschalige taalmodel(len (LLM's) hebben opmerkelijke capaciteiten getoond bij codegeneratietaken. Hun effectiviteit is echter sterk afhankelijk van supervised training met uitgebreide gelabelde (bijvoorbeeld vraag-antwoordparen) of ongelabelde datasets (zoals codefragmenten), die vaak kostbaar en moeilijk op grote schaal te verkrijgen zijn. Om deze beperking aan te pakken, introduceert dit artikel een methode genaamd IPC, een unsupervised raamwerk dat gebruikmaakt van Internal Probing van LLM's voor codegeneratie zonder enig extern corpus, zelfs zonder ongelabelde codefragmenten. We introduceren problem space probing, test understanding probing, solution space probing, en knowledge consolidation and reinforcement om de interne kennis en betrouwbaarheidspatronen die in LLM's aanwezig zijn te onderzoeken. Verder identificeert IPC betrouwbare codekandidaten via self-consistency-mechanismen en op representatie gebaseerde kwaliteitsschatting om UCoder (een coder met unsupervised learning) te trainen. We valideren de voorgestelde aanpak over meerdere codebenchmarks heen en tonen aan dat unsupervised methoden competitieve prestaties kunnen bereiken in vergelijking met supervised benaderingen, terwijl de afhankelijkheid van gelabelde data en computationele middelen aanzienlijk wordt verminderd. Analytische experimenten onthullen dat interne modelstatussen rijke signalen bevatten over codekwaliteit en -correctheid, en dat het goed benutten van deze signalen effectieve unsupervised learning voor codegeneratietaken mogelijk maakt, wat nieuwe richtingen opent voor het trainen van code-LLM's in scenarios met beperkte middelen.

StoryMem: Multi-shot Langdurige Videoverhalen met Geheugen
StoryMem: Multi-shot Long Video Storytelling with Memory

Dec 22

ByKaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan

Visuele storytelling vereist het genereren van multi-shot video's met cinematografische kwaliteit en consistentie over lange reeksen. Geïnspireerd door het menselijk geheugen, stellen wij StoryMem voor, een paradigma dat lange-video storytelling herformuleert als iteratieve shot-synthese, geconditioneerd op expliciet visueel geheugen, waarbij voorgetrainde single-shot video-diffusiemodellen worden getransformeerd in multi-shot storytellers. Dit wordt bereikt door een nieuw Memory-to-Video (M2V) ontwerp, dat een compacte en dynamisch bijgewerkte geheugenbank van keyframes uit gegenereerde historische shots onderhoudt. Het opgeslagen geheugen wordt vervolgens geïnjecteerd in single-shot video-diffusiemodellen via latente concatenatie en negatieve RoPE-shifts, met alleen LoRA fine-tuning. Een semantische keyframe-selectiestrategie, samen met esthetische voorkeursfiltering, zorgt verder voor informatieve en stabiele geheugentoegang tijdens de generatie. Bovendien biedt het voorgestelde framework natuurlijk ruimte voor vloeiende shotovergangen en toepassingen voor gepersonaliseerde storygeneratie. Om evaluatie te vergemakkelijken, introduceren we ST-Bench, een gevarieerde benchmark voor multi-shot video storytelling. Uitgebreide experimenten tonen aan dat StoryMem superieure consistentie tussen shots bereikt ten opzichte van eerdere methoden, terwijl het een hoge esthetische kwaliteit en prompt-naleving behoudt, wat een significante stap markeert richting coherente minutenlange video storytelling.

GenEnv: Moeilijkheidsafgestemde co-evolutie tussen LLM-agenten en omgevingssimulatoren
GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

Dec 22

ByJiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang

Het trainen van capabele Large Language Model (LLM)-agenten wordt ernstig beperkt door de hoge kosten en statische aard van real-world interactiedata. Wij pakken dit aan door GenEnv te introduceren, een raamwerk dat een moeilijkheids-afgestemd co-evolutionair spel opzet tussen een agent en een schaalbare, generatieve omgevingssimulator. In tegenstelling tot traditionele methoden die modellen op statische datasets evolueren, instantieert GenEnv een data-evolutie: de simulator fungeert als een dynamisch curriculumbeleid dat continu taken genereert die specifiek zijn afgestemd op de "zone van de naaste ontwikkeling" van de agent. Dit proces wordt geleid door een eenvoudige maar effectieve α-Curriculum Beloning, die de taakmoeilijkheid afstemt op de huidige capaciteiten van de agent. We evalueren GenEnv op vijf benchmarks, waaronder API-Bank, ALFWorld, BFCL, Bamboogle en TravelPlanner. Over deze taken heen verbetert GenEnv de agentprestatie met tot wel +40,3% ten opzichte van 7B-baselines en evenaart of overtreft het de gemiddelde prestatie van grotere modellen. Vergeleken met offline data-augmentatie op basis van Gemini 2.5 Pro behaalt GenEnv betere prestaties terwijl het 3,3 keer minder data gebruikt. Door de verschuiving van statische supervisie naar adaptieve simulatie biedt GenEnv een data-efficiënte route voor het schalen van agentcapaciteiten.

LoPA: Schaalvergroting van dLLM-inferentie via Lookahead Parallel Decodering
LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Dec 18

ByChenkai Xu, Yijie Jin, Jiajun Li, Yi Tu, Guoping Long, Dandan Tu, Mingcong Song, Hongjie Si, Tianqi Hou, Junchi Yan, Zhijie Deng

Diffusion Large Language Models (dLLM's) hebben aanzienlijk potentieel getoond voor snelle inferentie. De huidige vertrouwensgedreven decodeerstrategieën worden echter beperkt door een gebrek aan parallellisme, waarbij doorgaans slechts 1–3 tokens per forward pass (TPF) worden behaald. In dit werk tonen we aan dat de mate van parallellisme tijdens dLLM-inferentie zeer gevoelig is voor de Tokenvulvolgorde (TFO). Vervolgens introduceren we Lookahead Parallel Decoding (LoPA), een trainingsvrij, plug-and-play algoritme, om een superieure TFO te identificeren en daarmee de inferentie te versnellen. LoPA verkent gelijktijdig verschillende kandidaat-TFO's via parallelle takken en selecteert de volgorde met het grootste potentieel voor toekomstige parallellisme op basis van takvertrouwen. We passen LoPA toe op het state-of-the-art D2F-model en observeren een aanzienlijke verbetering in decodeerefficiëntie. Opmerkelijk is dat LoPA de TPF van D2F-Dream verhoogt naar 10,1 op de GSM8K-dataset, waarbij de prestaties superieur blijven aan de Dream-basislijn. Verder ontwikkelen we, om deze ongekende mate van parallellisme mogelijk te maken, een gespecialiseerd multi-device inferentiesysteem met Takparallellisme (BP), dat een doorvoer van 1073,9 tokens per seconde per sample bereikt in een multi-GPU-implementatie. De code is beschikbaar op https://github.com/zhijie-group/LoPA.

MobileWorld: Benchmarken van Autonome Mobiele Agenten in Interactieve Agent-Gebruiker- en MCP-uitgebreide Omgevingen
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

Dec 22

ByQuyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang

Onder de bestaande online benchmarks voor mobiel gebruik is AndroidWorld uitgegroeid tot de dominante benchmark vanwege zijn reproduceerbare omgeving en deterministische evaluatie. Recente agents die slagingspercentages van meer dan 90% behalen, duiden echter op verzadiging en benadrukken de behoefte aan een uitdagendere benchmark. Bovendien ontbreken in zijn omgeving cruciale applicatiecategorieën, zoals e-commerce en zakelijke communicatie, en weerspiegelt deze geen realistische mobiele gebruiksscenario's die worden gekenmerkt door vage gebruikersinstructies en hybride toolgebruik. Om deze kloof te overbruggen, introduceren we MobileWorld, een aanzienlijk uitdagendere benchmark die is ontworpen om het werkelijke mobiele gebruik beter te reflecteren. Deze omvat 201 taken verspreid over 20 applicaties, waarbij hetzelfde niveau van reproduceerbare evaluatie als AndroidWorld wordt gehandhaafd. De moeilijkheidsgraad van MobileWorld is tweeledig. Ten eerste legt de benchmark de nadruk op taken met een lange tijdshorizon en interacties tussen applicaties: MobileWorld vereist gemiddeld bijna twee keer zoveel stappen om een taak te voltooien (27,8 versus 14,3) en omvat aanzienlijk meer multi-applicatietaken (62,2% versus 9,5%) in vergelijking met AndroidWorld. Ten tweede gaat MobileWorld verder dan standaard GUI-manipulatie door nieuwe taakcategorieën te introduceren, waaronder agent-gebruikerinteractie en MCP-versterkte taken. Om een robuuste evaluatie te garanderen, bieden we een op snapshots gebaseerde containeromgeving en nauwkeurige functionele verificaties, inclusief inspectie van backend-databases en taakcallback-API's. We ontwikkelen verder een planner-executor agentic framework met uitgebreide actieruimtes om gebruikersinteracties en MCP-aanroepen te ondersteunen. Onze resultaten tonen een scherpe daling in prestaties vergeleken met AndroidWorld, waarbij het beste agentic framework en het end-to-end model respectievelijk slagingspercentages van 51,7% en 20,9% behalen. Onze analyse toont aan dat huidige modellen aanzienlijke moeite hebben met gebruikersinteractie en MCP-aanroepen, wat een strategische routekaart biedt naar robuustere, next-generation mobiele intelligentie.

CASA: Kruis-attentie via Zelf-attentie voor Efficiënte Visie-Taal Fusie
CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

Dec 22

ByMoritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez

Vision-language models (VLMs) worden doorgaans getraind door beeldtokens van een voorgetrainde visuele encoder in te voegen in de tekststroom van een taalmodel. Hierdoor kunnen tekst- en beeldinformatie volledig op elkaar inwerken binnen het model, maar dit wordt extreem kostbaar voor hoogresolutiebeelden, lange gesprekken of streamende video's, zowel qua geheugen als rekencapaciteit. VLMs die gebruikmaken van cross-attention vormen een efficiënt alternatief voor tokeninvoeging, maar vertonen een duidelijke prestatiekloof, met name bij taken die fijngranulaire visuele details vereisen. Wij constateren dat een sleutel tot verbetering van dergelijke modellen ligt in het mogelijk maken van lokale tekst-naar-tekst-interactie in de toegewijde cross-attentionlagen. Op basis hiervan stellen wij CASA voor, Cross-Attention via Self-Attention, een eenvoudig en efficiënt paradigma dat de kloof met volledige tokeninvoeging aanzienlijk verkleint op gangbare beeldbegriptestbanken, terwijl het dezelfde schaalbaarheid biedt als cross-attentionmodellen wanneer toegepast op multimodale taken met lange context, zoals ondertiteling van streamende video's. Voor voorbeelden en code, zie onze projectpagina op https://kyutai.org/casa.

Over++: Generatief Videocompositing voor Laaginteractie-effecten
Over++: Generative Video Compositing for Layer Interaction Effects

Dec 22

ByLuchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman

In professionele videocompositie-workflows moeten artiesten handmatig omgevingsinteracties - zoals schaduwen, reflecties, stof en spetters - tussen voorgrondobjecten en achtergrondlagen creëren. Bestaande videogeneratieve modellen slagen er niet in de invoervideo te behouden terwijl ze dergelijke effecten toevoegen, en huidige video-inpaintingmethoden vereisen ofwel kostbare maskers per frame of leveren ongeloofwaardige resultaten op. Wij introduceren *augmented compositing*, een nieuwe taak die realistische, semi-transparante omgevingseffecten synthetiseert op basis van tekstprompts en invoervideolagen, waarbij de oorspronkelijke scène behouden blijft. Om deze taak aan te pakken, presenteren wij Over++, een raamwerk voor videogeneratie dat geen aannames doet over camerapositie, scènestabiliteit of dieptesupervisie. Wij construeren een gepaarde effectdataset die is toegesneden op deze taak en introduceren een ongepaarde augmentatiestrategie die tekstgestuurde bewerkbaarheid behoudt. Onze methode ondersteunt ook optionele maskercontrole en keyframe-guidance zonder dichte annotaties te vereisen. Ondanks training op beperkte data produceert Over++ diverse en realistische omgevingseffecten en presteert het beter dan bestaande baseline-methoden in zowel effectgeneratie als scènebehoud.

Klopt het? Op Weg naar Autonome Juridische Agentschappen in Durfkapitaal
Does It Tie Out? Towards Autonomous Legal Agents in Venture Capital

Dec 21

ByPierre Colombo, Malik Boudiaf, Allyn Sweet, Michael Desa, Hongxi Wang, Kevin Candra, Syméon del Marmol

Voordat durfkapitaalfinancieringsronden worden afgerond, voeren juristen due diligence uit waarbij onder meer de kapitalisatietabel wordt gecontroleerd: het verifiëren dat elk effect (bijvoorbeeld aandelen, opties, warrants) en elke uitgiftevoorwaarde (bijvoorbeeld vestingregelingen, acceleratietriggers, overdrachtsbeperkingen) wordt ondersteund door grote hoeveelheden onderliggende juridische documentatie. Hoewel LLM's blijven verbeteren op juridische benchmarks, blijven gespecialiseerde juridische workflows, zoals de kapitalisatiecontrole, buiten bereik van zelfs krachtige agent-systemen. De taak vereist redeneren over meerdere documenten, strikte traceerbaarheid van bewijs en deterministische output, wat huidige benaderingen niet betrouwbaar kunnen leveren. Wij karakteriseren kapitalisatiecontrole als een voorbeeld van een real-world benchmark voor juridische AI, analyseren en vergelijken de prestaties van bestaande agent-systemen, en stellen een wereldmodelarchitectuur voor ter automatisering van deze controle – en breder als fundament voor toegepaste juridische intelligentie.

MatSpray: Integratie van 2D-materiaalkennis op 3D-geometrie
MatSpray: Fusing 2D Material World Knowledge on 3D Geometry

Dec 20

ByPhilipp Langsteiner, Jan-Niklas Dihlmann, Hendrik P. A. Lensch

Het handmatig modelleren van materiaalparameters en 3D-geometrie is een tijdrovende maar essentiële taak in de gaming- en filmindustrieën. Hoewel recente vooruitgang in 3D-reconstructie nauwkeurige benaderingen van scènegeometrie en -uitstraling mogelijk heeft gemaakt, schieten deze methoden vaak tekort in belichtingsscenario's door een gebrek aan precieze, ruimtelijk variërende materiaalparameters. Tegelijkertijd hebben diffusiemodellen die werken op 2D-beelden sterke prestaties getoond in het voorspellen van fysiek gebaseerde rendering (PBR) eigenschappen zoals albedo, ruwheid en metalliciteit. Het overbrengen van deze 2D-materiaalkaarten op gereconstrueerde 3D-geometrie blijft echter een grote uitdaging. Wij stellen een raamwerk voor voor het samenvoegen van 2D-materiaaldata in 3D-geometrie met een combinatie van nieuwe, op leren gebaseerde en projectiegebaseerde benaderingen. We beginnen met het reconstrueren van scènegeometrie via Gaussian Splatting. Uit de invoerbeelden genereert een diffusiemodel 2D-kaarten voor albedo-, ruwheid- en metalliciteitsparameters. Elk bestaand diffusiemodel dat beelden of video's naar PBR-materialen kan converteren, is toepasbaar. De voorspellingen worden verder geïntegreerd in de 3D-representatie door het optimaliseren van een op beelden gebaseerd verlies of door de materiaalparameters rechtstreeks op de Gaussians te projecteren met behulp van Gaussian ray tracing. Om de nauwkeurigheid op fijne schaal en multi-view consistentie te verbeteren, introduceren we een lichtgewicht neurale verfijningsstap (Neural Merger), die geraytracete materiaalkenmerken als invoer neemt en gedetailleerde aanpassingen produceert. Onze resultaten tonen aan dat de voorgestelde methoden bestaande technieken overtreffen in zowel kwantitatieve metrieken als waargenomen visuele realisme. Dit maakt nauwkeurigere, herbelichtbare en fotorealistische weergaven mogelijk vanuit gereconstrueerde scènes, wat het realisme en de efficiëntie van assetcreatie-workflows in contentproductiepijplijnen aanzienlijk verbetert.

Real2Edit2Real: Het Genereren van Roboticademonstraties via een 3D-besturingsinterface
Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

Dec 22

ByYujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong

Recente vooruitgang in robotleren is aangedreven door grootschalige datasets en krachtige visuomotorische beleidsarchitecturen, maar de robuustheid van beleid blijft beperkt door de aanzienlijke kosten van het verzamelen van diverse demonstraties, vooral voor ruimtelijke generalisatie bij manipulatietaken. Om repetitieve datacollectie te verminderen, presenteren we Real2Edit2Real, een raamwerk dat nieuwe demonstraties genereert door 3D-bewerkbaarheid te verbinden met 2D-visuele gegevens via een 3D-besturingsinterface. Onze aanpak reconstrueert eerst de scènegeometrie uit RGB-waarnemingen met meerdere viewpoints met een metriekaal 3D-reconstructiemodel. Op basis van de gereconstrueerde geometrie voeren we dieptebetrouwbare 3D-bewerkingen uit op puntenwolken om nieuwe manipulatietrajecten te genereren, waarbij we de robotposes geometrisch corrigeren om fysiek consistente diepte te herstellen, wat dient als betrouwbare voorwaarde voor het synthetiseren van nieuwe demonstraties. Ten slotte stellen we een multi-conditioneel videogeneratiemodel voor dat wordt gestuurd door diepte als primair controlesignaal, samen met actie-, rand- en straalafbeeldingen, om ruimtelijk uitgebreide multi-view manipulatiewideo's te synthetiseren. Experimenten met vier real-world manipulatietaken tonen aan dat beleid getraind op gegevens gegenereerd uit slechts 1-5 brondemonstraties even goed of beter kan presteren dan beleid getraind op 50 real-world demonstraties, wat de data-efficiëntie tot 10-50x verbetert. Bovendien tonen experimentele resultaten voor hoogte- en textuurbewerking de flexibiliteit en uitbreidbaarheid van het raamwerk aan, wat wijst op het potentieel om als een uniform data-generatieraamwerk te dienen.

Naam Dat Onderdeel: 3D-onderdeelsegmentatie en -benoeming
Name That Part: 3D Part Segmentation and Naming

Dec 19

BySoumava Paul, Prakhar Kaushik, Ankit Vaidya, Anand Bhattad, Alan Yuille

Wij behandelen semantische 3D-onderdelen-segmentatie: het ontbinden van objecten in onderdelen met betekenisvolle namen. Hoewel er datasets bestaan met onderdeelannotaties, zijn hun definities inconsistent tussen datasets, wat robuuste training beperkt. Eerdere methoden produceren ongelabelde decomposities of halen enkele onderdelen op zonder volledige vormannotaties. Wij stellen ALIGN-Parts voor, dat onderdeelbenoeming formuleert als een directe set-aligneringstaak. Onze methode ontbindt vormen in partlets – impliciete 3D-onderdeelrepresentaties – die worden gekoppeld aan onderdeelbeschrijvingen via bipartiete toewijzing. Wij combineren geometrische aanwijzingen uit 3D-onderdeelvelden, uiterlijk uit multi-view visuele kenmerken, en semantische kennis uit door taalmodellen gegenereerde affordance-beschrijvingen. Text-aligneringsverlies zorgt ervoor dat partlets de embeddingruimte delen met tekst, wat een theoretisch open-vocabularium koppelingsopzet mogelijk maakt, mits voldoende data beschikbaar is. Onze efficiënte en nieuwe, one-shot, 3D-onderdelen-segmentatie- en benoemingsmethode vindt toepassingen in verschillende downstreamtaken, waaronder als een schaalbare annotatie-engine. Omdat ons model zero-shot koppeling aan willekeurige beschrijvingen ondersteunt en betrouwbaarheidsgecalibreerde voorspellingen voor bekende categorieën biedt, creëren wij met menselijke verificatie een uniforme ontologie die PartNet, 3DCoMPaT++ en Find3D aligneert, bestaande uit 1.794 unieke 3D-onderdelen. Wij tonen ook voorbeelden uit onze nieuw gecreëerde Tex-Parts dataset. Wij introduceren tevens 2 nieuwe metrieken die geschikt zijn voor de benoemde 3D-onderdelen-segmentatietaak.

SecureCode v2.0: Een Productieklasse Dataset voor het Trainen van Veiligheidsbewuste Codegeneratiemodellen
SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models

Dec 20

ByScott Thornton

AI-assistenten produceren kwetsbare code in 45% van de security-relevante scenario's, waardoor op grote schaal fouten in productiesystemen worden geïntroduceerd. Toch schieten bestaande datasets voor veilig programmeren tekort. Ze missen gronding in incidenten, bieden niet de schaal die moderne training vereist, en ontberen de operationele securitycontext die ontwikkelaars nodig hebben voor productie-implementaties. Wij presenteren SecureCode v2.0, een productieklasse dataset van 1.215 security-gerichte codevoorbeelden die structurele validatie en expert security-review hebben doorstaan. Elk voorbeeld is gekoppeld aan gedocumenteerde security-incidenten met CVE-referenties, biedt zowel kwetsbare als veilige implementaties, demonstreert concrete aanvallen en omvat *defense-in-depth* operationele richtlijnen. De dataset beslaat 11 kwetsbaarheidscategorieën (de volledige OWASP Top 10:2025 plus AI/ML Security Threats) in 11 talen (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin en YAML voor infrastructure-as-code). Ons kwaliteitsborgingskader zorgt voor volledige incidentgronding. Elk voorbeeld bevat SIEM-integratiestrategieën, aanbevelingen voor infrastructuurhardening (Docker, AppArmor, WAF-configuraties) en testaanpakken met frameworks die passen bij de programmeertaal. De dataset gebruikt een 4-staps gespreksstructuur die echte ontwikkelaar-AI-interacties nabootst, en escaleert van basisimplementaties naar geavanceerde security-overwegingen en *defense-in-depth* richtlijnen. Onze bijdragen: (1) 1.215 rigoureus gevalideerde voorbeelden, verdeeld in 989 trainings-, 122 validatie- en 104 testsets, (2) een geautomatiseerd validatiekader dat datasetconsistentie waarborgt, (3) een 4-staps gespreksstructuur die realistische security-workflows vastlegt, (4) uitgebreide operationele security-richtlijnen met SIEM-integratiestrategieën, (5) complete taal-specifieke implementatietrouw, en (6) open-source release van data, validatietools en benchmarkprotocollen.

Hersenverankerde Assen voor het Lezen en Sturen van LLM-Toestanden
Brain-Grounded Axes for Reading and Steering LLM States

Dec 22

BySandro Andric

Interpretatiemethoden voor grote taalmodellen (LLM's) leiden richtingen typisch af van tekstueel toezicht, wat een gebrek aan externe verankering kan hebben. Wij stellen voor om menselijke hersenactiviteit niet als trainingssignaal te gebruiken, maar als een coördinatenstelsel om LLM-toestanden uit te lezen en te sturen. Met behulp van de SMN4Lang MEG-dataset construeren we een woordniveau hersenatlas van fase-synchronisatiewaarde (PLV) patronen en extraheren we latente assen via ICA. We valideren de assen met onafhankelijke lexicons en NER-gebaseerde labels (woordsoort/log-frequentie gebruikt als sanity checks), en trainen vervolgens lichtgewicht adapters die LLM-verborgen toestanden afbeelden op deze hersenassen zonder het LLM fine-tunen. Sturing langs de resulterende, uit de hersenen afgeleide richtingen levert een robuuste lexicale (aan frequentie gelinkte) as op in een middelste TinyLlama-laag, die perplexiteit-gematchte controles overleeft, en een hersen-versus-text probe vergelijking toont grotere log-frequentieverschuivingen (relatief aan de text probe) met een lagere perplexiteit voor de hersenas. Een functie/inhoud as (as 13) toont consistente sturing in TinyLlama, Qwen2-0.5B en GPT-2, met PPL-gematchte corroboratie op tekstniveau. Effecten in laag 4 van TinyLlama zijn groot maar inconsistent, dus behandelen we deze als secundair (Appendix). De asstructuur is stabiel wanneer de atlas opnieuw wordt opgebouwd zonder GPT embedding-veranderingskenmerken of met word2vec embeddings (|r|=0.64-0.95 over gematchte assen), wat circulariteitszorgen vermindert. Explorerende fMRI-verankering suggereert een potentiële alignering voor embedding-verandering en log-frequentie, maar effecten zijn gevoelig voor hemodynamische modelleeraannames en worden enkel als populatieniveau bewijs behandeld. Deze resultaten ondersteunen een nieuwe interface: neurofysiologisch verankerde assen bieden interpreteerbare en bestuurbare handvatten voor LLM-gedrag.

Het Begrijpen van Syllogistisch Redeneren in LLM's vanuit Formeel en Natuurlijk Taalperspectief
Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives

Dec 14

ByAheli Poddar, Saptarshi Sahoo, Sujata Ghosh

Wij bestuderen syllogistisch redeneren in LLM's vanuit zowel logisch als taalkundig perspectief. Hierbij onderzoeken we de fundamentele redeneervaardigheden van de LLM's en de richting waarin dit onderzoek zich beweegt. Ter ondersteuning van onze studie gebruiken we 14 grote taalmodel(len) en analyseren we hun syllogistische redeneervermogen op het gebied van symbolische inferenties en natuurlijke taalverwerking. Hoewel dit redeneermechanisme geen uniforme opkomende eigenschap is bij alle LLM's, zetten de perfecte symbolische prestaties van bepaalde modellen ons aan het denken over de vraag of LLM's steeds meer formele redeneermechanismen worden, in plaats van dat ze de nuances van menselijk redeneren expliciet maken.