Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit rapport introduceren we Qwen2.5, een uitgebreide reeks grote taalmodellen (LLM's) die zijn ontworpen om aan diverse behoeften te voldoen. In vergelijking met eerdere versies is Qwen 2.5 aanzienlijk verbeterd tijdens zowel de pre-training als post-training fasen. Wat betreft pre-training hebben we de hoogwaardige pre-training datasets opgeschaald van de vorige 7 biljoen tokens naar 18 biljoen tokens. Dit biedt een sterke basis voor gezond verstand, expertkennis en redeneervermogen. Wat post-training betreft, passen we ingewikkelde begeleide fine-tuning toe met meer dan 1 miljoen voorbeelden, evenals meertraps versterkend leren. Post-training technieken verbeteren de menselijke voorkeur en verbeteren aanzienlijk de generatie van lange tekst, structurele data-analyse en het opvolgen van instructies. Om diverse en gevarieerde gebruiksscenario's effectief aan te pakken, presenteren we de Qwen2.5 LLM-serie in diverse groottes. Open-gewicht aanbiedingen omvatten basismodellen en instructie-aangepaste modellen, met beschikbare gekwantificeerde versies. Bovendien omvatten de gepatenteerde modellen momenteel twee varianten van mengmodellen van experts (MoE): Qwen2.5-Turbo en Qwen2.5-Plus, beide beschikbaar via Alibaba Cloud Model Studio. Qwen2.5 heeft eersteklas prestaties gedemonstreerd op een breed scala van benchmarks die taalbegrip, redeneren, wiskunde, coderen, afstemming van menselijke voorkeur, enz. evalueren. Specifiek presteert het open-gewicht vlaggenschip Qwen2.5-72B-Instruct beter dan een aantal open en gepatenteerde modellen en toont het een concurrerende prestatie ten opzichte van het state-of-the-art open-gewicht model, Llama-3-405B-Instruct, dat ongeveer 5 keer groter is. Qwen2.5-Turbo en Qwen2.5-Plus bieden superieure kosteneffectiviteit en presteren concurrerend ten opzichte van respectievelijk GPT-4o-mini en GPT-4o. Bovendien zijn de Qwen2.5-modellen als basis essentieel geweest bij het trainen van gespecialiseerde modellen zoals Qwen2.5-Math, Qwen2.5-Coder, QwQ, en multimodale modellen.
Multistapelmultimodale redeneertaken vormen aanzienlijke uitdagingen voor multimodale grote taalmodellen (MLLM's), en het vinden van effectieve manieren om hun prestaties in dergelijke scenario's te verbeteren, blijft een onopgelost probleem. In dit artikel stellen we AR-MCTS voor, een universeel raamwerk dat is ontworpen om geleidelijk de redeneervaardigheden van MLLM's te verbeteren door middel van Actieve Ophaling (AR) en Monte Carlo Tree Search (MCTS). Onze aanpak begint met de ontwikkeling van een verenigd ophaalmodule die essentiële ondersteunende inzichten ophaalt voor het oplossen van complexe redeneerproblemen uit een hybride-modale ophaalcorpus. Om de kloof in geautomatiseerde multimodale redeneerverificatie te overbruggen, maken we gebruik van het MCTS-algoritme in combinatie met een actief ophaalmechanisme, waardoor de automatische generatie van stapsgewijze annotaties mogelijk wordt. Deze strategie haalt dynamisch essentiële inzichten op voor elke redeneerstap, waarbij verder wordt gegaan dan traditionele beam search-sampling om de diversiteit en betrouwbaarheid van de redeneerruimte te verbeteren. Daarnaast introduceren we een procesbeloningsmodel dat progressief wordt afgestemd om de automatische verificatie van multimodale redeneertaken te ondersteunen. Experimentele resultaten over drie complexe multimodale redeneerbenchmarks bevestigen de effectiviteit van het AR-MCTS-raamwerk bij het verbeteren van de prestaties van verschillende multimodale modellen. Verder onderzoek toont aan dat AR-MCTS de bemonsteringsdiversiteit en nauwkeurigheid kan optimaliseren, wat betrouwbare multimodale redenering oplevert.
Ondanks de snel groeiende vraag naar multimodale opvraging, blijft de vooruitgang op dit gebied ernstig beperkt door een gebrek aan trainingsgegevens. In dit artikel introduceren we MegaPairs, een nieuw gegevenssynthesemethode die gebruikmaakt van visie-taalmodellen (VLM's) en open-domeinafbeeldingen, samen met een enorme synthetische dataset die is gegenereerd met behulp van deze methode. Onze empirische analyse toont aan dat MegaPairs hoogwaardige gegevens genereert, waardoor de multimodale opvrager aanzienlijk beter presteert dan het basismodel dat is getraind op 70 keer meer gegevens uit bestaande datasets. Bovendien, aangezien MegaPairs uitsluitend vertrouwt op algemene beeldencollecties en open-source VLM's, kan het eenvoudig worden opgeschaald, waardoor continue verbeteringen in opvraagprestaties mogelijk zijn. In deze fase hebben we meer dan 26 miljoen trainingsvoorbeelden geproduceerd en verschillende modellen van verschillende groottes getraind met behulp van deze gegevens. Deze nieuwe modellen behalen state-of-the-art zero-shot prestaties over 4 populaire samengestelde beeldopvragingsbenchmarks en de hoogste algehele prestaties op de 36 datasets die worden aangeboden door MMEB. Ze tonen ook opmerkelijke prestatieverbeteringen bij extra downstream fine-tuning. Onze geproduceerde dataset, goed getrainde modellen en gegevenssynthesepijplijn zullen openbaar beschikbaar worden gesteld om de toekomstige ontwikkeling van dit vakgebied te vergemakkelijken.
Modelinstorting in synthetische data geeft aan dat iteratieve training op zelf gegenereerde data leidt tot een geleidelijke afname in prestaties. Met de verspreiding van AI-modellen zal synthetische data fundamenteel de webdata-ecosfeer hervormen. Toekomstige GPT-{n} modellen zullen onvermijdelijk worden getraind op een mix van synthetische en door mensen geproduceerde data. In dit artikel richten we ons op twee vragen: wat is de impact van synthetische data op de training van taalmodellen, en hoe kunnen we data synthetiseren zonder modelinstorting? We pre-trainen eerst taalmodellen over verschillende verhoudingen synthetische data, waarbij een negatieve correlatie tussen de verhouding synthetische data en modelprestaties wordt onthuld. Vervolgens voeren we statistische analyses uit op synthetische data om het fenomeen van distributieverschuiving en overconcentratie van n-gram kenmerken bloot te leggen. Geïnspireerd door bovenstaande bevindingen stellen we tokenbewerking voor op door mensen geproduceerde data om semi-synthetische data te verkrijgen. Als bewijs van concept demonstreren we theoretisch dat bewerking op tokenniveau modelinstorting kan voorkomen, aangezien de testfout begrensd wordt door een eindige bovengrens. We voeren uitgebreide experimenten uit op pre-training vanaf nul, voortdurende pre-training en begeleid fijnafstemmen. De resultaten bevestigen ons theoretisch bewijs dat bewerking op tokenniveau de datakwaliteit verbetert en de modelprestaties versterkt.
Deze paper introduceert LongBench v2, een benchmark ontworpen om de capaciteit van LLMs te beoordelen om lange-context problemen aan te pakken die diepgaand begrip en redenering vereisen over multitaken in de echte wereld. LongBench v2 bestaat uit 503 uitdagende meerkeuzevragen, met contexten variërend van 8k tot 2M woorden, verdeeld over zes belangrijke taakcategorieën: vraag-antwoord op basis van één document, vraag-antwoord op basis van meerdere documenten, langdurig in-context leren, begrip van lange dialooggeschiedenis, begrip van code-opslagplaatsen en begrip van lang gestructureerde data. Om de breedte en praktische toepasbaarheid te waarborgen, verzamelen we gegevens van bijna 100 hoogopgeleide personen met diverse professionele achtergronden. We maken gebruik van zowel geautomatiseerde als handmatige beoordelingsprocessen om een hoge kwaliteit en moeilijkheidsgraad te handhaven, resulterend in menselijke experts die slechts 53,7% nauwkeurigheid behalen onder een tijdsbeperking van 15 minuten. Onze evaluatie onthult dat het best presterende model, wanneer direct antwoord geeft op de vragen, slechts 50,1% nauwkeurigheid behaalt. Daarentegen behaalt het o1-preview model, dat langer redeneren omvat, 57,7%, waarmee het de menselijke basislijn met 4% overtreft. Deze resultaten benadrukken het belang van verbeterde redeneervaardigheden en het schalen van inferentietijd-rekenkracht om de uitdagingen van lange-context in LongBench v2 aan te pakken. Het project is beschikbaar op https://longbench2.github.io.
Diffusiemodellen en hun generalisatie, stroomafstemming, hebben een opmerkelijke impact gehad op het gebied van mediageneratie. Hier is de conventionele benadering om de complexe mapping te leren van een eenvoudige brondistributie van Gaussisch geluid naar de doeldistributie van media. Voor crossmodale taken zoals tekst-naar-afbeeldingsgeneratie wordt dezelfde mapping van geluid naar afbeelding geleerd terwijl een conditioneringmechanisme in het model wordt opgenomen. Een belangrijk en tot nu toe relatief onontgonnen kenmerk van stroomafstemming is dat ze, in tegenstelling tot diffusiemodellen, niet beperkt zijn tot geluid als brondistributie. Daarom stellen we in dit artikel een paradigma verschuiving voor en stellen de vraag of we in plaats daarvan stroomafstemmingsmodellen kunnen trainen om een directe mapping te leren van de distributie van de ene modaliteit naar de distributie van een andere, waardoor de noodzaak voor zowel de geluidsdistributie als het conditioneringmechanisme wordt geëlimineerd. We presenteren een algemeen en eenvoudig raamwerk, CrossFlow, voor crossmodale stroomafstemming. We tonen het belang aan van het toepassen van variatie-encoders op de invoergegevens en introduceren een methode om begeleiding zonder classificator mogelijk te maken. Verrassend genoeg presteert CrossFlow met een standaard transformer zonder kruislingse aandacht iets beter dan standaard stroomafstemming voor tekst-naar-afbeelding, en we laten zien dat het beter schaalt met trainingsstappen en modelgrootte, terwijl het ook interessante latente rekenkundige bewerkingen mogelijk maakt die leiden tot semantisch betekenisvolle bewerkingen in de uitvoerruimte. Om de generaliseerbaarheid van onze aanpak te demonstreren, laten we ook zien dat CrossFlow gelijkwaardig presteert of beter presteert dan de state-of-the-art voor verschillende crossmodale / intra-modale mappingtaken, namelijk beeldonderschriften, diepteschatting en beeldsuperresolutie. We hopen dat dit artikel bijdraagt aan het versnellen van de vooruitgang in crossmodale mediageneratie.
Als een veelvoorkomende beeldbewerking, omvat beeldcompositie het integreren van voorgrondobjecten in achtergrondscènes. In dit artikel breiden we de toepassing van het concept van Affordance uit van op de mens gerichte beeldcompositietaken naar een meer algemeen kader voor object-scène compositie, waarbij de complexe wisselwerking tussen voorgrondobjecten en achtergrondscènes wordt aangepakt. Volgens het principe van Affordance definiëren we de taak van affordance-bewuste objectinvoeging, die tot doel heeft om naadloos elk object in elke scène in te voegen met verschillende positioneringsaanwijzingen. Om het beperkte gegevensprobleem aan te pakken en deze taak op te nemen, hebben we de SAM-FB dataset geconstrueerd, die meer dan 3 miljoen voorbeelden bevat over meer dan 3.000 objectcategorieën. Bovendien stellen we het Masker-Bewuste Dubbele Diffusie (MADD) model voor, dat een dubbele stroomarchitectuur gebruikt om tegelijkertijd het RGB-beeld en het invoegmasker te denoiseren. Door het invoegmasker expliciet te modelleren in het diffusieproces, vergemakkelijkt MADD effectief het concept van affordance. Uitgebreide experimentele resultaten tonen aan dat onze methode beter presteert dan de state-of-the-art methoden en sterke generalisatieprestaties vertoont op in-the-wild beelden. Raadpleeg onze code op https://github.com/KaKituken/affordance-aware-any.
De intuïtieve aard van sleepgebaseerde interactie heeft geleid tot een groeiende acceptatie voor het controleren van objecttrajecten in beeld-naar-video synthese. Toch worden bestaande methoden die slepen in de 2D-ruimte uitvoeren vaak geconfronteerd met ambiguïteit bij het omgaan met bewegingen buiten het vlak. In dit werk breiden we de interactie uit met een nieuwe dimensie, namelijk de dieptedimensie, zodat gebruikers een relatieve diepte kunnen toewijzen aan elk punt op het traject. Op die manier erft ons nieuwe interactieparadigma niet alleen het gemak van 2D slepen, maar vergemakkelijkt het ook de controle over trajecten in de 3D-ruimte, waardoor de creatieve mogelijkheden worden verbreed. We stellen een baanbrekende methode voor 3D-trajectcontrole in beeld-naar-video synthese voor door objectmaskers abstract te maken tot een paar clusterpunten. Deze punten, vergezeld van de diepte-informatie en de instantie-informatie, worden uiteindelijk ingevoerd in een videodiffusiemodel als het besturingssignaal. Uitgebreide experimenten bevestigen de effectiviteit van onze benadering, genaamd LeviTor, bij het nauwkeurig manipuleren van de objectbewegingen bij het produceren van fotorealistische video's uit statische beelden. Projectpagina: https://ppetrichor.github.io/levitor.github.io/
In dit artikel introduceren we AceMath, een reeks geavanceerde wiskundige modellen die uitblinken in het oplossen van complexe wiskundige problemen, samen met zeer effectieve beloningsmodellen die gegenereerde oplossingen kunnen evalueren en betrouwbaar de juiste kunnen identificeren. Om de op instructies afgestemde wiskundige modellen te ontwikkelen, stellen we een proces voor van begeleid finetunen (SFT) dat eerst een concurrerende prestatie behaalt over algemene domeinen, gevolgd door gericht finetunen voor het wiskundige domein met behulp van een zorgvuldig samengestelde set prompts en synthetisch gegenereerde antwoorden. Het resulterende model, AceMath-72B-Instruct, presteert aanzienlijk beter dan Qwen2.5-Math-72B-Instruct, GPT-4o en Claude-3.5 Sonnet. Om een op wiskunde gespecialiseerd beloningsmodel te ontwikkelen, construeren we eerst AceMath-RewardBench, een uitgebreide en robuuste benchmark voor het evalueren van wiskunde beloningsmodellen over diverse problemen en moeilijkheidsniveaus. Daarna presenteren we een systematische aanpak om onze wiskunde beloningsmodellen te bouwen. Het resulterende model, AceMath-72B-RM, presteert consequent beter dan state-of-the-art beloningsmodellen. Bovendien, wanneer we AceMath-72B-Instruct combineren met AceMath-72B-RM, behalen we de hoogste gemiddelde rm@8-score over de wiskundige redeneerbenchmarks. We zullen modelgewichten, trainingsgegevens en evaluatiebenchmarks vrijgeven op: https://research.nvidia.com/labs/adlr/acemath
Procedural Content Generation (PCG) is krachtig in het creëren van hoogwaardige 3D-inhoud, maar het controleren ervan om gewenste vormen te produceren is moeilijk en vereist vaak uitgebreide afstemming van parameters. Inverse Procedural Content Generation heeft als doel automatisch de beste parameters te vinden onder de invoerconditie. Echter, bestaande op sampling gebaseerde en op neurale netwerken gebaseerde methoden lijden nog steeds onder talrijke voorbeelditeraties of beperkte controleerbaarheid. In dit werk presenteren we DI-PCG, een nieuw en efficiënte methode voor Inverse PCG vanuit algemene beeldcondities. In de kern bevindt zich een lichtgewicht diffusie transformer model, waarbij PCG parameters direct worden behandeld als het denoising doelwit en de waargenomen beelden als condities om de parametergeneratie te controleren. DI-PCG is efficiënt en effectief. Met slechts 7,6M netwerkparameters en 30 GPU-uren om te trainen, toont het superieure prestaties in het nauwkeurig herstellen van parameters en goed generaliseren naar beelden in het wild. Kwantitatieve en kwalitatieve experimentresultaten bevestigen de effectiviteit van DI-PCG in inverse PCG en beeld-naar-3D generatietaken. DI-PCG biedt een veelbelovende benadering voor efficiënte inverse PCG en vertegenwoordigt een waardevolle verkenningstap naar een 3D-generatiepad dat modellen om een 3D-middel te construeren met behulp van parametrische modellen.
Het trainen van Grote Multimodaliteitsmodellen (LMM's) is afhankelijk van beschrijvende afbeeldingsbijschriften die afbeelding en taal verbinden. Bestaande methoden destilleren het bijschrift uit de LMM-modellen of construeren de bijschriften van internetafbeeldingen of door mensen. Wij stellen voor om gebruik te maken van kant-en-klare visuele specialisten, die oorspronkelijk zijn getraind op geannoteerde afbeeldingen niet voor afbeeldingsbijschriften, om het afbeeldingsbijschrift te verbeteren. Onze aanpak, genaamd DCE, onderzoekt objectkenmerken op laag niveau en fijnkorrelige kenmerken (bijv. diepte, emotie en fijnkorrelige categorieën) en objectrelaties (bijv. relatieve locatie en mens-object-interactie (HOI)), en combineert de kenmerken in het beschrijvende bijschrift. Experimenten tonen aan dat dergelijke visuele specialisten in staat zijn de prestaties voor visuele begripstaken te verbeteren, evenals redeneringen die profiteren van een nauwkeuriger visueel begrip. We zullen de broncode en de pipeline vrijgeven zodat andere visuele specialisten gemakkelijk in de pipeline kunnen worden opgenomen. De volledige broncode van de DCE-pipeline en datasets zal beschikbaar zijn op https://github.com/syp2ysy/DCE.
We stellen een ongesuperviseerd model voor voor op instructies gebaseerde beeldbewerking dat het gebruik van bewerkte afbeeldingen met bekende uitkomst tijdens training overbodig maakt. Bestaande supervisietechnieken zijn afhankelijk van datasets die triplets bevatten van invoerbeeld, bewerkt beeld en bewerkingsinstructie. Deze worden gegenereerd door bestaande bewerkingsmethoden of menselijke annotaties, wat vooroordelen introduceert en hun generalisatievermogen beperkt. Onze methode pakt deze uitdagingen aan door een nieuw bewerkingsmechanisme te introduceren genaamd Cycle Edit Consistency (CEC), dat voorwaartse en achterwaartse bewerkingen toepast in één trainingsstap en consistentie afdwingt in beeld- en aandachtsruimtes. Dit stelt ons in staat om het gebruik van bewerkte afbeeldingen met bekende uitkomst te omzeilen en voor het eerst training mogelijk te maken op datasets bestaande uit ofwel echte afbeelding-onderschriftparen of afbeelding-onderschrift-bewerkings triplets. We tonen empirisch aan dat onze ongesuperviseerde techniek beter presteert over een breder scala van bewerkingen met een hoge nauwkeurigheid en precisie. Door de noodzaak voor vooraf bestaande datasets van triplets te elimineren, vooroordelen geassocieerd met supervisietechnieken te verminderen, en CEC voor te stellen, vertegenwoordigt ons werk een significante vooruitgang in het deblokkeren van schaalvergroting van op instructies gebaseerde beeldbewerking.
Wij stellen AV-Link voor, een verenigd kader voor het genereren van video naar audio en audio naar video dat gebruikmaakt van de activaties van bevroren video- en audioverspreidingsmodellen voor temporeel uitgelijnde crossmodale conditionering. De sleutel tot ons kader is een Fusieblok dat bidirectionele informatie-uitwisseling mogelijk maakt tussen onze video- en audioverspreidingsmodellen via een temporeel uitgelijnde zelfaandachtsoperatie. In tegenstelling tot eerdere werken die functie-extractors gebruiken die voor andere taken zijn voorgeleerd voor het conditioneringssignaal, kan AV-Link direct kenmerken benutten die zijn verkregen door de aanvullende modaliteit in een enkel kader, dat wil zeggen videokenmerken om audio te genereren, of audiokenmerken om video te genereren. We evalueren uitgebreid onze ontwerpkeuzes en tonen de mogelijkheid van onze methode aan om gesynchroniseerde en hoogwaardige audiovisuele inhoud te bereiken, waarbij we het potentieel ervan voor toepassingen in de generatie van meeslepende media demonstreren. Projectpagina: snap-research.github.io/AVLink/
In dit artikel stellen we Text-based Open Molecule Generation Benchmark (TOMG-Bench) voor, de eerste benchmark om de open-domain molecule generatiecapaciteit van LLMs te evalueren. TOMG-Bench omvat een dataset van drie belangrijke taken: molecule bewerking (MolEdit), molecule optimalisatie (MolOpt), en aangepaste molecule generatie (MolCustom). Elke taak bevat op zijn beurt drie subtaken, waarbij elke subtaak bestaat uit 5.000 testvoorbeelden. Gezien de inherente complexiteit van open molecule generatie, hebben we ook een geautomatiseerd evaluatiesysteem ontwikkeld dat helpt zowel de kwaliteit als de nauwkeurigheid van de gegenereerde moleculen te meten. Onze uitgebreide benchmarking van 25 LLMs onthult de huidige beperkingen en mogelijke verbeteringsgebieden in tekstgestuurde molecule ontdekking. Verder kon, met behulp van OpenMolIns, een gespecialiseerde instructie-afstemmingsdataset voorgesteld voor het oplossen van uitdagingen die door TOMG-Bench worden gesteld, Llama3.1-8B alle open-source algemene LLMs overtreffen, zelfs GPT-3.5-turbo met 46,5% op TOMG-Bench. Onze codes en datasets zijn beschikbaar via https://github.com/phenixace/TOMG-Bench.
Recent onderzoek verkent het potentieel van Diffusie Modellen (DM's) voor consistente objectbewerking, die tot doel heeft objectpositie, grootte, samenstelling, enz. te wijzigen, terwijl de consistentie van objecten en achtergrond behouden blijft zonder hun textuur en attributen te veranderen. Huidige inferentiemethoden vertrouwen vaak op DDIM-inversie, wat intrinsiek de efficiëntie en de haalbare consistentie van bewerkte afbeeldingen compromitteert. Recente methoden maken ook gebruik van energierichtlijnen die voorspelde ruis iteratief bijwerken en de latenties van de originele afbeelding kunnen wegleiden, resulterend in vervormingen. In dit artikel stellen we PixelMan voor, een inversievrije en trainingvrije methode om consistente objectbewerking te bereiken via Pixel Manipulatie en generatie, waarbij we rechtstreeks een duplicaat van het bronobject op de doellocatie in de pixelpuntruimte creëren, en een efficiënte bemonsteringsbenadering introduceren om het gemanipuleerde object iteratief in de doellocatie te harmoniseren en de oorspronkelijke locatie in te vullen, terwijl we beeldconsistentie waarborgen door het bewerkte beeld te verankeren aan het te genereren pixel-gemanipuleerde beeld en door verschillende consistentiebehoudende optimalisatietechnieken tijdens inferentie te introduceren. Experimentele evaluaties gebaseerd op benchmark datasets evenals uitgebreide visuele vergelijkingen tonen aan dat PixelMan in slechts 16 inferentiestappen beter presteert dan een reeks state-of-the-art op training gebaseerde en trainingvrije methoden (die meestal 50 stappen vereisen) op meerdere consistente objectbewerkingstaken.
Dit artikel introduceert DateLogicQA, een benchmark met 190 vragen die diverse datumformaten, temporele contexten en redenatietypen bestrijken. We stellen de Semantische Integriteitsmetriek voor om de kwaliteit van tokenisatie te beoordelen en analyseren twee vooroordelen: Representatieniveau Vooroordeel, dat invloed heeft op embeddings, en Logisch Niveau Vooroordeel, dat redeneringsresultaten beïnvloedt. Onze bevindingen bieden een uitgebreide evaluatie van de mogelijkheden en beperkingen van LLM's in temporeel redeneren, waarbij belangrijke uitdagingen in het nauwkeurig verwerken van temporele gegevens worden benadrukt. De GitHub-opslagplaats voor ons werk is beschikbaar op https://github.com/gagan3012/EAIS-Temporal-Bias.
Het genereren van realistische menselijke video's blijft een uitdagende taak, waarbij de meest effectieve methoden momenteel vertrouwen op een menselijke bewegingssequentie als een controle signaal. Bestaande benaderingen maken vaak gebruik van bestaande bewegingen die zijn geëxtraheerd uit andere video's, wat de toepassingen beperkt tot specifieke bewegingstypen en globale scène-overeenkomsten. Wij stellen Move-in-2D voor, een nieuwe benadering om menselijke bewegingssequenties te genereren die zijn geconditioneerd op een scènebeeld, waardoor diverse bewegingen ontstaan die zich aanpassen aan verschillende scènes. Onze benadering maakt gebruik van een diffusiemodel dat zowel een scènebeeld als tekstprompt accepteert als invoer, resulterend in een bewegingssequentie op maat van de scène. Om dit model te trainen, verzamelen we een grootschalige videodataset met enkele menselijke activiteiten, waarbij elke video wordt geannoteerd met de overeenkomstige menselijke beweging als de doeluitvoer. Experimenten tonen aan dat onze methode effectief menselijke bewegingen voorspelt die overeenkomen met het scènebeeld na projectie. Bovendien laten we zien dat de gegenereerde bewegingssequentie de kwaliteit van menselijke bewegingen verbetert bij taken voor videocompositie.