Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het synthetiseren van visuele inhoud die aan de behoeften van gebruikers voldoet, vereist vaak flexibele en precieze controleerbaarheid van de pose, vorm, expressie en lay-out van de gegenereerde objecten. Bestaande benaderingen verkrijgen controleerbaarheid van generatieve adversariële netwerken (GANs) via handmatig geannoteerde trainingsdata of een vooraf bestaand 3D-model, wat vaak flexibiliteit, precisie en algemeenheid mist. In dit werk bestuderen we een krachtige maar veel minder verkende manier om GANs te controleren, namelijk door willekeurige punten van de afbeelding te "verslepen" om op een gebruikersinteractieve manier precies doelpunten te bereiken, zoals getoond in Fig.1. Om dit te bereiken, stellen we DragGAN voor, dat uit twee hoofdcomponenten bestaat: 1) een op kenmerken gebaseerde bewegingssupervisie die het handvatpunt naar de doelpositie stuurt, en 2) een nieuwe puntvolgbenedering die gebruikmaakt van de discriminerende generatorkenmerken om de positie van de handvatpunten te blijven lokaliseren. Met DragGAN kan iedereen een afbeelding vervormen met precieze controle over waar pixels naartoe gaan, waardoor de pose, vorm, expressie en lay-out van diverse categorieën zoals dieren, auto's, mensen, landschappen, enz. gemanipuleerd kunnen worden. Omdat deze manipulaties worden uitgevoerd op de geleerde generatieve beeldvariëteit van een GAN, produceren ze vaak realistische uitvoer, zelfs voor uitdagende scenario's zoals het hallucineren van verborgen inhoud en het vervormen van vormen die consistent de rigiditeit van het object volgen. Zowel kwalitatieve als kwantitatieve vergelijkingen tonen het voordeel van DragGAN aan ten opzichte van eerdere benaderingen in de taken van beeldmanipulatie en puntvolging. We demonstreren ook de manipulatie van echte afbeeldingen via GAN-inversie.
Taalmodellen worden steeds vaker ingezet voor algemeen probleemoplossen over een breed scala aan taken, maar zijn tijdens inferentie nog steeds beperkt tot token-niveau, links-naar-rechts besluitvormingsprocessen. Dit betekent dat ze tekort kunnen schieten bij taken die exploratie, strategische vooruitblik of waar initiële beslissingen een cruciale rol spelen vereisen. Om deze uitdagingen te overwinnen, introduceren we een nieuw raamwerk voor taalmodelinferentie, Tree of Thoughts (ToT), dat een generalisatie is van de populaire Chain of Thought aanpak voor het aansturen van taalmodellen, en exploratie mogelijk maakt over samenhangende tekstuele eenheden (gedachten) die als tussenstappen dienen naar probleemoplossing. ToT stelt taalmodellen in staat om weloverwogen beslissingen te nemen door meerdere verschillende redeneerpaden te overwegen en keuzes te zelfevalueren om de volgende actie te bepalen, evenals vooruit te kijken of terug te keren indien nodig om globale keuzes te maken. Onze experimenten tonen aan dat ToT de probleemoplossende vaardigheden van taalmodellen aanzienlijk verbetert bij drie nieuwe taken die niet-triviale planning of zoekstrategieën vereisen: Game of 24, Creatief Schrijven en Mini Kruiswoordpuzzels. Bijvoorbeeld, in Game of 24 loste GPT-4 met chain-of-thought prompting slechts 4% van de taken op, terwijl onze methode een slagingspercentage van 74% behaalde. Code repository met alle prompts: https://github.com/ysymyth/tree-of-thought-llm.
Dit onderzoeksartikel stelt een Latent Diffusion Model voor 3D (LDM3D) voor dat zowel beeld- als dieptekaartgegevens genereert vanuit een gegeven tekstprompt, waardoor gebruikers RGBD-afbeeldingen kunnen genereren vanuit tekstprompts. Het LDM3D-model is afgestemd op een dataset van tuples die een RGB-afbeelding, een dieptekaart en een bijschrift bevatten, en is gevalideerd door middel van uitgebreide experimenten. We ontwikkelen ook een applicatie genaamd DepthFusion, die de gegenereerde RGB-afbeeldingen en dieptekaarten gebruikt om meeslepende en interactieve 360-graden-ervaringen te creëren met behulp van TouchDesigner. Deze technologie heeft het potentieel om een breed scala aan industrieën te transformeren, van entertainment en gaming tot architectuur en design. Over het algemeen levert dit artikel een belangrijke bijdrage aan het veld van generatieve AI en computervisie, en toont het de potentie van LDM3D en DepthFusion om contentcreatie en digitale ervaringen te revolutioneren. Een korte video die de aanpak samenvat, is te vinden op https://t.ly/tdi2.
We introduceren OpenShape, een methode voor het leren van multi-modale gezamenlijke representaties van tekst, afbeeldingen en puntenwolken. We hanteren het veelgebruikte multi-modale contrastieve leerframework voor representatie-uitlijning, maar met een specifieke focus op het opschalen van 3D-representaties om open-wereld 3D-vormbegrip mogelijk te maken. Om dit te bereiken, schalen we de trainingsdata op door meerdere 3D-datasets te combineren en stellen we verschillende strategieën voor om automatisch ruisrijke tekstbeschrijvingen te filteren en te verrijken. We onderzoeken en vergelijken ook strategieën voor het opschalen van 3D-backbone-netwerken en introduceren een nieuwe hard negative mining-module voor efficiëntere training. We evalueren OpenShape op zero-shot 3D-classificatiebenchmarks en demonstreren de superieure mogelijkheden voor open-wereldherkenning. Specifiek behaalt OpenShape een zero-shot nauwkeurigheid van 46,8% op de 1.156-categorie Objaverse-LVIS benchmark, vergeleken met minder dan 10% voor bestaande methoden. OpenShape behaalt ook een nauwkeurigheid van 85,3% op ModelNet40, wat 20% beter is dan eerdere zero-shot baseline-methoden en vergelijkbaar met sommige volledig gesuperviseerde methoden. Verder tonen we aan dat onze geleerde embeddings een breed scala aan visuele en semantische concepten coderen (bijv. subcategorieën, kleur, vorm, stijl) en fijnmazige tekst-3D en afbeelding-3D-interacties mogelijk maken. Door hun uitlijning met CLIP-embeddings kunnen onze geleerde vormrepresentaties ook worden geïntegreerd met kant-en-klare CLIP-gebaseerde modellen voor diverse toepassingen, zoals puntenwolk-beschrijving en puntenwolk-gestuurde afbeeldingsgeneratie.
Multi-modale grote taalmodellen worden beschouwd als een cruciale stap richting Artificial General Intelligence (AGI) en hebben aanzienlijke belangstelling gekregen met de opkomst van ChatGPT. Echter, huidige spraak-taalmodellen gebruiken doorgaans het cascade-paradigma, wat kennisoverdracht tussen modaliteiten voorkomt. In dit artikel stellen we SpeechGPT voor, een groot taalmodel met intrinsieke cross-modale gespreksvaardigheden, dat in staat is om multi-modale inhoud waar te nemen en te genereren. Met discrete spraakrepresentaties construeren we eerst SpeechInstruct, een grootschalige cross-modale spraakinstructiedataset. Daarnaast hanteren we een driestappen trainingsstrategie die bestaat uit modaliteitsadaptatie pre-training, cross-modale instructie fine-tuning en chain-of-modality instructie fine-tuning. De experimentele resultaten tonen aan dat SpeechGPT een indrukwekkend vermogen heeft om multi-modale menselijke instructies op te volgen en benadrukken het potentieel om meerdere modaliteiten met één model te verwerken. Demo's zijn te zien op https://0nutation.github.io/SpeechGPT.github.io/.
Grote taalmodellen (LLM's) hebben de vooruitgang naar kunstmatige algemene intelligentie (AGI) aanzienlijk versneld, met hun indrukwekkende zero-shot-capaciteit voor gebruikersspecifieke taken, wat hen een enorm potentieel geeft voor een breed scala aan toepassingen. Op het gebied van computervisie zijn echter, ondanks de beschikbaarheid van talrijke krachtige visuele basis modellen (VFM's), deze nog steeds beperkt tot taken in een vooraf gedefinieerde vorm, en hebben ze moeite om de open-einde taakmogelijkheden van LLM's te evenaren. In dit werk presenteren we een LLM-gebaseerd framework voor visiegerichte taken, genaamd VisionLLM. Dit framework biedt een uniform perspectief voor visie- en taal taken door afbeeldingen te behandelen als een vreemde taal en visiegerichte taken af te stemmen op taal taken die flexibel kunnen worden gedefinieerd en beheerd met behulp van taal instructies. Een LLM-gebaseerde decoder kan vervolgens geschikte voorspellingen maken op basis van deze instructies voor open-einde taken. Uitgebreide experimenten tonen aan dat het voorgestelde VisionLLM verschillende niveaus van taakcustomisatie kan bereiken via taal instructies, van fijnmazige objectniveau tot grofmazige taakniveau customisatie, allemaal met goede resultaten. Het is opmerkelijk dat, met een generalistisch LLM-gebaseerd framework, ons model meer dan 60\% mAP kan bereiken op COCO, vergelijkbaar met detectie-specifieke modellen. We hopen dat dit model een nieuwe basislijn kan vormen voor generalistische visie- en taalmodellen. De demo zal worden vrijgegeven op basis van https://github.com/OpenGVLab/InternGPT. De code zal worden vrijgegeven op https://github.com/OpenGVLab/VisionLLM.
Het verbeteren van tekstrepresentatie heeft veel aandacht getrokken om expressieve tekst-naar-spraak (TTS) te bereiken. Bestaande werken leren echter alleen impliciet de prosodie aan met taken voor het reconstrueren van gemaskeerde tokens, wat leidt tot lage trainings efficiëntie en moeilijkheden bij het modelleren van prosodie. Wij stellen CLAPSpeech voor, een cross-modale contrastieve voorafgaande trainingsframework dat expliciet de prosodievariantie van hetzelfde teksttoken onder verschillende contexten leert. Specifiek: 1) We moedigen het model aan om de tekstcontext te verbinden met het bijbehorende prosodiepatroon in de gezamenlijke multimodale ruimte met een uitgekiend ontwerp van de encoder-inputs en contrastief verlies; 2) We introduceren een multi-schaal voorafgaande trainingspijplijn om prosodiepatronen op meerdere niveaus vast te leggen. We laten zien hoe CLAPSpeech kan worden geïntegreerd in bestaande TTS-modellen voor betere prosodie. Experimenten op drie datasets tonen niet alleen aan dat CLAPSpeech de prosodievoorspelling voor bestaande TTS-methoden kan verbeteren, maar ook de generalisatiecapaciteit aantoont om zich aan te passen aan meerdere talen en multi-speaker TTS. We analyseren ook diepgaand het principe achter de prestaties van CLAPSpeech. Ablatiestudies tonen de noodzaak van elke component in onze methode aan. Broncode en audiovoorbeelden zijn beschikbaar op https://clapspeech.github.io.
Diffusiemodellen hebben steeds meer aandacht gekregen vanwege hun indrukwekkende generatiecapaciteiten, maar hebben momenteel moeite met het weergeven van nauwkeurige en samenhangende tekst. Om dit probleem aan te pakken, introduceren we TextDiffuser, dat zich richt op het genereren van afbeeldingen met visueel aantrekkelijke tekst die samenhangt met de achtergronden. TextDiffuser bestaat uit twee fasen: eerst genereert een Transformer-model de lay-out van trefwoorden die uit tekstprompts zijn geëxtraheerd, en vervolgens genereren diffusiemodellen afbeeldingen die zijn geconditioneerd op de tekstprompt en de gegenereerde lay-out. Daarnaast dragen we de eerste grootschalige dataset van tekstafbeeldingen met OCR-annotaties bij, MARIO-10M, die 10 miljoen afbeelding-tekstparen bevat met annotaties voor tekstherkenning, detectie en karakterniveau-segmentatie. We hebben verder de MARIO-Eval benchmark verzameld om als een uitgebreid hulpmiddel te dienen voor het evalueren van de kwaliteit van tekstweergave. Door experimenten en gebruikersstudies tonen we aan dat TextDiffuser flexibel en controleerbaar is om hoogwaardige tekstafbeeldingen te creëren met alleen tekstprompts of samen met teksttemplate-afbeeldingen, en voert het tekstinpainting uit om onvolledige afbeeldingen met tekst te reconstrueren. De code, het model en de dataset zullen beschikbaar zijn op https://aka.ms/textdiffuser.
Het bereiken van machine-autonomie en menselijke controle vertegenwoordigen vaak uiteenlopende doelstellingen bij het ontwerpen van interactieve AI-systemen. Visuele generatieve foundation-modellen zoals Stable Diffusion tonen potentie in het navigeren tussen deze doelen, vooral wanneer ze worden aangestuurd met willekeurige talen. Ze schieten echter vaak tekort in het genereren van afbeeldingen met ruimtelijke, structurele of geometrische controles. De integratie van dergelijke controles, die verschillende visuele condities in één verenigd model kunnen accommoderen, blijft een onopgeloste uitdaging. Als antwoord hierop introduceren we UniControl, een nieuw generatief foundation-model dat een breed scala aan controleerbare conditie-naar-afbeelding (C2I) taken consolideert binnen een enkel framework, terwijl het nog steeds willekeurige taalprompts toestaat. UniControl maakt pixelprecieze beeldgeneratie mogelijk, waarbij visuele condities voornamelijk de gegenereerde structuren beïnvloeden en taalprompts de stijl en context sturen. Om UniControl uit te rusten met de capaciteit om diverse visuele condities te hanteren, versterken we voorgetrainde tekst-naar-afbeelding diffusiemodellen en introduceren we een taakbewuste HyperNet om de diffusiemodellen te moduleren, waardoor aanpassing aan verschillende C2I-taken tegelijkertijd mogelijk wordt. Getraind op negen unieke C2I-taken, toont UniControl indrukwekkende zero-shot generatiecapaciteiten met ongeziene visuele condities. Experimentele resultaten laten zien dat UniControl vaak de prestaties overtreft van enkelvoudige taakgecontroleerde methoden met vergelijkbare modelgroottes. Deze controleerbare veelzijdigheid positioneert UniControl als een significante vooruitgang in het domein van controleerbare visuele generatie.
Diffusiemodellen, zoals Stable Diffusion, hebben indrukwekkende prestaties getoond bij tekst-naar-beeldgeneratie. Aangezien tekst-naar-beeldgeneratie vaak vereist dat modellen visuele concepten genereren met fijnmazige details en attributen die in tekstprompts zijn gespecificeerd, kunnen we de krachtige representaties die door vooraf getrainde diffusiemodellen zijn geleerd, benutten voor discriminerende taken zoals beeld-tekstmatching? Om deze vraag te beantwoorden, stellen we een nieuwe aanpak voor, Discriminative Stable Diffusion (DSD), die vooraf getrainde tekst-naar-beeld diffusiemodellen omzet in few-shot discriminerende leermodellen. Onze aanpak gebruikt de cross-attention score van een Stable Diffusion-model om de wederzijdse invloed tussen visuele en tekstuele informatie vast te leggen en fine-tunt het model via attention-gebaseerd promptleren om beeld-tekstmatching uit te voeren. Door DSD te vergelijken met state-of-the-art methoden op verschillende benchmarkdatasets, demonstreren we het potentieel van het gebruik van vooraf getrainde diffusiemodellen voor discriminerende taken met superieure resultaten op few-shot beeld-tekstmatching.
Evaluatie van feitelijke consistentie wordt vaak uitgevoerd met behulp van Natural Language Inference (NLI)-modellen, maar deze modellen vertonen beperkt succes bij het evalueren van samenvattingen. Eerder werk verbeterde dergelijke modellen met synthetische trainingsdata. Deze data is echter meestal gebaseerd op aangepaste, door mensen geschreven samenvattingen, die vaak verschillen in hun kenmerken van echte, door modellen gegenereerde samenvattingen en een beperkte dekking hebben van mogelijke feitelijke fouten. Alternatief hebben grote taalmmodellen (LLMs) recent veelbelovende resultaten getoond bij het direct evalueren van generatieve taken, maar zijn ze te rekenintensief voor praktisch gebruik. Gemotiveerd door deze beperkingen introduceren we TrueTeacher, een methode voor het genereren van synthetische data door diverse, door modellen gegenereerde samenvattingen te annoteren met behulp van een LLM. In tegenstelling tot eerder werk is TrueTeacher niet afhankelijk van door mensen geschreven samenvattingen en is het van nature meertalig. Experimenten op de TRUE-benchmark laten zien dat een studentmodel getraind met onze data, zowel het state-of-the-art model met vergelijkbare capaciteit als het LLM-leraarmodel aanzienlijk overtreft. In een systematische studie vergelijken we TrueTeacher met bestaande methoden voor synthetische datageneratie en demonstreren we de superioriteit en robuustheid tegen domeinverschuiving. Met behulp van de mFACE-dataset tonen we ook aan dat onze methode generaliseert naar meertalige scenario's. Tot slot publiceren we een grootschalige synthetische dataset met 1,4 miljoen voorbeelden gegenereerd met TrueTeacher.
Object detection is uitgebreid van een beperkt aantal categorieën naar open vocabulaire. Vooruitkijkend vereist een compleet intelligent visueel systeem een begrip van meer fijnmazige objectbeschrijvingen, zoals objectonderdelen. In dit artikel stellen we een detector voor die zowel open-vocabulaire objecten als hun onderdeelsegmentatie kan voorspellen. Deze mogelijkheid komt voort uit twee ontwerpen. Ten eerste trainen we de detector op de combinatie van onderdeelniveau, objectniveau en afbeeldingsniveau om de multi-granulariteit alignering tussen taal en beeld te bouwen. Ten tweede ontleden we het nieuwe object in zijn onderdelen door de dichte semantische overeenkomst met het basisobject. Deze twee ontwerpen zorgen ervoor dat de detector grotendeels kan profiteren van verschillende databronnen en foundation modellen. In experimenten met open-vocabulaire onderdeelsegmentatie overtreft onze methode de baseline met 3,3 tot 7,3 mAP in cross-dataset generalisatie op PartImageNet, en verbetert de baseline met 7,3 novel AP_{50} in cross-categorie generalisatie op Pascal Part. Tot slot trainen we een detector die generaliseert naar een breed scala aan onderdeelsegmentatie datasets, terwijl hij betere prestaties behaalt dan datasetspecifieke training.
We presenteren ons werk aan de ontwikkeling van een meertalige, efficiënte text-to-text transformer die geschikt is voor het verwerken van lange invoer. Dit model, genaamd mLongT5, bouwt voort op de architectuur van LongT5, terwijl het gebruikmaakt van de meertalige datasets die zijn gebruikt voor het vooraf trainen van mT5 en de voorafgaande trainings taken van UL2. We evalueren dit model op een verscheidenheid aan meertalige samenvattings- en vraag-antwoordtaken, en de resultaten tonen een sterkere prestatie van mLongT5 in vergelijking met bestaande meertalige modellen zoals mBART of M-BERT.
Symbolische muziekgeneratie heeft als doel muzieknoten te creëren, wat gebruikers kan helpen bij het componeren van muziek, zoals het genereren van doel-instrumentale tracks vanaf nul, of gebaseerd op door de gebruiker aangeleverde bron-tracks. Gezien de diverse en flexibele combinaties tussen bron- en doel-tracks, is een uniform model dat in staat is om willekeurige tracks te genereren van cruciaal belang. Eerdere werken slagen er niet in om aan deze behoefte te voldoen vanwege inherente beperkingen in muziekrepresentaties en modelarchitecturen. Om aan deze behoefte te voldoen, stellen we een uniforme representatie en diffusieframework voor genaamd GETMusic (`GET' staat voor GEnerate music Tracks), dat een nieuwe muziekrepresentatie genaamd GETScore en een diffusiemodel genaamd GETDiff omvat. GETScore vertegenwoordigt noten als tokens en organiseert ze in een 2D-structuur, waarbij tracks verticaal gestapeld zijn en horizontaal voortschrijden in de tijd. Tijdens de training worden tracks willekeurig geselecteerd als doel of bron. In het voorwaartse proces worden doel-tracks gecorrumpeerd door hun tokens te maskeren, terwijl bron-tracks als grondwaarheid blijven. In het denoisingsproces leert GETDiff de gemaskeerde doel-tokens te voorspellen, geconditioneerd op de bron-tracks. Met gescheiden tracks in GETScore en het niet-autoregressieve gedrag van het model, kan GETMusic expliciet de generatie van elke doel-track vanaf nul of geconditioneerd op bron-tracks controleren. We voeren experimenten uit op het gebied van muziekgeneratie met zes instrumentale tracks, wat resulteert in een totaal van 665 combinaties. GETMusic levert hoogwaardige resultaten op bij diverse combinaties en overtreft eerdere werken die voor specifieke combinaties zijn voorgesteld.
Visuele tekst roept een beeld op in iemands geest, terwijl niet-visuele tekst dit niet doet. Een methode om visualiteit in tekst automatisch te detecteren, zal de mogelijkheid ontsluiten om tekst te verrijken met relevante afbeeldingen, aangezien neurale tekst-naar-beeldgeneratie- en retrievalsystemen uitgaan van de impliciete aanname dat de invoertekst visueel van aard is. We hebben een dataset samengesteld van 3.620 Engelse zinnen en hun visualiteitsscores, verstrekt door meerdere menselijke annotators. Daarnaast gebruiken we documenten die tekst en visuele elementen bevatten om een op afstand begeleid corpus te creëren van documenttekst en bijbehorende afbeeldingen. We stellen ook een fine-tuningstrategie voor die grote visie-taalmodellen zoals CLIP aanpast, die uitgaan van een één-op-één-correspondentie tussen tekst en beeld, voor de taak om visualiteit van tekst te beoordelen op basis van alleen tekstinvoer. Onze strategie omvat het aanpassen van het contrastieve leerdoel van het model om tekst die als niet-visueel wordt geïdentificeerd, te koppelen aan een gemeenschappelijke NULL-afbeelding, terwijl visuele tekst wordt gematcht met hun corresponderende afbeeldingen in het document. We evalueren de voorgestelde aanpak op zijn vermogen om (i) visuele en niet-visuele tekst nauwkeurig te classificeren, en (ii) aandacht te besteden aan woorden die in psycholinguïstische studies als visueel worden geïdentificeerd. Empirische evaluatie geeft aan dat onze aanpak beter presteert dan verschillende heuristieken en basismodellen voor de voorgestelde taak. Bovendien voeren we kwalitatieve analyses uit van tekst-naar-beeldgeneratiesystemen zoals DALL-E om het belang van het modelleren van de visualiteit van tekst te benadrukken.
Ondanks enorme vooruitgang in het genereren van hoogwaardige afbeeldingen met behulp van diffusiemodellen, staat het synthetiseren van een reeks geanimeerde frames die zowel fotorealistisch als temporeel coherent zijn nog in de kinderschoenen. Hoewel kant-en-klare datasets op miljardenschaal voor beeldgeneratie beschikbaar zijn, blijft het verzamelen van vergelijkbare videogegevens op dezelfde schaal een uitdaging. Bovendien is het trainen van een videodiffusiemodel computationeel veel duurder dan zijn tegenhanger voor afbeeldingen. In dit werk onderzoeken we het finetunen van een voorgetraind beelddiffusiemodel met videogegevens als een praktische oplossing voor de videosynthesetaak. We ontdekken dat het naïef uitbreiden van de beeldruisprior naar een videoruisprior in videodiffusie leidt tot suboptimale prestaties. Onze zorgvuldig ontworpen videoruisprior resulteert in aanzienlijk betere prestaties. Uitgebreide experimentele validatie toont aan dat ons model, Preserve Your Own Correlation (PYoCo), state-of-the-art (SOTA) zero-shot tekst-naar-video resultaten behaalt op de UCF-101 en MSR-VTT benchmarks. Het bereikt ook SOTA videogeneratiekwaliteit op de kleinschalige UCF-101 benchmark met een 10 keer kleiner model en aanzienlijk minder rekenkracht dan de huidige stand van de techniek.
We onderzoeken het gebruik van transformator-sequentiemodellen als dynamische modellen (TDMs) voor controle. In een aantal experimenten in de DeepMind-controlsuite vinden we dat, ten eerste, TDMs goed presteren in een leeromgeving met één omgeving in vergelijking met baseline-modellen. Ten tweede vertonen TDMs sterke generalisatiecapaciteiten naar onbekende omgevingen, zowel in een few-shot setting, waarbij een generalistisch model wordt verfijnd met kleine hoeveelheden gegevens uit de doelomgeving, als in een zero-shot setting, waarbij een generalistisch model wordt toegepast op een onbekende omgeving zonder verdere training. We laten verder zien dat het generaliseren van systeemdynamica veel beter kan werken dan het direct generaliseren van optimaal gedrag als beleid. Dit maakt TDMs een veelbelovend ingrediënt voor een fundamenteel model van controle.
We presenteren VideoFactory, een innovatief framework voor het genereren van hoogwaardige open-domein video's. VideoFactory blinkt uit in het produceren van high-definition (1376x768), breedbeeld (16:9) video's zonder watermerken, wat een boeiende gebruikerservaring creëert. Het genereren van video's die worden gestuurd door tekstinstructies brengt aanzienlijke uitdagingen met zich mee, zoals het modelleren van de complexe relatie tussen ruimte en tijd, en het gebrek aan grootschalige tekst-video gepaarde data. Eerdere benaderingen breiden vooraf getrainde tekst-naar-beeld generatiemodellen uit door tijdelijke 1D-convolutie/aandachtsmodules toe te voegen voor videogeneratie. Deze benaderingen negeren echter het belang van het gezamenlijk modelleren van ruimte en tijd, wat onvermijdelijk leidt tot temporele vervormingen en een verkeerde afstemming tussen teksten en video's. In dit artikel stellen we een nieuwe benadering voor die de interactie tussen ruimtelijke en temporele waarnemingen versterkt. In het bijzonder maken we gebruik van een uitgewisseld kruisaandachtsmechanisme in 3D-vensters dat de "query"-rol afwisselt tussen ruimtelijke en temporele blokken, waardoor ze elkaar wederzijds versterken. Om de mogelijkheden van het model volledig te benutten voor hoogwaardige videogeneratie, hebben we een grootschalige videodataset samengesteld genaamd HD-VG-130M. Deze dataset bestaat uit 130 miljoen tekst-video paren uit het open domein, die gegarandeerd high-definition, breedbeeld en vrij van watermerken zijn. Objectieve metingen en gebruikersstudies tonen de superioriteit van onze benadering aan wat betreft kwaliteit per frame, temporele correlatie en tekst-video afstemming, met duidelijke marges.
De Generative Pre-trained Transformer (GPT) heeft zijn grote succes bewezen in natuurlijke taalverwerking, en gerelateerde technieken zijn aangepast voor moleculaire modellering. Gezien tekst de belangrijkste registratie is voor wetenschappelijke ontdekkingen, stellen we in dit artikel MolXPT voor, een geïntegreerd taalmodel voor tekst en moleculen dat vooraf is getraind op SMILES (een sequentiële representatie van moleculen) omgeven door tekst. Kort gezegd detecteren we de molecuulnamen in elke sequentie en vervangen deze door de corresponderende SMILES. Op deze manier kunnen de SMILES profiteren van de informatie uit de omringende tekst, en vice versa. De bovenstaande omgeven sequenties, tekstsequenties uit PubMed en SMILES-sequenties uit PubChem worden allemaal ingevoerd in een taalmodel voor voorafgaande training. Experimentele resultaten tonen aan dat MolXPT sterke basislijnen voor moleculaire eigenschapsvoorspelling op MoleculeNet overtreft, vergelijkbaar presteert met het beste model in tekst-molecuulvertaling terwijl het minder dan de helft van de parameters gebruikt, en zero-shot moleculaire generatie mogelijk maakt zonder fine-tuning.