Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren de ShareGPT4Video-serie, die tot doel heeft het video-begrip van grote video-taalmodellen (LVLMs) en de videogeneratie van tekst-naar-videomodellen (T2VMs) te vergemakkelijken via dichte en precieze bijschriften. De serie omvat: 1) ShareGPT4Video, 40K GPT4V-geannoteerde dichte bijschriften van video's met verschillende lengtes en bronnen, ontwikkeld door middel van een zorgvuldig ontworpen datafilterings- en annotatiestrategie. 2) ShareCaptioner-Video, een efficiënt en capabel bijschriftmodel voor willekeurige video's, met 4,8M hoogwaardige esthetische video's die erdoor zijn geannoteerd. 3) ShareGPT4Video-8B, een eenvoudig maar uitstekend LVLM dat state-of-the-art prestaties bereikte op drie voortschrijdende videobenchmarks. Om dit te bereiken, stellen we vast dat het gebruik van GPT4V om video's van bijschriften te voorzien met een naïeve multi-frame of frame-concatenatie-invoerstrategie leidt tot minder gedetailleerde en soms temporeel verwarde resultaten, afgezien van de niet-schaalbare, kostbare menselijke annotators. Wij stellen dat de uitdaging van het ontwerpen van een hoogwaardige videobijschriftstrategie ligt in drie aspecten: 1) Inter-frame precies temporeel veranderingsbegrip. 2) Intra-frame gedetailleerde inhoudsbeschrijving. 3) Frame-nummer schaalbaarheid voor video's van willekeurige lengte. Hiertoe hebben we een differentiële videobijschriftstrategie zorgvuldig ontworpen, die stabiel, schaalbaar en efficiënt is voor het genereren van bijschriften voor video's met willekeurige resolutie, beeldverhoudingen en lengte. Op basis hiervan construeren we ShareGPT4Video, dat 40K hoogwaardige video's bevat die een breed scala aan categorieën bestrijken, en de resulterende bijschriften omvatten rijke wereldkennis, objectattributen, camerabewegingen en cruciaal, gedetailleerde en precieze temporele beschrijvingen van gebeurtenissen. Op basis van ShareGPT4Video ontwikkelen we verder ShareCaptioner-Video, een superieure bijschrijver die in staat is om efficiënt hoogwaardige bijschriften te genereren voor willekeurige video's...
Diffusiegebaseerde beeldgeneratiemodellen hebben de afgelopen jaren groot succes geboekt door het vermogen te tonen om hoogwaardige inhoud te synthetiseren. Deze modellen bevatten echter een enorm aantal parameters, wat resulteert in een aanzienlijk grote modelgrootte. Het opslaan en overdragen ervan vormt een belangrijk knelpunt voor diverse toepassingen, vooral die welke draaien op apparaten met beperkte middelen. In dit werk ontwikkelen we een nieuwe methode voor gewichtskwantisatie die de UNet van Stable Diffusion v1.5 kwantiseert naar 1,99 bits, waardoor een model ontstaat dat 7,9 keer kleiner is en zelfs betere generatiekwaliteit vertoont dan het originele model. Onze aanpak omvat verschillende nieuwe technieken, zoals het toewijzen van optimale bits aan elke laag, het initialiseren van het gekwantiseerde model voor betere prestaties, en het verbeteren van de trainingsstrategie om de kwantisatiefout aanzienlijk te verminderen. Bovendien evalueren we ons gekwantiseerde model uitgebreid op diverse benchmarkdatasets en via menselijke evaluatie om de superieure generatiekwaliteit aan te tonen.
Onlangs heeft Direct Preference Optimization (DPO) zijn succes uitgebreid van het afstemmen van grote taalmodelen (LLMs) naar het afstemmen van tekst-naar-beeld diffusiemodellen op menselijke voorkeuren. In tegenstelling tot de meeste bestaande DPO-methoden die ervan uitgaan dat alle diffusiestappen een consistente voorkeursvolgorde delen met de uiteindelijk gegenereerde beelden, stellen wij dat deze aanname de stap-specifieke denoiserprestaties negeert en dat voorkeurslabels moeten worden afgestemd op de bijdrage van elke stap. Om deze beperking aan te pakken, stellen wij Step-aware Preference Optimization (SPO) voor, een nieuwe post-trainingsbenadering die onafhankelijk de denoiserprestaties bij elke stap evalueert en aanpast, met behulp van een stap-bewust voorkeursmodel en een stapgewijze hersampler om nauwkeurige stap-bewuste supervisie te garanderen. Specifiek nemen we bij elke denoiserstap een pool van beelden, vinden een geschikt win-verlies paar en, het belangrijkste, selecteren we willekeurig een enkel beeld uit de pool om de volgende denoiserstap te initialiseren. Dit stapgewijze hersampler-proces zorgt ervoor dat het volgende win-verlies beeldpaar afkomstig is van hetzelfde beeld, waardoor de win-verlies vergelijking onafhankelijk is van de vorige stap. Om de voorkeuren bij elke stap te beoordelen, trainen we een apart stap-bewust voorkeursmodel dat kan worden toegepast op zowel ruwe als schone beelden. Onze experimenten met Stable Diffusion v1.5 en SDXL tonen aan dat SPO aanzienlijk beter presteert dan de nieuwste Diffusion-DPO in het afstemmen van gegenereerde beelden op complexe, gedetailleerde prompts en het verbeteren van esthetiek, terwijl het ook meer dan 20x sneller is in trainings efficiëntie. Code en model: https://rockeycoss.github.io/spo.github.io/
We introduceren Buffer of Thoughts (BoT), een nieuwe en veelzijdige denk-ondersteunde redeneerbenadering om de nauwkeurigheid, efficiëntie en robuustheid van grote taalmodellen (LLMs) te verbeteren. Specifiek stellen we meta-buffer voor om een reeks informatieve hoogwaardige gedachten, genaamd gedachten-template, op te slaan die zijn gedestilleerd uit de probleemoplossingsprocessen van verschillende taken. Vervolgens halen we voor elk probleem een relevante gedachten-template op en passen deze adaptief aan met specifieke redeneerstructuren om efficiënt te redeneren. Om de schaalbaarheid en stabiliteit te garanderen, stellen we verder buffer-manager voor om de meta-buffer dynamisch bij te werken, waardoor de capaciteit van de meta-buffer wordt vergroot naarmate meer taken worden opgelost. We voeren uitgebreide experimenten uit op 10 uitdagende, redeneerintensieve taken en behalen aanzienlijke prestatieverbeteringen ten opzichte van vorige SOTA-methoden: 11% op Game of 24, 20% op Geometric Shapes en 51% op Checkmate-in-One. Verdere analyses tonen de superieure generalisatiecapaciteit en modelrobuustheid van onze BoT aan, terwijl slechts 12% van de kosten van multi-query prompting-methoden (bijv. boom/grafiek van gedachten) gemiddeld nodig is. Opmerkelijk is dat we ontdekken dat onze Llama3-8B+BoT het potentieel heeft om het Llama3-70B-model te overtreffen. Ons project is beschikbaar op: https://github.com/YangLing0818/buffer-of-thought-llm.
Diffusiemodellen hebben grote successen geboekt bij tekst-naar-video (T2V)-generatie. Bestaande methoden kunnen echter uitdagingen ondervinden bij het omgaan met complexe (lange) video-generatiescenario's die meerdere objecten of dynamische veranderingen in het aantal objecten omvatten. Om deze beperkingen aan te pakken, stellen we VideoTetris voor, een nieuw framework dat compositorische T2V-generatie mogelijk maakt. Specifiek stellen we spatio-temporele compositorische diffusie voor om complexe tekstuele semantiek nauwkeurig te volgen door de aandachtkaarten van denoiserende netwerken ruimtelijk en temporeel te manipuleren en samen te stellen. Bovendien stellen we een verbeterde videodatavoorbewerking voor om de trainingsdata te versterken wat betreft bewegingsdynamiek en promptbegrip, uitgerust met een nieuw referentiekader-aandachtsmechanisme om de consistentie van autoregressieve videogeneratie te verbeteren. Uitgebreide experimenten tonen aan dat onze VideoTetris indrukwekkende kwalitatieve en kwantitatieve resultaten behaalt bij compositorische T2V-generatie. Code is beschikbaar op: https://github.com/YangLing0818/VideoTetris
Diffusiegebaseerde videogeneratiemodellen hebben opmerkelijke successen behaald in het verkrijgen van hoogwaardige video's via het iteratieve denoisingsproces. Deze modellen vereisen echter meerdere denoisingstappen tijdens het sampling, wat resulteert in hoge rekenkosten. In dit werk stellen we een nieuwe aanpak voor om enkelstaps videogeneratiemodellen te verkrijgen door gebruik te maken van adversarial training om vooraf getrainde videodiffusiemodellen te finetunen. We tonen aan dat, door middel van adversarial training, het meerstaps videodiffusiemodel, namelijk Stable Video Diffusion (SVD), getraind kan worden om in één enkele voorwaartse doorgang hoogwaardige video's te synthetiseren, waarbij zowel temporele als ruimtelijke afhankelijkheden in de videodata worden vastgelegd. Uitgebreide experimenten tonen aan dat onze methode een competitieve generatiekwaliteit van gesynthetiseerde video's bereikt met aanzienlijk verminderde rekenkosten voor het denoisingsproces (d.w.z., ongeveer 23 keer versnelling vergeleken met SVD en 6 keer versnelling vergeleken met bestaande werken, met zelfs betere generatiekwaliteit), wat de weg vrijmaakt voor real-time videosynthese en -bewerking. Meer visualisatieresultaten zijn openbaar beschikbaar gemaakt op https://snap-research.github.io/SF-V.
Het ontwikkelen van generalistische agents die diverse taken aankunnen en zichzelf kunnen ontwikkelen in verschillende omgevingen is een langetermijndoel binnen de AI-gemeenschap. Grote taalmmodellen (LLM's) worden gezien als een veelbelovende basis voor het bouwen van dergelijke agents vanwege hun algemene capaciteiten. Huidige benaderingen laten LLM-gebaseerde agents ofwel stap-voor-stap expert-geleverde trajecten imiteren, wat menselijk toezicht vereist en moeilijk schaalbaar is, waardoor de verkenning van omgevingen wordt beperkt; of ze laten agents verkennen en leren in geïsoleerde omgevingen, wat resulteert in specialistische agents met beperkte generalisatie. In dit artikel zetten we de eerste stap naar het bouwen van algemeen capabele LLM-gebaseerde agents met zelfontwikkelingsvermogen. We identificeren een drietal essentiële ingrediënten: 1) diverse omgevingen voor agentverkenning en -leren, 2) een trajectenset om agents te voorzien van basisvaardigheden en voorkennis, en 3) een effectieve en schaalbare ontwikkelingsmethode. We introduceren AgentGym, een nieuw framework met een verscheidenheid aan omgevingen en taken voor brede, real-time, uniforme en gelijktijdige agentverkenning. AgentGym omvat ook een database met uitgebreide instructies, een benchmarksuite en hoogwaardige trajecten over verschillende omgevingen. Vervolgens stellen we een nieuwe methode voor, AgentEvol, om het potentieel van agentzelfontwikkeling te onderzoeken voorbij eerder geziene gegevens over taken en omgevingen. Experimentele resultaten tonen aan dat de ontwikkelde agents resultaten kunnen behalen die vergelijkbaar zijn met state-of-the-art modellen. We brengen de AgentGym-suite uit, inclusief het platform, dataset, benchmark, checkpoints en algoritme-implementaties. De AgentGym-suite is beschikbaar op https://github.com/WooooDyy/AgentGym.
Tekstgestuurde beeldgeneratie maakt het mogelijk om visuele inhoud te creëren op basis van tekstuele beschrijvingen. Bepaalde visuele concepten kunnen echter niet effectief worden overgebracht door taal alleen. Dit heeft een hernieuwde interesse gewekt in het gebruik van de CLIP-beeldembeddingruimte voor meer visueel gerichte taken via methoden zoals IP-Adapter. Interessant is dat de CLIP-beeldembeddingruimte semantisch betekenisvol is gebleken, waarbij lineaire operaties binnen deze ruimte semantisch betekenisvolle resultaten opleveren. Toch kan de specifieke betekenis van deze operaties onvoorspelbaar variëren tussen verschillende afbeeldingen. Om dit potentieel te benutten, introduceren we pOps, een framework dat specifieke semantische operatoren rechtstreeks op CLIP-beeldembeddings traint. Elke pOps-operator is gebaseerd op een vooraf getraind Diffusion Prior-model. Hoewel het Diffusion Prior-model oorspronkelijk werd getraind om tussen tekstembeddings en beeldembeddings te mappen, tonen we aan dat het kan worden afgestemd om nieuwe invoercondities te accommoderen, wat resulteert in een diffusie-operator. Rechtstreeks werken met beeldembeddings verbetert niet alleen ons vermogen om semantische operaties te leren, maar stelt ons ook in staat om een tekstuele CLIP-verliesfunctie als aanvullende supervisie te gebruiken wanneer nodig. We laten zien dat pOps kan worden gebruikt om een verscheidenheid aan foto-geïnspireerde operatoren met verschillende semantische betekenissen te leren, wat de semantische diversiteit en het potentieel van onze voorgestelde aanpak benadrukt.
De afgelopen jaren is er een enorme toename geweest in de algemene mogelijkheden van AI-systemen, voornamelijk aangewakkerd door het trainen van foundation-modellen op internetschaal data. Desalniettemin blijft het creëren van open-ended, voortdurend zelfverbeterende AI ongrijpbaar. In dit position paper betogen wij dat de benodigde ingrediënten nu aanwezig zijn om open-endedheid in AI-systemen te bereiken ten opzichte van een menselijke waarnemer. Bovendien stellen wij dat dergelijke open-endedheid een essentiële eigenschap is van elke kunstmatige supermenselijke intelligentie (ASI). We beginnen met het geven van een concrete formele definitie van open-endedheid door de lens van nieuwigheid en leerbaarheid. Vervolgens schetsen we een pad naar ASI via open-ended systemen die gebouwd zijn op foundation-modellen, in staat om nieuwe, voor mensen relevante ontdekkingen te doen. We sluiten af met een onderzoek naar de veiligheidsimplicaties van algemeen capabele open-ended AI. Wij verwachten dat open-ended foundation-modellen in de nabije toekomst een steeds vruchtbaarder en veiligheidskritisch onderzoeksgebied zullen blijken te zijn.