Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren GAIA, een benchmark voor Algemene AI-assistenten die, indien opgelost, een mijlpaal zou betekenen in AI-onderzoek. GAIA stelt realistische vragen die een reeks fundamentele vaardigheden vereisen, zoals redeneren, omgaan met multi-modaliteit, webnavigatie en algemene vaardigheid in het gebruik van tools. De vragen van GAIA zijn conceptueel eenvoudig voor mensen, maar uitdagend voor de meeste geavanceerde AI-systemen: we laten zien dat menselijke respondenten 92\% scoren, tegenover 15\% voor GPT-4 uitgerust met plugins. Dit opmerkelijke prestatieverschil contrasteert met de recente trend waarbij grote taalmodellen (LLMs) mensen overtreffen in taken die professionele vaardigheden vereisen, zoals in het recht of de chemie. De filosofie van GAIA wijkt af van de huidige trend in AI-benchmarks, die suggereert om taken te richten die steeds moeilijker worden voor mensen. We stellen dat de komst van Kunstmatige Algemene Intelligentie (AGI) afhangt van het vermogen van een systeem om een vergelijkbare robuustheid te tonen als de gemiddelde mens bij dergelijke vragen. Met behulp van de methodologie van GAIA hebben we 466 vragen en hun antwoorden ontwikkeld. We publiceren onze vragen terwijl we de antwoorden op 300 ervan achterhouden om een leaderboard te ondersteunen dat beschikbaar is op https://huggingface.co/gaia-benchmark.
Multimedia-generatiebenaderingen nemen een prominente plaats in binnen het onderzoek naar kunstmatige intelligentie. Tekst-naar-beeldmodellen hebben de afgelopen jaren hoogwaardige resultaten behaald. Echter, methoden voor videosynthese zijn pas recentelijk in ontwikkeling gekomen. Dit artikel presenteert een nieuwe tweestaps latent diffusion architectuur voor tekst-naar-videogeneratie, gebaseerd op het tekst-naar-beeld diffusion model. De eerste stap betreft de synthese van keyframes om de verhaallijn van een video te bepalen, terwijl de tweede stap gewijd is aan het genereren van interpolatieframes om de bewegingen van de scène en objecten vloeiend te maken. We vergelijken verschillende temporele conditioneringsbenaderingen voor de generatie van keyframes. De resultaten tonen het voordeel van het gebruik van afzonderlijke temporele blokken ten opzichte van temporele lagen in termen van metrieken die aspecten van videogeneratiekwaliteit en menselijke voorkeur weerspiegelen. Het ontwerp van ons interpolatiemodel vermindert de rekenkosten aanzienlijk in vergelijking met andere benaderingen voor gemaskeerde frame-interpolatie. Bovendien evalueren we verschillende configuraties van het op MoVQ gebaseerde videodecoderingsschema om de consistentie te verbeteren en hogere PSNR-, SSIM-, MSE- en LPIPS-scores te behalen. Tot slot vergelijken we onze pipeline met bestaande oplossingen en behalen we de top-2 scores overall en de top-1 onder open-source oplossingen: CLIPSIM = 0.2976 en FVD = 433.054. Projectpagina: https://ai-forever.github.io/kandinsky-video/
Met de wijdverspreide toepassing van VR-apparaten en -inhoud neemt de vraag naar technieken voor 3D-scènegeneratie toe. Bestaande modellen voor 3D-scènegeneratie beperken de doelscène echter tot een specifiek domein, voornamelijk vanwege hun trainingsstrategieën die gebruikmaken van 3D-scandatasets die ver verwijderd zijn van de realiteit. Om deze beperking aan te pakken, stellen we LucidDreamer voor, een domeinvrije scènegeneratiepipeline die volledig gebruikmaakt van de kracht van bestaande grootschalige, op diffusie gebaseerde generatieve modellen. Onze LucidDreamer bestaat uit twee afwisselende stappen: Dromen en Uitlijnen. Ten eerste, om multi-view consistente afbeeldingen vanuit inputs te genereren, gebruiken we een puntenwolk als geometrische richtlijn voor elke afbeeldinggeneratie. Specifiek projecteren we een deel van de puntenwolk naar de gewenste weergave en gebruiken we deze projectie als leidraad voor inpainting met behulp van het generatieve model. De ingevulde afbeeldingen worden omgezet naar 3D-ruimte met geschatte dieptekaarten, waardoor nieuwe punten worden samengesteld. Ten tweede, om de nieuwe punten te integreren in de 3D-scène, stellen we een uitlijningsalgoritme voor dat de delen van nieuw gegenereerde 3D-scènes harmonieus samenvoegt. De uiteindelijk verkregen 3D-scène dient als initiële punten voor het optimaliseren van Gaussische splats. LucidDreamer produceert Gaussische splats die zeer gedetailleerd zijn in vergelijking met eerdere methoden voor 3D-scènegeneratie, zonder beperkingen op het domein van de doelscène.
Grote taalmodellen (LLM's) worden afgestemd met behulp van menselijke vergelijkingsgegevens en Reinforcement Learning from Human Feedback (RLHF)-methoden om ze beter af te stemmen op de voorkeuren van gebruikers. In tegenstelling tot LLM's is het leren van menselijke voorkeuren bij tekst-naar-beeld diffusiemodellen nog niet breed onderzocht; de beste bestaande aanpak is het afstemmen van een vooraf getraind model met zorgvuldig geselecteerde hoogwaardige afbeeldingen en bijschriften om de visuele aantrekkingskracht en tekstafstemming te verbeteren. Wij stellen Diffusion-DPO voor, een methode om diffusiemodellen af te stemmen op menselijke voorkeuren door direct te optimaliseren op menselijke vergelijkingsgegevens. Diffusion-DPO is aangepast van het recent ontwikkelde Direct Preference Optimization (DPO), een eenvoudiger alternatief voor RLHF dat direct een beleid optimaliseert dat het best voldoet aan menselijke voorkeuren onder een classificatiedoelstelling. We herformuleren DPO om rekening te houden met een diffusiemodel-notie van waarschijnlijkheid, waarbij we de evidence lower bound gebruiken om een differentieerbaar doel af te leiden. Met behulp van de Pick-a-Pic dataset van 851K crowdsourced paarsgewijze voorkeuren, stemmen we het basismodel van het state-of-the-art Stable Diffusion XL (SDXL)-1.0 model af met Diffusion-DPO. Ons afgestemde basismodel presteert aanzienlijk beter dan zowel het basis SDXL-1.0-model als het grotere SDXL-1.0-model dat bestaat uit een extra verfijningsmodel in menselijke evaluatie, waarbij de visuele aantrekkingskracht en promptafstemming worden verbeterd. We ontwikkelen ook een variant die AI-feedback gebruikt en vergelijkbare prestaties heeft als training op menselijke voorkeuren, wat de deur opent voor het schalen van diffusiemodel-afstemmingsmethoden.
Methoden voor het finetunen van generatieve modellen voor conceptgestuurde personalisatie bereiken over het algemeen sterke resultaten voor onderwerpgestuurde of stijlgestuurde generatie. Recentelijk zijn low-rank-aanpassingen (LoRA) voorgesteld als een parameter-efficiënte manier om conceptgestuurde personalisatie te bereiken. Hoewel recent onderzoek de combinatie van afzonderlijke LoRA's verkent om gezamenlijke generatie van geleerde stijlen en onderwerpen te bereiken, lossen bestaande technieken het probleem niet betrouwbaar op; ze gaan vaak ten koste van ofwel de trouw aan het onderwerp ofwel de trouw aan de stijl. Wij stellen ZipLoRA voor, een methode om op goedkope en effectieve wijze onafhankelijk getrainde stijl- en onderwerp-LoRA's samen te voegen om generatie van elk door de gebruiker opgegeven onderwerp in elke door de gebruiker opgegeven stijl te bereiken. Experimenten met een breed scala aan onderwerp- en stijlcombinaties laten zien dat ZipLoRA overtuigende resultaten kan genereren met significante verbeteringen ten opzichte van baseline-methoden in trouw aan onderwerp en stijl, terwijl het vermogen tot hercontextualisatie behouden blijft. Projectpagina: https://ziplora.github.io
Het gebruik van reinforcement learning met menselijke feedback (RLHF) heeft aanzienlijke belofte getoond bij het finetunen van diffusiemodellen. Eerdere methoden beginnen met het trainen van een beloningsmodel dat aansluit bij menselijke voorkeuren, waarna RL-technieken worden ingezet om de onderliggende modellen te finetunen. Het ontwikkelen van een efficiënt beloningsmodel vereist echter uitgebreide datasets, een optimale architectuur en handmatige afstemming van hyperparameters, wat het proces zowel tijd- als kostintensief maakt. De direct preference optimization (DPO)-methode, die effectief is bij het finetunen van grote taalmodelen, elimineert de noodzaak van een beloningsmodel. De uitgebreide GPU-geheugenbehoefte van het denoisingsproces van diffusiemodellen belemmert echter de directe toepassing van de DPO-methode. Om dit probleem aan te pakken, introduceren we de Direct Preference for Denoising Diffusion Policy Optimization (D3PO)-methode om diffusiemodellen direct te finetunen. De theoretische analyse toont aan dat, hoewel D3PO het trainen van een beloningsmodel overslaat, het effectief functioneert als het optimale beloningsmodel dat is getraind met menselijke feedbackgegevens om het leerproces te sturen. Deze aanpak vereist geen training van een beloningsmodel, wat directer en kosteneffectiever is en de rekenkundige overhead minimaliseert. In experimenten gebruikt onze methode de relatieve schaal van doelen als een proxy voor menselijke voorkeur, wat vergelijkbare resultaten oplevert als methoden die gebruikmaken van grondwaarheid-beloningen. Bovendien toont D3PO aan dat het in staat is beeldvervormingspercentages te verminderen en veiligere afbeeldingen te genereren, waardoor uitdagingen worden overwonnen die het ontbreken van robuuste beloningsmodellen met zich meebrengen.
In-context prompting in grote taalmodellen (LLMs) is een veelgebruikte aanpak geworden om zero-shot-mogelijkheden te verbeteren, maar dit idee is minder onderzocht in het visuele domein. Bestaande methoden voor visuele prompting richten zich op refererende segmentatie om het meest relevante object te segmenteren, maar schieten tekort in het aanpakken van veel algemene visuele taken zoals open-set-segmentatie en detectie. In dit artikel introduceren we een universeel visueel in-context prompting-framework voor beide taken. In het bijzonder bouwen we voort op een encoder-decoder-architectuur en ontwikkelen we een veelzijdige prompt-encoder die een verscheidenheid aan prompts ondersteunt, zoals strepen, vakjes en punten. We verbeteren deze verder om een willekeurig aantal referentiebeeldsegmenten als context te gebruiken. Onze uitgebreide onderzoeken tonen aan dat het voorgestelde visuele in-context prompting buitengewone refererende en generieke segmentatiecapaciteiten oproept om te verwijzen en te detecteren, wat resulteert in competitieve prestaties op close-set in-domein datasets en veelbelovende resultaten laat zien op veel open-set-segmentatiedatasets. Door gezamenlijke training op COCO en SA-1B behaalt ons model 57,7 PQ op COCO en 23,2 PQ op ADE20K. De code zal beschikbaar zijn op https://github.com/UX-Decoder/DINOv.
Het uitbreiden van op afbeeldingen gebaseerde Large Multimodal Models (LMM) naar video's is uitdagend vanwege de inherente complexiteit van videodata. Recente benaderingen die op afbeeldingen gebaseerde LMM's uitbreiden naar video's missen ofwel de mogelijkheid tot gronding (bijv. VideoChat, Video-ChatGPT, Video-LLaMA) of maken geen gebruik van audiosignalen voor een beter begrip van video's (bijv. Video-ChatGPT). Om deze tekortkomingen aan te pakken, stellen we Video-LLaVA voor, de eerste LMM met pixelniveau grondingsmogelijkheid, die audiocues integreert door ze om te zetten in tekst om het begrip van videocontext te verrijken. Ons framework maakt gebruik van een standaard tracker en een nieuwe grondingsmodule, waardoor het objecten in video's ruimtelijk en temporeel kan lokaliseren volgens gebruikersinstructies. We evalueren Video-LLaVA met behulp van op video's gebaseerde generatieve en vraag-antwoordbenchmarks en introduceren nieuwe benchmarks die specifiek zijn ontworpen om de prestaties van op prompts gebaseerde objectgronding in video's te meten. Verder stellen we het gebruik van Vicuna voor boven GPT-3.5, zoals gebruikt in Video-ChatGPT, voor het benchmarken van op video's gebaseerde gesprekken, om de reproduceerbaarheid van resultaten te waarborgen, wat een zorg is vanwege het propriëtaire karakter van GPT-3.5. Ons framework bouwt voort op de state-of-the-art op afbeeldingen gebaseerde LLaVA-model en breidt de voordelen ervan uit naar het videodomein, wat veelbelovende verbeteringen oplevert bij op video's gebaseerde gespreks- en grondingstaken. Projectpagina: https://github.com/mbzuai-oryx/Video-LLaVA
Dit is een technisch rapport over de taak van het genereren van 360-graden panoramische afbeeldingen op basis van diffusiemodellen. In tegenstelling tot gewone 2D-afbeeldingen, vangen 360-graden panoramische afbeeldingen het volledige gezichtsveld van 360^circ keer 180^circ vast. Daarom moeten de meest rechtse en meest linkse zijden van de 360-graden panoramische afbeelding naadloos aansluiten, wat de grootste uitdaging in dit veld vormt. Het huidige diffusiepipeline is echter niet geschikt voor het genereren van zo'n naadloze 360-graden panoramische afbeelding. Om dit te bereiken, stellen we een circulaire blendingstrategie voor in zowel de denoising- als de VAE-decoderingsfasen om de geometrische continuïteit te behouden. Op basis hiervan presenteren we twee modellen voor de taken Text-to-360-panorama's en Single-Image-to-360-panorama's. De code is vrijgegeven als een open-source project op https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} en https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}.