Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het Segment Anything Model (SAM) heeft zich gevestigd als een krachtig zero-shot beeldsegmentatiemodel, dat interactieve prompts zoals punten gebruikt om maskers te genereren. Dit artikel presenteert SAM-PT, een methode die de mogelijkheden van SAM uitbreidt naar het volgen en segmenteren van alles in dynamische video's. SAM-PT maakt gebruik van robuuste en spaarzame puntselectie- en propagatietechnieken voor maskergeneratie, en toont aan dat een op SAM gebaseerde segmentatietracker sterke zero-shot prestaties kan leveren op populaire video-objectsegmentatiebenchmarks, waaronder DAVIS, YouTube-VOS en MOSE. In vergelijking met traditionele objectgerichte maskerpropagatiestrategieën, gebruiken wij uniek puntpropagatie om lokale structuurinformatie te benutten die onafhankelijk is van objectsemantiek. Wij benadrukken de voordelen van puntgebaseerd volgen door directe evaluatie op de zero-shot open-world Unidentified Video Objects (UVO) benchmark. Om onze aanpak verder te verbeteren, gebruiken wij K-Medoids clustering voor puntinitialisatie en volgen wij zowel positieve als negatieve punten om het doelobject duidelijk te onderscheiden. Wij passen ook meerdere maskerdecoderingstappen toe voor maskerverfijning en ontwikkelen een puntherinitialisatiestrategie om de volgnauwkeurigheid te verbeteren. Onze code integreert verschillende puntvolgers en video-segmentatiebenchmarks en zal worden vrijgegeven op https://github.com/SysCV/sam-pt.
Recente grootschalige tekstgestuurde diffusiemodellen bieden krachtige mogelijkheden voor beeldgeneratie. Momenteel wordt er aanzienlijke inspanning geleverd om het aanpassen van deze beelden mogelijk te maken met alleen tekst als middel om intuïtieve en veelzijdige bewerkingen te bieden. Echter blijkt bewerken moeilijk te zijn voor deze generatieve modellen vanwege de inherente aard van bewerkingstechnieken, waarbij bepaalde inhoud van het originele beeld behouden moet blijven. Daarentegen resulteren in tekstgebaseerde modellen zelfs kleine wijzigingen aan de tekstprompt vaak in een geheel ander resultaat, wat het bereiken van een one-shot-generatie die nauwkeurig overeenkomt met de bedoeling van de gebruiker bijzonder uitdagend maakt. Bovendien moet men, om een echt beeld te bewerken met deze state-of-the-art tools, eerst het beeld inverteren naar het domein van het vooraf getrainde model – wat een extra factor toevoegt die de bewerkingskwaliteit en latentie beïnvloedt. In dit verkennende rapport stellen we LEDITS voor – een gecombineerde lichtgewicht aanpak voor het bewerken van echte beelden, waarbij de Edit Friendly DDPM-inversietechniek wordt gecombineerd met Semantische Begeleiding, waardoor Semantische Begeleiding wordt uitgebreid naar het bewerken van echte beelden, terwijl ook de bewerkingsmogelijkheden van DDPM-inversie worden benut. Deze aanpak bereikt veelzijdige bewerkingen, zowel subtiel als uitgebreid, evenals wijzigingen in compositie en stijl, zonder dat er optimalisatie of uitbreidingen van de architectuur nodig zijn.
Generatieve AI heeft aanzienlijke vooruitgang geboekt in computervisie, met name bij het synthetiseren van afbeeldingen/video's op basis van tekstbeschrijvingen. Ondanks deze vooruitgang blijft het een uitdaging, vooral bij het genereren van mensgerichte inhoud zoals danssynthese. Bestaande methoden voor danssynthese worstelen met de kloof tussen gesynthetiseerde inhoud en realistische dansscenario's. In dit artikel definiëren we een nieuwe probleemstelling: Referring Human Dance Generation, die zich richt op realistische dansscenario's met drie belangrijke eigenschappen: (i) Trouw: de synthese moet het uiterlijk van zowel de menselijke voorgrond als de achtergrond van de referentieafbeelding behouden, en precies de doelpose volgen; (ii) Generaliseerbaarheid: het model moet kunnen generaliseren naar onbekende menselijke onderwerpen, achtergronden en poses; (iii) Samenstelbaarheid: het moet mogelijk zijn om bekende/onbekende onderwerpen, achtergronden en poses uit verschillende bronnen te combineren. Om deze uitdagingen aan te pakken, introduceren we een nieuwe aanpak, DISCO, die een nieuw modelarchitectuur omvat met ontkoppelde controle om de trouw en samenstelbaarheid van danssynthese te verbeteren, en een effectieve voorafgaande training van menselijke attributen voor betere generaliseerbaarheid naar onbekende personen. Uitgebreide kwalitatieve en kwantitatieve resultaten demonstreren dat DISCO hoogwaardige afbeeldingen en video's van menselijke dans kan genereren met diverse uiterlijken en flexibele bewegingen. Code, demo, video en visualisatie zijn beschikbaar op: https://disco-dance.github.io/.
De opkomst van grote taalmodellen (LLM's) heeft een revolutie teweeggebracht in natuurlijke taalverwerking, waardoor het mogelijk is om samenhangende en contextueel relevante tekst te genereren. Naarmate LLM's steeds vaker worden ingezet voor conversatie-agents, trekt de gesynthetiseerde persoonlijkheid die in deze modellen is ingebed door hun training op grote hoeveelheden door mensen gegenereerde data de aandacht. Aangezien persoonlijkheid een belangrijke factor is die de effectiviteit van communicatie bepaalt, presenteren we een uitgebreide methode voor het afnemen van gevalideerde psychometrische tests en het kwantificeren, analyseren en vormgeven van persoonlijkheidskenmerken die worden getoond in tekst die wordt gegenereerd door veelgebruikte LLM's. We constateren dat: 1) de persoonlijkheid die wordt gesimuleerd in de uitvoer van sommige LLM's (onder specifieke promptconfiguraties) betrouwbaar en valide is; 2) het bewijs voor de betrouwbaarheid en validiteit van door LLM's gesimuleerde persoonlijkheid sterker is voor grotere en instructie-fijn afgestemde modellen; en 3) de persoonlijkheid in LLM-uitvoer kan worden gevormd langs gewenste dimensies om specifieke persoonlijkheidsprofielen na te bootsen. We bespreken ook potentiële toepassingen en ethische implicaties van ons meet- en vormgevingskader, met name met betrekking tot het verantwoord gebruik van LLM's.
Hoewel recente vooruitgang in visie-taalmodellen een revolutie teweeg heeft gebracht in multimodale begripsvorming, blijft het onduidelijk of ze de capaciteiten bezitten om gegenereerde afbeeldingen te begrijpen. In vergelijking met echte data vertonen synthetische afbeeldingen een hogere mate van diversiteit in zowel inhoud als stijl, wat aanzienlijke moeilijkheden oplevert voor de modellen om deze volledig te bevatten. Daarom presenteren we een grootschalige dataset, JourneyDB, voor multimodaal visueel begrip in gegenereerde afbeeldingen. Onze samengestelde dataset omvat 4 miljoen diverse en hoogwaardige gegenereerde afbeeldingen, gekoppeld aan de tekstprompts die gebruikt zijn om ze te produceren. We ontwerpen verder 4 benchmarks om de prestaties van het begrip van gegenereerde afbeeldingen te kwantificeren, zowel in termen van inhoud als stijlinterpretatie. Deze benchmarks omvatten promptinversie, stijlretrieval, beeldbeschrijving en visuele vraagbeantwoording. Ten slotte evalueren we de prestaties van huidige state-of-the-art multimodale modellen wanneer ze worden toegepast op JourneyDB, en bieden we een diepgaande analyse van hun sterke punten en beperkingen in het begrijpen van gegenereerde inhoud. We hopen dat de voorgestelde dataset en benchmarks het onderzoek op het gebied van het begrijpen van gegenereerde inhoud zullen bevorderen. De dataset zal beschikbaar zijn op https://journeydb.github.io.
Dit artikel introduceert MVDiffusion, een eenvoudige maar effectieve methode voor het genereren van multi-view afbeeldingen in scenario's waar pixel-voor-pixel correspondentie beschikbaar is, zoals perspectief uitsneden van panorama's of multi-view afbeeldingen met gegeven geometrie (dieptekaarten en posities). In tegenstelling tot eerdere modellen die vertrouwen op iteratieve beeldvervorming en inpainting, genereert MVDiffusion alle afbeeldingen gelijktijdig met een globaal bewustzijn, waarbij hoge resolutie en rijke inhoud worden omvat, waardoor de foutaccumulatie die in voorgaande modellen voorkomt effectief wordt aangepakt. MVDiffusion integreert specifiek een correspondentiebewust aandachtmechanisme, dat effectieve kruisview-interactie mogelijk maakt. Dit mechanisme ondersteunt drie cruciale modules: 1) een generatiemodule die afbeeldingen met lage resolutie produceert terwijl globale correspondentie wordt behouden, 2) een interpolatiemodule die de ruimtelijke dekking tussen afbeeldingen verdicht, en 3) een superresolutiemodule die opschaalt naar uitvoer met hoge resolutie. Wat betreft panoramische beelden kan MVDiffusion hoogwaardige, fotorealistische afbeeldingen genereren tot 1024x1024 pixels. Voor geometrie-geconditioneerde multi-view beeldgeneratie toont MVDiffusion de eerste methode die in staat is een getextureerde kaart van een scènemesh te genereren. De projectpagina is te vinden op https://mvdiffusion.github.io.
Leer-gebaseerde benaderingen voor monokulaire motion capture hebben recent veelbelovende resultaten laten zien door op een data-gedreven manier te leren regresseren. Echter, vanwege de uitdagingen in dataverzameling en netwerkontwerpen, blijft het voor bestaande oplossingen een uitdaging om real-time full-body capture te bereiken terwijl ze nauwkeurig zijn in de wereldruimte. In dit werk dragen we een sequentieel proxy-naar-motion leer schema bij, samen met een proxy dataset van 2D skeletsequenties en 3D rotatiebewegingen in de wereldruimte. Dergelijke proxy data stelt ons in staat om een leer-gebaseerd netwerk te bouwen met nauwkeurige full-body supervisie, terwijl het ook de generalisatieproblemen vermindert. Voor nauwkeurigere en fysiek plausibele voorspellingen wordt een contact-bewuste neurale motion descent module voorgesteld in ons netwerk, zodat het zich bewust kan zijn van voet-grond contact en bewegingen die niet overeenkomen met de proxy observaties. Daarnaast delen we de lichaam-hand context informatie in ons netwerk voor een meer compatibel herstel van polsposes met het full-body model. Met de voorgestelde leer-gebaseerde oplossing demonstreren we het eerste real-time monokulaire full-body capture systeem met plausibel voet-grond contact in de wereldruimte. Meer videoresultaten zijn te vinden op onze projectpagina: https://liuyebin.com/proxycap.
Voorgetrainde taalmodelen (PLMs) zijn tegenwoordig het primaire model voor natuurlijke taalverwerking. Ondanks hun indrukwekkende prestaties op downstream taken, kan het moeilijk zijn om PLMs toe te passen op nieuwe talen, wat een belemmering vormt om hun mogelijkheden universeel toegankelijk te maken. Hoewel eerder onderzoek heeft aangetoond dat dit probleem kan worden aangepakt door een nieuwe embeddinglaag voor de nieuwe taal te leren, is dit zowel data- als rekeninefficiënt. Wij stellen voor om een actief vergeten-mechanisme te gebruiken tijdens het vooraf trainen, als een eenvoudige manier om PLMs te creëren die zich snel kunnen aanpassen aan nieuwe talen. Concreet, door de embeddinglaag elke K updates tijdens het vooraf trainen te resetten, stimuleren we het PLM om zijn vermogen om nieuwe embeddings te leren binnen een beperkt aantal updates te verbeteren, vergelijkbaar met een meta-leer effect. Experimenten met RoBERTa tonen aan dat modellen die zijn voorgetraind met ons vergeten-mechanisme niet alleen sneller convergeren tijdens taaladaptatie, maar ook standaardmodellen overtreffen in een situatie met weinig data, met name voor talen die ver van het Engels af staan.
Ons doel is om robots natuurlijke taal instructies te laten volgen, zoals "leg de handdoek naast de magnetron." Het verkrijgen van grote hoeveelheden gelabelde data, d.w.z. data die demonstraties van taken bevat die zijn gelabeld met de taal instructie, is echter zeer lastig. Daarentegen is het veel eenvoudiger om beleidsregels te verkrijgen die reageren op beelddoelen, omdat elke autonome poging of demonstratie achteraf kan worden gelabeld met de eindtoestand als doel. In dit werk dragen we een methode aan die gebruik maakt van gezamenlijke beeld- en doel-geconditioneerde beleidsregels met taal, waarbij slechts een kleine hoeveelheid taaldata nodig is. Eerder werk heeft vooruitgang geboekt door gebruik te maken van visie-taalmodellen of door gezamenlijk taal-doel-geconditioneerde beleidsregels te trainen, maar tot nu toe heeft geen van beide methoden effectief geschaald naar taken in de echte wereld zonder aanzienlijke menselijke annotatie. Onze methode bereikt robuuste prestaties in de echte wereld door een embedding te leren van de gelabelde data die taal niet uitlijnt met het doelbeeld, maar eerder met de gewenste verandering tussen het start- en doelbeeld waar de instructie aan beantwoordt. Vervolgens trainen we een beleidsregel op deze embedding: het beleid profiteert van alle ongelabelde data, maar de uitgelijnde embedding biedt een interface voor taal om het beleid te sturen. We demonstreren het volgen van instructies over een verscheidenheid aan manipulatietaken in verschillende scènes, met generalisatie naar taal instructies buiten de gelabelde data. Video's en code voor onze aanpak zijn te vinden op onze website: http://tiny.cc/grif.
Grote taalmodelen laten indrukwekkende resultaten zien bij few-shot NLP-taken. Deze modellen zijn echter geheugen- en rekenintensief. Meta-training maakt het mogelijk om kleinere modellen te benutten voor few-shot generalisatie op een domeingenerieke en taakonafhankelijke manier; deze methoden alleen resulteren echter in modellen die mogelijk niet voldoende geparametriseerd zijn of over voldoende kennis beschikken om zich snel aan te passen aan een grote verscheidenheid aan taken. Om dit probleem te overwinnen, stellen we meta-training voor met demonstratieretrieval, waarbij we een dense passage retriever gebruiken om semantisch gelijkende gelabelde demonstraties voor elk voorbeeld op te halen voor meer gevarieerde supervisie. Door externe kennis te scheiden van modelparameters, kunnen we meta-training gebruiken om parameter-efficiënte modellen te trainen die goed generaliseren op een grotere verscheidenheid aan taken. We construeren een meta-trainingsset uit UnifiedQA en CrossFit, en stellen een demonstratiebank voor gebaseerd op UnifiedQA-taken. Voor zover wij weten, is ons werk het eerste dat retrieval combineert met meta-training, DPR-modellen gebruikt om demonstraties op te halen, en demonstraties van veel taken tegelijkertijd benut, in plaats van willekeurig demonstraties te bemonsteren uit de trainingsset van de doeltaak. Onze aanpak overtreft een verscheidenheid aan gerichte parameter-efficiënte en retrieval-augmented few-shot methoden bij QA-, NLI- en tekstclassificatietaken (inclusief SQuAD, QNLI en TREC). Onze aanpak kan snel worden meta-getraind en gefinetuned op een enkele GPU.
Het modelleren van 3D-avatars biedt voordelen voor diverse toepassingsscenario's zoals AR/VR, gaming en filmproductie. Gezichten van personages dragen aanzienlijk bij aan diversiteit en levendigheid als een essentieel onderdeel van avatars. Het bouwen van 3D-gezichtsmodellen vereist echter meestal een zware werkdruk met commerciële tools, zelfs voor ervaren artiesten. Verschillende bestaande schetsgebaseerde tools slagen er niet in amateurs te ondersteunen bij het modelleren van diverse gezichtsvormen en rijke geometrische details. In dit artikel presenteren we SketchMetaFace - een schetssysteem gericht op amateurgebruikers om hoogwaardige 3D-gezichten in enkele minuten te modelleren. We hebben zowel de gebruikersinterface als het onderliggende algoritme zorgvuldig ontworpen. Ten eerste worden krommingbewuste lijnen gebruikt om de bestuurbaarheid van het uitsnijden van gezichtsdetails beter te ondersteunen. Ten tweede, rekening houdend met het kernprobleem van het mappen van een 2D-schetskaart naar een 3D-model, ontwikkelen we een nieuwe op leren gebaseerde methode genaamd "Implicit and Depth Guided Mesh Modeling" (IDGMM). Deze methode combineert de voordelen van mesh-, impliciete en diepteweergaven om hoogwaardige resultaten met hoge efficiëntie te bereiken. Daarnaast presenteren we, om de bruikbaarheid verder te ondersteunen, een grof-naar-fijn 2D-schetsinterface-ontwerp en een datagestuurd lijnsuggestietool. Gebruikersstudies tonen de superioriteit van ons systeem aan ten opzichte van bestaande modelleringsinstrumenten wat betreft gebruiksgemak en visuele kwaliteit van de resultaten. Experimentele analyses tonen ook aan dat IDGMM een betere balans bereikt tussen nauwkeurigheid en efficiëntie. SketchMetaFace is beschikbaar op https://zhongjinluo.github.io/SketchMetaFace/.