Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Contrastief leren is naar voren gekomen als een transformerende methode voor het leren van effectieve visuele representaties door de afstemming van afbeelding- en tekstembeddings. Echter, de paarsgewijze gelijkenisberekening in het contrastieve verlies tussen afbeelding- en tekstparen vormt computationele uitdagingen. Dit artikel presenteert een nieuwe zwak begeleide voorafgaande training van visuele modellen op web-schaal afbeelding-tekstgegevens. De voorgestelde methode herformuleert de voorafgaande training op afbeelding-tekstgegevens als een classificatietaak. Hierdoor wordt de noodzaak voor paarsgewijze gelijkenisberekeningen in het contrastieve verlies geëlimineerd, wat een opmerkelijke 2,7 keer versnelling in de trainingssnelheid oplevert in vergelijking met contrastief leren op web-schaalgegevens. Door middel van uitgebreide experimenten die diverse visuele taken omvatten, waaronder detectie en segmentatie, tonen we aan dat de voorgestelde methode een hoge representatiekwaliteit behoudt. Onze broncode, samen met vooraf getrainde modelgewichten en trainingsrecepten, is beschikbaar op https://github.com/apple/corenet.
Wij stellen Pure and Lightning ID customization (PuLID) voor, een nieuwe, afstemningsvrije methode voor ID-aanpassing in tekst-naar-beeldgeneratie. Door een Lightning T2I-tak te integreren met een standaard diffusietak, introduceert PuLID zowel een contrastieve uitlijningsverliesfunctie als een nauwkeurige ID-verliesfunctie, waardoor verstoring van het oorspronkelijke model wordt geminimaliseerd en een hoge ID-getrouwheid wordt gegarandeerd. Experimenten tonen aan dat PuLID superieure prestaties levert op het gebied van zowel ID-getrouwheid als bewerkbaarheid. Een ander aantrekkelijk kenmerk van PuLID is dat de beeld-elementen (bijvoorbeeld achtergrond, belichting, compositie en stijl) voor en na de ID-invoeging zo consistent mogelijk blijven. Codes en modellen zullen beschikbaar zijn op https://github.com/ToTheBeginning/PuLID.
Het succes van contrastief taal-beeld vooraf trainen (CLIP) berust op de supervisie van de koppeling tussen afbeeldingen en bijschriften, die vaak ruis bevat in webgehaalde data. Wij presenteren Mixture of Data Experts (MoDE) en leren een systeem van CLIP-data-experts via clustering. Elke data-expert wordt getraind op één datacluster, waardoor deze minder gevoelig is voor fout-negatieve ruis in andere clusters. Tijdens inferentie combineren we hun uitvoer door gewichten toe te passen die worden bepaald via de correlatie tussen taakmetadata en clustercondities. Om de correlatie nauwkeurig te schatten, moeten de samples in één cluster semantisch vergelijkbaar zijn, maar het aantal data-experts moet nog steeds redelijk blijven voor training en inferentie. Daarom overwegen we de ontologie in menselijke taal en stellen we voor om fijnmazige clustercentra te gebruiken om elke data-expert op een grofmazig niveau te representeren. Experimentele studies tonen aan dat vier CLIP-data-experts op ViT-B/16 de ViT-L/14 van OpenAI CLIP en OpenCLIP overtreffen bij zero-shot beeldclassificatie, maar met minder (<35\%) trainingskosten. Tegelijkertijd kan MoDE alle data-experts asynchroon trainen en kan het flexibel nieuwe data-experts toevoegen. De code is beschikbaar op https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
De snelle ontwikkeling van diffusiemodellen heeft geleid tot diverse toepassingen. Identiteitsbehoudende tekst-naar-beeldgeneratie (ID-T2I) heeft in het bijzonder veel aandacht gekregen vanwege het brede scala aan toepassingsscenario's, zoals AI-portretten en reclame. Hoewel bestaande ID-T2I-methoden indrukwekkende resultaten hebben laten zien, blijven er enkele belangrijke uitdagingen bestaan: (1) Het is moeilijk om de identiteitskenmerken van referentieportretten nauwkeurig te behouden, (2) De gegenereerde beelden missen esthetische aantrekkingskracht, vooral bij het afdwingen van identiteitsbehoud, en (3) Er is een beperking waardoor het niet mogelijk is om compatibel te zijn met zowel LoRA- als Adapter-gebaseerde methoden. Om deze problemen aan te pakken, presenteren we ID-Aligner, een algemeen feedbackleerframework om de prestaties van ID-T2I te verbeteren. Om het verlies van identiteitskenmerken op te lossen, introduceren we fine-tuning met identiteitsconsistentiebeloning om de feedback van gezichtsdetectie- en herkenningsmodellen te gebruiken om het behoud van de gegenereerde identiteit te verbeteren. Bovendien stellen we fine-tuning met esthetische identiteitsbeloning voor, waarbij gebruik wordt gemaakt van beloningen uit door mensen geannoteerde voorkeursdata en automatisch gegenereerde feedback over de generatie van karakterstructuren om esthetische afstemmingssignalen te bieden. Dankzij het universele feedback-fine-tuningframework kan onze methode eenvoudig worden toegepast op zowel LoRA- als Adapter-modellen, wat resulteert in consistente prestatieverbeteringen. Uitgebreide experimenten op SD1.5- en SDXL-diffusiemodellen valideren de effectiviteit van onze aanpak. Projectpagina: \url{https://idaligner.github.io/}
De opkomst van diffusiemodellen heeft de vooruitgang in beeld- en videogeneratie aanzienlijk bevorderd. Recentelijk zijn er enkele inspanningen geleverd op het gebied van beheersbare videogeneratie, waaronder tekst-naar-videogeneratie en videobewegingscontrole, waarbij camerabewegingscontrole een belangrijk onderwerp is. Bestaande methoden voor camerabewegingscontrole zijn echter afhankelijk van het trainen van een tijdelijk cameramodule en vereisen aanzienlijke rekenbronnen vanwege het grote aantal parameters in videogeneratiemodellen. Bovendien definiëren bestaande methoden camerabewegingstypen vooraf tijdens de training, wat hun flexibiliteit in camerabesturing beperkt. Om de trainingskosten te verlagen en flexibele camerabesturing te bereiken, stellen we COMD voor, een nieuw trainingsvrij videobewegingsoverdrachtsmodel, dat camerabewegingen en objectbewegingen in bronvideo's ontkoppelt en de geëxtraheerde camerabewegingen naar nieuwe video's overbrengt. We introduceren eerst een one-shot camerabewegingsontkoppelingsmethode om camerabeweging uit een enkele bronvideo te extraheren, waarbij de bewegende objecten van de achtergrond worden gescheiden en de camerabeweging in het gebied van de bewegende objecten wordt geschat op basis van de beweging in de achtergrond door een Poisson-vergelijking op te lossen. Verder stellen we een few-shot camerabewegingsontkoppelingsmethode voor om de gemeenschappelijke camerabeweging uit meerdere video's met vergelijkbare camerabewegingen te extraheren, waarbij een venstergebaseerde clusteringtechniek wordt gebruikt om de gemeenschappelijke kenmerken in temporele aandachtkaarten van meerdere video's te extraheren. Ten slotte introduceren we een bewegingscombinatiemethode om verschillende soorten camerabewegingen te combineren, waardoor ons model een meer beheersbare en flexibele camerabesturing krijgt. Uitgebreide experimenten tonen aan dat onze trainingsvrije aanpak effectief camerabewegingen en objectbewegingen kan ontkoppelen en de ontkoppelde camerabeweging kan toepassen op een breed scala aan beheersbare videogeneratietaken, waardoor flexibele en diverse camerabewegingscontrole wordt bereikt.
Human matting is een fundamentele taak in beeld- en videoverwerking, waarbij menselijke voorgrondpixels worden geëxtraheerd uit de invoer. Eerdere werken verbeteren ofwel de nauwkeurigheid door aanvullende begeleiding ofwel de temporele consistentie van een enkel exemplaar over frames heen. Wij stellen een nieuw framework voor, MaGGIe (Masked Guided Gradual Human Instance Matting), dat alfa-matten progressief voorspelt voor elk menselijk exemplaar terwijl de rekenkosten, precisie en consistentie behouden blijven. Onze methode maakt gebruik van moderne architecturen, waaronder transformer-attentie en sparse convolutie, om alle exemplaar-matten gelijktijdig uit te voeren zonder dat het geheugen en de latentie exploderen. Hoewel de inferentiekosten constant blijven in het scenario met meerdere exemplaren, bereikt ons framework robuuste en veelzijdige prestaties op onze voorgestelde gesynthetiseerde benchmarks. Met de hogere kwaliteit beeld- en videomatting benchmarks wordt de nieuwe multi-exemplaar synthese-aanpak uit publiek beschikbare bronnen geïntroduceerd om de generalisatie van modellen in real-world scenario's te vergroten.
Diffusiemodellen hebben aanzienlijke vooruitgang geboekt in tekstgestuurde synthesetaken. Het bewerken van door gebruikers aangeleverde afbeeldingen blijft echter een uitdaging, omdat de hoogdimensionale ruisinputruimte van diffusiemodellen niet van nature geschikt is voor beeldinversie of ruimtelijke bewerking. In dit werk stellen we een beeldrepresentatie voor die ruimtelijke bewerking van invoerafbeeldingen bevordert met behulp van een diffusiemodel. Concreet leren we een invoer te coderen in "beeldelementen" die een invoerafbeelding getrouw kunnen reconstrueren. Deze elementen kunnen intuïtief door een gebruiker worden bewerkt en worden door een diffusiemodel gedecodeerd in realistische afbeeldingen. We tonen de effectiviteit van onze representatie aan bij verschillende beeldbewerkingstaken, zoals het wijzigen van de grootte van objecten, herschikking, verslepen, de-occlusie, verwijdering, variatie en beeldcompositie. Projectpagina: https://jitengmu.github.io/Editable_Image_Elements/
In-context learning (ICL) benaderingen maken doorgaans gebruik van prompting om de generatie van decoder-only taalmodel te conditioneren op referentie-informatie. Just-in-time verwerking van een context is inefficiënt vanwege de kwadratische kosten van self-attention operaties, en caching is wenselijk. Echter kan het cachen van transformer states gemakkelijk bijna evenveel ruimte vereisen als de modelparameters. Wanneer de juiste context niet van tevoren bekend is, kan het cachen van ICL uitdagend zijn. Dit werk gaat deze beperkingen te lijf door modellen te introduceren die, geïnspireerd door de encoder-decoder architectuur, cross-attention gebruiken om de generatie te conditioneren op referentietekst zonder de prompt. Meer specifiek maken we gebruik van vooraf getrainde decoder-only modellen en trainen we slechts een klein aantal toegevoegde lagen. We gebruiken Question-Answering (QA) als testomgeving om het vermogen van onze modellen om conditionele generatie uit te voeren te evalueren en observeren dat ze ICL overtreffen, vergelijkbaar zijn met fine-tuned gepromptte LLM's, en de ruimtevoetafdruk drastisch verminderen ten opzichte van standaard KV-caching met twee ordes van grootte.
Speculatief decoderen is naar voren gekomen als een krachtige methode om de latentie en doorvoer te verbeteren bij het hosten van grote taalmodellen. De meeste bestaande implementaties richten zich echter op het genereren van een enkele reeks. In real-world generatieve AI-toepassingen zijn vaak meerdere reacties vereist, en het uitvoeren van speculatief decoderen in een batchomgeving terwijl de latentievoordelen behouden blijven, vormt niet-triviale uitdagingen. Dit artikel beschrijft een systeem van batchgewijs speculatief decoderen dat een nieuwe standaard zet op het gebied van latentie bij het genereren van meerdere reeksen en dat superieure GPU-gebruik en kwaliteit van generaties binnen een tijdsbudget aantoont. Bijvoorbeeld, voor een model van 7,8B grootte op een enkele A100 GPU en met een batchgrootte van 8, wordt elke reeks gegenereerd met een gemiddelde snelheid van 5,8ms per token, waarbij de totale doorvoer 1,1K tokens per seconde bedraagt. Deze resultaten vertegenwoordigen state-of-the-art latentie en een 2,15X versnelling ten opzichte van geoptimaliseerd regulier decoderen. Binnen een tijdsbudget waarin regulier decoderen niet voltooid wordt, is ons systeem in staat om reeksen te genereren met een HumanEval Pass@First van 43% en een Pass@All van 61%, wat ver uitstijgt boven wat haalbaar is met enkelvoudig speculatief decoderen. Ons piek-GPU-gebruik tijdens het decoderen bereikt wel 15,8%, meer dan 3X het hoogste niveau van regulier decoderen en ongeveer 10X dat van enkelvoudig speculatief decoderen.