Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren InternLM-XComposer2, een geavanceerd visueel-taalmodel dat uitblinkt in het samenstellen en begrijpen van vrije-vorm tekst-beeldcombinaties. Dit model gaat verder dan conventioneel visueel-taalbegrip en is bedreven in het creëren van geïntegreerde tekst-beeldinhoud vanuit diverse inputs zoals schetsen, gedetailleerde tekstuele specificaties en referentiebeelden, waardoor zeer aanpasbare contentcreatie mogelijk wordt. InternLM-XComposer2 introduceert een Partial LoRA (PLoRA)-benadering die aanvullende LoRA-parameters uitsluitend toepast op beeldtokens om de integriteit van vooraf getrainde taalkennis te behouden, waardoor een balans wordt gevonden tussen nauwkeurig visueel begrip en tekstcompositie met literair talent. Experimentele resultaten tonen de superioriteit van InternLM-XComposer2, gebaseerd op InternLM2-7B, in het produceren van hoogwaardige lange-tekst multimodale inhoud en zijn uitzonderlijke visueel-taalbegrip prestaties op diverse benchmarks, waar het niet alleen aanzienlijk beter presteert dan bestaande multimodale modellen, maar ook gelijkwaardig of zelfs beter is dan GPT-4V en Gemini Pro in bepaalde evaluaties. Dit onderstreept zijn opmerkelijke vaardigheid op het gebied van multimodaal begrip. De InternLM-XComposer2 modelreeks met 7B parameters is publiekelijk beschikbaar op https://github.com/InternLM/InternLM-XComposer.
Voor Large Vision-Language Models (LVLMs) kan het schalen van het model de prestaties effectief verbeteren. Het uitbreiden van modelparameters verhoogt echter aanzienlijk de trainings- en inferentiekosten, aangezien alle modelparameters voor elke token in de berekening worden geactiveerd. In dit werk stellen we een nieuwe trainingsstrategie voor, genaamd MoE-tuning voor LVLMs, waarmee een spaarzaam model kan worden geconstrueerd met een buitensporig aantal parameters maar met constante rekenkosten, en die effectief de prestatievermindering aanpakt die typisch wordt geassocieerd met multi-modale learning en modelsparsity. Verder presenteren we het MoE-LLaVA-framework, een op MoE gebaseerde spaarzame LVLM-architectuur. Dit framework activeert uniek alleen de top-k experts via routers tijdens de implementatie, terwijl de overige experts inactief blijven. Onze uitgebreide experimenten benadrukken de uitstekende capaciteiten van MoE-LLaVA in visueel begrip en het potentieel om hallucinaties in modeloutputs te verminderen. Opmerkelijk is dat MoE-LLaVA, met slechts 3 miljard spaarzaam geactiveerde parameters, prestaties laat zien die vergelijkbaar zijn met de LLaVA-1.5-7B op verschillende visuele begripdatasets en zelfs de LLaVA-1.5-13B overtreft in benchmarks voor objecthallucinaties. Met MoE-LLaVA streven we ernaar een basislijn te vestigen voor spaarzame LVLMs en waardevolle inzichten te bieden voor toekomstig onderzoek naar de ontwikkeling van efficiëntere en effectievere multi-modale leer systemen. De code is vrijgegeven op https://github.com/PKU-YuanGroup/MoE-LLaVA.
Grote taalmodellen worden getraind op enorme hoeveelheden webdata, die vaak ongestructureerd, rommelig en slecht geformuleerd zijn. Huidige schaalwetten laten zien dat het leren van dergelijke data een overvloed aan rekenkracht en data vereist, wat toeneemt met de grootte van het model dat wordt getraind. Dit is onhaalbaar vanwege de hoge rekenkosten en de duur die gepaard gaan met pre-training, evenals de dreigende schaarste aan hoogwaardige data op het web. In dit werk stellen we Web Rephrase Augmented Pre-training (WRAP) voor, dat een kant-en-klaar instructie-afgestemd model gebruikt dat wordt aangestuurd om documenten op het web te parafraseren in specifieke stijlen zoals "zoals Wikipedia" of in "vraag-antwoordformaat" om LLM's gezamenlijk te pre-trainen op echte en synthetische herformuleringen. Ten eerste laten we zien dat het gebruik van WRAP op de C4-dataset, die van nature rommelig is, de pre-training versnelt met sim3x. Bij hetzelfde pre-trainingsbudget verbetert het de perplexiteit met meer dan 10% gemiddeld over verschillende subsets van de Pile, en verbetert het de zero-shot vraag-antwoordnauwkeurigheid over 13 taken met meer dan 2%. Ten tweede onderzoeken we de impact van de herformuleringsstijl op de prestaties van het model, wat inzicht biedt in hoe de samenstelling van de trainingsdata de prestaties van LLM's in OOD-omstandigheden kan beïnvloeden. Onze winsten worden toegeschreven aan het feit dat herformuleerde synthetische data een hoger nut heeft dan alleen echte data, omdat het (i) stijldiversiteit incorporeert die nauw aansluit bij de stijl van downstream evaluatie, en (ii) een hogere 'kwaliteit' heeft dan webgeschraapte data.
We introduceren Motion-I2V, een nieuw raamwerk voor consistente en controleerbare beeld-naar-video-generatie (I2V). In tegenstelling tot eerdere methoden die direct de complexe beeld-naar-video-mapping leren, factoriseert Motion-I2V I2V in twee fasen met expliciete bewegingsmodellering. Voor de eerste fase stellen we een op diffusie gebaseerde bewegingsveldvoorspeller voor, die zich richt op het afleiden van de trajecten van de pixels van het referentiebeeld. Voor de tweede fase introduceren we motion-augmented temporele aandacht om de beperkte 1-D temporele aandacht in video latent diffusiemodellen te versterken. Deze module kan effectief de kenmerken van het referentiebeeld doorgeven aan gesynthetiseerde frames met behulp van de voorspelde trajecten uit de eerste fase. In vergelijking met bestaande methoden kan Motion-I2V consistentere video's genereren, zelfs bij grote bewegingen en variaties in gezichtspunt. Door een sparse traject ControlNet te trainen voor de eerste fase, kan Motion-I2V gebruikers ondersteunen om bewegingsbanen en bewegingsregio's nauwkeurig te controleren met sparse traject- en regio-annotaties. Dit biedt meer controleerbaarheid van het I2V-proces dan alleen te vertrouwen op tekstuele instructies. Daarnaast ondersteunt de tweede fase van Motion-I2V van nature zero-shot video-naar-video-vertaling. Zowel kwalitatieve als kwantitatieve vergelijkingen tonen de voordelen van Motion-I2V aan ten opzichte van eerdere benaderingen in consistente en controleerbare beeld-naar-video-generatie.
De afgelopen jaren is aanzienlijke vooruitgang geboekt op het gebied van robotische reinforcement learning (RL), waardoor methoden zijn ontwikkeld die complexe beeldobservaties verwerken, in de echte wereld kunnen trainen en aanvullende gegevens kunnen integreren, zoals demonstraties en eerdere ervaringen. Desondanks blijft robotische RL moeilijk in gebruik. Onder praktijkmensen wordt erkend dat de specifieke implementatiedetails van deze algoritmen vaak net zo belangrijk (zo niet belangrijker) zijn voor de prestaties als de keuze van het algoritme. Wij stellen dat een belangrijke uitdaging voor de brede adoptie van robotische RL, evenals de verdere ontwikkeling van robotische RL-methoden, de relatieve ontoegankelijkheid van dergelijke methoden is. Om deze uitdaging aan te pakken, hebben we een zorgvuldig geïmplementeerde bibliotheek ontwikkeld die een sample-efficiënt off-policy deep RL-methode bevat, samen met methoden voor het berekenen van beloningen en het resetten van de omgeving, een hoogwaardige controller voor een veelgebruikte robot, en een aantal uitdagende voorbeeldtaken. We bieden deze bibliotheek aan als bron voor de gemeenschap, beschrijven de ontwerpkeuzes en presenteren experimentele resultaten. Misschien verrassend, ontdekken we dat onze implementatie zeer efficiënt kan leren, waarbij beleidsregels voor PCB-bordmontage, kabelroutering en objectverplaatsing worden verworven in gemiddeld 25 tot 50 minuten training per beleid, wat een verbetering is ten opzichte van state-of-the-art resultaten die in de literatuur voor vergelijkbare taken zijn gerapporteerd. Deze beleidsregels bereiken perfecte of bijna perfecte slagingspercentages, extreme robuustheid zelfs onder verstoringen, en vertonen emergent herstel- en correctiegedrag. We hopen dat deze veelbelovende resultaten en onze hoogwaardige open-source implementatie een hulpmiddel zullen bieden voor de robotica-gemeenschap om verdere ontwikkelingen in robotische RL te vergemakkelijken. Onze code, documentatie en video's zijn te vinden op https://serl-robot.github.io/.
De synthese van 3D-gezichtsanimaties vanuit spraak heeft aanzienlijke aandacht gekregen. Door het gebrek aan hoogwaardige 4D-gezichtsgegevens en goed geannoteerde, overvloedige multimodale labels, lijden eerdere methoden vaak aan beperkte realisme en een gebrek aan flexibele conditionering. Wij pakken deze uitdaging aan via een trilogie. We introduceren eerst Generalized Neural Parametric Facial Asset (GNPFA), een efficiënte variational auto-encoder die gezichtsgeometrie en afbeeldingen afbeeldt op een sterk gegeneraliseerde expressie-latente ruimte, waarbij expressies en identiteiten worden ontkoppeld. Vervolgens gebruiken we GNPFA om hoogwaardige expressies en nauwkeurige hoofdposities te extraheren uit een grote reeks video's. Dit resulteert in de M2F-D dataset, een grote, diverse en scan-niveau co-speech 3D-gezichtsanimatiedataset met goed geannoteerde emotionele en stijllabels. Ten slotte stellen we Media2Face voor, een diffusiemodel in de GNPFA-latente ruimte voor de generatie van co-speech gezichtsanimatie, dat rijke multimodale begeleiding accepteert vanuit audio, tekst en afbeeldingen. Uitgebreide experimenten tonen aan dat ons model niet alleen een hoge trouw bereikt in gezichtsanimatiesynthese, maar ook het bereik van expressiviteit en stijlaanpassingsvermogen in 3D-gezichtsanimatie verbreedt.
Een mobiel apparaat-agent gebaseerd op Multimodal Large Language Models (MLLM) wordt een steeds populairdere toepassing. In dit artikel introduceren we Mobile-Agent, een autonome multimodale mobiele apparaat-agent. Mobile-Agent maakt eerst gebruik van visuele perceptietools om de visuele en tekstuele elementen binnen de front-end interface van de app nauwkeurig te identificeren en te lokaliseren. Op basis van de waargenomen visuele context plant en deelt het vervolgens autonoom de complexe operationele taak op, en navigeert het stap voor stap door de mobiele apps via operaties. In tegenstelling tot eerdere oplossingen die afhankelijk zijn van XML-bestanden van apps of metadata van het mobiele systeem, biedt Mobile-Agent een grotere aanpassingsvermogen in diverse mobiele besturingsomgevingen op een visueel-centrische manier, waardoor de noodzaak voor systeemspecifieke aanpassingen wordt geëlimineerd. Om de prestaties van Mobile-Agent te beoordelen, hebben we Mobile-Eval geïntroduceerd, een benchmark voor het evalueren van mobiele apparaatoperaties. Op basis van Mobile-Eval hebben we een uitgebreide evaluatie van Mobile-Agent uitgevoerd. De experimentele resultaten tonen aan dat Mobile-Agent opmerkelijke nauwkeurigheid en voltooiingspercentages heeft bereikt. Zelfs bij uitdagende instructies, zoals multi-app operaties, kan Mobile-Agent nog steeds aan de vereisten voldoen. Code en model zullen worden openbaar gemaakt op https://github.com/X-PLUG/MobileAgent.
Recente vooruitgang in grote vooraf getrainde tekst-naar-beeldmodellen heeft ongekende mogelijkheden getoond voor hoogwaardige, mensgerichte generatie. Het aanpassen van gezichtsidentiteit blijft echter een hardnekkig probleem. Bestaande methoden kunnen geen stabiele identiteitsbehoud en flexibele bewerkbaarheid garanderen, zelfs niet met meerdere afbeeldingen per persoon tijdens de training. In dit werk stellen we StableIdentity voor, dat identiteitsconsistente hercontextualisatie mogelijk maakt met slechts één gezichtsafbeelding. Meer specifiek gebruiken we een gezichtscodering met een identiteitsprior om het invoergezicht te coderen, en plaatsen we de gezichtsrepresentatie vervolgens in een ruimte met een bewerkbare prior, die is opgebouwd uit namen van beroemdheden. Door de identiteitsprior en bewerkbaarheidsprior te integreren, kan de geleerde identiteit overal worden geïnjecteerd in verschillende contexten. Daarnaast ontwerpen we een gemaskeerd tweefasig diffusieverlies om de pixelperceptie van het invoergezicht te versterken en de diversiteit van de generatie te behouden. Uitgebreide experimenten tonen aan dat onze methode eerdere aanpassingsmethoden overtreft. Bovendien kan de geleerde identiteit flexibel worden gecombineerd met kant-en-klare modules zoals ControlNet. Opmerkelijk is dat wij, voor zover bekend, de eersten zijn die de identiteit die uit een enkele afbeelding is geleerd, direct injecteren in video-/3D-generatie zonder fine-tuning. Wij geloven dat het voorgestelde StableIdentity een belangrijke stap is om aangepaste generatiemodellen voor afbeeldingen, video's en 3D te verenigen.
Naarmate grootschalige tekst-naar-beeldgeneratiemodellen opmerkelijke vooruitgang hebben geboekt op het gebied van tekst-naar-beeldgeneratie, zijn er veel fine-tuningmethoden voorgesteld. Deze modellen hebben echter vaak moeite met nieuwe objecten, vooral in one-shot-scenario's. Onze voorgestelde methode heeft als doel de uitdagingen van generaliseerbaarheid en getrouwheid op een objectgerichte manier aan te pakken, waarbij slechts één invoerbeeld en de object-specifieke interessegebieden worden gebruikt. Om de generaliseerbaarheid te verbeteren en overfitting te verminderen, wordt in ons paradigma een prototypische embedding geïnitialiseerd op basis van het uiterlijk van het object en zijn klasse, voordat het diffusiemodel wordt gefinetuned. Tijdens het finetunen stellen we een klasse-karakteriserende regularisatie voor om voorkennis over objectklassen te behouden. Om de getrouwheid verder te verbeteren, introduceren we een object-specifiek verlies, dat ook kan worden gebruikt om meerdere objecten te implanteren. Over het geheel genomen kan onze voorgestelde objectgerichte methode voor het implanteren van nieuwe objecten naadloos integreren met bestaande concepten, evenals met hoge getrouwheid en generalisatie. Onze methode presteert beter dan verschillende bestaande werken. De code zal worden vrijgegeven.
Ondanks aanzienlijke vooruitgang in tekst-naar-beeldmodellen voor het genereren van hoogwaardige afbeeldingen, hebben deze methoden nog steeds moeite om de beheersbaarheid van tekstprompts over afbeeldingen te waarborgen in de context van complexe tekstprompts, vooral als het gaat om het behouden van objectattributen en -relaties. In dit artikel stellen we CompAgent voor, een trainingsvrije aanpak voor compositionele tekst-naar-beeldgeneratie, met een groot taalmodel (LLM) als kern. Het fundamentele idee achter CompAgent is gebaseerd op een verdeel-en-heersmethodologie. Gegeven een complexe tekstprompt die meerdere concepten bevat, waaronder objecten, attributen en relaties, deelt de LLM-agent deze eerst op, wat het extraheren van individuele objecten, hun bijbehorende attributen en het voorspellen van een samenhangende scène-indeling inhoudt. Deze individuele objecten kunnen vervolgens onafhankelijk worden verwerkt. Daarna voert de agent redenering uit door de tekst te analyseren, plant en gebruikt hij de tools om deze geïsoleerde objecten samen te stellen. Het verificatie- en menselijke feedbackmechanisme wordt uiteindelijk in onze agent geïntegreerd om mogelijke attribuutfouten verder te corrigeren en de gegenereerde afbeeldingen te verfijnen. Geleid door de LLM-agent stellen we een afstemmingsvrij multi-conceptaanpassingsmodel en een indeling-naar-beeldgeneratiemodel voor als de tools voor conceptcompositie, en een lokale beeldbewerkingsmethode als de tool om met de agent te interacteren voor verificatie. De scène-indeling controleert het beeldgeneratieproces tussen deze tools om verwarring tussen meerdere objecten te voorkomen. Uitgebreide experimenten tonen de superioriteit van onze aanpak voor compositionele tekst-naar-beeldgeneratie aan: CompAgent behaalt een verbetering van meer dan 10% op T2I-CompBench, een uitgebreide benchmark voor open-wereld compositionele T2I-generatie. De uitbreiding naar verschillende gerelateerde taken illustreert ook de flexibiliteit van onze CompAgent voor potentiële toepassingen.
Bestaande visie-taalmodellen vertonen sterke generalisatie op een verscheidenheid aan visuele domeinen en taken. Dergelijke modellen voeren echter voornamelijk zero-shot herkenning uit op een gesloten manier, en hebben daardoor moeite met het omgaan met open-domein visuele concepten door hun ontwerp. Er zijn recente finetuning-methoden, zoals prompt learning, die niet alleen de discriminatie tussen in-distributie (ID) en out-of-distributie (OOD) monsters bestuderen, maar ook verbeteringen laten zien in zowel ID- als OOD-nauwkeurigheid. In dit artikel tonen we eerst aan dat visie-taalmodellen, na voldoende lange finetuning maar zonder de juiste regularisatie, de neiging hebben om over te passen op de bekende klassen in de gegeven dataset, met een verslechterde prestaties op onbekende klassen. Vervolgens stellen we een nieuwe aanpak voor, OGEN, om deze valkuil aan te pakken, met de focus op het verbeteren van de OOD-generalisatie van gefinetunede modellen. Specifiek wordt een klasse-conditionele kenmerkengenerator geïntroduceerd om OOD-kenmerken te synthetiseren met alleen de klassenaam van een onbekende klasse. Dergelijke gesynthetiseerde kenmerken zullen nuttige kennis bieden over onbekenden en helpen bij het regulariseren van de beslissingsgrens tussen ID- en OOD-gegevens wanneer ze gezamenlijk worden geoptimaliseerd. Even belangrijk is ons adaptieve zelf-distillatiemechanisme om onze kenmerkgeneratiemodel te regulariseren tijdens gezamenlijke optimalisatie, d.w.z. het adaptief overdragen van kennis tussen modeltoestanden om verder overfitting te voorkomen. Experimenten valideren dat onze methode overtuigende verbeteringen oplevert in OOD-generalisatieprestaties in verschillende settings.