Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De Transformer-architectuur heeft twee belangrijke niet-embedding-componenten: Attention en het Feed Forward Network (FFN). Attention legt onderlinge afhankelijkheden tussen woorden vast, ongeacht hun positie, terwijl het FFN elk invoertoken onafhankelijk niet-lineair transformeert. In dit werk onderzoeken we de rol van het FFN en ontdekken dat het, ondanks dat het een aanzienlijk deel van de parameters van het model inneemt, zeer redundant is. Concreet zijn we in staat om het aantal parameters aanzienlijk te verminderen met slechts een bescheiden daling in nauwkeurigheid door het FFN in de decoderlagen te verwijderen en één enkel FFN over de encoder te delen. Ten slotte schalen we deze architectuur terug naar de oorspronkelijke grootte door de verborgen dimensie van het gedeelde FFN te vergroten, wat aanzienlijke verbeteringen oplevert in zowel nauwkeurigheid als latentie ten opzichte van de oorspronkelijke Transformer Big.
Eerdere animeerbare 3D-bewuste GAN's voor het genereren van mensen richtten zich voornamelijk op het menselijk hoofd of het volledige lichaam. Hoofdvideo's komen echter relatief weinig voor in het echte leven, en het genereren van het volledige lichaam houdt zich meestal niet bezig met gezichtsuitdrukkingen en heeft nog steeds uitdagingen bij het produceren van hoogwaardige resultaten. Met het oog op toepasbare video-avatars presenteren wij een animeerbare 3D-bewuste GAN die portretbeelden genereert met controleerbare gezichtsuitdrukkingen, hoofdpositie en schouderbewegingen. Het is een generatief model dat getraind is op ongestructureerde 2D-beeldcollecties zonder gebruik te maken van 3D- of videogegevens. Voor deze nieuwe taak baseren we onze methode op de generatieve radiance manifold-representatie en voorzien we deze van leerbare gezichts- en hoofd-schoudervervormingen. Een dual-camera rendering en adversarial learning-schema wordt voorgesteld om de kwaliteit van de gegenereerde gezichten te verbeteren, wat cruciaal is voor portretbeelden. Een pose deformation processing-netwerk is ontwikkeld om plausibele vervormingen te genereren voor uitdagende regio's zoals lang haar. Experimenten tonen aan dat onze methode, getraind op ongestructureerde 2D-beelden, diverse en hoogwaardige 3D-portretten kan genereren met de gewenste controle over verschillende eigenschappen.
Grote taalmodellen (LLMs) hebben recentelijk opmerkelijke capaciteiten getoond om menselijke intenties te begrijpen, redeneringen te voeren en planning-achtig gedrag te ontwerpen. Om de kracht van LLMs verder te benutten voor het uitvoeren van complexe taken, is er een groeiende trend om agentframeworks te bouwen die LLMs, zoals ChatGPT, uitrusten met gereedschapsgebruik om verbinding te maken met een groot aantal externe API's. In dit werk introduceren we ModelScope-Agent, een algemeen en aanpasbaar agentframework voor real-world toepassingen, gebaseerd op open-source LLMs als controllers. Het biedt een gebruiksvriendelijke systeembibliotheek, met een aanpasbare engine-ontwerp om modeltraining op meerdere open-source LLMs te ondersteunen, terwijl het ook naadloze integratie mogelijk maakt met zowel model-API's als gewone API's op een uniforme manier. Om de LLMs uit te rusten met gereedschapsgebruik, is een uitgebreid framework voorgesteld dat zich uitstrekt over gegevensverzameling voor gereedschapsgebruik, gereedschapsretrieval, gereedschapsregistratie, geheugenbeheer, aangepaste modeltraining en evaluatie voor praktische real-world toepassingen. Tot slot presenteren we ModelScopeGPT, een real-world intelligente assistent van de ModelScope Community gebaseerd op het ModelScope-Agent framework, die in staat is om open-source LLMs te verbinden met meer dan 1000 openbare AI-modellen en gelokaliseerde communitykennis in ModelScope. De ModelScope-Agent bibliotheek https://github.com/modelscope/modelscope-agent en online demo https://modelscope.cn/studios/damo/ModelScopeGPT/summary zijn nu publiekelijk beschikbaar.
Materiaalreconstructie vanuit een foto is een sleutelcomponent in de democratisering van 3D-inhoudcreatie. Wij stellen voor om dit slecht gestelde probleem te formuleren als een gecontroleerd syntheseprobleem, waarbij we gebruikmaken van de recente vooruitgang in generatieve deep networks. Wij presenteren ControlMat, een methode die, uitgaande van een enkele foto met ongecontroleerde belichting als invoer, een diffusiemodel conditioneert om plausibele, naadloos herhaalbare, hoogwaardige fysiek gebaseerde digitale materialen te genereren. We analyseren zorgvuldig het gedrag van diffusiemodellen voor meerkanaalsuitvoer, passen het bemonsteringsproces aan om informatie op meerdere schalen te fuseren en introduceren gerolde diffusie om zowel naadloosheid als gepatchte diffusie voor hoogwaardige uitvoer mogelijk te maken. Onze generatieve aanpak maakt verder de verkenning mogelijk van een verscheidenheid aan materialen die zouden kunnen overeenkomen met de invoerafbeelding, waardoor de onbekende belichtingsomstandigheden worden gemitigeerd. We tonen aan dat onze aanpak recente inferentie- en latentieruimte-optimalisatiemethoden overtreft en valideren zorgvuldig onze ontwerpkeuzes voor het diffusieproces. Aanvullende materialen en extra details zijn beschikbaar op: https://gvecchio.com/controlmat/.
Reinforcement Learning met Menselijke Feedback (RLHF) heeft een revolutie teweeggebracht in taalmodellering door modellen af te stemmen op menselijke voorkeuren. Echter vereist de RL-fase, Proximal Policy Optimization (PPO), meer dan 3x het geheugen van Supervised Fine-Tuning (SFT), wat het voor de meeste praktijkbeoefenaars onhaalbaar maakt. Om dit probleem aan te pakken, presenteren we een uitgebreide analyse van het geheugengebruik, de prestaties en de trainingsduur van geheugenbesparende technieken voor PPO. We introduceren Hydra-RLHF door eerst de SFT- en beloningsmodellen te integreren en vervolgens LoRA dynamisch "uit" te schakelen tijdens de training. Onze experimenten tonen aan: 1. Het gebruik van LoRA tijdens PPO vermindert het geheugengebruik tot minder dan dat van SFT, terwijl de afstemming over vier openbare benchmarks wordt verbeterd, en 2. Hydra-PPO vermindert de latentie per sample van LoRA-PPO met tot wel 65% terwijl de prestaties behouden blijven. Onze resultaten laten zien dat Hydra-PPO een eenvoudige en veelbelovende oplossing is om een breder gebruik van RLHF mogelijk te maken.
Spraak brengt meer informatie over dan alleen tekst, aangezien hetzelfde woord op verschillende manieren uitgesproken kan worden om diverse informatie over te brengen. In vergelijking met traditionele tekst-naar-spraak (TTS) methoden die afhankelijk zijn van spraakprompts (referentiespraak) voor stemvariabiliteit, is het gebruik van tekstprompts (beschrijvingen) gebruiksvriendelijker, omdat spraakprompts moeilijk te vinden kunnen zijn of zelfs helemaal niet bestaan. TTS-benaderingen op basis van tekstprompts worden geconfronteerd met twee uitdagingen: 1) het één-op-veel-probleem, waarbij niet alle details over stemvariabiliteit in de tekstprompt kunnen worden beschreven, en 2) de beperkte beschikbaarheid van tekstprompt-datasets, waarbij leveranciers en hoge kosten voor datalabeling nodig zijn om tekstprompts voor spraak te schrijven. In dit werk introduceren we PromptTTS 2 om deze uitdagingen aan te pakken met een variatienetwerk om variabiliteitsinformatie van de stem te bieden die niet door tekstprompts wordt vastgelegd, en een promptgeneratiepijplijn om grote taalmodelen (LLM) te gebruiken om hoogwaardige tekstprompts samen te stellen. Specifiek voorspelt het variatienetwerk de representatie die uit de referentiespraak is geëxtraheerd (die volledige informatie over de stem bevat) op basis van de tekstpromptrepresentatie. Voor de promptgeneratiepijplijn genereert het tekstprompts voor spraak met een spraakbegripmodel om stemattributen (bijv. geslacht, snelheid) uit spraak te herkennen en een groot taalmodel om tekstprompts te formuleren op basis van de herkenningsresultaten. Experimenten op een grootschalige (44K uur) spraakdataset tonen aan dat PromptTTS 2, in vergelijking met eerdere werken, stemmen genereert die meer consistent zijn met tekstprompts en het bemonsteren van diverse stemvariabiliteit ondersteunt, waardoor gebruikers meer keuzes hebben bij stemgeneratie. Bovendien produceert de promptgeneratiepijplijn hoogwaardige prompts, waardoor de hoge labelkosten worden geëlimineerd. De demopagina van PromptTTS 2 is online beschikbaar op https://speechresearch.github.io/prompttts2.
Video outpainting heeft als doel ontbrekende gebieden aan de randen van videobeelden adequaat aan te vullen. In vergelijking met image outpainting vormt het een extra uitdaging, omdat het model de temporele consistentie van het ingevulde gebied moet behouden. In dit artikel introduceren we een gemaskerd 3D-diffusiemodel voor video outpainting. We gebruiken de techniek van maskermodellering om het 3D-diffusiemodel te trainen. Hierdoor kunnen we meerdere referentiebeelden gebruiken om de resultaten van meerdere video clip inferenties met elkaar te verbinden, waardoor temporele consistentie wordt gewaarborgd en schokken tussen aangrenzende frames worden verminderd. Tegelijkertijd extraheren we de globale frames van de video als prompts en leiden we het model om informatie buiten de huidige video clip te verkrijgen met behulp van cross-attention. We introduceren ook een hybride coarse-to-fine inferentiepipeline om het probleem van artefactaccumulatie te verlichten. De bestaande coarse-to-fine pipeline gebruikt alleen de infill-strategie, wat degradatie veroorzaakt omdat het tijdsinterval van de sparse frames te groot is. Onze pipeline profiteert van bidirectioneel leren van de maskermodellering en kan daarom een hybride strategie van infillen en interpolatie toepassen bij het genereren van sparse frames. Experimenten tonen aan dat onze methode state-of-the-art resultaten behaalt in video outpainting-taken. Meer resultaten zijn beschikbaar op onze https://fanfanda.github.io/M3DDM/.
Dit artikel presenteert een LoRA-vrije methode voor gestileerde beeldgeneratie die een tekstprompt en stijlreferentiebeelden als invoer neemt en in één enkele stap een uitvoerbeeld produceert. In tegenstelling tot bestaande methoden die afhankelijk zijn van het trainen van een aparte LoRA voor elke stijl, kan onze methode zich aanpassen aan verschillende stijlen met een uniform model. Dit brengt echter twee uitdagingen met zich mee: 1) de prompt verliest controleerbaarheid over de gegenereerde inhoud, en 2) het uitvoerbeeld erft zowel de semantische als stijlkenmerken van het stijlreferentiebeeld, wat de inhoudelijke trouw aantast. Om deze uitdagingen aan te pakken, introduceren we StyleAdapter, een model dat bestaat uit twee componenten: een twee-paden cross-attention module (TPCA) en drie ontkoppelingsstrategieën. Deze componenten stellen ons model in staat om de prompt en stijlreferentiekenmerken afzonderlijk te verwerken en de sterke koppeling tussen de semantische en stijlinformatie in de stijlreferenties te verminderen. StyleAdapter kan hoogwaardige beelden genereren die overeenkomen met de inhoud van de prompts en de stijl van de referenties overnemen (zelfs voor onbekende stijlen) in één enkele stap, wat flexibeler en efficiënter is dan eerdere methoden. Er zijn experimenten uitgevoerd om de superioriteit van onze methode ten opzichte van eerdere werken aan te tonen.
We beschouwen de visuele disambiguatietaak van het bepalen of een paar visueel vergelijkbare afbeeldingen dezelfde of verschillende 3D-oppervlakken weergeven (bijvoorbeeld dezelfde of tegenovergestelde zijden van een symmetrisch gebouw). Illusoire beeldovereenkomsten, waarbij twee afbeeldingen verschillende maar visueel vergelijkbare 3D-oppervlakken observeren, kunnen voor mensen moeilijk te onderscheiden zijn en kunnen er ook toe leiden dat 3D-reconstructiealgoritmen foutieve resultaten produceren. We stellen een op leren gebaseerde aanpak voor visuele disambiguatie voor, waarbij we het formuleren als een binaire classificatietaak op beeldparen. Hiertoe introduceren we een nieuwe dataset voor dit probleem, Doppelgangers, die beeldparen van vergelijkbare structuren bevat met grondwaarheidslabels. We ontwerpen ook een netwerkarchitectuur die de ruimtelijke verdeling van lokale sleutelpunten en overeenkomsten als invoer neemt, wat een betere redenering over zowel lokale als globale aanwijzingen mogelijk maakt. Onze evaluatie toont aan dat onze methode illusoire overeenkomsten in moeilijke gevallen kan onderscheiden en kan worden geïntegreerd in SfM-pipelines om correcte, gedisambigueerde 3D-reconstructies te produceren. Zie onze projectpagina voor onze code, datasets en meer resultaten: http://doppelgangers-3d.github.io/.
We presenteren Contrastive Feature Masking Vision Transformer (CFM-ViT) - een beeld-tekst vooraf trainmethodologie die gelijktijdig leren van beeld- en regio-niveau representatie mogelijk maakt voor open-vocabulair objectdetectie (OVD). Onze aanpak combineert het masked autoencoder (MAE) doel met het contrastief leren doel om de representatie voor localisatietaken te verbeteren. In tegenstelling tot standaard MAE, voeren we reconstructie uit in de gezamenlijke beeld-tekst embeddingruimte, in plaats van de pixelruimte zoals gebruikelijk bij de klassieke MAE-methode, waardoor het model beter regio-niveau semantiek leert. Bovendien introduceren we Positional Embedding Dropout (PED) om schaalvariatie tussen beeld-tekst vooraf trainen en detectie finetunen aan te pakken door tijdens het vooraf trainen willekeurig de positionele embeddings weg te laten. PED verbetert de detectieprestaties en maakt het gebruik van een bevroren ViT-backbone als regio-classificator mogelijk, waardoor het vergeten van open-vocabulair kennis tijdens detectie finetunen wordt voorkomen. Op de LVIS open-vocabulair detectiebenchmark behaalt CFM-ViT een state-of-the-art 33.9 APr, wat de beste aanpak met 7.6 punten overtreft en betere zero-shot detectie transfer realiseert. Tot slot verkrijgt CFM-ViT sterke beeldniveau representatie, en overtreft het de state of the art op 8 van de 12 metrieken op zero-shot beeld-tekst retrieval benchmarks.
Recente architectonische ontwikkelingen hebben recurrent neural networks (RNN's) in staat gesteld om de prestaties van Transformers te evenaren of zelfs te overtreffen bij bepaalde sequentiemodelleringstaken. Deze moderne RNN's vertonen een opvallend ontwerppatroon: lineaire recurrent lagen die onderling verbonden zijn door feedforward-paden met multiplicatieve gating. Hier laten we zien hoe RNN's die zijn uitgerust met deze twee ontwerpelementen exact (lineaire) self-attention kunnen implementeren, het belangrijkste bouwblok van Transformers. Door een set getrainde RNN's te reverse-engineeren, ontdekken we dat gradient descent in de praktijk onze constructie vindt. In het bijzonder onderzoeken we RNN's die zijn getraind om eenvoudige in-context leertaken op te lossen, waarvan bekend is dat Transformers hierin uitblinken, en we constateren dat gradient descent in onze RNN's hetzelfde op aandacht gebaseerde in-context leeralgoritme implementeert dat door Transformers wordt gebruikt. Onze bevindingen benadrukken het belang van multiplicatieve interacties in neurale netwerken en suggereren dat bepaalde RNN's mogelijk onverwacht aandacht implementeren onder de motorkap.
Dit artikel behandelt het probleem van het aanpassen van de visuele weergave van video's terwijl hun beweging behouden blijft. Een nieuw raamwerk, genaamd MagicProp, wordt voorgesteld, dat het videobewerkingsproces ontkoppelt in twee fasen: uiterlijkbewerking en bewegingbewuste uiterlijkpropagatie. In de eerste fase selecteert MagicProp een enkel frame uit de invoervideo en past beeldbewerkingstechnieken toe om de inhoud en/of stijl van het frame aan te passen. De flexibiliteit van deze technieken maakt het mogelijk om willekeurige regio's binnen het frame te bewerken. In de tweede fase gebruikt MagicProp het bewerkte frame als een uiterlijkreferentie en genereert de overige frames met behulp van een autoregressieve weergavebenadering. Om dit te bereiken, wordt een op diffusie gebaseerd conditioneel generatiemodel, genaamd PropDPM, ontwikkeld, dat het doel frame synthetiseert door te conditioneren op de referentieweergave, de doelbeweging en het vorige uiterlijk. De autoregressieve bewerkingsbenadering zorgt voor temporele consistentie in de resulterende video's. Over het algemeen combineert MagicProp de flexibiliteit van beeldbewerkingstechnieken met de superieure temporele consistentie van autoregressieve modellering, waardoor flexibele bewerking van objecttypen en esthetische stijlen in willekeurige regio's van invoervideo's mogelijk wordt, terwijl goede temporele consistentie tussen frames behouden blijft. Uitgebreide experimenten in verschillende videobewerkingsscenario's demonstreren de effectiviteit van MagicProp.
Dit artikel introduceert een aanpak voor het leren oplossen van continue beperkingsvoldoendheidsproblemen (CCSP) in robotische redenering en planning. Vorige methoden zijn voornamelijk gebaseerd op handmatige engineering of het leren van generatoren voor specifieke beperkingstypes, waarna waardetoewijzingen worden verworpen wanneer andere beperkingen worden geschonden. In tegenstelling hiermee leidt ons model, de compositionele diffusie continue beperkingsoplosser (Diffusion-CCSP), globale oplossingen voor CCSP's af door ze voor te stellen als factor-grafen en de energieën van diffusiemodellen te combineren die zijn getraind om te bemonsteren voor individuele beperkingstypes. Diffusion-CCSP vertoont een sterke generalisatie naar nieuwe combinaties van bekende beperkingen, en het kan worden geïntegreerd in een taak- en bewegingsplanner om langetermijnplannen te ontwerpen die acties omvatten met zowel discrete als continue parameters. Projectsite: https://diffusion-ccsp.github.io/
Inverse design verwijst naar het probleem van het optimaliseren van de invoer van een doelstellingsfunctie om een gewenst resultaat te bereiken. Voor veel praktische technische problemen neemt de doelstellingsfunctie de vorm aan van een simulator die voorspelt hoe de systeemtoestand zich in de tijd zal ontwikkelen, en de ontwerpuitdaging is om de begincondities te optimaliseren die leiden tot een gewenst resultaat. Recente ontwikkelingen in geleerde simulatie hebben aangetoond dat grafische neurale netwerken (GNNs) kunnen worden gebruikt voor nauwkeurige, efficiënte, differentieerbare schattingen van simulatordynamiek, en ondersteunen hoogwaardige ontwerpoptimalisatie met op gradiënten of steekproeven gebaseerde optimalisatieprocedures. Het optimaliseren van ontwerpen vanaf nul vereist echter veel kostbare modelquery's, en deze procedures vertonen fundamentele tekortkomingen bij niet-convexe of hoogdimensionale problemen. In dit werk laten we zien hoe denoisende diffusiemodellen (DDMs) kunnen worden gebruikt om inverse ontwerpproblemen efficiënt op te lossen en stellen we een deeltjessteekproefalgoritme voor om hun efficiëntie verder te verbeteren. We voeren experimenten uit op een aantal vloeistofdynamische ontwerpuitdagingen en constateren dat onze aanpak het aantal aanroepen naar de simulator aanzienlijk vermindert in vergelijking met standaardtechnieken.
Veel real-world manipulatietaken bestaan uit een reeks subtaken die aanzienlijk van elkaar verschillen. Dergelijke langetermijn, complexe taken benadrukken het potentieel van behendige handen, die beschikken over aanpassingsvermogen en veelzijdigheid, en in staat zijn om naadloos over te schakelen tussen verschillende functionaliteitsmodi zonder de noodzaak van hergrepen of externe hulpmiddelen. De uitdagingen ontstaan echter door de hoogdimensionale actieruimte van de behendige hand en de complexe samenstellende dynamiek van de langetermijntaken. Wij presenteren Sequential Dexterity, een algemeen systeem gebaseerd op reinforcement learning (RL) dat meerdere behendige beleidsregels aan elkaar koppelt om langetermijntaakdoelen te bereiken. De kern van het systeem is een transitiehaalbaarheidsfunctie die de subbeleidsregels progressief verfijnt om de koppelingssuccesratio te verhogen, terwijl het ook autonoom beleidsomschakeling mogelijk maakt voor herstel van fouten en het omzeilen van overbodige fasen. Ondanks dat het alleen in simulatie is getraind met een paar taakobjecten, toont ons systeem generalisatievermogen naar nieuwe objectvormen en is het in staat om zero-shot over te dragen naar een real-world robot uitgerust met een behendige hand. Meer details en videoresultaten zijn te vinden op https://sequential-dexterity.github.io.