Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De recente opkomst van zelfgesuperviseerde voorafgaande trainingsmethoden heeft geleid tot een toename in het gebruik van multimodaal leren bij het begrijpen van formulierdocumenten. Bestaande benaderingen die maskertaalmodeling uitbreiden naar andere modaliteiten vereisen echter zorgvuldige afstemming van meerdere taken, complexe ontwerpen voor reconstructiedoelen, of aanvullende voorafgaande trainingsdata. In FormNetV2 introduceren we een gecentraliseerde multimodale grafiekcontrastieve leerstrategie om zelfgesuperviseerde voorafgaande training voor alle modaliteiten te verenigen in één verliesfunctie. Het grafiekcontrastieve doel maximaliseert de overeenstemming van multimodale representaties, wat een natuurlijke interactie biedt voor alle modaliteiten zonder speciale aanpassingen. Daarnaast extraheren we beeldkenmerken binnen het begrenzingsvak dat een paar tokens verbindt die door een grafiekrand zijn verbonden, waardoor meer gerichte visuele aanwijzingen worden vastgelegd zonder een geavanceerde en apart vooraf getrainde beeldembedder te laden. FormNetV2 vestigt nieuwe state-of-the-art prestaties op de benchmarks FUNSD, CORD, SROIE en Payment met een compacter modelformaat.
Er is een groeiende vraag naar de toegankelijke creatie van hoogwaardige 3D-avatars die animeerbaar en aanpasbaar zijn. Hoewel 3D-morfeerbare modellen intuïtieve controle bieden voor bewerking en animatie, en robuustheid voor gezichtsreconstructie vanuit één beeld, kunnen ze gemakkelijk geometrische en uiterlijke details vastleggen. Methoden gebaseerd op neurale impliciete representaties, zoals signed distance functions (SDF) of neurale radiance fields, benaderen foto-realisme, maar zijn moeilijk te animeren en generaliseren niet goed naar ongeziene data. Om dit probleem aan te pakken, stellen we een nieuwe methode voor voor het construeren van impliciete 3D-morfeerbare gezichtsmodellen die zowel generaliseerbaar als intuïtief zijn voor bewerking. Getraind vanuit een verzameling hoogwaardige 3D-scans, is ons gezichtsmodel geparametriseerd door geometrie, expressie en textuur latente codes met een geleerde SDF en expliciete UV-textuurparametrisatie. Eenmaal getraind, kunnen we een avatar reconstrueren vanuit een enkele in-the-wild afbeelding door gebruik te maken van de geleerde prior om de afbeelding te projecteren in de latente ruimte van ons model. Onze impliciete morfeerbare gezichtsmodellen kunnen worden gebruikt om een avatar vanuit nieuwe perspectieven te renderen, gezichtsuitdrukkingen te animeren door expressiecodes aan te passen, en texturen te bewerken door direct te schilderen op de geleerde UV-textuurkaarten. We demonstreren zowel kwantitatief als kwalitatief dat onze methode verbeteringen biedt in foto-realisme, geometrie en expressienauwkeurigheid in vergelijking met state-of-the-art methoden.
Dit artikel introduceert NeuralEditor, waarmee neurale stralingsvelden (NeRFs) inherent bewerkbaar worden gemaakt voor algemene vormbewerkingstaken. Ondanks hun indrukwekkende resultaten in nieuwe-weergave-synthese, blijft het een fundamentele uitdaging voor NeRFs om de vorm van een scène te bewerken. Onze belangrijkste inzicht is om de expliciete puntenwolkrepresentatie te benutten als de onderliggende structuur om NeRFs te construeren, geïnspireerd door de intuïtieve interpretatie van NeRF-rendering als een proces dat de bijbehorende 3D-puntenwolk projecteert of "plot" naar een 2D-beeldvlak. Hiertoe introduceert NeuralEditor een nieuw renderingschema gebaseerd op deterministische integratie binnen K-D boom-gestuurde dichtheidsadaptieve voxels, wat zowel hoogwaardige renderingsresultaten als precieze puntenwolken oplevert door optimalisatie. NeuralEditor voert vervolgens vormbewerking uit door geassocieerde punten tussen puntenwolken in kaart te brengen. Uitgebreide evaluatie toont aan dat NeuralEditor state-of-the-art prestaties bereikt in zowel vormvervorming als scènemorfingstaken. Opmerkelijk is dat NeuralEditor zowel zero-shot inferentie als verdere fine-tuning over de bewerkte scène ondersteunt. Onze code, benchmark en demovideo zijn beschikbaar op https://immortalco.github.io/NeuralEditor.
AI-taken omvatten een breed scala aan domeinen en vakgebieden. Hoewel talloze AI-modellen zijn ontworpen voor specifieke taken en toepassingen, vereisen ze vaak aanzienlijke menselijke inspanningen om de juiste modelarchitectuur, optimalisatiealgoritme en hyperparameters te vinden. Recente vooruitgang in grote taalmodellen (LLM's) zoals ChatGPT toont opmerkelijke capaciteiten op verschillende aspecten van redeneren, begrip en interactie. Daarom stellen we voor om taakgerichte prompts te ontwikkelen en LLM's automatisch te gebruiken om de trainingspijplijn te automatiseren. Om dit concept te implementeren, presenteren we de AutoML-GPT, die GPT inzet als de brug naar diverse AI-modellen en modellen dynamisch traint met geoptimaliseerde hyperparameters. AutoML-GPT neemt dynamisch gebruikersverzoeken op uit de model- en datakaarten en stelt de bijbehorende promptparagraaf samen. Uiteindelijk zal AutoML-GPT met deze promptparagraaf automatisch de experimenten uitvoeren, van gegevensverwerking tot modelarchitectuur, hyperparameterafstemming en voorspelde trainingslog. Door gebruik te maken van de robuuste taalcapaciteiten van {\ours} en de beschikbare AI-modellen, kan AutoML-GPT tal van complexe AI-taken aanpakken over verschillende taken en datasets. Deze aanpak behaalt opmerkelijke resultaten op het gebied van computervisie, natuurlijke taalverwerking en andere uitdagende gebieden. Uitgebreide experimenten en ablatiestudies tonen aan dat onze methode algemeen, effectief en nuttig kan zijn voor veel AI-taken.
Meertalige Machinevertaling belooft de vertaalkwaliteit tussen niet-Engelse talen te verbeteren. Dit biedt verschillende voordelen, namelijk lagere latentie (geen dubbele vertaling nodig) en minder foutcascades (bijvoorbeeld het vermijden van verlies van geslacht en formaliteitsinformatie bij vertaling via het Engels). Aan de andere kant vermindert het toevoegen van meer talen de modelcapaciteit per taal, wat meestal wordt tegengegaan door de algehele modelgrootte te vergroten, wat de training moeilijker maakt en de inferentie vertraagt. In dit werk introduceren we Taalspecifieke Transformer Lagen (LSLs), waarmee we de modelcapaciteit kunnen vergroten, terwijl de hoeveelheid berekeningen en het aantal parameters in de forward pass constant blijven. Het belangrijkste idee is om sommige lagen van de encoder taalspecifiek te maken voor de bron- of doeltaal, terwijl de overige lagen gedeeld blijven. We onderzoeken de beste manier om deze lagen te plaatsen met behulp van een neurale architectuurzoekmethode, en behalen een verbetering van 1,3 chrF (1,5 spBLEU) punten ten opzichte van het niet gebruiken van LSLs in een apart decoderarchitectuur, en 1,9 chrF (2,2 spBLEU) in een gedeelde decoderarchitectuur.
De recente verbetering in codegeneratiecapaciteiten door het gebruik van grote taalmodellen heeft vooral voordelen opgeleverd voor algemene programmeertalen. Domeinspecifieke talen, zoals die worden gebruikt voor IT-automatisering, hebben veel minder aandacht gekregen, ondanks het feit dat ze door veel actieve ontwikkelaars worden gebruikt en een essentieel onderdeel vormen van moderne cloudplatforms. Dit werk richt zich op de generatie van Ansible-YAML, een veelgebruikte opmaaktaal voor IT-automatisering. We presenteren Ansible Wisdom, een tool voor het genereren van Ansible-YAML-code vanuit natuurlijke taal, gericht op het verbeteren van de productiviteit van IT-automatisering. Ansible Wisdom is een transformer-gebaseerd model, uitgebreid door training met een nieuwe dataset die Ansible-YAML bevat. We ontwikkelen ook twee nieuwe prestatiemetrices voor YAML en Ansible om de specifieke kenmerken van dit domein vast te leggen. De resultaten tonen aan dat Ansible Wisdom nauwkeurig Ansible-scripts kan genereren vanuit prompts in natuurlijke taal, met prestaties die vergelijkbaar of beter zijn dan bestaande state-of-the-art codegeneratiemodellen.
We presenteren een compleet systeem voor real-time rendering van scènes met complexe uitstraling die voorheen voorbehouden waren aan offline gebruik. Dit wordt bereikt door een combinatie van algoritmische en systeemniveau innovaties. Ons uiterlijkheidsmodel maakt gebruik van geleerde hiërarchische texturen die worden geïnterpreteerd met neurale decoders, die reflectiewaarden en importance-sampled richtingen produceren. Om de modelleringscapaciteit van de decoders optimaal te benutten, voorzien we de decoders van twee grafische prioriteiten. De eerste prioriteit – de transformatie van richtingen in geleerde schaduwframes – vergemakkelijkt een nauwkeurige reconstructie van mesoschaal effecten. De tweede prioriteit – een microfacet sampling distributie – stelt de neurale decoder in staat om efficiënt importance sampling uit te voeren. Het resulterende uiterlijkheidsmodel ondersteunt anisotrope sampling en level-of-detail rendering, en maakt het mogelijk diep gelaagde materiaalgrafieken te bakken in een compacte, verenigde neurale representatie. Door hardware-geoptimaliseerde tensoroperaties bloot te stellen aan ray tracing shaders, tonen we aan dat het mogelijk is om de neurale decoders efficiënt inline uit te voeren binnen een real-time path tracer. We analyseren de schaalbaarheid bij een toenemend aantal neurale materialen en stellen voor om de prestaties te verbeteren met code die is geoptimaliseerd voor coherente en divergente uitvoering. Onze neurale materiaalshaders kunnen meer dan een orde van grootte sneller zijn dan niet-neurale gelaagde materialen. Dit opent de deur naar het gebruik van filmkwaliteit visuals in real-time toepassingen zoals games en live previews.
Voorgetrainde grote taalmodellen (LLMs) bevatten procedurele kennis over de wereld. Recent onderzoek heeft gebruikgemaakt van het vermogen van LLMs om abstracte plannen te genereren om uitdagende controle taken te vereenvoudigen, hetzij door acties te scoren, hetzij door actiemodellering (fine-tuning). Echter erft de transformer-architectuur verschillende beperkingen die het moeilijk maken voor het LLM om direct als agent te dienen: bijvoorbeeld beperkte invoerlengtes, inefficiëntie bij fine-tuning, bias door voorafgaande training, en incompatibiliteit met niet-tekstuele omgevingen. Om compatibiliteit te behouden met een trainbare actor op laag niveau, stellen we voor om de kennis in LLMs te gebruiken om het controleprobleem te vereenvoudigen, in plaats van het op te lossen. We introduceren het Plan, Elimineer en Volg (PET) raamwerk. De Plan module vertaalt een taakbeschrijving naar een lijst van hoogwaardige sub-taken. De Elimineer module maskeert irrelevante objecten en recipiënten uit de observatie voor de huidige sub-taak. Ten slotte bepaalt de Volg module of de agent elke sub-taak heeft voltooid. Op de AlfWorld instructievolgbenchmark leidt het PET raamwerk tot een significante verbetering van 15% ten opzichte van de state-of-the-art voor generalisatie naar menselijke doel specificaties.
Het volgen van objecten met persistentie in rommelige en dynamische omgevingen blijft een uitdagend probleem voor computervisiesystemen. In dit artikel introduceren we TCOW, een nieuwe benchmark en model voor visueel volgen onder zware occlusie en insluiting. We definiëren een taak waarbij het doel is om, gegeven een videosequentie, zowel de geprojecteerde omvang van het doelobject als het omringende container- of occlusieobject te segmenteren, wanneer dit aanwezig is. Om deze taak te bestuderen, creëren we een mix van synthetische en geannoteerde real-world datasets om zowel supervised learning als gestructureerde evaluatie van modelprestaties onder verschillende vormen van taakvariatie te ondersteunen, zoals bewegende of geneste insluiting. We evalueren twee recente transformer-gebaseerde videomodellen en concluderen dat, hoewel ze verrassend goed in staat zijn om doelobjecten te volgen onder bepaalde taakvariaties, er nog steeds een aanzienlijke prestatiekloof bestaat voordat we kunnen stellen dat een volgmodel een waar begrip van objectpermanentie heeft verworven.
We richten ons op het reconstrueren van hoogwaardige radiance fields van menselijke hoofden, het vastleggen van hun animaties over tijd, en het synthetiseren van herweergaven vanuit nieuwe gezichtspunten op willekeurige tijdstappen. Hiertoe stellen we een nieuwe multi-view opstelling voor, bestaande uit 16 gekalibreerde machine vision camera's die tijdgesynchroniseerde beelden opnemen met een resolutie van 7,1 MP en 73 frames per seconde. Met onze opstelling verzamelen we een nieuwe dataset van meer dan 4700 hoogwaardige, hoogfrequente sequenties van meer dan 220 menselijke hoofden, waaruit we een nieuwe benchmark voor de reconstructie van menselijke hoofden introduceren. De opgenomen sequenties bestrijken een breed scala aan gezichtsbewegingen, waaronder hoofdbewegingen, natuurlijke expressies, emoties en gesproken taal. Om hoogwaardige menselijke hoofden te reconstrueren, stellen we Dynamic Neural Radiance Fields voor met behulp van Hash Ensembles (NeRSemble). We representeren scènedynamiek door een vervormingsveld te combineren met een ensemble van 3D multi-resolutie hash-coderingen. Het vervormingsveld maakt een nauwkeurige modellering van eenvoudige scènebewegingen mogelijk, terwijl het ensemble van hash-coderingen helpt om complexe dynamiek te representeren. Als resultaat verkrijgen we radiance field-representaties van menselijke hoofden die beweging over tijd vastleggen en het herweergeven van willekeurige nieuwe gezichtspunten mogelijk maken. In een reeks experimenten onderzoeken we de ontwerpkeuzes van onze methode en tonen we aan dat onze aanpak state-of-the-art dynamische radiance field-benaderingen aanzienlijk overtreft.
Grote taalmmodellen (LLMs) vormen de basis van veel state-of-the-art systemen in natuurlijke taalverwerking. Deze modellen zijn echter extreem rekenintensief, zelfs tijdens inferentie, wat de vraag oproept: wanneer is de extra kosten van het inzetten van een groter model de verwachte verbetering in capaciteiten waard? Een beter fundamenteel begrip van deze afweging zou kunnen profiteren van een inferentie-efficiëntiemetriek die zowel (i) eenvoudig vergelijkbaar is tussen modellen van verschillende aanbieders, als (ii) representatief is voor de werkelijke kosten van het uitvoeren van queries in een geïsoleerde prestatieomgeving. Helaas is toegang tot LLMs tegenwoordig grotendeels beperkt tot black-box tekstgeneratie-API's, en ruwe looptijden die via deze interface worden gemeten, voldoen niet aan deze wensen: modelaanbieders kunnen verschillende software- en hardwareoptimalisaties toepassen die losstaan van het model, en modellen die op gedeelde infrastructuur worden aangeboden, zijn gevoelig voor prestatieconcurrentie. Om deze problemen te omzeilen, stellen we een nieuwe metriek voor om inferentie-efficiëntie tussen modellen te vergelijken. Deze metriek plaatst modellen op gelijke voet alsof ze (i) op uniforme hardware en software worden aangeboden, en (ii) zonder prestatieconcurrentie. We noemen deze metriek de geïdealiseerde looptijd, en we stellen een methodologie voor om deze metriek efficiënt te schatten voor autoregressieve Transformer-modellen. We stellen ook kostenbewuste varianten voor die het aantal accelerators meenemen dat nodig is om het model aan te bieden. Met behulp van deze metrieken vergelijken we tien state-of-the-art LLMs om de eerste analyse van inferentie-efficiëntie-capaciteitenafwegingen te bieden; we doen verschillende observaties uit deze analyse, waaronder het feit dat de superieure inferentie-looptijdprestaties van bepaalde API's vaak een bijproduct zijn van optimalisaties binnen de API in plaats van het onderliggende model. Onze methodologie vergemakkelijkt ook de efficiënte vergelijking van verschillende software- en hardwarestacks.
Onlangs heeft DeepNorm Transformers geschaald naar extreem diepe architecturen (d.w.z. 1000 lagen) en het veelbelovende potentieel van diepe schaling onthuld. Om de training van diepe modellen te stabiliseren, probeert DeepNorm (Wang et al., 2022) de modelupdate te beperken tot een constante waarde. Hoewel het toepassen van een dergelijke beperking voordelig kan zijn in de vroege fase van de modeltraining, kan het leiden tot onvoldoende getrainde modellen gedurende het hele trainingsproces. In dit artikel stellen we BranchNorm voor, dat dynamisch de niet-residuele tak van de Transformer herschaalt in overeenstemming met de trainingsperiode. BranchNorm stabiliseert niet alleen theoretisch de training met vloeiende gradientnormen in de vroege fase, maar bevordert ook een betere convergentie in de latere trainingsfase. Experimentele resultaten op meerdere vertaaltaaken tonen aan dat BranchNorm een betere balans bereikt tussen trainingsstabiliteit en convergentieprestaties.
Texturen zijn een essentieel aspect voor het creëren van visueel aantrekkelijke en realistische 3D-modellen. In dit artikel bestuderen we het probleem van het genereren van hoogwaardige texturen op basis van de vormen van 3D-assets, een onderwerp dat relatief minder is onderzocht in vergelijking met generieke 3D-vormmodellering. Ons doel is om een controleerbaar textuurgeneratieproces mogelijk te maken, waarbij één textuurcode kan overeenkomen met een specifieke uiterlijke stijl, onafhankelijk van de invoervormen binnen een categorie. We introduceren Texture UV Radiance Fields (TUVF), die texturen genereren in een leerbare UV-sfeerruimte in plaats van direct op de 3D-vorm. Hierdoor kan de textuur worden losgekoppeld van de onderliggende vorm en worden overgedragen naar andere vormen die dezelfde UV-ruimte delen, d.w.z. binnen dezelfde categorie. We integreren de UV-sfeerruimte met het radiance field, wat een efficiëntere en nauwkeurigere weergave van texturen biedt dan traditionele texture maps. We voeren onze experimenten uit op datasets van objecten uit de echte wereld, waarbij we niet alleen realistische synthese bereiken, maar ook aanzienlijke verbeteringen laten zien ten opzichte van state-of-the-art methoden op het gebied van textuurcontrole en -bewerking. Projectpagina: https://www.anjiecheng.me/TUVF
We introduceren Masked Trajectory Models (MTM) als een generieke abstractie voor sequentiële besluitvorming. MTM neemt een traject, zoals een staat-actie-reeks, en streeft ernaar het traject te reconstrueren, geconditioneerd op willekeurige subsets van hetzelfde traject. Door te trainen met een sterk gerandomiseerd maskeringspatroon, leert MTM veelzijdige netwerken die verschillende rollen of capaciteiten kunnen aannemen, simpelweg door geschikte maskers te kiezen tijdens de inferentiefase. Hetzelfde MTM-netwerk kan bijvoorbeeld worden gebruikt als een forward dynamisch model, een inverse dynamisch model, of zelfs een offline RL-agent. Door uitgebreide experimenten in verschillende continue controle-taken tonen we aan dat hetzelfde MTM-netwerk – d.w.z. dezelfde gewichten – gespecialiseerde netwerken die zijn getraind voor de bovengenoemde capaciteiten kan evenaren of overtreffen. Daarnaast ontdekken we dat staatrepresentaties die door MTM worden geleerd, de leercurve van traditionele RL-algoritmen aanzienlijk kunnen versnellen. Tot slot blijkt MTM in offline RL-benchmarks competitief te zijn met gespecialiseerde offline RL-algoritmen, ondanks dat MTM een generieke zelfgesuperviseerde leermethode is zonder expliciete RL-componenten. Code is beschikbaar op https://github.com/facebookresearch/mtm.