HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

17 papers found

Een Video Herrenderen: Zero-Shot Tekstgeleide Video-naar-Video Vertaling
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Jun 13

ByShuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy

113

Grote tekst-naar-beeld diffusiemodellen hebben indrukwekkende vaardigheden getoond in het genereren van hoogwaardige afbeeldingen. Wanneer deze modellen echter worden toegepast op het videodomein, blijft het waarborgen van temporele consistentie tussen videoframes een aanzienlijke uitdaging. Dit artikel stelt een nieuw zero-shot tekstgeleid video-naar-video vertaalraamwerk voor om beeldmodellen aan te passen voor video's. Het raamwerk bestaat uit twee delen: sleutelframe vertaling en volledige video vertaling. Het eerste deel gebruikt een aangepast diffusiemodel om sleutelframes te genereren, waarbij hiërarchische cross-frame beperkingen worden toegepast om consistentie in vormen, texturen en kleuren te waarborgen. Het tweede deel verspreidt de sleutelframes naar andere frames met temporeel bewuste patch matching en frame blending. Ons raamwerk bereikt globale stijl en lokale textuur temporele consistentie tegen lage kosten (zonder hertraining of optimalisatie). De aanpassing is compatibel met bestaande beelddiffusietechnieken, waardoor ons raamwerk hiervan kan profiteren, zoals het aanpassen van een specifiek onderwerp met LoRA, en het introduceren van extra ruimtelijke begeleiding met ControlNet. Uitgebreide experimentele resultaten tonen de effectiviteit van ons voorgestelde raamwerk aan boven bestaande methoden in het renderen van hoogwaardige en temporeel coherente video's.

One-for-All: Gegeneraliseerde LoRA voor Parameter-Efficiënte Fine-tuning
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning

Jun 13

ByArnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, Zhiqiang Shen

We presenteren Generalized LoRA (GLoRA), een geavanceerde aanpak voor universele parameter-efficiënte fine-tuning taken. Door Low-Rank Adaptation (LoRA) te verbeteren, maakt GLoRA gebruik van een gegeneraliseerde promptmodule om de gewichten van vooraf getrainde modellen te optimaliseren en tussenliggende activeringen aan te passen, wat meer flexibiliteit en capaciteit biedt voor diverse taken en datasets. Bovendien vergemakkelijkt GLoRA efficiënte parameteraanpassing door een schaalbare, modulaire, laaggewijze structuurzoektoepassing te gebruiken die individuele adapters voor elke laag leert. Ontstaan vanuit een uniforme wiskundige formulering, toont GLoRA sterke transfer learning, few-shot learning en domeingeneralizatievermogens, doordat het zich aanpast aan nieuwe taken via extra dimensies op gewichten en activeringen. Uitgebreide experimenten tonen aan dat GLoRA alle vorige methoden overtreft in natuurlijke, gespecialiseerde en gestructureerde benchmarks, waarbij het superieure nauwkeurigheid bereikt met minder parameters en berekeningen op verschillende datasets. Verder zorgt ons ontwerp voor structurele herparameterisatie ervoor dat GLoRA geen extra inferentiekosten met zich meebrengt, wat het een praktische oplossing maakt voor toepassingen met beperkte middelen. Code is beschikbaar op: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.

AniFaceDrawing: Anime Portretverkenning tijdens het Schetsen
AniFaceDrawing: Anime Portrait Exploration during Your Sketching

Jun 13

ByZhengyu Huang, Haoran Xie, Tsukasa Fukusato, Kazunori Miyata

In dit artikel richten we ons op hoe kunstmatige intelligentie (AI) kan worden gebruikt om gebruikers te assisteren bij het maken van animeportretten, namelijk door ruwe schetsen om te zetten in animeportretten tijdens het schetsproces. De input bestaat uit een reeks onvolledige vrijehandschetsen die geleidelijk aan stroke voor stroke worden verfijnd, terwijl de output een reeks hoogwaardige animeportretten is die overeenkomen met de inputschetsen als leidraad. Hoewel recente GAN's hoogwaardige afbeeldingen kunnen genereren, is het een uitdaging om de hoge kwaliteit van gegenereerde afbeeldingen te behouden bij schetsen met een lage mate van voltooiing vanwege ill-posed problemen in conditionele beeldgeneratie. Zelfs met de nieuwste schets-naar-beeld (S2I) technologie is het nog steeds moeilijk om hoogwaardige afbeeldingen te creëren vanuit onvolledige ruwe schetsen voor animeportretten, aangezien de anime-stijl vaak abstracter is dan realistische stijlen. Om dit probleem aan te pakken, gebruiken we een latente ruimte-exploratie van StyleGAN met een tweefasige trainingsstrategie. We beschouwen de inputstreken van een vrijehandschets als overeenkomend met randinformatie-gerelateerde attributen in de latente structurele code van StyleGAN, en noemen de overeenkomst tussen streken en deze attributen stroke-level disentanglement. In de eerste fase hebben we een beeldencoder getraind met het vooraf getrainde StyleGAN-model als een leraar-encoder. In de tweede fase hebben we het tekenproces van de gegenereerde afbeeldingen gesimuleerd zonder aanvullende data (labels) en hebben we de schetsencoder getraind voor onvolledige progressieve schetsen om hoogwaardige portretafbeeldingen te genereren met feature alignment naar de ontwarde representaties in de leraar-encoder. We hebben het voorgestelde progressieve S2I-systeem geverifieerd met zowel kwalitatieve als kwantitatieve evaluaties en hebben hoogwaardige animeportretten bereikt vanuit onvolledige progressieve schetsen. Onze gebruikersstudie bewees de effectiviteit ervan in kunstcreatie-assistentie voor de anime-stijl.

WebGLM: Naar een Efficiënt Web-Gestuurd Vraag-Antwoordsysteem met Menselijke Voorkeuren
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

Jun 13

ByXiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang

We presenteren WebGLM, een web-verbeterd vraag-antwoordsysteem gebaseerd op het General Language Model (GLM). Het doel is om een vooraf getraind groot taalmodel (LLM) uit te breiden met webzoek- en ophaalmogelijkheden, terwijl het efficiënt blijft voor implementaties in de praktijk. Om dit te bereiken, ontwikkelen we WebGLM met strategieën voor de LLM-verbeterde retriever, de bootstrapped generator en de menselijke voorkeur-gevoelige scorer. Specifiek identificeren en adresseren we de beperkingen van WebGPT (OpenAI), waardoor WebGLM wordt uitgerust met voordelen op het gebied van nauwkeurigheid, efficiëntie en kosteneffectiviteit. Daarnaast stellen we systematische criteria voor om web-verbeterde QA-systemen te evalueren. We voeren multidimensionale menselijke evaluaties en kwantitatieve ablatiestudies uit, die suggereren dat de voorgestelde WebGLM-ontwerpen beter presteren dan bestaande systemen. WebGLM met het 10-miljard-parameter GLM (10B) presteert beter dan het vergelijkbaar grote WebGPT (13B) en zelfs vergelijkbaar met WebGPT (175B) in menselijke evaluaties. De code, demo en gegevens zijn te vinden op https://github.com/THUDM/WebGLM.

TART: Een plug-and-play Transformermodule voor taakonafhankelijk redeneren
TART: A plug-and-play Transformer module for task-agnostic reasoning

Jun 13

ByKush Bhatia, Avanika Narayan, Christopher De Sa, Christopher Ré

Grote taalmodellen (LLM's) vertonen in-context leervaardigheden die hetzelfde model in staat stellen om verschillende taken uit te voeren zonder taakspecifieke training. Traditionele aanpassingsbenaderingen, zoals fine-tuning, passen daarentegen de onderliggende modellen aan voor elke specifieke taak. In-context leren presteert echter consistent minder goed dan taakspecifieke afstemmingsbenaderingen, zelfs wanneer dezelfde voorbeelden worden gepresenteerd. Terwijl de meeste bestaande benaderingen (bijvoorbeeld prompt engineering) zich richten op de geleerde representaties van het LLM om deze prestatiekloof te dichten, laat onze analyse juist zien dat de representaties van LLM's voldoende informatie bevatten om goede voorspellingen te maken. Daarom richten wij ons op de redeneervaardigheden van het LLM en tonen aan dat deze prestatiekloof bestaat vanwege hun onvermogen om eenvoudige probabilistische redeneertaken uit te voeren. Dit roept een intrigerende vraag op: Zijn LLM's eigenlijk in staat om op een taakonafhankelijke manier te leren redeneren? Wij beantwoorden dit bevestigend en stellen TART voor, dat op generieke wijze de redeneervaardigheden van een LLM verbetert door gebruik te maken van een synthetisch getraind Transformer-gebaseerd redeneermodule. TART traint dit redeneermodule op een taakonafhankelijke manier met alleen synthetische logistische regressietaken en combineert het met een willekeurig vooraf getraind model uit de echte wereld zonder aanvullende training. Met een enkel inferentiemodule verbetert TART de prestaties over verschillende modelfamilies (GPT-Neo, Pythia, BLOOM), modelgroottes (100M - 6B), taken (14 NLP binaire classificatietaken), en zelfs over verschillende modaliteiten (audio en visie). Daarnaast verbetert TART op de RAFT Benchmark de prestaties van GPT-Neo (125M) zodanig dat het BLOOM (176B) overtreft, en binnen 4% van GPT-3 (175B) blijft. Onze code en modellen zijn beschikbaar op https://github.com/HazyResearch/TART.

Beeldonderschrijvers zijn ook schaalbare visuele leerders
Image Captioners Are Scalable Vision Learners Too

Jun 13

ByMichael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer

Contrastieve voorpretraining op afbeelding-tekstparen van het web is een van de meest populaire grootschalige voorpretrainingsstrategieën voor visuele backbones, vooral in de context van grote multimodale modellen. Tegelijkertijd wordt beeldbeschrijving op dit type data algemeen beschouwd als een inferieure voorpretrainingsstrategie. In dit artikel voeren we een eerlijke vergelijking uit van deze twee voorpretrainingsstrategieën, waarbij we zorgvuldig de trainingsdata, rekenkracht en modelcapaciteit afstemmen. Met behulp van een standaard encoder-decoder transformer vinden we dat beeldbeschrijving alleen verrassend effectief is: bij classificatietaken produceert beeldbeschrijving visuele encoders die competitief zijn met contrastief voorgetrainde encoders, terwijl ze deze overtreffen bij visie- en taalgerelateerde taken. We analyseren verder het effect van de modelarchitectuur en schaal, evenals de voorpretrainingsdata op de representatiekwaliteit, en vinden dat beeldbeschrijving hetzelfde of beter schaalgedrag vertoont langs deze assen. Over het geheel genomen tonen onze resultaten aan dat gewone beeldbeschrijving een krachtigere voorpretrainingsstrategie is dan eerder werd aangenomen.

ATT3D: Geamortiseerde tekst-naar-3D-objectsynthese
ATT3D: Amortized Text-to-3D Object Synthesis

Jun 6

ByJonathan Lorraine, Kevin Xie, Xiaohui Zeng, Chen-Hsuan Lin, Towaki Takikawa, Nicholas Sharp, Tsung-Yi Lin, Ming-Yu Liu, Sanja Fidler, James Lucas

Text-naar-3D-modellering heeft opwindende vooruitgang geboekt door generatieve text-naar-beeldmodellen te combineren met beeld-naar-3D-methoden zoals Neural Radiance Fields. DreamFusion heeft recentelijk hoogwaardige resultaten behaald, maar vereist een tijdrovende, per-prompt optimalisatie om 3D-objecten te creëren. Om dit aan te pakken, amortiseren we de optimalisatie over tekstprompts door te trainen op veel prompts tegelijkertijd met een uniform model, in plaats van afzonderlijk. Hiermee delen we de berekening over een set prompts, waardoor de training minder tijd kost dan per-prompt optimalisatie. Ons framework - Amortized Text-to-3D (ATT3D) - maakt kennisuitwisseling tussen prompts mogelijk om te generaliseren naar onbekende opstellingen en soepele interpolaties tussen tekst voor nieuwe assets en eenvoudige animaties.

SayTap: Taal naar Viervoetige Locomotie
SayTap: Language to Quadrupedal Locomotion

Jun 13

ByYujin Tang, Wenhao Yu, Jie Tan, Heiga Zen, Aleksandra Faust, Tatsuya Harada

Grote taalmmodellen (LLM's) hebben het potentieel getoond om hoogwaardige planning uit te voeren. Toch blijft het een uitdaging voor LLM's om laagniveau commando's te begrijpen, zoals gewrichtshoekdoelen of motorkoppels. Dit artikel stelt een aanpak voor om voetcontactpatronen te gebruiken als een interface die menselijke commando's in natuurlijke taal verbindt met een bewegingscontroller die deze laagniveau commando's uitvoert. Dit resulteert in een interactief systeem voor viervoetige robots dat gebruikers in staat stelt om diverse bewegingsgedragingen flexibel te ontwerpen. Wij dragen bij met een LLM-promptontwerp, een beloningsfunctie en een methode om de controller bloot te stellen aan de haalbare verdeling van contactpatronen. De resultaten zijn een controller die in staat is diverse bewegingspatronen te bereiken die kunnen worden overgedragen naar echte robothardware. Vergeleken met andere ontwerpkeuzes geniet de voorgestelde aanpak een slagingspercentage van meer dan 50% in het voorspellen van de juiste contactpatronen en kan het 10 extra taken oplossen uit een totaal van 30 taken. Onze projectwebsite is: https://saytap.github.io.

arXiVeri: Automatische tabelverificatie met GPT
arXiVeri: Automatic table verification with GPT

Jun 13

ByGyungin Shin, Weidi Xie, Samuel Albanie

Zonder nauwkeurige transcriptie van numerieke gegevens in wetenschappelijke documenten kan een wetenschapper geen nauwkeurige conclusies trekken. Helaas is het proces van het kopiëren van numerieke gegevens van het ene naar het andere artikel gevoelig voor menselijke fouten. In dit artikel stellen wij voor om deze uitdaging aan te gaan door middel van de nieuwe taak van automatische tabelverificatie (AutoTV), waarbij het doel is om de nauwkeurigheid van numerieke gegevens in tabellen te verifiëren door middel van kruisverwijzingen naar geciteerde bronnen. Om deze taak te ondersteunen, introduceren wij een nieuwe benchmark, arXiVeri, die bestaat uit tabelgegevens afkomstig uit open-access wetenschappelijke artikelen op arXiv. Wij introduceren metrieken om de prestaties van een tabelverificateur te evalueren op twee belangrijke gebieden: (i) tabelkoppeling, dat als doel heeft de brontabel in een geciteerd document te identificeren die overeenkomt met een doeltabel, en (ii) celkoppeling, dat als doel heeft gedeelde cellen tussen een doeltabel en een brontabel te lokaliseren en hun rij- en kolomindices nauwkeurig te identificeren. Door gebruik te maken van de flexibele mogelijkheden van moderne grote taalmodellen (LLM's), stellen wij eenvoudige basislijnen voor tabelverificatie voor. Onze bevindingen benadrukken de complexiteit van deze taak, zelfs voor state-of-the-art LLM's zoals OpenAI's GPT-4. De code en benchmark zullen publiekelijk beschikbaar worden gemaakt.

Neurale Scène Chronologie
Neural Scene Chronology

Jun 13

ByHaotong Lin, Qianqian Wang, Ruojin Cai, Sida Peng, Hadar Averbuch-Elor, Xiaowei Zhou, Noah Snavely

In dit werk streven we ernaar een tijdvariërend 3D-model te reconstrueren dat in staat is om foto-realistische weergaven te renderen met onafhankelijke controle over gezichtspunt, belichting en tijd, op basis van internetfoto's van grootschalige bezienswaardigheden. De kernuitdagingen zijn tweeledig. Ten eerste zijn verschillende soorten temporele veranderingen, zoals belichting en veranderingen aan de onderliggende scène zelf (zoals het vervangen van het ene graffiti-kunstwerk door een ander), verstrengeld in de beeldmaterie. Ten tweede zijn scène-niveau temporele veranderingen vaak discreet en sporadisch in de tijd, in plaats van continu. Om deze problemen aan te pakken, stellen we een nieuwe scène-representatie voor, uitgerust met een nieuwe temporele stapfunctie-coderingmethode die discrete scène-niveau inhoudsveranderingen kan modelleren als stuksgewijs constante functies in de tijd. Specifiek representeren we de scène als een ruimte-tijd stralingsveld met een per-beeld belichtingsembedding, waarbij temporeel variërende scèneveranderingen worden gecodeerd met behulp van een set geleerde stapfuncties. Om onze taak van chronologie-reconstructie uit internetbeeldmateriaal te vergemakkelijken, hebben we ook een nieuwe dataset verzameld van vier scènes die verschillende veranderingen in de tijd vertonen. We demonstreren dat onze methode state-of-the-art resultaten behaalt voor viewsynthese op deze dataset, terwijl onafhankelijke controle over gezichtspunt, tijd en belichting wordt bereikt.

Spraak-naar-tekst-adapter en spraak-naar-entiteit-zoeker versterkte LLM's voor spraakbegrip
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

Jun 8

ByMingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey

Grote Taalmodellen (LLMs) zijn toegepast in het spraakdomein, wat vaak leidt tot een prestatieverlies door een gebrek aan afstemming tussen spraak- en taalrepresentaties. Om deze kloof te overbruggen, stellen we een gecombineerd spraak- en taalmodel (SLM) voor dat gebruikmaakt van een Speech2Text-adapter, die spraak omzet naar een teksttoken-embeddingruimte zonder verlies van spraakinformatie. Daarnaast kunnen we, door gebruik te maken van een CTC-gebaseerde blank-filtering, de lengte van de spraaksequentie terugbrengen tot die van tekst. In de spraak-MultiWoz-dataset (DSTC11-challenge) verbetert het SLM de prestaties van dialoogstatustracking (DST) aanzienlijk (van 24,7% naar 28,4% nauwkeurigheid). Om fouten bij zeldzame entiteiten aan te pakken, verrijken we het SLM met een Speech2Entity-retriever, die spraak gebruikt om relevante entiteiten op te halen en deze vervolgens toevoegt aan de oorspronkelijke SLM-invoer als een voorvoegsel. Met dit retrieval-augmented SLM (ReSLM) stijgt de DST-prestatie naar 34,6% nauwkeurigheid. Bovendien verbetert het verrijken van de ASR-taak met de dialoogbegriptaak de ASR-prestatie van 9,4% naar 8,5% WER.

3D-molecuulgeneratie door voxelroosters te ontruisen
3D molecule generation by denoising voxel grids

Jun 13

ByPedro O. Pinheiro, Joshua Rackers, Joseph Kleinhenz, Michael Maser, Omar Mahmood, Andrew Martin Watkins, Stephen Ra, Vishnu Sresht, Saeed Saremi

We stellen een nieuwe score-gebaseerde aanpak voor om 3D-moleculen te genereren die worden weergegeven als atomaire dichtheden op reguliere roosters. Eerst trainen we een denoiserend neuraal netwerk dat leert om te mappen van een gladde verdeling van ruisachtige moleculen naar de verdeling van echte moleculen. Vervolgens volgen we het neurale empirische Bayes-raamwerk [Saremi en Hyvarinen, 2019] en genereren we moleculen in twee stappen: (i) we bemonsteren ruisachtige dichtheidsroosters uit een gladde verdeling via underdamped Langevin Markov chain Monte Carlo, en (ii) we herstellen het ``schone'' molecuul door het ruisachtige rooster te denoizen met een enkele stap. Onze methode, VoxMol, genereert moleculen op een fundamenteel andere manier dan de huidige state of the art (d.w.z., diffusiemodellen toegepast op atoompuntwolken). Het verschilt in termen van de datarepresentatie, het ruismodel, de netwerkarchitectuur en het generatieve modelleeralgoritme. VoxMol behaalt vergelijkbare resultaten met de state of the art bij onvoorwaardelijke 3D-molecuulgeneratie, terwijl het eenvoudiger te trainen en sneller is in het genereren van moleculen.

GeneCIS: Een Benchmark voor Algemene Voorwaardelijke Beeldgelijkheid
GeneCIS: A Benchmark for General Conditional Image Similarity

Jun 13

BySagar Vaze, Nicolas Carion, Ishan Misra

Wij stellen dat er veel verschillende noties van 'gelijkenis' bestaan en dat modellen, net als mensen, zich dynamisch aan deze noties moeten kunnen aanpassen. Dit staat in contrast met de meeste methoden voor representatieleren, zowel onder supervisie als zelfsupervisie, die een vaste inbeddingsfunctie leren en daarmee impliciet uitgaan van een enkele notie van gelijkenis. Modellen die bijvoorbeeld op ImageNet zijn getraind, zijn bijvoorbeeld bevooroordeeld naar objectcategorieën, terwijl een gebruiker mogelijk liever heeft dat het model zich richt op kleuren, texturen of specifieke elementen in de scène. In dit artikel introduceren we de GeneCIS ('genesis') benchmark, die het vermogen van modellen meet om zich aan te passen aan een reeks gelijkeniscondities. In uitbreiding van eerder werk is onze benchmark uitsluitend ontworpen voor zero-shot evaluatie en beschouwt daarom een open set van gelijkeniscondities. We constateren dat baseline-modellen van krachtige CLIP-modellen moeite hebben met GeneCIS en dat de prestaties op de benchmark slechts zwak gecorreleerd zijn met de nauwkeurigheid op ImageNet, wat suggereert dat het simpelweg opschalen van bestaande methoden niet vruchtbaar is. We stellen verder een eenvoudige, schaalbare oplossing voor, gebaseerd op het automatisch extraheren van informatie uit bestaande afbeelding-bijschrift datasets. We ontdekken dat onze methode een aanzienlijke verbetering biedt ten opzichte van de baseline-modellen op GeneCIS en bovendien de zero-shot prestaties verbetert op gerelateerde benchmarks voor beeldretrieval. Hoewel het zero-shot wordt geëvalueerd, overtreft ons model zelfs state-of-the-art supervised modellen op MIT-States. Projectpagina op https://sgvaze.github.io/genecis/.

Galactic: Schaalbaar End-to-End Reinforcement Learning voor Herordening op 100.000 Stappen-Per-Seconde
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

Jun 13

ByVincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander

We presenteren Galactic, een grootschalig simulatie- en reinforcement learning (RL)-framework voor robotische mobiele manipulatie in binnenomgevingen. Specifiek wordt een Fetch-robot (uitgerust met een mobiele basis, 7DoF-arm, RGBD-camera, egomotion en onboard-sensoren) in een thuissimulatie geplaatst en gevraagd om objecten te herschikken – door naar een object te navigeren, het op te pakken, naar een doelpositie te navigeren en het object vervolgens op de doelpositie te plaatsen. Galactic is snel. Wat betreft simulatietempo (rendering + fysica) behaalt Galactic meer dan 421.000 stappen per seconde (SPS) op een 8-GPU-node, wat 54x sneller is dan Habitat 2.0 (7699 SPS). Belangrijker is dat Galactic is ontworpen om de hele interactie tussen rendering, fysica en RL te optimaliseren, aangezien elke bottleneck in deze interactie de training vertraagt. Wat betreft simulatie+RL-tempo (rendering + fysica + inferentie + leren) behaalt Galactic meer dan 108.000 SPS, wat 88x sneller is dan Habitat 2.0 (1243 SPS). Deze enorme snelheidsverbeteringen verkorten niet alleen drastisch de wall-clock-traintijd van bestaande experimenten, maar maken ook een ongekende schaal van nieuwe experimenten mogelijk. Ten eerste kan Galactic een mobiele pick-vaardigheid trainen tot >80% nauwkeurigheid in minder dan 16 minuten, een 100x versnelling vergeleken met de meer dan 24 uur die het kost om dezelfde vaardigheid in Habitat 2.0 te trainen. Ten tweede gebruiken we Galactic om het grootste experiment tot nu toe uit te voeren voor herschikking met 5 miljard stappen ervaring in 46 uur, wat overeenkomt met 20 jaar robotervaring. Deze schaalvergroting resulteert in een enkel neuraal netwerk, bestaande uit taakonafhankelijke componenten, dat een slagingspercentage van 85% behaalt in GeometricGoal-herschikking, vergeleken met 0% succes gerapporteerd in Habitat 2.0 voor dezelfde aanpak. De code is beschikbaar op github.com/facebookresearch/galactic.

GPT-Calls: Verbetering van gesprekssegmentatie en tagging door het genereren van synthetische conversaties via grote taalmodellen
GPT-Calls: Enhancing Call Segmentation and Tagging by Generating Synthetic Conversations via Large Language Models

Jun 9

ByItzik Malkiel, Uri Alon, Yakir Yehuda, Shahar Keren, Oren Barkan, Royi Ronen, Noam Koenigstein

Transcripties van telefoongesprekken zijn van aanzienlijke waarde in diverse vakgebieden, zoals verkoop, klantenservice, gezondheidszorg en wetshandhaving. Desalniettemin kan de analyse van deze opgenomen gesprekken een moeizaam en tijdrovend proces zijn, vooral wanneer er sprake is van langdurige of complexe dialogen. In dit werk stellen we een nieuwe methode voor, GPT-distilled Calls Segmentation and Tagging (GPT-Calls), voor efficiënte en accurate gesprekssegmentatie en onderwerpextractie. GPT-Calls bestaat uit offline en online fasen. De offline fase wordt eenmaal toegepast op een gegeven lijst van onderwerpen en omvat het genereren van een distributie van synthetische zinnen voor elk onderwerp met behulp van een GPT-model en het extraheren van ankervectoren. De online fase wordt afzonderlijk toegepast op elk gesprek en berekent de gelijkenis tussen de getranscribeerde conversatie en de onderwerpankers die in de offline fase zijn gevonden. Vervolgens wordt tijdsdomeinanalyse toegepast op de gelijkenisscores om uitingen te groeperen in segmenten en ze te labelen met onderwerpen. Het voorgestelde paradigma biedt een accurate en efficiënte methode voor gesprekssegmentatie en onderwerpextractie die geen gelabelde data vereist, waardoor het een veelzijdige aanpak is die toepasbaar is in verschillende domeinen. Ons algoritme werkt in productie onder Dynamics 365 Sales Conversation Intelligence, en ons onderzoek is gebaseerd op echte verkoopgesprekken die zijn verzameld van verschillende Dynamics 365 Sales tenants.

Directe Multi-View Hoofdcapturatie via Leerbare Registratie
Instant Multi-View Head Capture through Learnable Registration

Jun 12

ByTimo Bolkart, Tianye Li, Michael J. Black

Bestaande methoden voor het vastleggen van datasets van 3D-hoofden in dichte semantische correspondentie zijn traag en behandelen het probleem doorgaans in twee afzonderlijke stappen: multi-view stereo (MVS) reconstructie gevolgd door niet-rigide registratie. Om dit proces te vereenvoudigen, introduceren we TEMPEH (Towards Estimation of 3D Meshes from Performances of Expressive Heads) om direct 3D-hoofden in dichte correspondentie af te leiden uit gekalibreerde multi-view beelden. Het registreren van datasets van 3D-scans vereist meestal handmatige parameterafstemming om de juiste balans te vinden tussen het nauwkeurig passen van de scanoppervlakken en het robuust zijn tegen scanningsruis en uitschieters. In plaats daarvan stellen we voor om een 3D-hoofddataset gezamenlijk te registreren tijdens het trainen van TEMPEH. Specifiek minimaliseren we tijdens de training een geometrisch verlies dat vaak wordt gebruikt voor oppervlakregistratie, waarbij TEMPEH effectief wordt gebruikt als een regularisator. Onze multi-view hoofdinferentie bouwt voort op een volumetrische kenmerkrepresentatie die kenmerken van elk beeld bemonstert en samenvoegt met behulp van camerakalibratie-informatie. Om rekening te houden met gedeeltelijke occlusies en een groot opnamevolume dat hoofdbewegingen mogelijk maakt, gebruiken we respectievelijk view- en oppervlakbewuste kenmerksamenvoeging en een op ruimtelijke transformaties gebaseerde hoofdlocalisatiemodule. We gebruiken ruwe MVS-scans als supervisie tijdens de training, maar eenmaal getraind, voorspelt TEMPEH direct 3D-hoofden in dichte correspondentie zonder scans nodig te hebben. Het voorspellen van één hoofd duurt ongeveer 0,3 seconden met een mediane reconstructiefout van 0,26 mm, wat 64% lager is dan de huidige state-of-the-art. Dit maakt het efficiënt vastleggen van grote datasets mogelijk die meerdere personen en diverse gezichtsbewegingen bevatten. Code, model en data zijn openbaar beschikbaar op https://tempeh.is.tue.mpg.de.

STUDIE: Sociaal Bewuste Temporeel Causale Decoder Aanbevelingssystemen
STUDY: Socially Aware Temporally Casual Decoder Recommender Systems

Jun 2

ByEltayeb Ahmed, Diana Mincu, Lauren Harrell, Katherine Heller, Subhrajit Roy

Met de overweldigende hoeveelheid gegevens die tegenwoordig zowel online als offline beschikbaar zijn, zijn aanbevelingssystemen steeds meer nodig geworden om gebruikers te helpen items te vinden die aansluiten bij hun interesses. Wanneer informatie over sociale netwerken beschikbaar is, bestaan er methoden die deze informatie gebruiken om betere aanbevelingen te doen, maar deze methoden zijn vaak omslachtig met complexe architecturen en trainingsprocedures. Bovendien maken veel van de bestaande methoden gebruik van grafische neurale netwerken, die berucht moeilijk te trainen zijn. Om dit aan te pakken, stellen we Socially-aware Temporally caUsal Decoder recommender sYstems (STUDY) voor. STUDY voert gezamenlijke inferentie uit over groepen gebruikers die aangrenzend zijn in de sociale netwerkgrafiek met behulp van een enkele voorwaartse doorgang van een aangepast transformatordecodernetwerk. We testen onze methode in een schools educatieve contentomgeving, waarbij we de klasstructuur gebruiken om sociale netwerken te definiëren. Onze methode presteert beter dan zowel sociale als sequentiële methoden, terwijl de ontwerpeenvoud van een enkel homogeen netwerk dat alle interacties in de gegevens modelleert, behouden blijft. We voeren ook ablatiestudies uit om de drijvende krachten achter onze prestatieverbeteringen te begrijpen en ontdekken dat ons model afhankelijk is van het benutten van een sociale netwerkstructuur die de overeenkomsten in gebruikersgedrag effectief modelleert.

AniFaceDrawing: Anime Portretverkenning tijdens het Schetsen
AniFaceDrawing: Anime Portrait Exploration during Your Sketching

Jun 13

ByZhengyu Huang, Haoran Xie, Tsukasa Fukusato, Kazunori Miyata