Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het detecteren van tekst die gegenereerd is door moderne grote taalmodellen wordt als moeilijk beschouwd, omdat zowel LLM's als mensen een breed scala aan complex gedrag kunnen vertonen. Wij ontdekken echter dat een score gebaseerd op het vergelijken van twee nauw verwante taalmodellen zeer nauwkeurig is in het onderscheiden van door mensen gegenereerde en door machines gegenereerde tekst. Op basis van dit mechanisme stellen we een nieuwe LLM-detector voor die alleen eenvoudige berekeningen vereist met behulp van een paar vooraf getrainde LLM's. De methode, genaamd Binoculars, bereikt state-of-the-art nauwkeurigheid zonder enige trainingsdata. Het is in staat om machinetekst van een reeks moderne LLM's te herkennen zonder enige modelspecifieke aanpassingen. We evalueren Binoculars uitgebreid op een aantal tekstbronnen en in verschillende situaties. Over een breed scala aan documenttypen detecteert Binoculars meer dan 90% van de gegenereerde samples van ChatGPT (en andere LLM's) bij een vals-positief percentage van 0,01%, ondanks dat het niet getraind is op enige ChatGPT-data.
Aanzienlijke inspanningen zijn geleverd om de rolspelvaardigheden van open-source grote taalmodellen (LLMs) te verbeteren door propriëtaire tegenhangers na te bootsen. Niettemin stellen wij dat LLMs van nature rolspelcapaciteiten bezitten, dankzij de uitgebreide kennis van personages en potentiële dialogen die verankerd zijn in hun omvangrijke trainingscorpora. Daarom introduceren wij in deze studie Ditto, een zelf-uitlijningsmethode voor rolspel. Ditto maakt gebruik van karakterkennis en moedigt een instructievolgend LLM aan om rolspeldialogen te simuleren als een variant van leesbegrip. Deze methode creëert een rolspeltrainingsset bestaande uit 4.000 personages, wat de schaal van momenteel beschikbare datasets tienvoudig overtreft wat betreft het aantal rollen. Vervolgens fine-tunen we het LLM met behulp van deze zelf gegenereerde dataset om de rolspelcapaciteiten te vergroten. Bij het evalueren van ons zorgvuldig opgebouwde en reproduceerbare rolspelbenchmark en de rolspelsubset van MT-Bench, behoudt Ditto, in verschillende parameterschalen, consistent een consistente rolidentiteit en biedt het nauwkeurige, rol-specifieke kennis in meerzijdige rolspelgesprekken. Opmerkelijk is dat het alle open-source rolspel-baselines overtreft en prestatieniveaus laat zien die vergelijkbaar zijn met geavanceerde propriëtaire chatbots. Bovendien presenteren we het eerste uitgebreide kruis-supervisie-uitlijnings-experiment in het rolspeldomein, dat aantoont dat de intrinsieke capaciteiten van LLMs de kennis binnen rolspel beperken. Tegelijkertijd kunnen de rolspelstijlen gemakkelijk worden verworven met de begeleiding van kleinere modellen. We openbaren gerelateerde bronnen op https://github.com/OFA-Sys/Ditto.
We introduceren meta-prompting, een effectieve scaffoldingtechniek die is ontworpen om de functionaliteit van taalmodelen (LMs) te verbeteren. Deze aanpak transformeert een enkel LM in een veelzijdige dirigent, bedreven in het beheren en integreren van meerdere onafhankelijke LM-query's. Door gebruik te maken van hoogwaardige instructies, leidt meta-prompting het LM ertoe complexe taken op te splitsen in kleinere, beter beheersbare subtaken. Deze subtaken worden vervolgens afgehandeld door afzonderlijke "expert"-instanties van hetzelfde LM, elk werkend onder specifieke, op maat gemaakte instructies. Centraal in dit proces staat het LM zelf, in zijn rol als dirigent, dat zorgt voor naadloze communicatie en effectieve integratie van de uitvoer van deze expertmodellen. Het maakt daarnaast gebruik van zijn inherente kritisch denken en robuuste verificatieprocessen om het eindresultaat te verfijnen en te authenticeren. Deze collaboratieve promptingaanpak stelt een enkel LM in staat om tegelijkertijd te fungeren als een uitgebreide orkestrator en een panel van diverse experts, waardoor de prestaties aanzienlijk worden verbeterd over een breed scala aan taken. De zero-shot, taak-agnostische aard van meta-prompting vereenvoudigt de gebruikersinteractie aanzienlijk door de noodzaak van gedetailleerde, taakspecifieke instructies te elimineren. Bovendien toont ons onderzoek de naadloze integratie van externe tools, zoals een Python-interpreter, in het meta-prompting-framework, waardoor de toepasbaarheid en bruikbaarheid worden vergroot. Door middel van rigoureus experimenteren met GPT-4, stellen we de superioriteit van meta-prompting vast ten opzichte van conventionele scaffoldingmethoden: Gemiddeld over alle taken, inclusief het Game of 24, Checkmate-in-One en Python Programming Puzzles, overtreft meta-prompting, versterkt met een Python-interpreterfunctionaliteit, standaard prompting met 17,1%, expert (dynamische) prompting met 17,3% en multipersona prompting met 15,2%.
Diffusiemodellen hebben uitzonderlijke prestaties getoond in tekst-naar-beeldgeneratie en -bewerking. Bestaande methoden kampen echter vaak met uitdagingen bij het omgaan met complexe tekstprompts die meerdere objecten met meerdere attributen en relaties omvatten. In dit artikel stellen we een geheel nieuw trainingsvrij tekst-naar-beeldgeneratie/-bewerkingsframework voor, genaamd Recaption, Plan and Generate (RPG), dat gebruikmaakt van de krachtige keten-van-gedachtenredeneervaardigheid van multimodale LLM's om de compositionaliteit van tekst-naar-beelddiffusiemodellen te verbeteren. Onze aanpak gebruikt de MLLM als een globale planner om het proces van het genereren van complexe beelden op te splitsen in meerdere eenvoudigere generatietaken binnen subregio's. We stellen complementaire regionale diffusie voor om regionale compositionele generatie mogelijk te maken. Bovendien integreren we tekstgeleide beeldgeneratie en -bewerking binnen het voorgestelde RPG in een gesloten lus, waardoor het generalisatievermogen wordt verbeterd. Uitgebreide experimenten tonen aan dat onze RPG state-of-the-art tekst-naar-beelddiffusiemodellen overtreft, waaronder DALL-E 3 en SDXL, met name in de compositie van meerdere categorieën objecten en de semantische uitlijning van tekst en beeld. Opmerkelijk is dat ons RPG-framework brede compatibiliteit vertoont met verschillende MLLM-architecturen (bijv. MiniGPT-4) en diffusie-backbones (bijv. ControlNet). Onze code is beschikbaar op: https://github.com/YangLing0818/RPG-DiffusionMaster
Het begrijpen en redeneren over ruimtelijke relaties is een fundamentele vaardigheid voor Visuele Vraag Antwoord (VQA) en robotica. Hoewel Vision Language Models (VLM) opmerkelijke prestaties hebben laten zien in bepaalde VQA- benchmarks, ontbreekt het hen nog steeds aan mogelijkheden voor 3D-ruimtelijk redeneren, zoals het herkennen van kwantitatieve relaties van fysieke objecten zoals afstanden of grootteverschillen. We veronderstellen dat de beperkte ruimtelijke redeneervaardigheid van VLMs te wijten is aan het ontbreken van 3D- ruimtelijke kennis in de trainingsdata en streven ernaar dit probleem op te lossen door VLMs te trainen met internet-schaal ruimtelijke redeneerdata. Hiertoe presenteren we een systeem om deze aanpak te faciliteren. We ontwikkelen eerst een automatisch 3D-ruimtelijk VQA-datageneratieframework dat kan opschalen tot 2 miljard VQA-voorbeelden op 10 miljoen real-world afbeeldingen. Vervolgens onderzoeken we verschillende factoren in het trainingsrecept, waaronder data-kwaliteit, trainingspipeline en VLM-architectuur. Ons werk omvat de eerste internet-schaal 3D-ruimtelijke redeneerdataset in metrische ruimte. Door een VLM te trainen op dergelijke data, verbeteren we aanzienlijk zijn vermogen voor zowel kwalitatieve als kwantitatieve ruimtelijke VQA. Tot slot tonen we aan dat deze VLM nieuwe downstream-toepassingen mogelijk maakt in keten-van-gedachte ruimtelijk redeneren en robotica vanwege zijn kwantitatieve schattingsvermogen. Projectwebsite: https://spatial-vlm.github.io/
Text-to-image diffusiemodellen vormen een klasse van diepe generatieve modellen die een indrukwekkend vermogen hebben getoond voor het genereren van hoogwaardige afbeeldingen. Deze modellen zijn echter gevoelig voor impliciete vooroordelen die voortkomen uit web-schaal tekst-afbeelding trainingsparen en kunnen aspecten van afbeeldingen die voor ons belangrijk zijn onnauwkeurig modelleren. Dit kan leiden tot suboptimale resultaten, modelvooroordelen en afbeeldingen die niet in lijn zijn met menselijke ethiek en voorkeuren. In dit artikel presenteren we een effectief en schaalbaar algoritme om diffusiemodellen te verbeteren met behulp van Reinforcement Learning (RL) over een diverse set van beloningsfuncties, zoals menselijke voorkeur, compositionaliteit en eerlijkheid over miljoenen afbeeldingen. We laten zien hoe onze aanzienlijk beter presteert dan bestaande methoden voor het afstemmen van diffusiemodellen op menselijke voorkeuren. We illustreren verder hoe dit vooraf getrainde Stable Diffusion (SD) modellen aanzienlijk verbetert, waarbij gegenereerde samples in 80,3% van de gevallen de voorkeur genieten boven die van het basis SD-model, terwijl tegelijkertijd zowel de compositie als de diversiteit van de gegenereerde samples worden verbeterd.
Naarmate de mogelijkheden van grote multimodale modellen (LMMs) blijven toenemen, ontstaat er een groeiende behoefte aan het evalueren van de prestaties van LMMs. Bovendien is er een nog grotere kloof in het evalueren van de geavanceerde kennis en redeneervaardigheden van LMMs in niet-Engelse contexten, zoals het Chinees. Wij introduceren CMMMU, een nieuwe Chinese Massive Multi-discipline Multimodal Understanding benchmark, ontworpen om LMMs te evalueren op taken die universitair vakinhoudelijke kennis en doordacht redeneren vereisen in een Chinese context. CMMMU is geïnspireerd door en volgt strikt de annotatie- en analysepatronen van MMMU. CMMMU omvat 12k handmatig verzamelde multimodale vragen uit universitaire examens, quizzen en leerboeken, die zes kernvakgebieden bestrijken: Kunst & Design, Bedrijfskunde, Wetenschap, Gezondheid & Geneeskunde, Geesteswetenschappen & Sociale Wetenschappen, en Techniek & Ingenieurswetenschappen, net als zijn tegenhanger, MMMU. Deze vragen beslaan 30 vakken en bestaan uit 39 zeer heterogene afbeeldingstypes, zoals grafieken, diagrammen, kaarten, tabellen, bladmuziek en chemische structuren. CMMMU richt zich op complexe perceptie en redenering met domeinspecifieke kennis in de Chinese context. We evalueren 11 open-source LLM's en één propriëtaire GPT-4V(ision). Zelfs GPT-4V behaalt slechts een nauwkeurigheid van 42%, wat wijst op een grote ruimte voor verbetering. CMMMU zal de gemeenschap stimuleren om de volgende generatie LMMs te ontwikkelen richting expert kunstmatige intelligentie en de democratisering van LMMs bevorderen door diverse taalcontexten te bieden.
Borstfoto's (CXRs) zijn de meest uitgevoerde beeldvormingstest in de klinische praktijk. Recente vooruitgang in de ontwikkeling van vision-language foundation models (FMs) maakt het mogelijk om geautomatiseerde CXR-interpretatie uit te voeren, wat artsen kan ondersteunen bij klinische besluitvorming en patiëntresultaten kan verbeteren. Het ontwikkelen van FMs die CXRs nauwkeurig kunnen interpreteren, is echter uitdagend vanwege (1) de beperkte beschikbaarheid van grootschalige vision-language datasets in het domein van medische beeldvorming, (2) het ontbreken van vision- en language-encoders die de complexiteit van medische data kunnen vastleggen, en (3) de afwezigheid van evaluatieframeworks om de vaardigheden van FMs op het gebied van CXR-interpretatie te benchmarken. In dit werk gaan we deze uitdagingen aan door eerst CheXinstruct te introduceren - een grootschalige instructie-afstemmingsdataset samengesteld uit 28 openbaar beschikbare datasets. Vervolgens presenteren we CheXagent - een instructie-afgestemde FM die CXRs kan analyseren en samenvatten. Om CheXagent te bouwen, ontwerpen we een klinisch large language model (LLM) voor het parsen van radiologieverslagen, een vision-encoder voor het representeren van CXR-beelden, en een netwerk om de vision- en language-modaliteiten te verbinden. Tot slot introduceren we CheXbench - een nieuw benchmark ontworpen om FMs systematisch te evalueren op 8 klinisch relevante CXR-interpretatietaken. Uitgebreide kwantitatieve evaluaties en kwalitatieve reviews met vijf expert-radiologen tonen aan dat CheXagent eerder ontwikkelde algemene en medische domein-FMs overtreft op CheXbench-taken. Bovendien voeren we, in een poging de transparantie van het model te verbeteren, een eerlijkheidsevaluatie uit op basis van geslacht, ras en leeftijd om mogelijke prestatieverschillen te benadrukken. Ons project is te vinden op https://stanford-aimi.github.io/chexagent.html.
We presenteren de Hourglass Diffusion Transformer (HDiT), een beeldgeneratiemodel dat lineair schaalt met het aantal pixels, waardoor training op hoge resolutie (bijvoorbeeld 1024 keer 1024) direct in pixelruimte mogelijk is. Gebaseerd op de Transformer-architectuur, die bekend staat om zijn schaalbaarheid naar miljarden parameters, overbrugt het de kloof tussen de efficiëntie van convolutionele U-Nets en de schaalbaarheid van Transformers. HDiT traint succesvol zonder typische technieken voor training op hoge resolutie, zoals multischaalarchitecturen, latente auto-encoders of zelfconditionering. We tonen aan dat HDiT concurrerend presteert met bestaande modellen op ImageNet 256^2 en een nieuwe state-of-the-art neerzet voor diffusiemodellen op FFHQ-1024^2.
We stellen Diffusion Inference-Time T-Optimization (DITTO) voor, een algemeen toepasbaar raamwerk voor het beheersen van vooraf getrainde tekst-naar-muziek diffusiemodellen tijdens de inferentie door het optimaliseren van initiële ruislatenten. Onze methode kan worden gebruikt om te optimaliseren via elk differentieerbaar kenmerk-matching verlies om een doelgericht (gestileerd) resultaat te bereiken en maakt gebruik van gradient checkpointing voor geheugenefficiëntie. We demonstreren een verrassend breed scala aan toepassingen voor muziekgeneratie, waaronder inpainting, outpainting en looping, evenals intensiteit, melodie en muzikale structuurcontrole – allemaal zonder ooit het onderliggende model te fine-tunen. Wanneer we onze aanpak vergelijken met gerelateerde trainings-, begeleidings- en optimalisatiegebaseerde methoden, vinden we dat DITTO state-of-the-art prestaties behaalt bij bijna alle taken, waaronder het overtreffen van vergelijkbare benaderingen op het gebied van beheersbaarheid, audiokwaliteit en computationele efficiëntie, waardoor de deur wordt geopend voor hoogwaardige, flexibele, trainingsvrije controle van diffusiemodellen. Geluidsvoorbeelden zijn te vinden op https://DITTO-Music.github.io/web/.
Het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren via reinforcement learning (RLHF) kan leiden tot reward hacking, waarbij LLMs mislukkingen in het beloningsmodel (RM) uitbuiten om schijnbaar hoge beloningen te behalen zonder de onderliggende doelen te bereiken. We identificeren twee primaire uitdagingen bij het ontwerpen van RMs om reward hacking te beperken: distributieverschuivingen tijdens het RL-proces en inconsistenties in menselijke voorkeuren. Als oplossing stellen we Weight Averaged Reward Models (WARM) voor, waarbij eerst meerdere RMs worden gefinetuned en vervolgens worden gemiddeld in de gewichtsruimte. Deze strategie volgt uit de observatie dat gefinetunede gewichten lineair modusverbonden blijven wanneer ze dezelfde voorafgaande training delen. Door gewichten te middelen, verbetert WARM de efficiëntie in vergelijking met traditionele ensemblemethoden van voorspellingen, terwijl het de betrouwbaarheid onder distributieverschuivingen en de robuustheid tegen voorkeursinconsistenties verbetert. Onze experimenten op samenvattings taken, met behulp van best-of-N en RL-methoden, tonen aan dat WARM de algehele kwaliteit en afstemming van LLM-voorspellingen verbetert; bijvoorbeeld, een beleid RL gefinetuned met WARM heeft een winstpercentage van 79,4% tegenover een beleid RL gefinetuned met een enkel RM.
Diffusiemodellen hebben recentelijk steeds meer onderzoeksaandacht gekregen vanwege hun opmerkelijke overdrachtsmogelijkheden in semantische segmentatietaken. Het genereren van fijnmazige segmentatiemaskers met diffusiemodellen vereist echter vaak aanvullende training op geannoteerde datasets, waardoor het onduidelijk blijft in hoeverre vooraf getrainde diffusiemodellen op zichzelf de semantische relaties van hun gegenereerde afbeeldingen begrijpen. Om deze vraag te beantwoorden, maken we gebruik van de semantische kennis die is geëxtraheerd uit Stable Diffusion (SD) en streven we ernaar een afbeeldingsegmentator te ontwikkelen die in staat is fijnmazige segmentatiekaarten te genereren zonder enige aanvullende training. De grootste uitdaging ligt in het feit dat semantisch betekenisvolle kenmerkkaarten doorgaans alleen bestaan in de ruimtelijk lager-dimensionale lagen, wat een uitdaging vormt bij het direct extraheren van pixel-niveau semantische relaties uit deze kenmerkkaarten. Om dit probleem te overwinnen, identificeert ons framework semantische overeenkomsten tussen afbeeldingspixels en ruimtelijke locaties van laag-dimensionale kenmerkkaarten door het generatieproces van SD te benutten en gebruikt deze voor het construeren van segmentatiekaarten op afbeeldingsresolutie. In uitgebreide experimenten wordt aangetoond dat de geproduceerde segmentatiekaarten goed afgebakend zijn en gedetailleerde delen van de afbeeldingen vastleggen, wat wijst op het bestaan van zeer nauwkeurige pixel-niveau semantische kennis in diffusiemodellen.
Er is aanzienlijke vooruitgang geboekt in het trainen van grote generatieve modellen voor natuurlijke taal en afbeeldingen. Echter wordt de vooruitgang van 3D-generatieve modellen belemmerd door hun aanzienlijke resourcebehoeften voor training, samen met inefficiënte, niet-compacte en minder expressieve representaties. Dit artikel introduceert Make-A-Shape, een nieuw 3D-generatief model ontworpen voor efficiënte training op grote schaal, in staat om 10 miljoen publiek beschikbare vormen te benutten. Technisch gezien introduceren we eerst een wavelet-boomrepresentatie om vormen compact te coderen door het subband-coëfficiëntfilteringschema te formuleren om coëfficiëntrelaties efficiënt te benutten. Vervolgens maken we de representatie genereerbaar door een diffusiemodel door het subband-coëfficiëntenpakschema te ontwerpen om de representatie in een lage-resolutie raster te plaatsen. Verder leiden we de subband-adaptieve trainingsstrategie af om ons model effectief te trainen in het genereren van grove en gedetailleerde waveletcoëfficiënten. Ten slotte breiden we ons framework uit om te worden bestuurd door aanvullende invoercondities, waardoor het vormen kan genereren uit diverse modaliteiten, zoals enkelvoudige/meervoudige afbeeldingen, puntenwolken en lage-resolutie voxels. In onze uitgebreide set experimenten demonstreren we diverse toepassingen, zoals onvoorwaardelijke generatie, vormvoltooiing en conditionele generatie op een breed scala aan modaliteiten. Onze aanpak overtreft niet alleen de state-of-the-art in het leveren van hoogwaardige resultaten, maar genereert ook efficiënt vormen binnen enkele seconden, vaak al in slechts 2 seconden voor de meeste condities.
In deze studie introduceren we Orion-14B, een verzameling van meertalige grote taalmodellen met 14 miljard parameters. We maken gebruik van een dataplanningbenadering om een fundamenteel model te trainen op een diverse corpus van 2,5 biljoen tokens, afkomstig uit teksten in het Engels, Chinees, Japans, Koreaans en andere talen. Daarnaast hebben we een reeks modellen afgestemd voor conversatietoepassingen en andere specifieke use cases. Onze evaluatieresultaten tonen aan dat Orion-14B state-of-the-art prestaties behaalt over een breed scala aan taken. We stellen de Orion-14B modellenfamilie en de bijbehorende code publiekelijk beschikbaar via https://github.com/OrionStarAI/Orion, met als doel toekomstig onderzoek en praktische toepassingen in het veld te inspireren.
Recente vooruitgang in taalmodellen (LM) heeft indrukwekkende zero-shot stemconversie (VC) prestaties laten zien. Bestaande LM-gebaseerde VC-modellen passen echter meestal offline conversie toe van bron semantiek naar akoestische kenmerken, wat de volledige bron spraak vereist en hun inzet voor real-time toepassingen beperkt. In dit artikel introduceren we StreamVoice, een nieuw streaming LM-gebaseerd model voor zero-shot VC, dat real-time conversie mogelijk maakt bij willekeurige sprekerprompts en bron spraak. Specifiek, om streaming mogelijk te maken, gebruikt StreamVoice een volledig causaal contextbewust LM met een tijdsonafhankelijke akoestische voorspeller, terwijl het afwisselend semantische en akoestische kenmerken verwerkt bij elke tijdstap van autoregressie, wat de afhankelijkheid van volledige bron spraak elimineert. Om de mogelijke prestatievermindering door onvolledige context in streaming verwerking aan te pakken, verbeteren we het contextbewustzijn van het LM via twee strategieën: 1) leraargeleide context vooruitblik, waarbij een leraarmodel wordt gebruikt om de huidige en toekomstige semantische context samen te vatten tijdens de training om de voorspelling van het model voor ontbrekende context te begeleiden; 2) semantische maskeringsstrategie, die akoestische voorspelling bevordert vanuit voorafgaande beschadigde semantische en akoestische invoer, waardoor het context-leervermogen wordt verbeterd. Opmerkelijk is dat StreamVoice het eerste LM-gebaseerde streaming zero-shot VC model is zonder enige toekomstige vooruitblik. Experimentele resultaten demonstreren de streaming conversiecapaciteit van StreamVoice terwijl het zero-shot prestaties behoudt die vergelijkbaar zijn met niet-streaming VC-systemen.
Er is de afgelopen jaren aanzienlijke vooruitgang geboekt op het gebied van visie, taal en robotica. We beschikken nu over visiemodellen die objecten kunnen herkennen op basis van taalquery's, navigatiesystemen die mobiele systemen effectief kunnen besturen, en grijpmodellen die een breed scala aan objecten kunnen hanteren. Ondanks deze vooruitgang blijven algemene toepassingen van robotica achter, ook al zijn ze afhankelijk van deze fundamentele vaardigheden van herkenning, navigatie en grijpen. In dit artikel nemen we een systeemgerichte benadering om een nieuw Open Knowledge-gebaseerd robotica-framework te ontwikkelen, genaamd OK-Robot. Door Vision-Language Models (VLMs) voor objectdetectie, navigatieprimitieven voor beweging en grijpprimitieven voor objectmanipulatie te combineren, biedt OK-Robot een geïntegreerde oplossing voor pick-and-drop operaties zonder enige training te vereisen. Om de prestaties te evalueren, hebben we OK-Robot in 10 realistische thuissituaties getest. De resultaten laten zien dat OK-Robot een slagingspercentage van 58,5% behaalt in open-ended pick-and-drop taken, wat een nieuwe state-of-the-art vertegenwoordigt in Open Vocabulary Mobile Manipulation (OVMM) met bijna 1,8x de prestaties van eerder werk. In schonere, minder rommelige omgevingen stijgt de prestatie van OK-Robot naar 82%. De belangrijkste inzicht die we hebben opgedaan met OK-Robot is de cruciale rol van subtiele details bij het combineren van Open Knowledge-systemen zoals VLMs met robotische modules. Video's van onze experimenten zijn beschikbaar op onze website: https://ok-robot.github.io
Recente ontwikkelingen in 3D-avatar-generatie hebben aanzienlijke aandacht gekregen. Deze doorbraken zijn gericht op het produceren van realistischer animeerbare avatars, waardoor de kloof tussen virtuele en real-world ervaringen wordt verkleind. De meeste bestaande werken maken gebruik van Score Distillation Sampling (SDS)-verlies, gecombineerd met een differentieerbare renderer en tekstconditie, om een diffusiemodel te begeleiden bij het genereren van 3D-avatars. SDS genereert echter vaak te gladde resultaten met weinig gezichtsdetails, waardoor het de diversiteit mist in vergelijking met ancestrale sampling. Aan de andere kant genereren andere werken 3D-avatars vanuit een enkele afbeelding, waarbij de uitdagingen van ongewenste lichteffecten, perspectiefweergaven en inferieure beeldkwaliteit het moeilijk maken om de 3D-gezichtsmeshes betrouwbaar te reconstrueren met uitgelijnde complete texturen. In dit artikel stellen we een nieuwe benadering voor 3D-avatar-generatie voor, genaamd UltrAvatar, met een verbeterde geometrie-fideliteit en superieure kwaliteit van fysiek gebaseerde rendering (PBR)-texturen zonder ongewenste belichting. Hiertoe presenteert de voorgestelde benadering een diffusiekleurextractiemodel en een authenticiteit-gestuurd textuurdiffusiemodel. Het eerste verwijdert ongewenste lichteffecten om de echte diffusiekleuren te onthullen, zodat de gegenereerde avatars onder verschillende lichtomstandigheden kunnen worden weergegeven. Het tweede volgt twee op gradienten gebaseerde begeleidingen voor het genereren van PBR-texturen om diverse gezichtsidentiteitskenmerken en details beter uit te lijnen met de 3D-meshgeometrie. We demonstreren de effectiviteit en robuustheid van de voorgestelde methode, die in de experimenten de state-of-the-art methoden met een grote marge overtreft.
In dit artikel introduceren we Human-LRM, een enkelstaps feed-forward Large Reconstruction Model dat is ontworpen om menselijke Neural Radiance Fields (NeRF) te voorspellen vanuit een enkele afbeelding. Onze aanpak toont opmerkelijke aanpassingsvermogen tijdens de training door gebruik te maken van uitgebreide datasets met 3D-scans en multi-view-opnames. Verder stellen we, om de toepasbaarheid van het model te vergroten in realistische scenario’s, vooral bij occlusies, een nieuwe strategie voor die multi-view-reconstructie distilleert naar single-view via een conditioneel triplane-diffusiemodel. Deze generatieve uitbreiding adresseert de inherente variaties in menselijke lichaamsvormen wanneer deze vanuit een enkel gezichtspunt worden waargenomen, en maakt het mogelijk om het volledige menselijke lichaam te reconstrueren vanuit een gedeeltelijk verhulde afbeelding. Door middel van uitgebreide experimenten tonen we aan dat Human-LRM eerdere methoden met een aanzienlijke marge overtreft op verschillende benchmarks.
Het nauwkeurig simuleren van de dynamiek van objecten in de echte wereld is essentieel voor diverse toepassingen zoals robotica, engineering, grafische vormgeving en ontwerp. Om complexe dynamische processen zoals contact en wrijving beter te kunnen vastleggen, hebben geleerde simulatoren gebaseerd op grafennetwerken recentelijk veelbelovende resultaten laten zien. Het toepassen van deze geleerde simulatoren op echte scenario's brengt echter twee grote uitdagingen met zich mee: ten eerste het schalen van geleerde simulatoren om de complexiteit van echte wereldscènes te kunnen verwerken, waarbij honderden objecten met ingewikkelde 3D-vormen betrokken kunnen zijn, en ten tweede het omgaan met invoer vanuit perceptie in plaats van 3D-toestandsinformatie. Hier introduceren we een methode die het benodigde geheugen voor het uitvoeren van op grafennetwerken gebaseerde geleerde simulatoren aanzienlijk reduceert. Gebaseerd op dit geheugenefficiënte simulatiemodel presenteren we vervolgens een perceptuele interface in de vorm van bewerkbare NeRFs, die echte wereldscènes kunnen omzetten in een gestructureerde representatie die verwerkt kan worden door een grafennetwerksimulator. We laten zien dat onze methode aanzienlijk minder geheugen gebruikt dan eerdere op grafennetwerken gebaseerde simulatoren, terwijl de nauwkeurigheid behouden blijft, en dat de simulatoren die in synthetische omgevingen zijn geleerd, kunnen worden toegepast op echte wereldscènes die vanuit meerdere camerahoeken zijn vastgelegd. Dit opent de weg voor het uitbreiden van de toepassing van geleerde simulatoren naar situaties waarin alleen perceptuele informatie beschikbaar is tijdens de inferentiefase.
Virtual Reality (VR) biedt de belofte van sociale interacties die meer meeslepend kunnen aanvoelen dan andere media. Een sleutelfactor hierbij is het vermogen om een fotorealistische avatar van iemands gelijkenis nauwkeurig te animeren terwijl een VR-headset wordt gedragen. Hoewel hoogwaardige registratie van persoon-specifieke avatars aan beelden van een headset-gemonteerde camera (HMC) mogelijk is in een offline omgeving, is de prestaties van generische realtime modellen aanzienlijk verminderd. Online registratie is ook uitdagend vanwege schuine camerabeelden en verschillen in modaliteit. In dit werk tonen we eerst aan dat de domeinkloof tussen de avatar en de headset-camerabeelden een van de belangrijkste bronnen van moeilijkheden is, waarbij een transformer-gebaseerde architectuur een hoge nauwkeurigheid bereikt op domein-consistente data, maar verslechtert wanneer de domeinkloof opnieuw wordt geïntroduceerd. Op basis van deze bevinding ontwikkelen we een systeemontwerp dat het probleem ontkoppelt in twee delen: 1) een iteratief verfijningsmodule die in-domein inputs verwerkt, en 2) een generieke avatar-gestuurde image-to-image stijltransfermodule die wordt geconditioneerd op de huidige schatting van expressie en hoofdpositie. Deze twee modules versterken elkaar, aangezien beeldstijltransfer eenvoudiger wordt wanneer voorbeelden dicht bij de grondwaarde worden getoond, en betere verwijdering van de domeinkloop helpt bij de registratie. Ons systeem produceert efficiënt hoogwaardige resultaten, waardoor de noodzaak voor kostbare offline registratie om gepersonaliseerde labels te genereren wordt weggenomen. We valideren de nauwkeurigheid en efficiëntie van onze aanpak door uitgebreide experimenten op een consumentenheadset, waarbij we aanzienlijke verbeteringen aantonen ten opzichte van directe regressiemethoden en offline registratie.