ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Eagle: Het Ontwerpspectrum Onderzoeken voor Multimodale LLM's met een Mix van Encoders
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

Aug 28
ByMin Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu
87
3

Het vermogen om complexe visuele informatie nauwkeurig te interpreteren is een cruciaal onderwerp voor multimodale grote taalmodellen (MLLMs). Recent onderzoek toont aan dat verbeterde visuele waarneming hallucinaties aanzienlijk vermindert en de prestaties verbetert bij taken die gevoelig zijn voor resolutie, zoals optische tekenherkenning en documentanalyse. Een aantal recente MLLMs bereikt dit doel door gebruik te maken van een mix van visuele encoders. Ondanks hun succes ontbreekt het aan systematische vergelijkingen en gedetailleerde ablatiestudies die kritieke aspecten aanpakken, zoals expertsselectie en de integratie van meerdere visuele experts. Deze studie biedt een uitgebreide verkenning van het ontwerpruimte voor MLLMs met behulp van een mix van visuele encoders en resoluties. Onze bevindingen onthullen verschillende onderliggende principes die gemeenschappelijk zijn voor diverse bestaande strategieën, wat leidt tot een gestroomlijnde maar effectieve ontwerpaanpak. We ontdekken dat het eenvoudig samenvoegen van visuele tokens van een set complementaire visuele encoders even effectief is als complexere mengarchitecturen of strategieën. Daarnaast introduceren we Pre-Alignment om de kloof te overbruggen tussen visueel gerichte encoders en taaltokens, waardoor de samenhang van het model wordt verbeterd. De resulterende familie van MLLMs, Eagle, overtreft andere toonaangevende open-source modellen op belangrijke MLLM-benchmarks. Modellen en code: https://github.com/NVlabs/Eagle

2

BaichuanSEED: Het potentieel delen van uitgebreide gegevensverzameling en deduplicatie door het introduceren van een competitieve basislijn voor grote taalmodellen
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline

Aug 27
ByGuosheng Dong, Da Pan, Yiding Sun, Shusen Zhang, Zheng Liang, Xin Wu, Yanjun Shen, Fan Yang, Haoze Sun, Tianpeng Li, Mingan Lin, Jianhua Xu, Yufan Zhang, Xiaonan Nie, Lei Su, Bingning Wang, Wentao Zhang, Jiaxin Mao, Zenan Zhou, Weipeng Chen
54
4

De algemene capaciteiten van Large Language Models (LLM) zijn sterk afhankelijk van de samenstelling en selectie van uitgebreide pretrainingsdatasets, die door verschillende instellingen als handelsgeheimen worden behandeld. Om dit probleem te verlichten, maken wij de details van een universeel toepasbare dataprocessingpipeline openbaar en valideren we de effectiviteit en het potentieel ervan door een competitieve LLM-baseline te introduceren. Specifiek bestaat de dataprocessingpipeline uit een brede verzameling om de schaal te vergroten en herweging om de kwaliteit te verbeteren. Vervolgens pretrainen we een 7B-model, BaichuanSEED, met 3T tokens die door onze pipeline zijn verwerkt, zonder enige opzettelijke optimalisatie voor downstreamtaken, gevolgd door een eenvoudig maar effectief stadium van supervised fine-tuning. BaichuanSEED toont consistentie en voorspelbaarheid gedurende de training en behaalt vergelijkbare prestaties op uitgebreide benchmarks met verschillende geavanceerde commerciële grote taalmodellen, zoals Qwen1.5 en Llama3. We voeren ook verschillende heuristische experimenten uit om het potentieel voor verdere optimalisatie van downstreamtaken, zoals wiskunde en codering, te bespreken.

3

Dolphin: Lange Context als een Nieuwe Modaliteit voor Energie-Efficiënte Taalmodellen op Apparaten
Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models

Aug 28
ByWei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang
42
4

Dit artikel introduceert Dolphin, een innovatieve decoder-decoder-architectuur voor energie-efficiënte verwerking van lange contexten in taalmodelen. Onze aanpak richt zich op de aanzienlijke energieconsumptie en latentie-uitdagingen die inherent zijn aan on-device modellen. Dolphin maakt gebruik van een compacte decoder met 0,5B parameters om uitgebreide contextuele informatie te destilleren in een geheugenembedding, waardoor de invoerlengte voor het primaire 7B-parameter decodermodel aanzienlijk wordt verminderd. Geïnspireerd door visie-taalmodelen, hergebruiken we de beeldembeddingprojector om lange tekstuele contexten te coderen, waarbij we uitgebreide context effectief behandelen als een aparte modaliteit. Deze innovatieve methode maakt het mogelijk om aanzienlijk langere contexten te verwerken zonder de gebruikelijke rekenkundige overhead die gepaard gaat met uitgebreide invoerreeksen. Empirische evaluaties tonen een 10-voudige verbetering in energie-efficiëntie en een 5-voudige vermindering in latentie in vergelijking met conventionele methoden voor volledige contextverwerking, zonder verlies van kwaliteit van het antwoord. Ons werk draagt bij aan de ontwikkeling van duurzamere en schaalbare taalmodelen voor on-device toepassingen, en adresseert de kritieke behoefte aan energie-efficiënte en responsieve AI-technologieën in omgevingen met beperkte middelen, terwijl de nauwkeurigheid om lange contexten te begrijpen behouden blijft. Dit onderzoek heeft implicaties voor het bredere veld van natuurlijke taalverwerking, met name op het gebied van efficiënt modelontwerp voor omgevingen met beperkte middelen. Door geavanceerdere AI-mogelijkheden op edge-apparaten mogelijk te maken, opent Dolphin de weg voor geavanceerde taalverwerking in een breed scala aan toepassingen waar rekenkundige middelen schaars zijn. Het Dolphin-model is publiekelijk beschikbaar op https://huggingface.co/NexaAIDev/Dolphin.

4

LLaVA-MoD: LLaVA verkleinen via MoE-kennisdistillatie
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

Aug 28
ByFangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
21
2

We introduceren LLaVA-MoD, een nieuw framework ontworpen om de efficiënte training van kleinschalige Multimodale Taalmodellen (s-MLLM) mogelijk te maken door kennis te distilleren uit grootschalige MLLM (l-MLLM). Onze aanpak adresseert twee fundamentele uitdagingen in MLLM-distillatie. Ten eerste optimaliseren we de netwerkstructuur van s-MLLM door een sparse Mixture of Experts (MoE)-architectuur te integreren in het taalmodel, waardoor een balans wordt gevonden tussen computationele efficiëntie en model-expressiviteit. Ten tweede stellen we een progressieve kennisoverdrachtstrategie voor om een uitgebreide kennisoverdracht te garanderen. Deze strategie begint met mimic-distillatie, waarbij we de Kullback-Leibler (KL)-divergentie tussen uitvoeringsverdelingen minimaliseren om het studentmodel in staat te stellen het begrip van het leraarnetwerk na te bootsen. Vervolgens introduceren we voorkeursdistillatie via Direct Preference Optimization (DPO), waarbij de sleutel ligt in het behandelen van l-MLLM als het referentiemodel. Tijdens deze fase wordt het vermogen van s-MLLM om superieure en inferieure voorbeelden te onderscheiden aanzienlijk verbeterd ten opzichte van l-MLLM, wat resulteert in een betere student die zijn leraar overtreft, met name in hallucinatiebenchmarks. Uitgebreide experimenten tonen aan dat LLaVA-MoD bestaande modellen overtreft op verschillende multimodale benchmarks, terwijl het een minimaal aantal geactiveerde parameters en lage computationele kosten behoudt. Opmerkelijk is dat LLaVA-MoD, met slechts 2B geactiveerde parameters, Qwen-VL-Chat-7B gemiddeld met 8,8% overtreft op benchmarks, waarbij slechts 0,3% van de trainingsdata en 23% trainbare parameters worden gebruikt. Deze resultaten onderstrepen het vermogen van LLaVA-MoD om effectief uitgebreide kennis te distilleren uit zijn leraarmodel, wat de weg vrijmaakt voor de ontwikkeling van efficiëntere MLLM's. De code zal beschikbaar zijn op: https://github.com/shufangxun/LLaVA-MoD.

5

Efficiënte LLM-planning door middel van leren rangschikken
Efficient LLM Scheduling by Learning to Rank

Aug 28
ByYichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang
20
2

Bij inferentie van Large Language Models (LLM) wordt de uitvoerlengte van een LLM-verzoek doorgaans beschouwd als niet a priori bekend. Als gevolg hiervan hanteren de meeste LLM-serversystemen een eenvoudige First-come-first-serve (FCFS) planningsstrategie, wat leidt tot Head-Of-Line (HOL) blokkering en verminderde doorvoer en servicekwaliteit. In dit artikel heroverwegen we deze aanname -- we tonen aan dat, hoewel het voorspellen van de exacte generatielengte van elk verzoek onhaalbaar is, het wel mogelijk is om de relatieve rangschikking van uitvoerlengtes in een batch van verzoeken te voorspellen, door gebruik te maken van leren om te rangschikken. De rangschikkingsinformatie biedt waardevolle richtlijnen voor het plannen van verzoeken. Op basis van dit inzicht ontwikkelen we een nieuwe planner voor LLM-inferentie en -serving die het shortest-job-first (SJF) schema beter kan benaderen dan bestaande benaderingen. We integreren deze planner met het state-of-the-art LLM-serversysteem en tonen aanzienlijke prestatieverbeteringen aan in verschillende belangrijke toepassingen: 2,8x lagere latentie in chatbotserving en 6,5x hogere doorvoer in synthetische datageneratie. Onze code is beschikbaar op https://github.com/hao-ai-lab/vllm-ltr.git.

6

Benutten van Open Kennis voor het Bevorderen van Taakdeskundigheid in Grote Taalmodellen
Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models

Aug 28
ByYuncheng Yang, Yulei Qin, Tong Wu, Zihan Xu, Gang Li, Pengcheng Guo, Hang Shao, Yucheng Shi, Ke Li, Xing Sun, Jie Yang, Yun Gu
19
4

Het ontwikkelen van expertise voor grote taalmmodellen (LLMs) om taken in specifieke domeinen op te lossen, vereist vaak specifieke afstemming met gekalibreerd gedrag voor verwachte stabiele uitkomsten. Om de hoge kosten te vermijden die gepaard gaan met de handmatige voorbereiding van instructiedatasets en trainingsbronnen van honderden uren, vormt het gebruik van open kennis, waaronder een overvloed aan low rank adaptation (LoRA) modellen en instructiedatasets, een goed uitgangspunt. Bestaande methoden voor model- en dataselectie richten zich echter op de prestaties van algemene capaciteiten, terwijl de kenniskloof die zichtbaar wordt bij domeinspecifieke implementatie wordt verwaarloosd. In deze studie stellen we voor om deze kloof te overbruggen door enkele door mensen geannoteerde voorbeelden (d.w.z. K-shot) te introduceren om de taakexpertise van LLMs met open kennis te bevorderen. Specifiek ontwikkelen we een efficiënte en schaalbare pijplijn om op kosteneffectieve wijze taakexperts te produceren, waarbij K-shot data ingrijpen bij het selecteren van de meest veelbelovende expertkandidaten en de taakrelevante instructies. Een mixture-of-expert (MoE) systeem wordt gebouwd om optimaal gebruik te maken van individuele, maar complementaire kennis tussen meerdere experts. We onthullen de twee sleutels tot het succes van een MoE-systeem: 1) het naleven van K-shot, en 2) het vasthouden aan diversiteit. Voor het eerste zorgen we ervoor dat modellen die daadwerkelijk probleemoplossende vaardigheden bezitten op K-shot worden geselecteerd, in plaats van modellen die slechts gissen. Daarnaast worden tijdens de dataselectie instructies die taakrelevante contexten delen met K-shot geprioriteerd. Voor het laatste benadrukken we de diversiteit van de samenstellende experts en die van de fine-tuning instructies gedurende het hele model- en dataselectieproces. Uitgebreide experimentele resultaten bevestigen de superioriteit van onze aanpak ten opzichte van bestaande methoden bij het gebruik van open kennis over verschillende taken. Codes en modellen zullen later worden vrijgegeven.

7

Distributie Backtracking Bouwt een Snellere Convergentietrajectorie voor Eénstaps Diffusiedistillatie
Distribution Backtracking Builds A Faster Convergence Trajectory for One-step Diffusion Distillation

Aug 28
ByShengyuan Zhang, Ling Yang, Zejian Li, An Zhao, Chenye Meng, Changyuan Yang, Guang Yang, Zhiyuan Yang, Lingyun Sun
16
2

Het versnellen van de bemonsteringssnelheid van diffusiemodellen blijft een belangrijke uitdaging. Recente score-distillatiemethoden distilleren een zwaar leraarmodel naar een eenstaps studentgenerator, die wordt geoptimaliseerd door het verschil te berekenen tussen de twee scorefuncties op de monsters die door het studentmodel worden gegenereerd. Er doet zich echter een score-mismatchprobleem voor in de vroege fase van het distillatieproces, omdat bestaande methoden zich voornamelijk richten op het gebruik van het eindpunt van vooraf getrainde diffusiemodellen als leraarmodellen, waarbij het belang van het convergentietraject tussen de studentgenerator en het leraarmodel over het hoofd wordt gezien. Om dit probleem aan te pakken, breiden we het score-distillatieproces uit door het volledige convergentietraject van leraarmodellen te introduceren en stellen we Distribution Backtracking Distillation (DisBack) voor voor het distilleren van studentgeneratoren. DisBack bestaat uit twee fasen: Degradatie Registratie en Distributie Terugspoelen. Degradatie Registratie is ontworpen om het convergentietraject van leraarmodellen te verkrijgen, waarbij het degradatiepad wordt vastgelegd van het getrainde leraarmodel naar de ongetrainde initiële studentgenerator. Het degradatiepad vertegenwoordigt impliciet de tussenliggende distributies van leraarmodellen. Vervolgens traint Distributie Terugspoelen een studentgenerator om de tussenliggende distributies terug te spoelen om het convergentietraject van leraarmodellen te benaderen. Uitgebreide experimenten tonen aan dat DisBack snellere en betere convergentie bereikt dan de bestaande distillatiemethode en vergelijkbare generatieprestaties behaalt. Opmerkelijk is dat DisBack eenvoudig te implementeren is en kan worden gegeneraliseerd naar bestaande distillatiemethoden om de prestaties te verbeteren. Onze code is openbaar beschikbaar op https://github.com/SYZhang0805/DisBack.

8

Knowledge Navigator: LLM-gestuurd Browsing Framework voor Exploratief Zoeken in Wetenschappelijke Literatuur
Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature

Aug 28
ByUri Katz, Mosh Levy, Yoav Goldberg
14
4

De exponentiële groei van wetenschappelijke literatuur vereist geavanceerde tools voor effectieve kennisverkenning. Wij presenteren Knowledge Navigator, een systeem ontworpen om verkennende zoekmogelijkheden te verbeteren door de opgehaalde documenten van brede thematische zoekopdrachten te organiseren en structureren in een navigeerbare, tweelaagse hiërarchie van benoemde en beschrijvende wetenschappelijke onderwerpen en subonderwerpen. Deze gestructureerde organisatie biedt een overzicht van de onderzoeksonderwerpen in een domein, terwijl het ook iteratief zoeken en diepere kennisontdekking binnen specifieke subonderwerpen mogelijk maakt door gebruikers in staat te stellen hun focus te verfijnen en aanvullende relevante documenten op te halen. Knowledge Navigator combineert de mogelijkheden van LLM's met clustergebaseerde methoden om een effectieve blader-methode te bieden. Wij demonstreren de effectiviteit van onze aanpak door automatische en handmatige evaluaties op twee nieuwe benchmarks, CLUSTREC-COVID en SCITOC. Onze code, prompts en benchmarks zijn publiekelijk beschikbaar gemaakt.

9

Strategie voor belastingsverdeling zonder hulpondersteuning voor Mixture-of-Experts
Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

Aug 28
ByLean Wang, Huazuo Gao, Chenggang Zhao, Xu Sun, Damai Dai
14
3

Voor Mixture-of-Experts (MoE)-modellen zal een ongelijke belasting van experts leiden tot routeringscollaps of een verhoogde rekenkundige overhead. Bestaande methoden gebruiken vaak een hulploss om belastingbalans te bevorderen, maar een grote hulploss introduceert niet-verwaarloosbare interferentiegradiënten in de training en schaadt daardoor de modelprestaties. Om de belastingbalans te beheersen zonder ongewenste gradiënten tijdens de training te produceren, stellen we Loss-Free Balancing voor, gekenmerkt door een strategie voor belastingbalans zonder hulploss. Concreet past Loss-Free Balancing, vóór de top-K-routeringsbeslissing, eerst een expert-specifieke bias toe op de routeringsscores van elke expert. Door de bias van elke expert dynamisch bij te werken op basis van de recente belasting, kan Loss-Free Balancing consistent een gebalanceerde verdeling van de expertbelasting handhaven. Bovendien, omdat Loss-Free Balancing geen interferentiegradiënten produceert, verhoogt het ook de bovengrens van de modelprestaties die worden behaald met MoE-training. We valideren de prestaties van Loss-Free Balancing op MoE-modellen met tot 3B parameters getraind op tot 200B tokens. Experimentele resultaten tonen aan dat Loss-Free Balancing zowel betere prestaties als een betere belastingbalans bereikt in vergelijking met traditionele strategieën voor belastingbalans die worden gecontroleerd door een hulploss.

10

ReMamba: Mamba uitrusten met effectieve modellering van lange sequenties
ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Aug 28
ByDanlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
12
2

Hoewel de Mamba-architectuur superieure inferentie-efficiëntie en competitieve prestaties vertoont bij kort-context natuurlijke taalverwerking (NLP)-taken, suggereert empirisch bewijs dat het vermogen om lange contexten te begrijpen beperkt is in vergelijking met transformer-gebaseerde modellen. In deze studie onderzoeken we de lange-context efficiëntieproblemen van de Mamba-modellen en introduceren we ReMamba, dat het vermogen van Mamba om lange contexten te begrijpen verbetert. ReMamba integreert selectieve compressie en aanpassingstechnieken binnen een tweestaps hervoorwaarts proces, wat resulteert in minimale extra inferentiekosten. Experimentele resultaten op de LongBench en L-Eval benchmarks tonen de effectiviteit van ReMamba aan, met verbeteringen van respectievelijk 3,2 en 1,6 punten ten opzichte van de basislijnen, en prestaties die bijna gelijk zijn aan transformer-modellen van dezelfde grootte.

11

In-Context Imitatie Leren via Volgende-Token Voorspelling
In-Context Imitation Learning via Next-Token Prediction

Aug 28
ByLetian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg
10
3

We onderzoeken hoe voorspellingsmodellen voor de volgende token kunnen worden verbeterd om in-context imitatieleren uit te voeren op een echte robot, waarbij de robot nieuwe taken uitvoert door contextuele informatie te interpreteren die tijdens de invoerfase wordt verstrekt, zonder de onderliggende beleidsparameters bij te werken. We stellen de In-Context Robot Transformer (ICRT) voor, een causale transformer die autoregressieve voorspellingen uitvoert op sensomotorische trajecten zonder te vertrouwen op linguïstische data of een beloningsfunctie. Deze formulering maakt flexibele en trainingsvrije uitvoering van nieuwe taken mogelijk tijdens de testfase, bereikt door het model te voorzien van sensomotorische trajecten van de nieuwe taak, bestaande uit beeldobservaties, acties en statetupels, verzameld via menselijke teleoperatie. Experimenten met een Franka Emika robot tonen aan dat de ICRT zich kan aanpassen aan nieuwe taken die door prompts worden gespecificeerd, zelfs in omgevingsconfiguraties die verschillen van zowel de prompt als de trainingsdata. In een multitask-omgevingsopstelling presteert ICRT aanzienlijk beter dan de huidige state-of-the-art voorspellingsmodellen voor de volgende token in robotica bij het generaliseren naar onbekende taken. Code, checkpoints en data zijn beschikbaar op https://icrt.dev/

12

Naar realistische voorbeeldgebaseerde modellering via 3D Gaussiaans stikwerk
Towards Realistic Example-based Modeling via 3D Gaussian Stitching

Aug 28
ByXinyu Gao, Ziyi Yang, Bingchen Gong, Xiaoguang Han, Sipeng Yang, Xiaogang Jin
8
3

Het gebruik van delen van bestaande modellen om nieuwe modellen te herbouwen, vaak aangeduid als voorbeeldgebaseerd modelleren, is een klassieke methodologie binnen het domein van computergraphics. Eerdere werken richten zich voornamelijk op vormcompositie, waardoor ze moeilijk te gebruiken zijn voor realistische compositie van 3D-objecten die uit echte scènes zijn vastgelegd. Dit leidt tot het combineren van meerdere NeRF's in een enkele 3D-scène om naadloze uiterlijke blending te bereiken. De huidige SeamlessNeRF-methode heeft echter moeite met interactief bewerken en harmonieuze stitching voor echte scènes vanwege zijn gradientgebaseerde strategie en rastergebaseerde representatie. Daarom presenteren we een voorbeeldgebaseerde modelleermethode die meerdere Gaussische velden combineert in een puntgebaseerde representatie met behulp van sample-geleide synthese. Specifiek creëren we voor compositie een GUI om meerdere velden in realtime te segmenteren en te transformeren, waardoor een semantisch betekenisvolle compositie van modellen die worden gerepresenteerd door 3D Gaussian Splatting (3DGS) eenvoudig kan worden verkregen. Voor textuurblending wordt, vanwege de discrete en onregelmatige aard van 3DGS, het rechtstreeks toepassen van gradientpropagatie zoals bij SeamlessNeRF niet ondersteund. Daarom wordt een nieuwe sampling-gebaseerde kloningsmethode voorgesteld om de blending te harmoniseren terwijl de oorspronkelijke rijke textuur en inhoud behouden blijven. Onze workflow bestaat uit drie stappen: 1) realtime segmentatie en transformatie van een Gaussisch model met behulp van een goed afgestemde GUI, 2) KNN-analyse om grenspunten te identificeren in het snijgebied tussen de bron- en doelmodellen, en 3) tweefase-optimalisatie van het doelmodel met behulp van sampling-gebaseerd klonen en gradientbeperkingen. Uitgebreide experimentele resultaten valideren dat onze aanpak eerdere werken aanzienlijk overtreft in termen van realistische synthese, wat de praktische bruikbaarheid aantoont. Meer demo's zijn beschikbaar op https://ingra14m.github.io/gs_stitching_website.

13

TEDRA: Tekstgebaseerde Bewerking van Dynamische en Fotorealistische Acteurs
TEDRA: Text-based Editing of Dynamic and Photoreal Actors

Aug 28
ByBasavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
5
2

De afgelopen jaren is aanzienlijke vooruitgang geboekt bij het creëren van fotorealistische en bestuurbare 3D-avatars uitsluitend op basis van video's van echte mensen. Een kernuitdaging die echter nog steeds resteert, is het fijnmazige en gebruiksvriendelijke bewerken van kledingstijlen door middel van tekstuele beschrijvingen. Hiertoe presenteren wij TEDRA, de eerste methode die tekstgebaseerde aanpassingen van een avatar mogelijk maakt, waarbij de hoge kwaliteit, ruimte-tijd coherentie en dynamiek van de avatar behouden blijven, en waarbij controle over skeletpose en camerahoek mogelijk is. We beginnen met het trainen van een model om een bestuurbare en hoogwaardige digitale replica van de echte acteur te creëren. Vervolgens personaliseren we een vooraf getraind generatief diffusiemodel door het af te stemmen op verschillende frames van het echte personage, vastgelegd vanuit verschillende camerahoeken, om ervoor te zorgen dat de digitale representatie de dynamiek en bewegingen van de echte persoon nauwkeurig weergeeft. Dit tweestapsproces vormt de basis voor onze aanpak van dynamische avatar-bewerking. Met behulp van dit gepersonaliseerde diffusiemodel passen we de dynamische avatar aan op basis van een gegeven tekstprompt, waarbij we onze Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) gebruiken binnen een modelgebaseerd begeleidingskader. Daarnaast stellen we een tijdstap-annealingstrategie voor om hoogwaardige bewerkingen te garanderen. Onze resultaten tonen een duidelijke verbetering ten opzichte van eerder werk in functionaliteit en visuele kwaliteit.

Aug 28
Aug 29
Aug 30