Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Proof assistants zoals Lean hebben een revolutie teweeggebracht in de verificatie van wiskundige bewijzen, waardoor een hoge nauwkeurigheid en betrouwbaarheid worden gegarandeerd. Hoewel grote taalmodellen (LLMs) veelbelovend zijn in wiskundig redeneren, wordt hun vooruitgang in formeel bewijzen van stellingen belemmerd door een gebrek aan trainingsdata. Om dit probleem aan te pakken, introduceren we een aanpak om uitgebreide Lean 4-bewijsdata te genereren, afgeleid van wiskundige competitieproblemen op middelbare school- en bachelor-niveau. Deze aanpak omvat het vertalen van problemen in natuurlijke taal naar formele uitspraken, het filteren van kwalitatief slechte uitspraken en het genereren van bewijzen om synthetische data te creëren. Na het fine-tunen van het DeepSeekMath 7B-model op deze synthetische dataset, die bestaat uit 8 miljoen formele uitspraken met bewijzen, behaalde ons model een nauwkeurigheid van 46,3% bij het genereren van volledige bewijzen met 64 samples en 52% cumulatief op de Lean 4 miniF2F-test, wat de baseline GPT-4 overtreft met 23,0% bij 64 samples en een tree search reinforcement learning-methode met 41,0%. Daarnaast bewees ons model met succes 5 van de 148 problemen in de Lean 4 Formalized International Mathematical Olympiad (FIMO) benchmark, terwijl GPT-4 geen enkel probleem kon bewijzen. Deze resultaten tonen het potentieel aan van het gebruik van grootschalige synthetische data om de stellingbewijsvaardigheden van LLMs te verbeteren. Zowel de synthetische dataset als het model zullen beschikbaar worden gesteld om verder onderzoek in dit veelbelovende veld te faciliteren.
Recent werk heeft de lineaire representatiehypothese voorgesteld: dat taalmodelberekeningen uitvoeren door eendimensionale representaties van concepten ("kenmerken") in de activatieruimte te manipuleren. In tegenstelling hiermee onderzoeken wij of sommige taalmodelrepresentaties inherent multidimensionaal kunnen zijn. We beginnen met het ontwikkelen van een rigoureuze definitie van onherleidbare multidimensionale kenmerken, gebaseerd op de vraag of ze kunnen worden ontbonden in onafhankelijke of niet-samenvoorkomende lagere-dimensionale kenmerken. Gemotiveerd door deze definities ontwerpen we een schaalbare methode die sparse autoencoders gebruikt om automatisch multidimensionale kenmerken in GPT-2 en Mistral 7B te vinden. Deze automatisch ontdekte kenmerken omvatten opvallend interpreteerbare voorbeelden, zoals circulaire kenmerken die dagen van de week en maanden van het jaar representeren. We identificeren taken waarin deze exacte cirkels worden gebruikt om rekenkundige problemen op te lossen die modulair rekenen met dagen van de week en maanden van het jaar betreffen. Tot slot leveren we bewijs dat deze circulaire kenmerken inderdaad de fundamentele rekenkundige eenheid zijn in deze taken met interventie-experimenten op Mistral 7B en Llama 3 8B, en we vinden verdere circulaire representaties door de verborgen toestanden voor deze taken af te breken in interpreteerbare componenten.
Ondanks aanzienlijke vooruitgang in videogeneratie en -bewerking met behulp van diffusiemodellen, blijft het bereiken van nauwkeurige en gelokaliseerde videobewerking een aanzienlijke uitdaging. Bovendien richten de meeste bestaande videobewerkingsmethoden zich voornamelijk op het aanpassen van visuele inhoud, met beperkt onderzoek gewijd aan bewegingsbewerking. In dit artikel presenteren we een nieuwe benadering om een video opnieuw te maken (ReVideo), die zich onderscheidt van bestaande methoden door precieze videobewerking in specifieke gebieden mogelijk te maken door zowel inhoud als beweging te specificeren. Inhoudsbewerking wordt gefaciliteerd door het aanpassen van het eerste frame, terwijl trajectgebaseerde bewegingscontrole een intuïtieve gebruikersinteractie biedt. ReVideo behandelt een nieuwe taak die de koppeling en trainingsonbalans tussen inhouds- en bewegingscontrole omvat. Om dit aan te pakken, ontwikkelen we een drietraps trainingsstrategie die deze twee aspecten geleidelijk van grof naar fijn ontkoppelt. Daarnaast stellen we een spatiotemporele adaptieve fusiemodule voor om inhouds- en bewegingscontrole te integreren over verschillende bemonsteringsstappen en ruimtelijke locaties. Uitgebreide experimenten tonen aan dat onze ReVideo veelbelovende prestaties levert bij verschillende nauwkeurige videobewerkingsapplicaties, zoals (1) lokaal veranderen van video-inhoud terwijl de beweging constant blijft, (2) inhoud ongewijzigd houden en nieuwe bewegingsbanen aanpassen, (3) zowel inhoud als bewegingsbanen aanpassen. Onze methode kan deze applicaties ook naadloos uitbreiden naar meerdere gebieden zonder specifieke training, wat de flexibiliteit en robuustheid ervan aantoont.
Benutten we het volledige potentieel van visuele encoders in Multimodale Grote Taalmodellen (MLLMs)? De recente uitstekende prestaties van MLLMs in multimodale interpretatie hebben brede aandacht gekregen van zowel de academische wereld als de industrie. In de huidige race om MLLMs lijkt de focus voornamelijk op de taalkundige kant te liggen. We zien de opkomst van grotere en kwalitatief betere instructiedatasets, evenals de betrokkenheid van grotere LLMs. Toch is er weinig aandacht besteed aan de visuele signalen die door MLLMs worden gebruikt, die vaak worden verondersteld de laatste hoogwaardige kenmerken te zijn die door een bevroren visuele encoder worden geëxtraheerd. In dit artikel introduceren we de Dense Connector - een eenvoudige, effectieve en plug-and-play visie-taal connector die bestaande MLLMs aanzienlijk verbetert door gebruik te maken van multi-layer visuele kenmerken, met minimale extra rekenkosten. Bovendien toont ons model, dat uitsluitend op afbeeldingen is getraind, opmerkelijke zero-shot mogelijkheden in videobegrip. Experimentele resultaten over verschillende visuele encoders, beeldresoluties, schalen van trainingsdatasets, variërende groottes van LLMs (2.7B->70B) en diverse architecturen van MLLMs (bijv. LLaVA en Mini-Gemini) valideren de veelzijdigheid en schaalbaarheid van onze aanpak, waarbij state-of-the-art prestaties worden behaald op 19 beeld- en videobenchmarks. We hopen dat dit werk waardevolle ervaring zal bieden en zal dienen als een basis module voor toekomstige MLLM-ontwikkeling.
Vooruitgang in latente diffusiemodellen (LDMs) heeft een revolutie teweeggebracht in het genereren van hoogwaardige afbeeldingen, maar de ontwerpruimte van de auto-encoder die centraal staat in deze systemen blijft onderbelicht. In dit artikel introduceren we LiteVAE, een familie van auto-encoders voor LDMs die gebruikmaken van de 2D discrete wavelet transformatie om de schaalbaarheid en rekenkundige efficiëntie te verbeteren ten opzichte van standaard variational autoencoders (VAEs) zonder in te leveren op uitvoerkwaliteit. We onderzoeken ook de trainingsmethodologieën en de decoderarchitectuur van LiteVAE en stellen verschillende verbeteringen voor die de trainingsdynamiek en reconstructiekwaliteit verhogen. Onze basis LiteVAE-model evenaart de kwaliteit van de gevestigde VAEs in huidige LDMs met een zesvoudige reductie in encoderparameters, wat leidt tot snellere training en lagere GPU-geheugenvereisten, terwijl ons grotere model VAEs van vergelijkbare complexiteit overtreft op alle geëvalueerde metrieken (rFID, LPIPS, PSNR en SSIM).
Het versnellen van de inferentie van grote taalmodellen (LLM's) is een belangrijke uitdaging in de kunstmatige intelligentie. Dit artikel introduceert distributed speculative inference (DSI), een nieuw gedistribueerd inferentie-algoritme dat bewezen sneller is dan speculative inference (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] en traditionele autoregressieve inferentie (non-SI). Net als andere SI-algoritmen werkt DSI op bevroren LLM's, vereist het geen training of architectuurwijzigingen, en behoudt het de doelverdeling. Eerdere studies over SI hebben empirische snelheidswinsten aangetoond (vergeleken met non-SI), maar vereisen een snel en nauwkeurig drafter-LLM. In de praktijk hebben kant-en-klare LLM's vaak geen passende drafters die voldoende snel en nauwkeurig zijn. We tonen een kloof aan: SI wordt langzamer dan non-SI bij het gebruik van langzamere of minder nauwkeurige drafters. We sluiten deze kloof door te bewijzen dat DSI sneller is dan zowel SI als non-SI, ongeacht de gebruikte drafters. Door meerdere instanties van het doelmodel en de drafters te coördineren, is DSI niet alleen sneller dan SI, maar ondersteunt het ook LLM's die niet met SI kunnen worden versneld. Onze simulaties tonen snelheidswinsten aan van kant-en-klare LLM's in realistische omgevingen: DSI is 1,29-1,92x sneller dan SI.
Tweedere-orde trainingsmethoden hebben betere convergentie-eigenschappen dan gradient descent, maar worden in de praktijk zelden gebruikt voor grootschalige training vanwege hun rekenkundige overhead. Dit kan worden gezien als een hardwarebeperking (opgelegd door digitale computers). Hier tonen we aan dat natural gradient descent (NGD), een tweedere-orde methode, een vergelijkbare rekenkundige complexiteit per iteratie kan hebben als een eerstere-orde methode, wanneer geschikte hardware wordt gebruikt. We presenteren een nieuw hybride digitaal-analoog algoritme voor het trainen van neurale netwerken dat equivalent is aan NGD in een bepaald parameterregime, maar dure lineaire systeemoplossingen vermijdt. Ons algoritme maakt gebruik van de thermodynamische eigenschappen van een analoog systeem in evenwicht, en vereist daarom een analoge thermodynamische computer. De training vindt plaats in een hybride digitaal-analoog lus, waarbij de gradient en de Fisher-informatiematrix (of een andere positief semidefiniete krommingsmatrix) op bepaalde tijdsintervallen worden berekend terwijl de analoge dynamiek plaatsvindt. We demonstreren numeriek de superioriteit van deze aanpak ten opzichte van state-of-the-art digitale eerstere- en tweedere-orde trainingsmethoden voor classificatietaken en fine-tuningtaken van taalmodelen.
Recente benaderingen hebben belofte getoond in het destilleren van diffusiemodellen naar efficiënte één-stap generatoren. Onder hen produceert Distribution Matching Distillation (DMD) één-stap generatoren die in distributie overeenkomen met hun leraarmodel, zonder een één-op-één correspondentie af te dwingen met de bemonsteringspaden van hun leraren. Om echter een stabiele training te garanderen, vereist DMD een extra regressieverlies berekend met een grote set ruis-beeldparen gegenereerd door het leraarmodel met veel stappen van een deterministische sampler. Dit is kostbaar voor grootschalige tekst-naar-beeld synthese en beperkt de kwaliteit van het studentmodel, waardoor het te nauw verbonden blijft aan de oorspronkelijke bemonsteringspaden van het leraarmodel. Wij introduceren DMD2, een set technieken die deze beperking opheffen en de DMD-training verbeteren. Ten eerste elimineren we het regressieverlies en de noodzaak voor kostbare datasetconstructie. We tonen aan dat de resulterende instabiliteit wordt veroorzaakt doordat de nep-criticus de distributie van gegenereerde samples niet nauwkeurig schat en stellen een update-regel met twee tijdschalen voor als remedie. Ten tweede integreren we een GAN-verlies in het destillatieproces, waarbij onderscheid wordt gemaakt tussen gegenereerde samples en echte beelden. Hierdoor kunnen we het studentmodel trainen op echte data, wat de onvolmaakte schatting van de echte score door het leraarmodel vermindert en de kwaliteit verbetert. Tot slot passen we het trainingsproces aan om multi-step sampling mogelijk te maken. We identificeren en adresseren het probleem van input-mismatch tussen training en inferentie in deze setting door inferentie-tijd generator samples te simuleren tijdens de training. Samen genomen stellen onze verbeteringen nieuwe benchmarks in één-stap beeldgeneratie, met FID-scores van 1.28 op ImageNet-64x64 en 8.35 op zero-shot COCO 2014, wat het oorspronkelijke leraarmodel overtreft ondanks een 500X reductie in inferentiekosten. Verder tonen we aan dat onze aanpak megapixelbeelden kan genereren door SDXL te destilleren, wat een uitzonderlijke visuele kwaliteit laat zien onder methoden met weinig stappen.
Diffusiemodellen hebben grote successen geboekt in beeldgeneratie, waarbij de backbone is geëvolueerd van U-Net naar Vision Transformers. De rekenkosten van Transformers zijn echter kwadratisch ten opzichte van het aantal tokens, wat aanzienlijke uitdagingen met zich meebrengt bij het verwerken van hoge-resolutiebeelden. In dit werk stellen we Diffusion Mamba (DiM) voor, dat de efficiëntie van Mamba, een sequentiemodel gebaseerd op State Space Models (SSM), combineert met de expressieve kracht van diffusiemodellen voor efficiënte synthese van hoge-resolutiebeelden. Om de uitdaging aan te pakken dat Mamba niet kan generaliseren naar 2D-signalen, hebben we verschillende architectuurontwerpen gemaakt, waaronder multidirectionele scans, leerbare padding-tokens aan het einde van elke rij en kolom, en lichtgewicht lokale feature-verbetering. Onze DiM-architectuur bereikt efficiëntie tijdens de inferentie voor hoge-resolutiebeelden. Daarnaast onderzoeken we, om de trainingsefficiëntie voor hoge-resolutiebeeldgeneratie met DiM verder te verbeteren, een "weak-to-strong" trainingsstrategie waarbij DiM wordt voorgetraind op lage-resolutiebeelden (256x256) en vervolgens wordt gefinetuned op hoge-resolutiebeelden (512x512). We verkennen verder training-vrije upsamplingstrategieën om het model in staat te stellen hogere-resolutiebeelden te genereren (bijvoorbeeld 1024x1024 en 1536x1536) zonder verdere finetuning. Experimenten demonstreren de effectiviteit en efficiëntie van onze DiM.
Multimodale Large Language Models (MLLMs) worden algemeen beschouwd als cruciaal in de verkenning van Artificial General Intelligence (AGI). De kern van MLLMs ligt in hun vermogen om cross-modale uitlijning te bereiken. Om dit doel te bereiken, volgen huidige MLLMs doorgaans een tweefasig trainingsparadigma: de pre-trainingsfase en de instructie-afstemmingsfase. Ondanks hun succes zijn er tekortkomingen in de modellering van uitlijningsmogelijkheden binnen deze modellen. Ten eerste neemt het model tijdens de pre-trainingsfase meestal aan dat alle beeld-tekstparen uniform zijn uitgelijnd, maar in feite is de mate van uitlijning tussen verschillende beeld-tekstparen inconsistent. Ten tweede omvatten de instructies die momenteel worden gebruikt voor finetuning een verscheidenheid aan taken, waarbij instructies voor verschillende taken meestal verschillende niveaus van uitlijningsmogelijkheden vereisen, maar eerdere MLLMs negeren deze gedifferentieerde uitlijningsbehoeften. Om deze problemen aan te pakken, stellen we een nieuwe multimodale large language model voor, genaamd AlignGPT. In de pre-trainingsfase behandelen we niet alle beeld-tekstparen op dezelfde manier, maar kennen we verschillende niveaus van uitlijningsmogelijkheden toe aan verschillende beeld-tekstparen. Vervolgens combineren we in de instructie-afstemmingsfase deze verschillende niveaus van uitlijningsmogelijkheden adaptief om te voldoen aan de dynamische uitlijningsbehoeften van verschillende instructies. Uitgebreide experimentele resultaten tonen aan dat ons model competitieve prestaties behaalt op 12 benchmarks.
De afgelopen jaren hebben op diffusie gebaseerde generatieve modellen, dankzij hun realistische generatieresultaten en een breed scala aan gepersonaliseerde toepassingen, veel aandacht gekregen op het gebied van visuele en audiogeneratie. In vergelijking met de aanzienlijke vooruitgang in text2image- of text2audio-generatie, is onderzoek naar audio2visual- of visual2audio-generatie relatief traag verlopen. Recente audio-visuele generatiemethoden maken meestal gebruik van grote taalmodel(len) of composeerbare diffusiemodellen. In plaats van nog een gigantisch model te ontwerpen voor audio-visuele generatie, nemen we in dit artikel een stap terug en laten we zien dat een eenvoudige en lichtgewicht generatieve transformer, die nog niet volledig is onderzocht in multi-modale generatie, uitstekende resultaten kan behalen bij image2audio-generatie. De transformer werkt in de discrete audio- en visuele Vector-Quantized GAN-ruimte en wordt getraind in een masker-denoising-manier. Na de training kan classifier-free guidance direct worden ingezet voor betere prestaties, zonder extra training of aanpassingen. Omdat het transformermodel modaal symmetrisch is, kan het ook direct worden ingezet voor audio2image-generatie en co-generatie. In de experimenten laten we zien dat onze eenvoudige methode recente image2audio-generatiemethoden overtreft. Geproduceerde audiovoorbeelden zijn te vinden op https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
We onderzoeken de taak om beeldgeneratieve modellen aan te passen aan verschillende datasets zonder finetuning. Hiertoe introduceren we Semantica, een beeldgeconditioneerd diffusiemodel dat in staat is om beelden te genereren op basis van de semantiek van een conditioneel beeld. Semantica wordt uitsluitend getraind op web-schaal beeldparen, wat betekent dat het een willekeurig beeld van een webpagina als conditionele invoer ontvangt en een ander willekeurig beeld van dezelfde webpagina modelleert. Onze experimenten benadrukken de expressiviteit van voorgetrainde beeldencoders en de noodzaak van semantiek-gebaseerde datafiltering om hoogwaardige beeldgeneratie te bereiken. Eenmaal getraind, kan het adaptief nieuwe beelden genereren uit een dataset door simpelweg beelden uit die dataset als invoer te gebruiken. We bestuderen de transfereigenschappen van Semantica op ImageNet, LSUN Churches, LSUN Bedroom en SUN397.
We breiden multimodale transformatoren uit om 3D-camerabeweging op te nemen als een conditionering signaal voor de taak van videogeneratie. Generatieve videomodellen worden steeds krachtiger, waardoor onderzoeksinspanningen zich richten op methoden om de output van dergelijke modellen te beheersen. Wij stellen voor om virtuele 3D-camerabesturing toe te voegen aan generatieve videomethoden door gegenereerde video te conditioneren op een codering van driedimensionale camerabeweging gedurende de gegenereerde video. Resultaten tonen aan dat we (1) in staat zijn om de camera succesvol te besturen tijdens videogeneratie, uitgaande van een enkel frame en een camerasignaal, en (2) we demonstreren de nauwkeurigheid van de gegenereerde 3D-camerapaden met behulp van traditionele computervisiemethoden.
Het aanpassen van diffusiemodellen om identiteitsbehoudende afbeeldingen te genereren op basis van door gebruikers verstrekte referentieafbeeldingen is een intrigerend nieuw probleem. De gangbare benaderingen vereisen doorgaans training op uitgebreide domeinspecifieke afbeeldingen om identiteitsbehoud te bereiken, wat de flexibiliteit over verschillende use cases beperkt. Om dit probleem aan te pakken, maken we gebruik van classifier guidance, een training-vrije techniek die diffusiemodellen stuurt met behulp van een bestaande classifier, voor gepersonaliseerde beeldgeneratie. Onze studie toont aan dat, gebaseerd op een recent rectified flow-framework, de belangrijkste beperking van standaard classifier guidance, namelijk het vereisen van een speciale classifier, kan worden opgelost met een eenvoudige fixed-point oplossing, waardoor flexibele personalisatie mogelijk wordt met standaard beelddiscriminatoren. Bovendien blijkt het oplossingsproces stabiel te zijn wanneer het verankerd is aan een referentie flow-traject, met een convergentiegarantie. De afgeleide methode wordt geïmplementeerd op rectified flow met verschillende standaard beelddiscriminatoren, wat voordelige personalisatieresultaten oplevert voor menselijke gezichten, levende onderwerpen en bepaalde objecten. Code is beschikbaar op https://github.com/feifeiobama/RectifID.
Neural Radiance Fields (NeRFs) hebben doorgaans moeite met het reconstrueren en renderen van sterk reflecterende objecten, waarvan het uiterlijk snel verandert bij wijzigingen in het gezichtspunt. Recente werken hebben het vermogen van NeRF verbeterd om gedetailleerde reflecterende aspecten van verre omgevingsverlichting te renderen, maar zijn niet in staat om consistente reflecties van dichterbij gelegen inhoud te synthetiseren. Bovendien vertrouwen deze technieken op grote, rekenintensieve neurale netwerken om de uitgaande straling te modelleren, wat de optimalisatie- en rendersnelheid ernstig beperkt. Wij pakken deze problemen aan met een op ray tracing gebaseerde aanpak: in plaats van een duur neuraal netwerk te raadplegen voor de uitgaande, gezichtsafhankelijke straling op punten langs elke camerastraal, werpt ons model reflectiestralen vanaf deze punten en traceert ze door de NeRF-representatie om featurevectoren te renderen die worden gedecodeerd naar kleur met behulp van een klein, goedkoop netwerk. Wij demonstreren dat ons model superieur presteert ten opzichte van eerdere methoden voor viewsynthese van scènes met glanzende objecten, en dat het de enige bestaande NeRF-methode is die fotorealistische reflecterende aspecten en reflecties in real-world scènes kan synthetiseren, terwijl het een vergelijkbare optimalisatietijd vereist als de huidige state-of-the-art viewsynthesemodellen.
Het synthetiseren van nieuwe aanzichten van reflecterende objecten zoals glanzende metalen of glanzende verven blijft een aanzienlijke uitdaging. Niet alleen het glanzende uiterlijk, maar ook globale belichtingseffecten, inclusief reflecties van andere objecten in de omgeving, zijn cruciale componenten om een scène nauwkeurig weer te geven. In dit artikel presenteren we Neural Directional Encoding (NDE), een opzicht-afhankelijke weergavecodering van neurale stralingsvelden (NeRF) voor het renderen van reflecterende objecten. NDE brengt het concept van op feature-grids gebaseerde ruimtelijke codering over naar het hoekdomein, wat de mogelijkheid om hoogfrequente hoeksignalen te modelleren aanzienlijk verbetert. In tegenstelling tot eerdere methoden die coderingsfuncties gebruiken met alleen hoekinvoer, voegen we ruimtelijke features toe door middel van cone-tracing om een ruimtelijk variërende richtingscodering te verkrijgen, wat de uitdagende onderlinge reflectie-effecten aanpakt. Uitgebreide experimenten op zowel synthetische als echte datasets tonen aan dat een NeRF-model met NDE (1) de state-of-the-art overtreft bij het synthetiseren van aanzichten van reflecterende objecten, en (2) werkt met kleine netwerken om snelle (real-time) inferentie mogelijk te maken. De projectwebpagina en broncode zijn beschikbaar op: https://lwwu2.github.io/nde/.
In dit artikel presenteren we een bidirectioneel telepresence-systeem met een laag budget en hoge authenticiteit, genaamd Tele-Aloha, gericht op peer-to-peer communicatiescenario's. In vergelijking met eerdere systemen maakt Tele-Aloha gebruik van slechts vier verspreide RGB-camera's, één consumenten-GPU en één autostereoscopisch scherm om hoogwaardige resolutie (2048x2048), real-time (30 fps), lage latentie (minder dan 150 ms) en robuuste communicatie op afstand te bereiken. Als kern van Tele-Aloha stellen we een efficiënt algoritme voor voor het synthetiseren van nieuwe aanzichten voor het bovenlichaam. Ten eerste ontwerpen we een gecascadeerde dispariteitsschatter om een robuuste geometrie-aanwijzing te verkrijgen. Daarnaast introduceren we een neurale rasterizer via Gaussian Splatting om latente kenmerken te projecteren op het doelbeeld en deze te decoderen naar een verlaagde resolutie. Verder gebruiken we, dankzij de hoogwaardige vastgelegde data, een gewogen blending-mechanisme om het gedecodeerde beeld te verfijnen naar de uiteindelijke resolutie van 2K. Door gebruik te maken van 's werelds toonaangevende autostereoscopische display en lage latentie iristracking, kunnen gebruikers een sterk driedimensionaal gevoel ervaren zonder enig draagbaar head-mounted displayapparaat. Samen toont ons telepresence-systeem het gevoel van co-aanwezigheid in real-life experimenten, wat de volgende generatie communicatie inspireert.