HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

14 papers found

PaLM 2 Technisch Rapport
PaLM 2 Technical Report

May 17

ByRohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Clément Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark Díaz, Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari, Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui, Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski, Wenhao Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek, Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta, Rajkumar Samuel, Renee Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang, Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, Yonghui Wu

We introduceren PaLM 2, een nieuw state-of-the-art taalmodel met betere meertalige en redeneervaardigheden en een hogere reken-efficiëntie dan zijn voorganger PaLM. PaLM 2 is een Transformer-gebaseerd model dat is getraind met een mix van doelen. Door uitgebreide evaluaties op Engelse en meertalige taal- en redeneertaken tonen we aan dat PaLM 2 een significant verbeterde kwaliteit heeft voor downstream-taken over verschillende modelgroottes, terwijl het tegelijkertijd snellere en efficiëntere inferentie vertoont in vergelijking met PaLM. Deze verbeterde efficiëntie maakt een bredere inzet mogelijk en stelt het model in staat sneller te reageren, voor een natuurlijker interactietempo. PaLM 2 toont robuuste redeneervaardigheden, geïllustreerd door grote verbeteringen ten opzichte van PaLM op BIG-Bench en andere redeneertaken. PaLM 2 vertoont stabiele prestaties op een reeks verantwoorde AI-evaluaties en maakt inferentie-tijdcontrole over toxiciteit mogelijk zonder extra overhead of impact op andere capaciteiten. Over het algemeen behaalt PaLM 2 state-of-the-art prestaties over een diverse set taken en capaciteiten. Bij het bespreken van de PaLM 2-familie is het belangrijk om onderscheid te maken tussen vooraf getrainde modellen (van verschillende groottes), fijn afgestemde varianten van deze modellen, en de gebruikersgerichte producten die deze modellen gebruiken. In het bijzonder omvatten gebruikersgerichte producten doorgaans extra voor- en nabewerkingsstappen. Bovendien kunnen de onderliggende modellen in de loop van de tijd evolueren. Daarom moet men niet verwachten dat de prestaties van gebruikersgerichte producten exact overeenkomen met de resultaten die in dit rapport worden gerapporteerd.

CoEdIT: Tekstbewerking door taakspecifieke instructieafstemming
CoEdIT: Text Editing by Task-Specific Instruction Tuning

May 17

ByVipul Raheja, Dhruv Kumar, Ryan Koo, Dongyeop Kang

Tekstbewerking of revisie is een essentiële functie van het menselijke schrijfproces. Het begrijpen van de mogelijkheden van LLM's (Large Language Models) voor het maken van hoogwaardige revisies en het samenwerken met menselijke schrijvers is een cruciale stap naar het ontwikkelen van effectieve schrijfassistenten. Met het eerdere succes van LLM's en instructieafstemming, benutten wij instructie-afgestemde LLM's voor tekstbewerking om de kwaliteit van door gebruikers gegenereerde tekst te verbeteren en de efficiëntie van het proces te verhogen. Wij introduceren CoEdIT, een state-of-the-art tekstbewerkingsmodel voor schrijfondersteuning. CoEdIT neemt instructies van de gebruiker aan die de kenmerken van de gewenste tekst specificeren, zoals "Maak de zin eenvoudiger" of "Schrijf het in een neutralere stijl," en geeft de bewerkte tekst uit. Wij presenteren een groot taalmodel dat is afgestemd op een diverse verzameling taakspecifieke instructies voor tekstbewerking (in totaal 82K instructies). Ons model (1) behaalt state-of-the-art prestaties op verschillende tekstbewerkingsbenchmarks, (2) is concurrerend met de grootste beschikbare LLM's die zijn getraind op instructies, terwijl het ongeveer 60x kleiner is, (3) is in staat om te generaliseren naar onbekende bewerkingsinstructies, en (4) vertoont compositionele begripsvaardigheden om te generaliseren naar instructies die verschillende combinaties van bewerkingsacties bevatten. Door uitgebreide kwalitatieve en kwantitatieve analyses tonen wij aan dat schrijvers de bewerkingen die door CoEdIT worden voorgesteld verkiezen, in vergelijking met andere state-of-the-art tekstbewerkingsmodellen. Onze code en dataset zijn publiekelijk beschikbaar.

SLiC-HF: Sequentiële Waarschijnlijkheidskalibratie met Menselijke Feedback
SLiC-HF: Sequence Likelihood Calibration with Human Feedback

May 17

ByYao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu

Leren van menselijke feedback is effectief gebleken bij het afstemmen van taalmodelen op menselijke voorkeuren. Eerder werk heeft vaak vertrouwd op Reinforcement Learning from Human Feedback (RLHF), waarbij het taalmodel wordt geoptimaliseerd met behulp van beloningsscores toegekend door een beloningsmodel dat is getraind op menselijke voorkeursdata. In dit werk laten we zien hoe de recent geïntroduceerde Sequence Likelihood Calibration (SLiC) ook effectief kan worden gebruikt om te leren van menselijke voorkeuren (SLiC-HF). Bovendien demonstreren we dat dit kan worden gedaan met menselijke feedbackdata die is verzameld voor een ander model, vergelijkbaar met off-policy, offline RL-data. Experimenten met automatische en menselijke evaluatie op de TL;DR-samenvattings-taak laten zien dat SLiC-HF de supervised fine-tuning-baselines aanzienlijk verbetert. Daarnaast biedt SLiC-HF een competitief alternatief voor de PPO RLHF-implementatie die in eerder werk is gebruikt, terwijl het veel eenvoudiger te implementeren is, gemakkelijker af te stemmen en in de praktijk computationeel efficiënter.

DinoSR: Zelfdistillatie en online clustering voor zelfgesuperviseerd leren van spraakrepresentaties
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning

May 17

ByAlexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass

In dit artikel introduceren we zelfdistillatie en online clustering voor zelfgesuperviseerd leren van spraakrepresentaties (DinoSR), dat gemaskeerd taalmodeleren, zelfdistillatie en online clustering combineert. We laten zien dat deze concepten elkaar aanvullen en resulteren in een krachtig model voor het leren van representaties voor spraak. DinoSR extraheert eerst contextuele embeddings uit de invoeraudio met een leraarnetwerk, voert vervolgens een online clusteringsysteem uit op de embeddings om een door de machine ontdekt telefoonbestand te verkrijgen, en gebruikt ten slotte de gediscretiseerde tokens om een studentennetwerk te begeleiden. We tonen aan dat DinoSR de prestaties van eerdere state-of-the-art modellen overtreft in verschillende downstream taken, en bieden een gedetailleerde analyse van het model en de geleerde discrete eenheden. De broncode zal beschikbaar worden gesteld na de anonimiteitsperiode.

DoReMi: Optimalisatie van Datamengsels Versnelt de Voorafgaande Training van Taalmodellen
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

May 17

BySang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu

De mengverhoudingen van domeinen in de vooraf getrainde data (bijv. Wikipedia, boeken, webtekst) hebben een grote invloed op de prestaties van taalmodel (LM). In dit artikel stellen we Domain Reweighting with Minimax Optimization (DoReMi) voor, waarbij eerst een klein proxy-model wordt getraind met behulp van group distributionally robust optimization (Group DRO) over domeinen om domeingewichten (mengverhoudingen) te produceren zonder kennis van downstream taken. Vervolgens hermonsteren we een dataset met deze domeingewichten en trainen we een groter, volledig model. In onze experimenten gebruiken we DoReMi op een proxy-model met 280M parameters om domeingewichten te vinden voor het trainen van een model met 8B parameters (30x groter) op een efficiëntere manier. Op The Pile verbetert DoReMi de perplexiteit in alle domeinen, zelfs wanneer het een domein onderwaardeert. DoReMi verbetert de gemiddelde few-shot downstream nauwkeurigheid met 6,5% ten opzichte van een basismodel dat is getraind met de standaard domeingewichten van The Pile en bereikt de baseline-nauwkeurigheid met 2,6x minder trainingsstappen. Op de GLaM-dataset, waarbij DoReMi geen kennis heeft van downstream taken, komt het zelfs overeen met de prestaties van het gebruik van domeingewichten die zijn afgestemd op downstream taken.

Slimme Woordsuggesties voor Schrijfondersteuning
Smart Word Suggestions for Writing Assistance

May 17

ByChenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao

Het verbeteren van woordgebruik is een gewenste functie voor schrijfondersteuning. Om het onderzoek op dit gebied verder te bevorderen, introduceert dit artikel de taak en benchmark "Smart Word Suggestions" (SWS). In tegenstelling tot ander werk, legt SWS de nadruk op end-to-end evaluatie en presenteert het een realistischer scenario voor schrijfondersteuning. Deze taak omvat het identificeren van woorden of zinsdelen die verbetering behoeven en het geven van vervangingssuggesties. De benchmark omvat door mensen gelabelde gegevens voor testen, een grote dataset met indirect toezicht voor training en het raamwerk voor evaluatie. De testgegevens bestaan uit 1.000 zinnen geschreven door Engelse studenten, vergezeld van meer dan 16.000 vervangingssuggesties die zijn geannoteerd door 10 moedertaalsprekers. De trainingsdataset bestaat uit meer dan 3,7 miljoen zinnen en 12,7 miljoen suggesties die zijn gegenereerd via regels. Onze experimenten met zeven basislijnen tonen aan dat SWS een uitdagende taak is. Op basis van experimentele analyse suggereren we mogelijke richtingen voor toekomstig onderzoek naar SWS. De dataset en gerelateerde code zijn beschikbaar op https://github.com/microsoft/SmartWordSuggestions.

Het uitleggen van blackbox-tekstmodules in natuurlijke taal met taalmodelen
Explaining black box text modules in natural language with language models

May 17

ByChandan Singh, Aliyah R. Hsu, Richard Antonello, Shailee Jain, Alexander G. Huth, Bin Yu, Jianfeng Gao

Grote taalmodelen (LLMs) hebben opmerkelijke voorspellingsprestaties getoond voor een groeiend aantal taken. Hun snelle verspreiding en toenemende ondoorzichtigheid hebben echter een groeiende behoefte aan interpreteerbaarheid gecreëerd. Hier onderzoeken we of we automatisch natuurlijke taalverklaringen kunnen verkrijgen voor black box tekstmodules. Een "tekstmodule" is elke functie die tekst afbeeldt op een scalaire continue waarde, zoals een submodule binnen een LLM of een aangepast model van een hersengebied. "Black box" geeft aan dat we alleen toegang hebben tot de invoer/uitvoer van de module. We introduceren Summarize and Score (SASC), een methode die een tekstmodule als invoer neemt en een natuurlijke taalverklaring retourneert van de selectiviteit van de module, samen met een score voor de betrouwbaarheid van de verklaring. We bestuderen SASC in drie contexten. Ten eerste evalueren we SASC op synthetische modules en ontdekken dat het vaak de grondwaarheidverklaringen herstelt. Ten tweede gebruiken we SASC om modules binnen een vooraf getraind BERT-model te verklaren, waardoor inspectie van de interne werking van het model mogelijk wordt. Tot slot tonen we aan dat SASC verklaringen kan genereren voor de respons van individuele fMRI-voxels op taalprikkels, met potentiële toepassingen voor gedetailleerde hersenkartering. Alle code voor het gebruik van SASC en het reproduceren van resultaten is beschikbaar gesteld op Github.

Toepassingsonafhankelijke Taalmodellering voor On-Device Spraakherkenning
Application-Agnostic Language Modeling for On-Device ASR

May 16

ByMarkus Nußbaum-Thom, Lyan Verwimp, Youssef Oualil

Automatische spraakherkenningssystemen op apparaten staan voor verschillende uitdagingen in vergelijking met servergebaseerde systemen. Ze moeten voldoen aan strengere beperkingen op het gebied van snelheid, schijfruimte en geheugen, terwijl ze dezelfde nauwkeurigheid behouden. Vaak moeten ze meerdere toepassingen met verschillende distributies tegelijkertijd bedienen, zoals communiceren met een virtuele assistent en spraak-naar-tekst. De eenvoudigste oplossing om meerdere toepassingen te bedienen, is het bouwen van toepassingsspecifieke (taal)modellen, maar dit leidt tot een toename van het geheugengebruik. Daarom onderzoeken we verschillende data- en architectuurgedreven benaderingen voor taalmodellering om een enkel toepassingsagnostisch model te bouwen. We stellen twee nieuwe feed-forward-architecturen voor die een optimale balans vinden tussen verschillende beperkingen op apparaten. In vergelijking met de toepassingsspecifieke oplossing, reduceert een van onze nieuwe benaderingen de schijfruimte met de helft, terwijl de snelheid en nauwkeurigheid van het oorspronkelijke model behouden blijven.

Een Video Is 4096 Tokens Waard: Verbaal Storyvideo's Om Ze Te Begrijpen In Zero Shot
A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

May 16

ByAanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen

Multimediale inhoud, zoals advertenties en verhalende video's, vertoont een rijke mix van creativiteit en meerdere modaliteiten. Ze bevatten elementen zoals tekst, beeldmateriaal, audio en verteltechnieken, waarbij gebruik wordt gemaakt van middelen zoals emoties, symboliek en slogans om betekenis over te brengen. Hoewel eerder onderzoek op het gebied van multimedia-begrip zich voornamelijk heeft gericht op video's met specifieke handelingen zoals koken, is er een gebrek aan grote, geannoteerde trainingsdatasets, wat de ontwikkeling van supervised learning-modellen met bevredigende prestaties voor real-world toepassingen belemmert. De opkomst van grote taalmodellen (LLMs) heeft echter opmerkelijke zero-shot prestaties laten zien in verschillende taken binnen natuurlijke taalverwerking (NLP), zoals emotieclassificatie, vraag-antwoordtaken en onderwerpsclassificatie. Om deze prestatiekloof in multimedia-begrip te overbruggen, stellen we voor om verhalende video's te verbaliseren en hun beschrijvingen in natuurlijke taal te genereren, waarna video-begriptaken worden uitgevoerd op het gegenereerde verhaal in plaats van op de originele video. Door middel van uitgebreide experimenten op vijf video-begriptaken tonen we aan dat onze methode, ondanks dat het zero-shot is, aanzienlijk betere resultaten behaalt dan supervised baselines voor video-begrip. Verlichtend het gebrek aan benchmarks voor verhalenbegrip, maken we de eerste dataset openbaar over een cruciale taak in computationele sociale wetenschappen: het identificeren van overtuigingsstrategieën.

Op zoek naar naalden in een hooiberg: De rol van incidentele tweetaligheid in de vertaalcapaciteit van PaLM
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability

May 17

ByEleftheria Briakou, Colin Cherry, George Foster

Grote, meertalige taalmodellen vertonen verrassend goede zero-shot of few-shot machinevertalingen, ondanks dat ze nooit de opzettelijk toegevoegde vertaalvoorbeelden hebben gezien die typische neurale vertaalsystemen krijgen. We onderzoeken de rol van incidentele tweetaligheid — de onbedoelde blootstelling aan tweetalige signalen, inclusief vertaalvoorbeelden — bij het verklaren van de vertaalcapaciteiten van grote taalmodellen, waarbij we het Pathways Language Model (PaLM) als casestudy nemen. We introduceren een gemengde methode om incidentele tweetaligheid op grote schaal te meten en te begrijpen. We tonen aan dat PaLM wordt blootgesteld aan meer dan 30 miljoen vertaalparen in ten minste 44 talen. Bovendien is de hoeveelheid incidenteel tweetalige inhoud sterk gecorreleerd met de hoeveelheid eentalige inhoud in de betreffende taal voor niet-Engelse talen. We koppelen incidenteel tweetalige inhoud aan zero-shot prompts en laten zien dat deze kan worden gebruikt om nieuwe prompts te genereren om de zero-shot vertaalkwaliteit van PaLM uit het Engels te verbeteren. Tot slot tonen we in een reeks kleinschalige ablatiestudies aan dat de aanwezigheid ervan een aanzienlijke impact heeft op de vertaalcapaciteiten, hoewel deze impact afneemt met de schaal van het model.

CostFormer: Cost Transformer voor kostenaggregatie in multi-view stereo
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

May 17

ByWeitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie

De kern van Multi-view Stereo (MVS) is het matchingproces tussen referentie- en bronpixels. Kostenaggregatie speelt een belangrijke rol in dit proces, terwijl eerdere methoden zich vooral richtten op het afhandelen ervan via CNN's. Dit kan de inherente beperking van CNN's overnemen, namelijk het onvermogen om repetitieve of incorrecte matches te onderscheiden vanwege beperkte lokale receptieve velden. Om dit probleem aan te pakken, streven we ernaar om Transformer te betrekken bij kostenaggregatie. Echter, een ander probleem kan ontstaan door de kwadratisch toenemende rekencomplexiteit veroorzaakt door Transformer, wat resulteert in geheugenoverloop en inferentielatentie. In dit artikel overwinnen we deze beperkingen met een efficiënt Transformer-gebaseerd kostenaggregatienetwerk, genaamd CostFormer. De Residual Depth-Aware Cost Transformer (RDACT) wordt voorgesteld om langeafstandsfeatures op het kostenvolume te aggregeren via self-attention-mechanismen langs de diepte- en ruimtelijke dimensies. Bovendien wordt de Residual Regression Transformer (RRT) voorgesteld om ruimtelijke aandacht te versterken. De voorgestelde methode is een universele plug-in om op leren gebaseerde MVS-methoden te verbeteren.

Het verbeteren van taalmodelonderhandelingen met zelfspel en in-context leren op basis van AI-feedback
Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

May 17

ByYao Fu, Hao Peng, Tushar Khot, Mirella Lapata

We onderzoeken of meerdere grote taalmodellen (LLMs) elkaar autonoom kunnen verbeteren in een onderhandelingsspel door te spelen, reflecteren en bekritiseren. We zijn geïnteresseerd in deze vraag omdat, als LLMs elkaar zouden kunnen verbeteren, dit de mogelijkheid zou impliceren om sterke AI-agenten te creëren met minimale menselijke interventie. We laten twee LLMs met elkaar onderhandelen, waarbij ze respectievelijk de rollen van koper en verkoper spelen. Ze streven ernaar een deal te sluiten, waarbij de koper een lagere prijs nastreeft en de verkoper een hogere. Een derde taalmodel, dat de rol van criticus speelt, geeft feedback aan een speler om diens onderhandelingsstrategieën te verbeteren. We laten de twee agenten meerdere rondes spelen, waarbij ze eerdere onderhandelingsgeschiedenis en AI-feedback gebruiken als in-context demonstraties om het onderhandelingsmodel iteratief te verbeteren. We gebruiken verschillende LLMs (GPT en Claude) voor verschillende rollen en gebruiken de dealprijs als evaluatiemetric. Onze experimenten onthullen meerdere intrigerende bevindingen: (1) Slechts een subset van de taalmodellen die we beschouwen, kan zelf spelen en de dealprijs verbeteren op basis van AI-feedback; zwakkere modellen begrijpen de spelregels niet of kunnen de AI-feedback niet gebruiken voor verdere verbetering. (2) De vaardigheden van modellen om van de feedback te leren verschillen wanneer ze verschillende rollen spelen. Zo is het voor Claude-instant bijvoorbeeld moeilijker om zich te verbeteren als koper dan als verkoper. (3) Wanneer het spel over meerdere rondes wordt uitgerold, kunnen sterkere agenten hun prestaties consistent verbeteren door zinvol gebruik te maken van eerdere ervaringen en iteratieve AI-feedback, maar lopen ze een hoger risico om de deal te verbreken. We hopen dat ons werk inzichtelijke eerste verkenningen biedt van het autonoom laten verbeteren van modellen door middel van spel en AI-feedback.

Transfer Learning voor Fijnmazige Classificatie met Semi-gestuurd Leren en Visuele Transformers
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers

May 17

ByManuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand

Fijnmazige classificatie is een uitdagende taak die het identificeren van subtiele verschillen tussen objecten binnen dezelfde categorie omvat. Deze taak is vooral moeilijk in scenario's waar weinig data beschikbaar is. Visuele transformers (ViT) zijn recent naar voren gekomen als een krachtig hulpmiddel voor beeldclassificatie, dankzij hun vermogen om zeer expressieve representaties van visuele data te leren met behulp van self-attention-mechanismen. In dit werk onderzoeken we Semi-ViT, een ViT-model dat is afgestemd met semi-gesuperviseerde leertechnieken, geschikt voor situaties waarin we een gebrek hebben aan geannoteerde data. Dit komt vooral veel voor in e-commerce, waar afbeeldingen ruimschoots beschikbaar zijn, maar labels onnauwkeurig, afwezig of duur om te verkrijgen zijn. Onze resultaten tonen aan dat Semi-ViT traditionele convolutionele neurale netwerken (CNN) en ViT's overtreft, zelfs wanneer het wordt afgestemd met beperkte geannoteerde data. Deze bevindingen geven aan dat Semi-ViT's veelbelovend zijn voor toepassingen die een precieze en fijnmazige classificatie van visuele data vereisen.

NerfBridge: Real-time, online training van Neural Radiance Fields naar robotica brengen
NerfBridge: Bringing Real-time, Online Neural Radiance Field Training to Robotics

May 16

ByJavier Yu, Jun En Low, Keiko Nagami, Mac Schwager

Dit werk werd gepresenteerd op de IEEE International Conference on Robotics and Automation 2023 Workshop on Unconventional Spatial Representations. Neurale stralingsvelden (NeRFs) zijn een klasse van impliciete scène-representaties die 3D-omgevingen modelleren op basis van kleurenbeelden. NeRFs zijn expressief en kunnen de complexe en multi-schaal geometrie van echte wereldomgevingen modelleren, wat ze potentieel een krachtig hulpmiddel maakt voor robotica-toepassingen. Moderne NeRF-trainingsbibliotheken kunnen een fotorealistisch NeRF genereren vanuit een statische dataset in slechts enkele seconden, maar zijn ontworpen voor offline gebruik en vereisen een langzame pose-optimalisatie voorafgaande berekeningsstap. In dit werk stellen we NerfBridge voor, een open-source brug tussen het Robot Operating System (ROS) en de populaire Nerfstudio-bibliotheek voor real-time, online training van NeRFs vanuit een stroom van beelden. NerfBridge maakt snelle ontwikkeling mogelijk van onderzoek naar toepassingen van NeRFs in robotica door een uitbreidbare interface te bieden naar de efficiënte trainingspijplijnen en modelbibliotheken die door Nerfstudio worden aangeboden. Als voorbeeldgebruik beschrijven we een hardwareopstelling die NerfBridge kan gebruiken om een NeRF te trainen vanuit beelden die zijn vastgelegd door een camera gemonteerd op een quadrotor, zowel in binnen- als buitenomgevingen. Voor begeleidende video https://youtu.be/EH0SLn-RcDg en code https://github.com/javieryu/nerf_bridge.

PaLM 2 Technisch Rapport
PaLM 2 Technical Report

May 17