Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodelen (LLMs) zijn nuttig in veel NLP-taken en worden krachtiger naarmate ze groter worden, waarbij de beste open-source modellen meer dan 50 miljard parameters hebben. Het gebruik van deze 50B+ modellen vereist echter hoogwaardige hardware, waardoor ze voor de meeste onderzoekers ontoegankelijk zijn. In dit werk onderzoeken we methoden voor kostenefficiënte inferentie en fine-tuning van LLMs, waarbij we lokale en gedistribueerde strategieën vergelijken. We observeren dat een groot genoeg model (50B+) efficiënt kan draaien, zelfs op geografisch verspreide apparaten in een consumentennetwerk. Dit zou het mogelijk kunnen maken om LLMs efficiënt te laten draaien door inactieve rekenbronnen van meerdere onderzoeksgroepen en vrijwilligers samen te voegen. We behandelen twee open problemen: (1) hoe inferentie en fine-tuning betrouwbaar uit te voeren als elk apparaat abrupt kan worden losgekoppeld en (2) hoe LLMs te verdelen tussen apparaten met ongelijke hardware, die naar believen kunnen toetreden en vertrekken. Om dit te bereiken, ontwikkelen we speciale fouttolerante inferentie-algoritmen en load-balancing protocollen die automatisch apparaten toewijzen om de totale systeemdoorvoer te maximaliseren. We demonstreren deze algoritmen in Petals - een gedecentraliseerd systeem dat Llama 2 (70B) en BLOOM (176B) over het internet tot 10x sneller draait dan offloading voor interactieve generatie. We evalueren de prestaties van ons systeem in gesimuleerde omstandigheden en een real-world opstelling die twee continenten omvat.
Bestaande methoden voor open-vocabulary beeldsegmentatie vereisen een fine-tuning stap op maskerannotaties en/of beeld-tekst datasets. Maskerlabels zijn arbeidsintensief, wat het aantal categorieën in segmentatiedatasets beperkt. Als gevolg hiervan wordt de open-vocabulary capaciteit van vooraf getrainde visuele taalmodellen (VLMs) ernstig verminderd na fine-tuning. Zonder fine-tuning hebben VLMs die getraind zijn onder zwakke beeld-tekst supervisie echter de neiging om suboptimale maskervoorspellingen te maken wanneer er tekstqueries zijn die verwijzen naar niet-bestaande concepten in het beeld. Om deze problemen te verlichten, introduceren we een nieuw recurrent raamwerk dat geleidelijk irrelevante teksten filtert en de maskerkwaliteit verbetert zonder trainingsinspanningen. De recurrent unit is een tweestaps segmentatie-eenheid gebouwd op een VLM met bevroren gewichten. Hierdoor behoudt ons model de brede vocabulaire ruimte van de VLM en versterkt het zijn segmentatievermogen. Experimentele resultaten tonen aan dat onze methode niet alleen de trainingsvrije tegenhangers overtreft, maar ook die welke zijn fine-tuned met miljoenen extra data samples, en nieuwe state-of-the-art records vestigt voor zowel zero-shot semantische als verwijzende beeldsegmentatietaken. Specifiek verbeteren we het huidige record met 28,8, 16,0 en 6,9 mIoU op Pascal VOC, COCO Object en Pascal Context.
3D-gesimuleerde omgevingen spelen een cruciale rol in Embodied AI, maar hun creatie vereist expertise en uitgebreide handmatige inspanning, wat hun diversiteit en reikwijdte beperkt. Om deze beperking te verlichten, presenteren we Holodeck, een systeem dat 3D-omgevingen genereert die volledig automatisch aansluiten bij een door de gebruiker opgegeven prompt. Holodeck kan diverse scènes genereren, zoals arcades, spa's en musea, de ontwerpen aanpassen aan verschillende stijlen, en de semantiek vastleggen van complexe queries zoals "appartement voor een onderzoeker met een kat" en "kantoor van een professor die fan is van Star Wars". Holodeck maakt gebruik van een groot taalmodel (GPT-4) voor gezond verstand over hoe de scène eruit zou kunnen zien en gebruikt een grote verzameling 3D-assets van Objaverse om de scène te vullen met diverse objecten. Om de uitdaging van het correct positioneren van objecten aan te pakken, vragen we GPT-4 om ruimtelijke relatiebeperkingen tussen objecten te genereren en optimaliseren we de lay-out om aan die beperkingen te voldoen. Onze grootschalige menselijke evaluatie toont aan dat annotators Holodeck verkiezen boven handmatig ontworpen procedurele baselines in residentiële scènes en dat Holodeck hoogwaardige uitvoer kan produceren voor diverse scènetypes. We demonstreren ook een spannende toepassing van Holodeck in Embodied AI, waarbij we agents trainen om te navigeren in nieuwe scènes zoals muziekkamers en kinderdagverblijven zonder door mensen geconstrueerde data, wat een significante stap voorwaarts is in de ontwikkeling van algemene embodied agents.
Dit werk heeft als doel de efficiëntie van tekst-naar-beeld diffusiemodellen te verbeteren. Hoewel diffusiemodellen in elke generatiestap rekenintensieve UNet-gebaseerde denoising-operaties gebruiken, constateren we dat niet alle operaties even relevant zijn voor de uiteindelijke uitvoerkwaliteit. In het bijzonder merken we op dat UNet-lagen die werken op hoog-resolutie kenmerkkaarten relatief gevoelig zijn voor kleine verstoringen. Daarentegen beïnvloeden laag-resolutie kenmerkkaarten de semantische opmaak van het uiteindelijke beeld en kunnen ze vaak worden verstoord zonder merkbare verandering in de uitvoer. Op basis van deze observatie stellen we Clockwork Diffusion voor, een methode die periodiek berekeningen van voorgaande denoising-stappen hergebruikt om laag-resolutie kenmerkkaarten in een of meer volgende stappen te benaderen. Voor meerdere basislijnen, en voor zowel tekst-naar-beeld generatie als beeldbewerking, tonen we aan dat Clockwork leidt tot vergelijkbare of verbeterde perceptuele scores met aanzienlijk verminderde rekencomplexiteit. Als voorbeeld besparen we voor Stable Diffusion v1.5 met 8 DPM++ stappen 32% van de FLOPs met verwaarloosbare veranderingen in FID en CLIP.
We presenteren FoundationPose, een geïntegreerd foundation model voor 6D objectpose-schatting en -tracking, dat zowel modelgebaseerde als modelvrije opstellingen ondersteunt. Onze aanpak kan direct tijdens testtijd worden toegepast op een nieuw object zonder fine-tuning, zolang het CAD-model beschikbaar is of een klein aantal referentiebeelden is vastgelegd. We overbruggen de kloof tussen deze twee opstellingen met een neurale impliciete representatie die effectieve synthese van nieuwe aanzichten mogelijk maakt, waardoor de downstream pose-schattingsmodules invariant blijven binnen hetzelfde geïntegreerde raamwerk. Sterke generaliseerbaarheid wordt bereikt via grootschalige synthetische training, ondersteund door een groot taalmodel (LLM), een nieuwe transformer-gebaseerde architectuur en een contrastieve leerformulering. Uitgebreide evaluatie op meerdere publieke datasets met uitdagende scenario's en objecten toont aan dat onze geïntegreerde aanpak bestaande methoden die gespecialiseerd zijn voor elke taak met een grote marge overtreft. Bovendien bereikt het zelfs vergelijkbare resultaten met instance-level methoden ondanks de verminderde aannames. Projectpagina: https://nvlabs.github.io/FoundationPose/
Grote taalmodellen (LLMs) staan voor uitdagingen bij het oplossen van complexe wiskundige problemen die uitgebreide capaciteiten vereisen om de uitspraken te ontleden, domeinkennis te associëren, samengesteld logisch redeneren uit te voeren en de tussenliggende redeneringen te integreren. Het in één keer aanpakken van al deze problemen kan voor LLMs zwaar zijn, wat kan leiden tot verwarring tijdens het genereren. In dit werk onderzoeken we het potentieel van het versterken van LLMs met agents door een zorgvuldige decompositie en modellering van het wiskundige redeneerproces. Specifiek stellen we een formele beschrijving voor van het wiskundige oplossen en breiden we LLMs uit met een agent-gebaseerd zero-shot framework genaamd Planner-Reasoner-Executor-Reflector (PRER). We bieden en implementeren verder twee MathAgents die de logische vormen en inherente relaties definiëren via een pool van acties in verschillende granulariteiten en oriëntaties: MathAgent-M past zijn acties aan aan LLMs, terwijl MathAgent-H aansluit bij de mensheid. Experimenten op miniF2F en MATH hebben de effectiviteit van PRER en de voorgestelde MathAgents aangetoond, met een stijging van 12,3% (53,9% naar 66,2%) op MiniF2F, 9,2% (49,8% naar 59,0%) op MATH, en 13,2% (23,2% naar 35,4%) voor niveau-5 problemen van MATH tegenover GPT-4. Verdere analytische resultaten bieden meer inzichtelijke perspectieven op het benutten van het gedrag van LLMs als agents.
Redenering ontdekken wordt gedefinieerd als het vinden van een subset van de invoergegevens die de voorspelling van downstream taken maximaal ondersteunt. In de context van grafiekmachinelearning wordt grafiekredenering gedefinieerd als het lokaliseren van de kritieke subgrafiek in de gegeven grafiektopologie, die fundamenteel de voorspellingsresultaten bepaalt. In tegenstelling tot de redeneringssubgrafiek wordt de resterende subgrafiek de omgevingssubgrafiek genoemd. Grafiekrationalisatie kan de modelprestaties verbeteren, omdat de mapping tussen de grafiekredenering en het voorspellingslabel als invariant wordt beschouwd, volgens de aanname. Om de discriminerende kracht van de geëxtraheerde redeneringssubgrafieken te waarborgen, wordt een belangrijke techniek genaamd "interventie" toegepast. De kern van interventie is dat, gegeven enige veranderende omgevingssubgrafieken, de semantiek van de redeneringssubgrafiek invariant blijft, wat het correcte voorspellingsresultaat garandeert. Echter, de meeste, zo niet alle, bestaande rationalisatiewerkzaamheden op grafiekgegevens ontwikkelen hun interventiestrategieën op grafiekniveau, wat grofkorrelig is. In dit artikel stellen we goed afgestemde interventiestrategieën voor op grafiekgegevens voor. Ons idee wordt gedreven door de ontwikkeling van Transformer-modellen, waarvan de zelf-attentiemodule rijke interacties tussen invoerknooppunten biedt. Op basis van de zelf-attentiemodule kan onze voorgestelde invariante grafiek Transformer (IGT) fijnkorrelige, meer specifiek, knooppuntniveau en virtueel knooppuntniveau interventie bereiken. Onze uitgebreide experimenten omvatten 7 real-world datasets, en de voorgestelde IGT toont significante prestatievoordelen in vergelijking met 13 baseline methoden.
Recente vooruitgang in neurale rendering heeft aangetoond dat, hoewel traag, impliciete compacte modellen de geometrieën en gezichtsafhankelijke verschijningen van een scène vanuit meerdere perspectieven kunnen leren. Om zo'n klein geheugenverbruik te behouden maar snellere inferentietijden te bereiken, hebben recente werken 'sampler'-netwerken geadopteerd die adaptief een kleine subset van punten langs elke straal in de impliciete neurale stralingsvelden bemonsteren. Hoewel deze methoden een reductie in rendertijd tot wel 10 keer bereiken, lijden ze nog steeds aan aanzienlijke kwaliteitsvermindering in vergelijking met de standaard NeRF. In contrast stellen wij ProNeRF voor, dat een optimale balans biedt tussen geheugenverbruik (vergelijkbaar met NeRF), snelheid (sneller dan HyperReel) en kwaliteit (beter dan K-Planes). ProNeRF is uitgerust met een nieuw projectiebewust bemonsteringsnetwerk (PAS) samen met een nieuwe trainingsstrategie voor straalverkenning en -exploitatie, waardoor efficiënte fijnmazige deeltjesbemonstering mogelijk wordt. Onze ProNeRF levert state-of-the-art metrieken, is 15-23 keer sneller met een 0.65dB hogere PSNR dan NeRF en levert een 0.95dB hogere PSNR dan de best gepubliceerde sampler-gebaseerde methode, HyperReel. Onze verkenning- en exploitatie-trainingsstrategie stelt ProNeRF in staat om de volledige kleur- en dichtheidsverdelingen van scènes te leren, terwijl het ook efficiënte straalbemonstering leert die zich richt op de regio's met de hoogste dichtheid. We bieden uitgebreide experimentele resultaten die de effectiviteit van onze methode ondersteunen op de veelgebruikte forward-facing en 360 datasets, respectievelijk LLFF en Blender.