Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We onderzoeken de effectiviteit van een eenvoudige aanpak om een klein basis taalmodel (LM) te ontwikkelen, uitgaande van een bestaand groot basis LM: eerst enkele transformerblokken overnemen van het grotere LM, en vervolgens dit kleinere model trainen op een zeer kleine subset (0,1\%) van de ruwe pretrainingsgegevens van het grotere model. We noemen ons eenvoudige recept Inheritune en demonstreren het eerst voor het bouwen van een klein basis LM met 1,5B parameters met behulp van 1B tokens (en een start van enkele lagen van een groter LM van 3B parameters); we doen dit met een enkele A6000 GPU in minder dan een halve dag. Over 9 diverse evaluatiedatasets en de MMLU-benchmark heen, presteert het resulterende model gunstig in vergelijking met publiek beschikbare basismodellen van 1B-2B grootte, waarvan sommige zijn getraind met 50-1000 keer meer tokens. We onderzoeken Inheritune in een iets andere setting waar we kleine LM's trainen met behulp van grotere LM's en hun volledige pretrainingsdataset. Hier laten we zien dat kleinere LM's die zijn getraind met behulp van enkele lagen van GPT2-medium (355M) en GPT-2-large (770M) effectief de val-verlieswaarde van hun grotere tegenhangers kunnen evenaren wanneer ze vanaf nul worden getraind voor hetzelfde aantal trainingsstappen op de OpenWebText-dataset met 9B tokens. We analyseren ons recept met uitgebreide experimenten en demonstreren de effectiviteit ervan in diverse settings. Onze code is beschikbaar op https://github.com/sanyalsunny111/LLM-Inheritune.
In de afgelopen decennia heeft de visiegemeenschap opmerkelijke vooruitgang geboekt in visuele herkenning, deels dankzij vooruitgang in datasetbenchmarks. Met name de gevestigde COCO-benchmark heeft de ontwikkeling van moderne detectie- en segmentatiesystemen bevorderd. Het COCO-segmentatiebenchmark heeft echter relatief langzame verbeteringen gezien in het afgelopen decennium. Oorspronkelijk uitgerust met grove polygoonannotaties voor objectinstanties, werd het geleidelijk aangevuld met grove superpixelannotaties voor achtergrondregio's, die vervolgens heuristisch werden samengevoegd om panoptische segmentatieannotaties te produceren. Deze annotaties, uitgevoerd door verschillende groepen beoordelaars, hebben niet alleen geleid tot grove segmentatiemaskers, maar ook tot inconsistenties tussen segmentatietypen. In deze studie ondernemen we een uitgebreide herevaluatie van de COCO-segmentatieannotaties. Door de annotatiekwaliteit te verbeteren en de dataset uit te breiden tot 383K afbeeldingen met meer dan 5,18 miljoen panoptische maskers, introduceren we COCONut, de COCO Next Universal segmenTation dataset. COCONut harmoniseert segmentatieannotaties voor semantische, instantie- en panoptische segmentatie met zorgvuldig vervaardigde hoogwaardige maskers en stelt een robuuste benchmark in voor alle segmentatietaken. Voor zover wij weten, is COCONut de eerste grootschalige universele segmentatiedataset die door menselijke beoordelaars is geverifieerd. We verwachten dat de release van COCONut een aanzienlijke bijdrage zal leveren aan het vermogen van de gemeenschap om de vooruitgang van nieuwe neurale netwerken te beoordelen.
Dit artikel onderzoekt de prestaties van Contrastive Language-Image Pre-training (CLIP) wanneer het wordt geschaald naar beperkte rekenbudgetten. We verkennen CLIP langs drie dimensies: data, architectuur en trainingsstrategieën. Wat betreft data, tonen we het belang aan van hoogwaardige trainingsdata en laten we zien dat een kleinere dataset van hoge kwaliteit beter kan presteren dan een grotere dataset van lagere kwaliteit. We onderzoeken ook hoe modelprestaties variëren bij verschillende datasetgroottes, wat suggereert dat kleinere ViT-modellen beter geschikt zijn voor kleinere datasets, terwijl grotere modellen beter presteren op grotere datasets met een vast rekenbudget. Daarnaast geven we richtlijnen over wanneer een CNN-gebaseerde architectuur of een ViT-gebaseerde architectuur te kiezen voor CLIP-training. We vergelijken vier CLIP-trainingsstrategieën - SLIP, FLIP, CLIP en CLIP+Data Augmentation - en laten zien dat de keuze van trainingsstrategie afhangt van de beschikbare rekenbronnen. Onze analyse toont aan dat CLIP+Data Augmentation vergelijkbare prestaties kan bereiken als CLIP met slechts de helft van de trainingsdata. Dit werk biedt praktische inzichten in hoe CLIP-modellen effectief kunnen worden getraind en ingezet, waardoor ze toegankelijker en betaalbaarder worden voor praktisch gebruik in diverse toepassingen.
Recente vooruitgang in grootschalige voorafgaande training heeft geleid tot visuele basis-modellen met sterke capaciteiten. Niet alleen kunnen recente modellen generaliseren naar willekeurige afbeeldingen voor hun trainingsdoel, hun tussenliggende representaties zijn ook nuttig voor andere visuele taken zoals detectie en segmentatie. Gezien het feit dat dergelijke modellen objecten in 2D kunnen classificeren, afbakenen en lokaliseren, vragen we ons af of ze ook hun 3D-structuur representeren? In dit werk analyseren we het 3D-bewustzijn van visuele basis-modellen. We stellen dat 3D-bewustzijn impliceert dat representaties (1) de 3D-structuur van de scène coderen en (2) het oppervlak consistent representeren over verschillende aanzichten. We voeren een reeks experimenten uit met taakspecifieke probes en zero-shot inferentieprocedures op bevroren kenmerken. Onze experimenten onthullen verschillende beperkingen van de huidige modellen. Onze code en analyse zijn te vinden op https://github.com/mbanani/probe3d.
Recente vooruitgang in monocular diepteschatting is geboekt door natuurlijke taal als aanvullende begeleiding te integreren. Hoewel dit indrukwekkende resultaten oplevert, blijft de impact van de taalprior, met name wat betreft generalisatie en robuustheid, ononderzocht. In dit artikel pakken we deze leemte aan door de impact van deze prior te kwantificeren en introduceren we methoden om de effectiviteit ervan in verschillende situaties te benchmarken. We genereren "laagniveau" zinnen die objectgerichte, driedimensionale ruimtelijke relaties overbrengen, integreren deze als aanvullende taalpriors en evalueren hun downstream impact op diepteschatting. Onze belangrijkste bevinding is dat huidige taalgestuurde diepteschatters optimaal presteren alleen met beschrijvingen op scèneniveau en tegenintuïtief slechter presteren met laagniveau beschrijvingen. Ondanks het benutten van aanvullende gegevens zijn deze methoden niet bestand tegen gerichte adversariële aanvallen en nemen ze in prestaties af bij een toename van distributieverschuiving. Tot slot, om een basis te bieden voor toekomstig onderzoek, identificeren we faalpunten en bieden we inzichten om deze tekortkomingen beter te begrijpen. Met een groeiend aantal methoden die taal gebruiken voor diepteschatting, benadrukken onze bevindingen de kansen en valkuilen die zorgvuldige overweging vereisen voor effectieve inzet in real-world situaties.
Reinforcement Learning (RL) op basis van feedback uit menselijke voorkeuren is een populair paradigma voor het finetunen van generatieve modellen, wat indrukwekkende modellen zoals GPT-4 en Claude3 Opus heeft opgeleverd. Dit raamwerk bestaat vaak uit twee stappen: het leren van een beloningsmodel op basis van een offline voorkeursdataset, gevolgd door het uitvoeren van online RL om het geleerde beloningsmodel te optimaliseren. In dit werk introduceren we, gebruikmakend van het idee van reset, een nieuw RLHF-algoritme met bewezen garanties. Gemotiveerd door het feit dat offline voorkeursdatasets informatieve toestanden bieden (d.w.z. data die de voorkeur heeft van de labelers), integreert ons nieuwe algoritme, Dataset Reset Policy Optimization (DR-PO), de bestaande offline voorkeursdataset in het online beleidstraject via dataset reset: het zet de beleidsoptimalisatie direct terug naar de toestanden in de offline dataset, in plaats van altijd te beginnen vanuit de initiële toestandsverdeling. Theoretisch tonen we aan dat DR-PO leert om minstens zo goed te presteren als elk beleid dat wordt gedekt door de offline dataset onder algemene functiebenadering met eindige steekproefcomplexiteit. In experimenten demonstreren we dat op zowel de TL;DR-samenvattingsdataset als de Anthropic Helpful Harmful (HH)-dataset, de generatie van DR-PO beter is dan die van Proximal Policy Optimization (PPO) en Direction Preference Optimization (DPO), gemeten aan de hand van de GPT4 win-rate. De code voor dit werk is te vinden op https://github.com/Cornell-RL/drpo.
De nieuwste geregulariseerde Neural Radiance Field (NeRF) benaderingen leveren slechte geometrie en uitzichtsextrapolatie op voor multiview stereo (MVS) benchmarks zoals ETH3D. In dit artikel streven we ernaar om 3D-modellen te creëren die nauwkeurige geometrie en uitzichtsynthese bieden, waardoor de grote prestatiekloof op het gebied van geometrie tussen NeRF en traditionele MVS-methoden gedeeltelijk wordt gedicht. We stellen een patch-gebaseerde aanpak voor die effectief gebruikmaakt van monoculaire oppervlaktenormaal- en relatieve dieptevoorspellingen. De patch-gebaseerde straalmonstering maakt ook de regularisatie van het uiterlijk mogelijk door middel van genormaliseerde kruiscorrelatie (NCC) en structurele gelijkenis (SSIM) tussen willekeurig bemonsterde virtuele en trainingsbeelden. We tonen verder aan dat "dichtheidsbeperkingen" gebaseerd op sparse structure-from-motion punten de geometrische nauwkeurigheid aanzienlijk kunnen verbeteren met een lichte daling in de metingen voor nieuwe uitzichtsynthese. Onze experimenten laten een 4x betere prestatie zien dan RegNeRF en 8x beter dan FreeNeRF op de gemiddelde F1@2cm voor de ETH3D MVS benchmark, wat een vruchtbare onderzoeksrichting suggereert om de geometrische nauwkeurigheid van NeRF-gebaseerde modellen te verbeteren, en licht werpt op een potentiële toekomstige aanpak om NeRF-gebaseerde optimalisatie uiteindelijk traditionele MVS te laten overtreffen.