Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Vision transformers (ViTs) gebaseerd op self-attention zijn naar voren gekomen als een zeer competitieve architectuur in computervisie. In tegenstelling tot convolutionele neurale netwerken (CNNs) zijn ViTs in staat om globale informatie uit te wisselen. Met de ontwikkeling van verschillende ViT-structuren worden ViTs steeds voordeliger voor veel visuele taken. De kwadratische complexiteit van self-attention maakt ViTs echter rekenintensief, en het ontbreken van inductieve biases voor lokaliteit en translatie-equivariantie vereist grotere modelgroottes in vergelijking met CNNs om visuele kenmerken effectief te leren. In dit artikel stellen we een lichtgewicht en efficiënt vision transformer-model voor, genaamd DualToken-ViT, dat de voordelen van CNNs en ViTs benut. DualToken-ViT combineert effectief de token met lokale informatie verkregen door een convolutionele structuur en de token met globale informatie verkregen door een self-attention-structuur om een efficiënte aandachtstructuur te bereiken. Daarnaast gebruiken we position-aware globale tokens in alle fasen om de globale informatie te verrijken, wat het effect van DualToken-ViT verder versterkt. Position-aware globale tokens bevatten ook de positie-informatie van de afbeelding, wat ons model beter geschikt maakt voor visuele taken. We hebben uitgebreide experimenten uitgevoerd op taken zoals beeldclassificatie, objectdetectie en semantische segmentatie om de effectiviteit van DualToken-ViT aan te tonen. Op de ImageNet-1K dataset behalen onze modellen van verschillende schalen nauwkeurigheden van 75,4% en 79,4% met slechts 0,5G en 1,0G FLOPs, respectievelijk, en ons model met 1,0G FLOPs presteert 0,7% beter dan LightViT-T dat globale tokens gebruikt.
Vooraf trainen op internetgegevens is een cruciaal ingrediënt gebleken voor brede generalisatie in veel moderne ML-systemen. Wat zou er nodig zijn om dergelijke mogelijkheden mogelijk te maken in robotische reinforcement learning (RL)? Offline RL-methoden, die leren van datasets met robotervaring, bieden een manier om bestaande gegevens te benutten in het robotische leerproces. Deze methoden hebben echter een "type mismatch" met videogegevens (zoals Ego4D), de grootste beschikbare datasets voor robotica, omdat video alleen observatie-ervaring biedt zonder de actie- of beloningsannotaties die nodig zijn voor RL-methoden. In dit paper ontwikkelen we een systeem om grootschalige menselijke videodatasets te benutten in robotisch offline RL, volledig gebaseerd op het leren van waardefuncties via temporal-difference learning. We laten zien dat het leren van waarden op videodatasets representaties oplevert die beter geschikt zijn voor downstream robotisch offline RL dan andere benaderingen voor leren van videogegevens. Ons systeem, genaamd V-PTR, combineert de voordelen van vooraf trainen op videogegevens met robotische offline RL-benaderingen die trainen op diverse robotgegevens, wat resulteert in waardefuncties en beleidsregels voor manipulatietaken die beter presteren, robuust handelen en breed generaliseren. Op verschillende manipulatietaken op een echte WidowX-robot produceert ons framework beleidsregels die aanzienlijk beter presteren dan eerdere methoden. Onze video en aanvullende details zijn te vinden op https://dibyaghosh.com/vptr/.
We presenteren MosaicFusion, een eenvoudige maar effectieve data-augmentatiebenadering op basis van diffusie voor instance segmentation met een grote woordenschat. Onze methode is trainingsvrij en maakt geen gebruik van enige labelsupervisie. Twee belangrijke ontwerpkeuzes stellen ons in staat om een standaard tekst-naar-beeld diffusiemodel in te zetten als een nuttige datasetgenerator voor objectinstanties en maskerannotaties. Ten eerste verdelen we een beeldcanvas in meerdere regio's en voeren we een enkele ronde van het diffusieproces uit om meerdere instanties tegelijkertijd te genereren, gebaseerd op verschillende tekstprompts. Ten tweede verkrijgen we de bijbehorende instantiemaskers door cross-attention maps die geassocieerd zijn met objectprompts over lagen en diffusietijdstappen te aggregeren, gevolgd door eenvoudige drempelwaardebepaling en edge-aware verfijning. Zonder overbodige toevoegingen kan onze MosaicFusion een aanzienlijke hoeveelheid synthetische gelabelde data produceren voor zowel zeldzame als nieuwe categorieën. Experimentele resultaten op de uitdagende LVIS long-tailed en open-vocabulary benchmarks tonen aan dat MosaicFusion de prestaties van bestaande instance segmentation-modellen aanzienlijk kan verbeteren, vooral voor zeldzame en nieuwe categorieën. De code zal worden vrijgegeven op https://github.com/Jiahao000/MosaicFusion.
Neuraal netwerk snoeien biedt een effectieve methode voor het comprimeren van een meertalig automatisch spraakherkenningsmodel (ASR) met minimaal prestatieverlies. Het vereist echter meerdere rondes van snoeien en opnieuw trainen die voor elke taal moeten worden uitgevoerd. In dit werk stellen we het gebruik van een adaptieve maskeringsbenadering voor in twee scenario's voor het efficiënt snoeien van een meertalig ASR-model, wat resulteert in ofwel spaarzame eentalige modellen of een spaarzaam meertalig model (genaamd Dynamic ASR Pathways). Onze benadering past het sub-netwerk dynamisch aan, waardoor voortijdige beslissingen over een vaste sub-netwerkstructuur worden vermeden. We tonen aan dat onze benadering bestaande snoeimethoden overtreft wanneer het doel is om spaarzame eentalige modellen te creëren. Verder illustreren we dat Dynamic ASR Pathways gezamenlijk betere sub-netwerken (paden) van een enkel meertalig model ontdekt en traint door zich aan te passen vanuit verschillende sub-netwerkinitialisaties, waardoor de behoefte aan taal-specifiek snoeien wordt verminderd.