Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De BigCode-gemeenschap, een open wetenschappelijke samenwerking die werkt aan de verantwoorde ontwikkeling van Large Language Models voor Code (Code LLM's), introduceert StarCoder en StarCoderBase: modellen met 15,5 miljard parameters en een contextlengte van 8K, uitgerust met infill-mogelijkheden en snelle inferentie voor grote batches dankzij multi-query attention. StarCoderBase is getraind op 1 biljoen tokens afkomstig van The Stack, een grote verzameling GitHub-repositories met permissieve licenties, inspectietools en een opt-out-procedure. We hebben StarCoderBase verfijnd op 35 miljard Python-tokens, wat resulteerde in de creatie van StarCoder. We voeren de meest uitgebreide evaluatie van Code LLM's tot nu toe uit en tonen aan dat StarCoderBase alle open Code LLM's die meerdere programmeertalen ondersteunen overtreft, en even goed of beter presteert dan het OpenAI code-cushman-001 model. Bovendien overtreft StarCoder elk model dat is verfijnd op Python, kan het worden aangestuurd om 40\% pass@1 te behalen op HumanEval, en behoudt het zijn prestaties op andere programmeertalen. We nemen verschillende belangrijke stappen naar een veilige open-access modelrelease, waaronder een verbeterde PII-redactiepijplijn en een nieuw attributietracingtool, en maken de StarCoder-modellen publiekelijk beschikbaar onder een commercieel haalbare versie van de Open Responsible AI Model-licentie.
In deze studie beginnen we een verkenning van videobegrip door VideoChat te introduceren, een end-to-end chatsysteem gericht op videobegrip. Het integreert videofundamentmodellen en grote taalmodellen via een leerbare neurale interface, en blinkt uit in ruimtelijk-temporeel redeneren, gebeurtenislokalisatie en het afleiden van causale relaties. Om dit systeem instructief af te stemmen, stellen we een video-centrale instructiedataset voor, bestaande uit duizenden video's die zijn gekoppeld aan gedetailleerde beschrijvingen en gesprekken. Deze dataset legt de nadruk op ruimtelijk-temporeel redeneren en causale relaties, en biedt een waardevolle bron voor het trainen van chat-gerichte videobegripsystemen. Eerste kwalitatieve experimenten onthullen het potentieel van ons systeem voor een breed scala aan videotoepassingen en zetten de standaard voor toekomstig onderzoek. Onze code en data zijn beschikbaar op https://github.com/OpenGVLab/Ask-Anything.
Generatieve AI (AIGC, ook wel AI-gegenereerde inhoud) heeft de afgelopen jaren opmerkelijke vooruitgang geboekt, waarbij tekstgestuurde inhoudsgeneratie de meest praktische toepassing is, omdat het de interactie tussen menselijke instructies en AIGC mogelijk maakt. Door de ontwikkelingen in tekst-naar-beeldtechnologieën en 3D-modelleringstechnologieën (zoals NeRF), is tekst-naar-3D een nieuw opkomend maar zeer actief onderzoeksgebied geworden. Ons werk biedt de eerste uitgebreide overzichtsstudie over tekst-naar-3D om lezers die geïnteresseerd zijn in deze richting snel op de hoogte te brengen van de snelle ontwikkelingen. Eerst introduceren we 3D-data-representaties, inclusief zowel Euclidische data als niet-Euclidische data. Daarnaast introduceren we verschillende basistechnologieën en vatten we samen hoe recente werken deze basistechnologieën combineren om bevredigende tekst-naar-3D te realiseren. Bovendien vatten we samen hoe tekst-naar-3D-technologie wordt gebruikt in diverse toepassingen, waaronder avatar-generatie, textuur-generatie, vormtransformatie en scènegeneratie.
Om robots voor algemene doeleinden mogelijk te maken, moeten ze dagelijks gearticuleerde objecten kunnen bedienen zoals mensen dat doen. De huidige robotmanipulatie heeft sterk vertrouwd op het gebruik van een parallelle grijper, wat de robot beperkt tot een beperkte set objecten. Aan de andere kant zal het gebruik van een robothand met meerdere vingers een betere benadering van menselijk gedrag mogelijk maken en de robot in staat stellen om diverse gearticuleerde objecten te bedienen. Hiertoe stellen we een nieuwe benchmark voor, genaamd DexArt, waarbij het gaat om behendige manipulatie van gearticuleerde objecten in een fysieke simulator. In onze benchmark definiëren we meerdere complexe manipulatietaken, en de robothand zal diverse gearticuleerde objecten moeten manipuleren binnen elke taak. Onze belangrijkste focus is het evalueren van de generaliseerbaarheid van het geleerde beleid op onbekende gearticuleerde objecten. Dit is zeer uitdagend gezien de hoge mate van vrijheid van zowel handen als objecten. We gebruiken Reinforcement Learning in combinatie met 3D-representatie leren om generalisatie te bereiken. Door uitgebreide studies bieden we nieuwe inzichten in hoe 3D-representatie leren de besluitvorming in RL beïnvloedt bij 3D-puntwolkinputs. Meer details zijn te vinden op https://www.chenbao.tech/dexart/.
Wij stellen een nieuwe aanpak voor voor het ontwikkelen van privacy-bewuste grootschalige aanbevelingssystemen met behulp van differentieel private (DP) grote taalmmodellen (LLM's), die bepaalde uitdagingen en beperkingen bij het DP-trainen van deze complexe systemen overwint. Onze methode is bijzonder goed geschikt voor het opkomende gebied van LLM-gebaseerde aanbevelingssystemen, maar kan eenvoudig worden toegepast op elk aanbevelingssysteem dat representaties van natuurlijke taalinputs verwerkt. Onze aanpak omvat het gebruik van DP-trainingsmethoden om een openbaar voorgetraind LLM te fine-tunen voor een querygeneratietaak. Het resulterende model kan private synthetische queries genereren die representatief zijn voor de originele queries, die vrijelijk gedeeld kunnen worden voor alle downstream niet-private aanbevelingstrainingsprocedures zonder extra privacykosten te maken. Wij evalueren onze methode op het vermogen om effectieve diepe retrievalsystemen veilig te trainen, en we observeren aanzienlijke verbeteringen in hun retrievalkwaliteit zonder de privacygaranties op queryniveau in gevaar te brengen, vergeleken met methoden waarbij de retrievalsystemen direct DP-getraind worden.
Het bouwen van animeerbare 3D-modellen is uitdagend vanwege de behoefte aan 3D-scans, arbeidsintensieve registratie en handmatige rigging, wat moeilijk schaalbaar is naar willekeurige categorieën. Recentelijk biedt differentieerbaar renderen een weg om hoogwaardige 3D-modellen te verkrijgen uit monovideo's, maar deze zijn beperkt tot rigide categorieën of enkele instanties. Wij presenteren RAC, dat categorie-3D-modellen bouwt uit monovideo's terwijl variaties tussen instanties en beweging over tijd worden ontward. Drie sleutelideeën worden geïntroduceerd om dit probleem op te lossen: (1) het specialiseren van een skelet naar instanties via optimalisatie, (2) een methode voor latentieruimte-regularisatie die gedeelde structuur binnen een categorie aanmoedigt terwijl details van instanties behouden blijven, en (3) het gebruik van 3D-achtergrondmodellen om objecten van de achtergrond te scheiden. We tonen aan dat 3D-modellen van mensen, katten en honden kunnen worden geleerd uit 50-100 internetvideo's.
Het representeren van menselijke prestaties met hoge nauwkeurigheid is een essentieel bouwblok in diverse toepassingen, zoals filmproductie, computerspellen of videoconferenties. Om de kloof naar productieniveau te dichten, introduceren we HumanRF, een 4D dynamische neurale scène-representatie die het volledige lichaam in beweging vastlegt vanuit multi-view video-input, en weergave mogelijk maakt vanuit nieuwe, onbekende gezichtspunten. Onze nieuwe representatie fungeert als een dynamische video-codering die fijne details vastlegt bij hoge compressieverhoudingen door ruimte-tijd te factoriseren in een tijdelijke matrix-vector-decompositie. Hierdoor kunnen we temporeel coherente reconstructies van menselijke acteurs verkrijgen voor lange sequenties, terwijl we hoogresolutie details representeren, zelfs in de context van uitdagende bewegingen. Terwijl het meeste onderzoek zich richt op synthese bij resoluties van 4MP of lager, pakken we de uitdaging aan om te werken bij 12MP. Hiertoe introduceren we ActorsHQ, een nieuw multi-view dataset dat 12MP-beelden biedt van 160 camera's voor 16 sequenties met hoogwaardige, per-frame mesh-reconstructies. We demonstreren uitdagingen die ontstaan bij het gebruik van dergelijke hoogresolutiegegevens en laten zien dat onze nieuw geïntroduceerde HumanRF deze gegevens effectief benut, waardoor een significante stap wordt gezet naar productieniveau-kwaliteit bij novel view synthesis.
In dit artikel analyseren we de prestaties van een multitask end-to-end transformermodel voor de taak van conversatie-aanbevelingen, die gericht zijn op het geven van aanbevelingen op basis van expliciete voorkeuren van een gebruiker zoals uitgedrukt in een dialoog. Terwijl eerdere werken in dit gebied complexe multi-componentbenaderingen hanteren waarbij de dialoogbeheer- en entiteitsaanbevelingstaken door afzonderlijke componenten worden afgehandeld, tonen we aan dat een uniform transformermodel, gebaseerd op het T5 text-to-text transformermodel, competitief kan presteren in zowel het aanbevelen van relevante items als het genereren van conversatiedialoog. We fine-tunen ons model op de ReDIAL dataset voor conversatie-aanbevelingen voor films, en creëren aanvullende trainings taken afgeleid van MovieLens (zoals het voorspellen van filmattributen en gerelateerde films op basis van een ingevoerde film), in een multitask leeromgeving. Met behulp van een reeks proefstudies demonstreren we dat de opgedane kennis in de aanvullende taken wordt overgedragen naar de conversatieomgeving, waarbij elke taak leidt tot een toename van 9%-52% in de bijbehorende proefscore.
We presenteren Integrated Multimodal Perception (IMP), een eenvoudige en schaalbare multimodale multi-task trainings- en modelleerbenadering. IMP integreert multimodale invoer, waaronder beeld, video, tekst en audio, in een enkele Transformer-encoder met minimale modale specifieke componenten. IMP maakt gebruik van een nieuw ontwerp dat Alternating Gradient Descent (AGD) en Mixture-of-Experts (MoE) combineert voor efficiënte model- en taskschaling. We voeren uitgebreide empirische studies uit over IMP en onthullen de volgende belangrijke inzichten: 1) het uitvoeren van gradient descent-updates door af te wisselen op diverse heterogene modaliteiten, verliesfuncties en taken, terwijl ook de invoerresoluties worden gevarieerd, verbetert multimodaal begrip efficiënt. 2) modelsparsificatie met MoE op een enkele modale-agnostische encoder verbetert de prestaties aanzienlijk, waarbij dichte modellen die modale specifieke encoders of extra fusielagen gebruiken, worden overtroffen en de conflicten tussen modaliteiten sterk worden verminderd. IMP behaalt competitieve prestaties op een breed scala aan downstream taken, waaronder beeldclassificatie, videoclassificatie, beeld-tekst- en video-tekstretrieval. Opmerkelijk is dat we een sparse IMP-MoE-L trainen die zich richt op videotaken en een nieuwe state-of-the-art bereikt in zero-shot videoclassificatie. Ons model behaalt 77,0% op Kinetics-400, 76,8% op Kinetics-600 en 76,8% op Kinetics-700 zero-shot classificatienauwkeurigheid, wat de vorige state-of-the-art verbetert met respectievelijk +5%, +6,7% en +5,8%, terwijl slechts 15% van hun totale trainingscomputatiekosten wordt gebruikt.