Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De opkomst van grote taalmodelen (LLMs) en instructieafstemming heeft geleid tot de huidige trend van instructieafgestemde grote taal- en visiemodellen (LLVMs). Deze trend omvat het zorgvuldig samenstellen van talrijke instructieafstemmingsdatasets die zijn toegesneden op specifieke doelen, of het vergroten van LLVMs om enorme hoeveelheden visuele taal (VL) data te verwerken. Echter, huidige LLVMs hebben de gedetailleerde en uitgebreide real-world scènebegrip genegeerd die beschikbaar is vanuit gespecialiseerde computervisie (CV) modellen in visuele perceptietaken zoals segmentatie, detectie, scènegrafgeneratie (SGG), en optische tekenherkenning (OCR). In plaats daarvan vertrouwen bestaande LLVMs voornamelijk op de grote capaciteit en emergente mogelijkheden van hun LLM-backbones. Daarom presenteren we een nieuw LLVM, Mixture of All Intelligence (MoAI), dat gebruikmaakt van aanvullende visuele informatie verkregen uit de uitvoer van externe segmentatie-, detectie-, SGG- en OCR-modellen. MoAI werkt via twee nieuw geïntroduceerde modules: MoAI-Compressor en MoAI-Mixer. Na het verbaliseren van de uitvoer van de externe CV-modellen, aligneert en comprimeert de MoAI-Compressor deze om efficiënt gebruik te maken van relevante aanvullende visuele informatie voor VL-taken. MoAI-Mixer mengt vervolgens drie soorten intelligentie: (1) visuele kenmerken, (2) aanvullende kenmerken van de externe CV-modellen, en (3) taal kenmerken door gebruik te maken van het concept van Mixture of Experts. Door deze integratie presteert MoAI aanzienlijk beter dan zowel open-source als closed-source LLVMs in talrijke zero-shot VL-taken, met name die gerelateerd aan real-world scènebegrip zoals objectaanwezigheid, posities, relaties, en OCR, zonder het model te vergroten of extra visuele instructieafstemmingsdatasets samen te stellen.
We introduceren Chronos, een eenvoudig maar effectief raamwerk voor voorgetrainde probabilistische tijdreeksmodellen. Chronos tokeniseert tijdreekswaarden door middel van schaling en kwantisering in een vaste vocabulaire en traint bestaande transformer-gebaseerde taalmodelarchitecturen op deze getokeniseerde tijdreeksen via het kruis-entropieverlies. We hebben Chronos-modellen voorgetraind op basis van de T5-familie (variërend van 20M tot 710M parameters) op een grote verzameling publiek beschikbare datasets, aangevuld met een synthetische dataset die we hebben gegenereerd via Gaussische processen om de generalisatie te verbeteren. In een uitgebreide benchmark bestaande uit 42 datasets, en omvattende zowel klassieke lokale modellen als deep learning-methoden, laten we zien dat Chronos-modellen: (a) significant beter presteren dan andere methoden op datasets die deel uitmaakten van de trainingscorpus; en (b) vergelijkbare en soms superieure zero-shot prestaties hebben op nieuwe datasets, in vergelijking met methoden die specifiek daarop zijn getraind. Onze resultaten tonen aan dat Chronos-modellen tijdreeksgegevens uit diverse domeinen kunnen benutten om de zero-shot nauwkeurigheid op onbekende voorspellingstaken te verbeteren, waardoor voorgetrainde modellen zich positioneren als een haalbaar instrument om voorspellingspijplijnen aanzienlijk te vereenvoudigen.
We onderzoeken efficiënte methoden voor het trainen van Large Language Models (LLMs) om vaardigheden te ontwikkelen in meerdere gespecialiseerde domeinen, zoals coderen, wiskundig redeneren en wereldkennis. Onze methode, genaamd Branch-Train-MiX (BTX), begint met een basismodel, dat wordt vertakt om experts te trainen op een parallelle manier met hoge doorvoer en gereduceerde communicatiekosten. Nadat individuele experts asynchroon zijn getraind, brengt BTX hun feedforward-parameters samen als experts in Mixture-of-Expert (MoE)-lagen en worden de overige parameters gemiddeld, gevolgd door een MoE-finetuningfase om token-level routing te leren. BTX generaliseert twee speciale gevallen: de Branch-Train-Merge-methode, die niet de MoE-finetuningfase heeft om routing te leren, en sparse upcycling, die de fase van het asynchroon trainen van experts overslaat. In vergelijking met alternatieve benaderingen bereikt BTX de beste balans tussen nauwkeurigheid en efficiëntie.
Het creëren van hoogwaardige, door mensen gelabelde afbeelding-bijschrift datasets vormt een aanzienlijke bottleneck in de ontwikkeling van Visueel-Taalmodellen (VLM's). Wij stellen een nieuwe aanpak voor die de sterke punten van Grote Taalmodellen (LLM's) en afbeeldingsgeneratiemodellen benut om synthetische afbeelding-tekst paren te creëren voor efficiënte en effectieve training van VLM's. Onze methode maakt gebruik van het vooraf trainen van een tekst-naar-afbeelding model om afbeeldingsembeddingen te synthetiseren, uitgaande van bijschriften die gegenereerd zijn door een LLM. Deze synthetische paren worden vervolgens gebruikt om een VLM te trainen. Uitgebreide experimenten tonen aan dat het VLM dat getraind is met synthetische data vergelijkbare prestaties levert op het gebied van afbeelding-bijschrift generatie, terwijl slechts een fractie van de data nodig is die gebruikt wordt door modellen die uitsluitend op door mensen geannoteerde data zijn getraind. In het bijzonder overtreffen we de baseline met 17% door augmentatie met een synthetische dataset. Bovendien laten we zien dat synthetiseren in de afbeeldingsembedding ruimte 25% sneller is dan in de pixelruimte. Dit onderzoek introduceert een veelbelovende techniek voor het genereren van grootschalige, aanpasbare afbeeldingsdatasets, wat leidt tot verbeterde VLM-prestaties en bredere toepasbaarheid in verschillende domeinen, allemaal met verbeterde data-efficiëntie en resourcebenutting.
Het genereren van menselijke bewegingen vormt een belangrijk streven binnen generatieve computervisie, terwijl het bereiken van lange sequenties en efficiënte bewegingsgeneratie een uitdaging blijft. Recente vooruitgang in state space models (SSM's), met name Mamba, heeft aanzienlijke belofte getoond in het modelleren van lange sequenties met een efficiënt hardwarebewust ontwerp, wat een veelbelovende richting lijkt om een bewegingsgeneratiemodel op te baseren. Desalniettemin stuit het aanpassen van SSM's aan bewegingsgeneratie op hindernissen vanwege het ontbreken van een gespecialiseerde ontwerparchitectuur om bewegingssequenties te modelleren. Om deze uitdagingen aan te pakken, stellen we Motion Mamba voor, een eenvoudige en efficiënte aanpak die het pionierende bewegingsgeneratiemodel presenteert dat gebruik maakt van SSM's. Specifiek ontwerpen we een Hierarchical Temporal Mamba (HTM)-blok om temporele data te verwerken door een variërend aantal geïsoleerde SSM-modules te combineren binnen een symmetrische U-Net-architectuur, gericht op het behouden van bewegingsconsistentie tussen frames. We ontwerpen ook een Bidirectional Spatial Mamba (BSM)-blok om latente poses bidirectioneel te verwerken, om nauwkeurige bewegingsgeneratie binnen een temporeel frame te verbeteren. Onze voorgestelde methode behaalt tot 50% FID-verbetering en is tot 4 keer sneller op de HumanML3D- en KIT-ML-datasets vergeleken met de vorige beste op diffusie gebaseerde methode, wat sterke capaciteiten aantoont voor het modelleren van hoogwaardige lange sequentiebewegingen en real-time generatie van menselijke bewegingen. Zie projectwebsite https://steve-zeyu-zhang.github.io/MotionMamba/
We introduceren DragAnything, dat een entiteitsrepresentatie gebruikt om bewegingscontrole te bereiken voor elk object in gecontroleerde videogeneratie. In vergelijking met bestaande methoden voor bewegingscontrole biedt DragAnything verschillende voordelen. Ten eerste is trajectgebaseerde interactie gebruiksvriendelijker wanneer het verkrijgen van andere begeleidingssignalen (bijv. maskers, dieptekaarten) arbeidsintensief is. Gebruikers hoeven alleen maar een lijn (traject) te tekenen tijdens de interactie. Ten tweede dient onze entiteitsrepresentatie als een open-domein embedding die in staat is elk object weer te geven, waardoor de bewegingscontrole van diverse entiteiten, inclusief de achtergrond, mogelijk wordt. Tot slot stelt onze entiteitsrepresentatie gelijktijdige en afzonderlijke bewegingscontrole voor meerdere objecten in staat. Uitgebreide experimenten tonen aan dat onze DragAnything state-of-the-art prestaties bereikt voor FVD, FID en gebruikersstudies, met name op het gebied van objectbewegingscontrole, waar onze methode de vorige methoden (bijv. DragNUWA) met 26% overtreft in menselijke stemmen.
We presenteren FAX, een op JAX gebaseerde bibliotheek die is ontworpen om grootschalige gedistribueerde en federatieve berekeningen te ondersteunen, zowel in datacenter- als cross-device-toepassingen. FAX maakt gebruik van JAX's sharding-mechanismen om native ondersteuning te bieden voor TPU's en state-of-the-art JAX-runtimes, waaronder Pathways. FAX integreert bouwstenen voor federatieve berekeningen als primitieven in JAX. Dit biedt drie belangrijke voordelen. Ten eerste kunnen FAX-berekeningen worden vertaald naar XLA HLO. Ten tweede biedt FAX een volledige implementatie van federatieve automatische differentiatie, wat het uitdrukken van federatieve berekeningen aanzienlijk vereenvoudigt. Tot slot kunnen FAX-berekeningen worden geïnterpreteerd naar bestaande productie-omgevingen voor cross-device federatieve berekeningen. We tonen aan dat FAX een eenvoudig programmeerbaar, performant en schaalbaar raamwerk biedt voor federatieve berekeningen in het datacenter. FAX is beschikbaar op https://github.com/google-research/google-research/tree/master/fax.
Een open probleem in mobiele manipulatie is hoe objecten en scènes op een uniforme manier te representeren, zodat robots deze zowel kunnen gebruiken voor navigatie in de omgeving als voor het manipuleren van objecten. Het laatste vereist het vastleggen van complexe geometrie terwijl fijnmazige semantiek wordt begrepen, terwijl het eerste het vastleggen van de complexiteit inhoudt die inherent is aan een uitgebreide fysieke schaal. In dit werk presenteren we GeFF (Generalizable Feature Fields), een scene-level generaliseerbaar neuraal kenmerkveld dat fungeert als een uniforme representatie voor zowel navigatie als manipulatie en in realtime presteert. Hiervoor behandelen we generatieve novel view synthesis als een voorafgaande taak en aligneren we de resulterende rijke scenepriors met natuurlijke taal via CLIP-kenmerkdistillatie. We demonstreren de effectiviteit van deze aanpak door GeFF te implementeren op een viervoetige robot uitgerust met een manipulator. We evalueren het vermogen van GeFF om te generaliseren naar open-set objecten, evenals de uitvoeringstijd, bij het uitvoeren van open-vocabulary mobiele manipulatie in dynamische scènes.