Dagelijks geselecteerde AI onderzoekspapers met vertalingen
PaliGemma is een open Vision-Language Model (VLM) dat gebaseerd is op de SigLIP-So400m vision encoder en het Gemma-2B taalmodel. Het is getraind om een veelzijdig en breed geïnformeerd basismodel te zijn dat effectief is om over te dragen. Het behaalt sterke prestaties op een breed scala aan open-wereldtaken. We evalueren PaliGemma op bijna 40 diverse taken, waaronder standaard VLM-benchmarks, maar ook meer gespecialiseerde taken zoals remote sensing en segmentatie.
Grote taalmodellen (LLMs) hebben uitzonderlijke prestaties en enorm potentieel getoond bij diverse taken. De inzet van LLMs met hoge prestaties in omgevingen met beperkte middelen heeft echter aanzienlijke aandacht gekregen in de industrie. Wanneer GPU-hardwarebronnen beperkt zijn, kunnen we alternatieve opties op CPU's verkennen. Om de financiële last te verlichten en de beperkingen opgelegd door hardwarebronnen te verminderen, is het optimaliseren van de inferentieprestaties noodzakelijk. In dit artikel introduceren we een eenvoudig implementeerbare oplossing voor het optimaliseren van inferentieprestaties, gericht op het versnellen van LLMs op CPU's. In deze oplossing implementeren we een effectieve manier om de grootte van de KV-cache te verkleinen terwijl de nauwkeurigheid wordt gewaarborgd. We stellen een gedistribueerde inferentie-optimalisatiebenadering voor en implementeren deze op basis van de oneAPI Collective Communications Library. Daarnaast stellen we optimalisatiebenaderingen voor LLMs op CPU voor en voeren we op maat gemaakte optimalisaties uit voor de meest gebruikte modellen. De code is open-source beschikbaar op https://github.com/intel/xFasterTransformer.
Visuele instructieafstemming heeft aanzienlijke vooruitgang geboekt in het verbeteren van de mogelijkheden van Grote Multimodale Modellen (LMMs). Echter, bestaande open LMMs richten zich grotendeels op taken met één afbeelding, terwijl hun toepassingen in scenario's met meerdere afbeeldingen minder onderzocht zijn. Daarnaast behandelt eerder LMM-onderzoek verschillende scenario's afzonderlijk, waardoor het onmogelijk is om nieuwe opkomende mogelijkheden over scenario's heen te generaliseren. Om dit aan te pakken, introduceren we LLaVA-NeXT-Interleave, dat gelijktijdig scenario's met meerdere afbeeldingen, meerdere frames (video), meerdere perspectieven (3D) en meerdere patches (één afbeelding) in LMMs aanpakt. Om deze mogelijkheden te realiseren, beschouwen we het interleaved dataformaat als een algemene sjabloon en stellen we de M4-Instruct dataset samen met 1.177,6k samples, die 4 primaire domeinen omvatten met 14 taken en 41 datasets. We hebben ook de LLaVA-Interleave Bench samengesteld om de prestaties van LMMs in scenario's met meerdere afbeeldingen uitgebreid te evalueren. Door middel van uitgebreide experimenten behaalt LLaVA-NeXT-Interleave toonaangevende resultaten in benchmarks voor meerdere afbeeldingen, video en 3D, terwijl de prestaties van taken met één afbeelding behouden blijven. Daarnaast vertoont ons model ook verschillende opkomende mogelijkheden, zoals het overdragen van taken tussen verschillende instellingen en modaliteiten. De code is beschikbaar op https://github.com/LLaVA-VL/LLaVA-NeXT.
Het genereren van semantisch en temporeel uitgelijnde audiocontent in overeenstemming met video-invoer is een belangrijk aandachtspunt geworden voor onderzoekers, met name na de opmerkelijke doorbraak in tekst-naar-videogeneratie. In dit werk streven we ernaar inzichten te bieden in het video-naar-audiogeneratieparadigma, met de focus op drie cruciale aspecten: visie-encoders, aanvullende embeddings en data-augmentatietechnieken. Beginnend met een basis model VTA-LDM, gebaseerd op een eenvoudig maar verrassend effectief intuïtief idee, verkennen we verschillende visie-encoders en aanvullende embeddings via ablatiestudies. Door gebruik te maken van een uitgebreide evaluatiepijplijn die de nadruk legt op generatiekwaliteit en video-audio-synchronisatie, tonen we aan dat ons model state-of-the-art mogelijkheden heeft voor video-naar-audiogeneratie. Bovendien bieden we kritische inzichten in de impact van verschillende data-augmentatiemethoden op het verbeteren van de algehele capaciteit van het generatieframework. We laten mogelijkheden zien om de uitdaging van het genereren van gesynchroniseerde audio vanuit semantisch en temporeel perspectief verder te ontwikkelen. We hopen dat deze inzichten een opstap zullen vormen naar de ontwikkeling van realistischer en nauwkeuriger audiovisuele generatiemodellen.
We presenteren 4DiM, een gecascadeerd diffusiemodel voor 4D novel view synthesis (NVS), gebaseerd op één of meer afbeeldingen van een algemene scène, en een set cameraposities en tijdstempels. Om de uitdagingen door de beperkte beschikbaarheid van 4D-trainingsdata te overwinnen, pleiten we voor gezamenlijke training op 3D (met camerapositie), 4D (positie+tijd) en videodata (tijd maar geen positie) en introduceren we een nieuwe architectuur die dit mogelijk maakt. We bepleiten verder de kalibratie van SfM-geposeerde data met behulp van monokulaire metrische diepteschatters voor metrische schaal camerabesturing. Voor model evaluatie introduceren we nieuwe metrieken om de huidige evaluatieschema's te verrijken en tekortkomingen te overwinnen, waarbij we state-of-the-art resultaten demonstreren in zowel kwaliteit als positiebesturing in vergelijking met bestaande diffusiemodellen voor 3D NVS, terwijl we tegelijkertijd de mogelijkheid toevoegen om temporele dynamiek te hanteren. 4DiM wordt ook gebruikt voor verbeterde panoramastitching, positie-geconditioneerde video-naar-video vertaling, en verschillende andere taken. Voor een overzicht zie https://4d-diffusion.github.io.
We presenteren VEnhancer, een generatief ruimte-tijd verbeteringsframework dat de bestaande tekst-naar-video resultaten verbetert door meer details toe te voegen in het ruimtelijke domein en synthetische gedetailleerde beweging in het temporele domein. Gegeven een gegenereerde video van lage kwaliteit, kan onze aanpak de ruimtelijke en temporele resolutie gelijktijdig verhogen met willekeurige up-sampling schalen in ruimte en tijd via een geünificeerd video-diffusiemodel. Bovendien verwijdert VEnhancer effectief gegenereerde ruimtelijke artefacten en temporele flikkering van gegenereerde video's. Om dit te bereiken, trainen we, gebaseerd op een voorgetraind video-diffusiemodel, een video ControlNet en injecteren we dit in het diffusiemodel als een conditie op video's met een lage frame-rate en lage resolutie. Om dit video ControlNet effectief te trainen, ontwerpen we ruimte-tijd data-augmentatie evenals video-gerichte conditionering. Dankzij bovenstaande ontwerpen blijft VEnhancer stabiel tijdens de training en deelt het een elegante end-to-end trainingswijze. Uitgebreide experimenten tonen aan dat VEnhancer de bestaande state-of-the-art video-superresolutie en ruimte-tijd superresolutie methoden overtreft in het verbeteren van AI-gegenereerde video's. Bovendien bereikt, met VEnhancer, de bestaande open-source state-of-the-art tekst-naar-video methode, VideoCrafter-2, de eerste plaats in de video-generatie benchmark -- VBench.
Het aanpassen van tekst-naar-beeld (T2I) modellen heeft recentelijk enorme vooruitgang geboekt, met name op gebieden zoals personalisatie, stilisering en conditionele generatie. Het uitbreiden van deze vooruitgang naar videogeneratie staat echter nog in de kinderschoenen, voornamelijk vanwege het gebrek aan aangepaste videodata. In dit werk introduceren we Still-Moving, een nieuw generiek framework voor het aanpassen van een tekst-naar-video (T2V) model, zonder dat er aangepaste videodata nodig is. Het framework is van toepassing op het prominente T2V-ontwerp waarbij het videomodel is gebouwd op een tekst-naar-beeld (T2I) model (bijvoorbeeld via inflatie). We gaan ervan uit dat er toegang is tot een aangepaste versie van het T2I-model, getraind op alleen stilstaande beelddata (bijvoorbeeld met DreamBooth of StyleDrop). Het naïef inpluggen van de gewichten van het aangepaste T2I-model in het T2V-model leidt vaak tot significante artefacten of onvoldoende naleving van de aangepaste data. Om dit probleem te overwinnen, trainen we lichtgewicht Spatial Adapters die de features aanpassen die worden geproduceerd door de geïnjecteerde T2I-lagen. Belangrijk is dat onze adapters worden getraind op "bevroren video's" (d.w.z. herhaalde beelden), geconstrueerd uit beeldmonsters gegenereerd door het aangepaste T2I-model. Deze training wordt gefaciliteerd door een nieuw Motion Adapter-module, waarmee we kunnen trainen op dergelijke statische video's terwijl het bewegingsprior van het videomodel behouden blijft. Tijdens de testfase verwijderen we de Motion Adapter-modules en laten we alleen de getrainde Spatial Adapters in. Dit herstelt het bewegingsprior van het T2V-model terwijl het ruimtelijke prior van het aangepaste T2I-model wordt nageleefd. We demonstreren de effectiviteit van onze aanpak op diverse taken, waaronder gepersonaliseerde, gestileerde en conditionele generatie. In alle geëvalueerde scenario's integreert onze methode naadloos het ruimtelijke prior van het aangepaste T2I-model met een bewegingsprior geleverd door het T2V-model.
Grootschalige vooraf getrainde taalmodelen (LM's) zouden "het vermogen missen om uitingen te verbinden met de wereld" (Bender en Koller, 2020), omdat ze geen "mentale modellen van de wereld" hebben (Mitchell en Krakauer, 2023). Als dat zo is, zou men verwachten dat de representaties van LM's geen verband houden met representaties die worden geïnduceerd door visuele modellen. Wij presenteren een empirische evaluatie over vier families van LM's (BERT, GPT-2, OPT en LLaMA-2) en drie architecturen van visuele modellen (ResNet, SegFormer en MAE). Onze experimenten tonen aan dat LM's gedeeltelijk convergeren naar representaties die isomorf zijn aan die van visuele modellen, afhankelijk van spreiding, polysemie en frequentie. Dit heeft belangrijke implicaties voor zowel multimodale verwerking als het debat over het begrip van LM's (Mitchell en Krakauer, 2023).
Bestaande vision-text contrastive learning-modellen verbeteren de overdraagbaarheid van representaties en ondersteunen zero-shot voorspelling door gekoppelde afbeelding- en bijschrift-embeddingen op elkaar af te stemmen, terwijl niet-gerelateerde paren uit elkaar worden geduwd. Echter, astronomische afbeelding-label datasets zijn aanzienlijk kleiner in vergelijking met algemene afbeelding- en label datasets die beschikbaar zijn op het internet. Wij introduceren CosmoCLIP, een astronomisch beeld-tekst contrastief leerframework dat precies is afgestemd op het vooraf getrainde CLIP-model met behulp van SpaceNet en BLIP-gebaseerde bijschriften. SpaceNet, verkregen via FLARE, bestaat uit ~13k optimaal verdeelde afbeeldingen, terwijl BLIP fungeert als een rijke kennis-extractor. De rijke semantiek afgeleid van deze SpaceNet en BLIP-beschrijvingen, wanneer contrastief geleerd, stelt CosmoCLIP in staat om superieure generalisatie te bereiken over verschillende in-domein en out-of-domein taken. Onze resultaten tonen aan dat CosmoCLIP een eenvoudig maar krachtig framework is, dat CLIP significant overtreft in zero-shot classificatie en beeld-tekst retrieval taken.
In dit artikel onderzoeken we de besmetting van testverzamelingen voor codegeneratie, met name in hun gebruik in moderne grote taalmodellen. We bespreken drie mogelijke bronnen van dergelijke besmetting en presenteren bevindingen die elk ervan ondersteunen: (i) directe datalekken, (ii) indirecte datalekken door het gebruik van synthetische data en (iii) overfitting aan evaluatieverzamelingen tijdens modelselectie. Centraal in onze bevindingen staat een nieuwe dataset van 161 prompts met hun bijbehorende Python-oplossingen, een dataset die beschikbaar is gesteld op https://huggingface.co/datasets/CohereForAI/lbpp.
Wij stellen een robotleermethode voor voor het communiceren, plannen en uitvoeren van een breed scala aan taken, genaamd This&That. We bereiken robotplanning voor algemene taken door gebruik te maken van de kracht van videogeneratieve modellen die getraind zijn op internet-schaal data met rijke fysieke en semantische context. In dit werk pakken we drie fundamentele uitdagingen aan in videogebaseerde planning: 1) eenduidige taakcommunicatie met eenvoudige menselijke instructies, 2) beheersbare videogeneratie die rekening houdt met gebruikersintenties, en 3) het vertalen van visuele planning naar robotacties. Wij stellen taal-gestuurde conditionering voor om video's te genereren, wat zowel eenvoudiger als duidelijker is dan bestaande taal-alleen methoden, vooral in complexe en onzekere omgevingen. Vervolgens suggereren we een ontwerp voor gedragscloning dat naadloos de videoplannen integreert. This&That toont state-of-the-art effectiviteit in het aanpakken van de bovenstaande drie uitdagingen, en rechtvaardigt het gebruik van videogeneratie als een tussenliggende representatie voor generaliseerbare taakplanning en -uitvoering. Projectwebsite: https://cfeng16.github.io/this-and-that/.
Het trainen van een classificatiemodel op web-gecrawlde data vereist leer-algoritmen die robuust zijn tegen annotatiefouten en irrelevante voorbeelden. Dit artikel bouwt voort op de recente empirische observatie dat het toepassen van ongecontroleerd contrastief leren op lawaaierige, web-gecrawlde datasets een kenmerkrepresentatie oplevert waarbinnen de in-distributie (ID) en out-of-distributie (OOD) voorbeelden lineair scheidbaar zijn. We tonen aan dat directe schatting van het scheidende hypervlak inderdaad een nauwkeurige detectie van OOD-voorbeelden kan bieden, maar verrassend genoeg vertaalt deze detectie zich niet in verbeteringen in classificatienauwkeurigheid. Door dieper in dit fenomeen te duiken, ontdekken we dat de bijna perfecte detectie een type schone voorbeelden mist die waardevol zijn voor begeleid leren. Deze voorbeelden vertegenwoordigen vaak visueel eenvoudige afbeeldingen, die relatief eenvoudig te identificeren zijn als schone voorbeelden met behulp van standaard verlies- of afstandsgebaseerde methoden, ondanks dat ze slecht gescheiden zijn van de OOD-distributie bij gebruik van ongecontroleerd leren. Omdat we verder een lage correlatie met SOTA-metrics waarnemen, dringt dit ons ertoe een hybride oplossing voor te stellen die afwisselt tussen ruisdetectie met behulp van lineaire scheiding en een state-of-the-art (SOTA) klein-verlies-benadering. Wanneer gecombineerd met het SOTA-algoritme PLS, verbeteren we de SOTA-resultaten voor beeldclassificatie in de echte wereld aanzienlijk in de aanwezigheid van webruis github.com/PaulAlbert31/LSA.
Crowd Motion Generation is essentieel in entertainmentindustrieën zoals animatie en games, evenals in strategische domeinen zoals stedelijke simulatie en planning. Deze nieuwe taak vereist een ingewikkelde integratie van controle en generatie om realistische crowd-dynamiek te synthetiseren onder specifieke ruimtelijke en semantische beperkingen, waarvan de uitdagingen nog niet volledig zijn onderzocht. Enerzijds richten bestaande modellen voor menselijke bewegingsgeneratie zich doorgaans op individueel gedrag, waarbij de complexiteit van collectief gedrag wordt verwaarloosd. Anderzijds zijn recente methoden voor multi-persoonsbewegingsgeneratie sterk afhankelijk van vooraf gedefinieerde scenario’s en beperkt tot een vast, klein aantal interpersoonlijke interacties, wat hun praktische toepasbaarheid belemmert. Om deze uitdagingen te overwinnen, introduceren we CrowdMoGen, een zero-shot tekstgestuurd framework dat de kracht van Large Language Models (LLM) benut om collectieve intelligentie in het bewegingsgeneratieframework te integreren als leidraad, waardoor generaliseerbare planning en generatie van crowd-bewegingen mogelijk wordt zonder gepaarde trainingsdata. Ons framework bestaat uit twee belangrijke componenten: 1) de Crowd Scene Planner, die leert om bewegingen en dynamiek te coördineren volgens specifieke scènecontexten of geïntroduceerde verstoringen, en 2) de Collective Motion Generator, die efficiënt de vereiste collectieve bewegingen synthetiseert op basis van holistische plannen. Uitgebreide kwantitatieve en kwalitatieve experimenten hebben de effectiviteit van ons framework bevestigd, dat niet alleen een kritieke leemte opvult door schaalbare en generaliseerbare oplossingen te bieden voor de Crowd Motion Generation-taak, maar ook een hoog realisme en flexibiliteit bereikt.
We introduceren BiGym, een nieuwe benchmark en leeromgeving voor mobiele bi-manuele demo-gestuurde robotmanipulatie. BiGym bevat 40 diverse taken in huiselijke omgevingen, variërend van eenvoudig doelbereik tot complexe keukenreiniging. Om de prestaties in de echte wereld nauwkeurig vast te leggen, bieden we door mensen verzamelde demonstraties voor elke taak, die de diverse modaliteiten in echte robottrajectorieën weerspiegelen. BiGym ondersteunt een verscheidenheid aan observaties, waaronder proprioceptieve gegevens en visuele invoer zoals RGB en diepte vanuit 3 camerabeelden. Om de bruikbaarheid van BiGym te valideren, benchmarken we grondig de state-of-the-art imitatieleeralgoritmen en demo-gestuurde reinforcement learning-algoritmen binnen de omgeving en bespreken we de toekomstige mogelijkheden.