Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Moderne kunstmatige intelligentie (AI) systemen worden aangedreven door foundation models. Dit artikel introduceert een nieuwe set foundation models, genaamd Llama 3. Het is een verzameling taalmodelen die van nature ondersteuning bieden voor meertaligheid, programmeren, redeneren en het gebruik van tools. Ons grootste model is een dense Transformer met 405B parameters en een contextvenster van maximaal 128K tokens. Dit artikel presenteert een uitgebreide empirische evaluatie van Llama 3. We constateren dat Llama 3 vergelijkbare kwaliteit levert als toonaangevende taalmodelen zoals GPT-4 op een breed scala aan taken. We maken Llama 3 publiekelijk beschikbaar, inclusief vooraf getrainde en nage-trainde versies van het taalmodel met 405B parameters en ons Llama Guard 3 model voor de veiligheid van invoer en uitvoer. Het artikel presenteert ook de resultaten van experimenten waarin we beeld-, video- en spraakmogelijkheden integreren in Llama 3 via een compositionele aanpak. We observeren dat deze aanpak concurrerend presteert met de state-of-the-art op het gebied van beeld-, video- en spraakherkenningstaken. De resulterende modellen worden nog niet breed vrijgegeven, omdat ze nog in ontwikkeling zijn.
Recente vooruitgang in Diffusion Transformer (DiT) heeft opmerkelijke vaardigheid getoond in het produceren van hoogwaardige videocontent. Desalniettemin blijft het potentieel van transformer-gebaseerde diffusiemodellen voor het effectief genereren van video's met controleerbare beweging een gebied met beperkte verkenning. Dit artikel introduceert Tora, het eerste traject-georiënteerde DiT-framework dat tekstuele, visuele en trajectcondities gelijktijdig integreert voor videogeneratie. Specifiek bestaat Tora uit een Trajectory Extractor (TE), een Spatial-Temporal DiT, en een Motion-guidance Fuser (MGF). De TE codeert willekeurige trajecten in hiërarchische ruimte-tijdbewegingspatches met een 3D-videocompressienetwerk. De MGF integreert de bewegingspatches in de DiT-blokken om consistente video's te genereren die trajecten volgen. Ons ontwerp sluit naadloos aan bij de schaalbaarheid van DiT, waardoor precieze controle over de dynamiek van videocontent mogelijk is met diverse duur, beeldverhoudingen en resoluties. Uitgebreide experimenten tonen de uitmuntendheid van Tora in het bereiken van hoge bewegingsgetrouwheid, terwijl ook de beweging van de fysieke wereld nauwkeurig wordt gesimuleerd. De pagina is te vinden op https://ali-videoai.github.io/tora_video.
We introduceren MoMa, een nieuwe modaliteitsbewuste mixture-of-experts (MoE)-architectuur ontworpen voor het vooraf trainen van gemengd-modale, early-fusion taalmodellen. MoMa verwerkt afbeeldingen en tekst in willekeurige volgorden door expertmodules op te delen in modaliteitsspecifieke groepen. Deze groepen verwerken uitsluitend toegewezen tokens terwijl ze geleerde routering binnen elke groep gebruiken om semantisch geïnformeerde aanpassingsvermogen te behouden. Onze empirische resultaten tonen aanzienlijke efficiëntiewinsten tijdens het vooraf trainen door deze modaliteitsspecifieke parameterallocatie. Onder een trainingsbudget van 1 biljoen tokens behaalt het MoMa 1.4B-model, met 4 teksexperts en 4 afbeeldingsexperts, indrukwekkende FLOPs-besparingen: 3,7x in totaal, met 2,6x voor tekst en 5,2x voor afbeeldingsverwerking vergeleken met een compute-equivalent dicht baseline-model, gemeten aan de hand van het verlies tijdens het vooraf trainen. Dit overtreft de standaard expert-choice MoE met 8 gemengd-modale experts, die een totale FLOPs-besparing van 3x behaalt (3x voor tekst, 2,8x voor afbeeldingen). De combinatie van MoMa met mixture-of-depths (MoD) verbetert de FLOPs-besparingen tijdens het vooraf trainen verder tot 4,2x in totaal (tekst: 3,4x, afbeeldingen: 5,3x), hoewel deze combinatie de prestaties bij causale inferentie schaadt vanwege een grotere gevoeligheid voor de nauwkeurigheid van de router. Deze resultaten tonen het potentieel van MoMa aan om de efficiëntie van gemengd-modale, early-fusion taalmodellen tijdens het vooraf trainen aanzienlijk te verbeteren, wat de weg vrijmaakt voor meer resource-efficiënte en capabele multimodale AI-systemen.
In dit artikel presenteren we Cross Language Agent -- Simultaneous Interpretation, CLASI, een hoogwaardig en menselijk Simultaan Spraakvertaling (SiST) systeem. Geïnspireerd door professionele menselijke tolken, maken we gebruik van een nieuwe data-gedreven lees-schrijf strategie om de vertaalkwaliteit en latentie in balans te brengen. Om de uitdaging van het vertalen van domeinspecifieke terminologie aan te pakken, gebruikt CLASI een multi-modale retrievemodule om relevante informatie te verkrijgen om de vertaling te versterken. Ondersteund door LLM's kan onze aanpak foutgetolererde vertalingen genereren door rekening te houden met de invoeraudio, historische context en opgehaalde informatie. Experimentele resultaten tonen aan dat ons systeem andere systemen met aanzienlijke marges overtreft. In lijn met professionele menselijke tolken evalueren we CLASI met een betere menselijke evaluatiemetriek, de valid information proportion (VIP), die de hoeveelheid informatie meet die succesvol aan de luisteraars kan worden overgebracht. In real-world scenario's, waar toespraken vaak onvloeiend, informeel en onduidelijk zijn, behaalt CLASI een VIP van 81,3% en 78,0% voor respectievelijk Chinees-naar-Engels en Engels-naar-Chinees vertaalrichtingen. Daarentegen behalen state-of-the-art commerciële of open-source systemen slechts 35,4% en 41,6%. Op de extreem moeilijke dataset, waar andere systemen minder dan 13% VIP behalen, kan CLASI nog steeds 70% VIP behalen.
We presenteren ShieldGemma, een uitgebreide suite van LLM-gebaseerde veiligheidsmodellen voor contentmoderatie, gebouwd op Gemma2. Deze modellen bieden robuuste, state-of-the-art voorspellingen van veiligheidsrisico's voor belangrijke schadetypen (seksueel expliciet, gevaarlijke inhoud, intimidatie, haatzaaien) in zowel gebruikersinput als LLM-gegenereerde output. Door evaluatie op zowel publieke als interne benchmarks tonen we superieure prestaties aan in vergelijking met bestaande modellen, zoals Llama Guard (+10,8\% AU-PRC op publieke benchmarks) en WildCard (+4,3\%). Daarnaast presenteren we een innovatieve LLM-gebaseerde datacuratiepipeline, die aanpasbaar is voor diverse veiligheidsgerelateerde taken en meer. We hebben sterke generalisatieprestaties aangetoond voor modellen die voornamelijk op synthetische data zijn getraind. Door ShieldGemma vrij te geven, bieden we een waardevolle bron aan de onderzoeksgemeenschap, waardoor de veiligheid van LLM's wordt bevorderd en ontwikkelaars effectievere oplossingen voor contentmoderatie kunnen creëren.
De 1e Workshop over Datavervuiling (CONDA 2024) richt zich op alle relevante aspecten van datavervuiling in natuurlijke taalverwerking, waarbij datavervuiling wordt begrepen als situaties waarin evaluatiedata is opgenomen in de pre-trainingscorpora die worden gebruikt om grootschalige modellen te trainen, wat de evaluatieresultaten compromitteert. De workshop heeft een gezamenlijke taak gestimuleerd om bewijs te verzamelen over datavervuiling in momenteel beschikbare datasets en modellen. Het doel van de gezamenlijke taak en de bijbehorende database is om de gemeenschap te helpen bij het begrijpen van de omvang van het probleem en om onderzoekers te ondersteunen bij het vermijden van het rapporteren van evaluatieresultaten op bekende vervuilde bronnen. De gezamenlijke taak biedt een gestructureerde, gecentraliseerde openbare database voor het verzamelen van bewijs van vervuiling, die openstaat voor bijdragen van de gemeenschap via GitHub pull requests. Dit eerste compilatiepaper is gebaseerd op 566 gerapporteerde invoeren over 91 vervuilde bronnen van in totaal 23 bijdragers. De details van de individuele vervuilingsgebeurtenissen zijn beschikbaar op het platform. Het platform blijft online en staat open voor bijdragen van de gemeenschap.
Audio-visuele semantische segmentatie (AVSS) heeft als doel om geluidmakende objecten in video's te segmenteren en te classificeren met behulp van akoestische aanwijzingen. De meeste benaderingen werken echter op basis van de close-set-aanname en identificeren alleen vooraf gedefinieerde categorieën uit de trainingsdata, wat het generalisatievermogen mist om nieuwe categorieën in praktische toepassingen te detecteren. In dit artikel introduceren we een nieuwe taak: open-vocabulary audio-visuele semantische segmentatie, die de AVSS-taak uitbreidt naar open-wereldscenario's buiten de geannoteerde labelruimte. Dit is een uitdagendere taak die vereist dat alle categorieën worden herkend, zelfs die welke nooit zijn gezien of gehoord tijdens de training. Bovendien stellen we het eerste open-vocabulary AVSS-framework voor, OV-AVSS, dat voornamelijk bestaat uit twee delen: 1) een universele geluidsbronlocalisatiemodule om audio-visuele fusie uit te voeren en alle potentiële geluidmakende objecten te lokaliseren, en 2) een open-vocabulary classificatiemodule om categorieën te voorspellen met behulp van de voorkennis uit grootschalige vooraf getrainde vision-language-modellen. Om de open-vocabulary AVSS goed te evalueren, splitsen we zero-shot trainings- en testsubsets op basis van de AVSBench-semantic benchmark, genaamd AVSBench-OV. Uitgebreide experimenten tonen het sterke segmentatie- en zero-shot generalisatievermogen van ons model aan voor alle categorieën. Op de AVSBench-OV dataset behaalt OV-AVSS 55,43% mIoU op basis categorieën en 29,14% mIoU op nieuwe categorieën, wat de state-of-the-art zero-shot methode met 41,88%/20,61% en de open-vocabulary methode met 10,2%/11,6% overtreft. De code is beschikbaar op https://github.com/ruohaoguo/ovavss.
Auteurschapobfuscatie heeft als doel de identiteit van een auteur binnen een tekst te verhullen door de schrijfstijl, woordenschat, syntaxis en andere linguïstische kenmerken die aan de tekst auteur zijn verbonden, aan te passen. Deze aanpassing moet een balans vinden tussen privacy en bruikbaarheid. Hoewel sterke obfuscatietechnieken effectief de identiteit van de auteur kunnen verbergen, verslechteren ze vaak de kwaliteit en het nut van de tekst voor het beoogde doel. Omgekeerd biedt het handhaven van een hoge bruikbaarheid meestal onvoldoende privacy, waardoor het voor een tegenstander gemakkelijker wordt om de auteur te de-anonimiseren. Het bereiken van een optimale afweging tussen deze twee tegenstrijdige doelstellingen is daarom cruciaal. In dit artikel stellen we TAROT voor: Task-Oriented Authorship Obfuscation Using Policy Optimization, een nieuwe onbewaakte auteurschapobfuscatiemethode die als doel heeft de privacy-bruikbaarheid afweging te optimaliseren door de gehele tekst opnieuw te genereren met inachtneming van de downstream bruikbaarheid. Onze aanpak maakt gebruik van beleidsoptimalisatie als een fine-tuning paradigma over kleine taalmodellen om teksten te herschrijven met behoud van de auteursidentiteit en de bruikbaarheid voor downstream taken. We tonen aan dat onze aanpak de nauwkeurigheid van aanvallers aanzienlijk vermindert terwijl de bruikbaarheid behouden blijft. We stellen onze code en modellen publiekelijk beschikbaar.
We introduceren Berkeley Humanoid, een betrouwbaar en kosteneffectief mid-schaal humanoïde onderzoeksplatform voor op leren gebaseerde controle. Onze lichtgewicht, in eigen huis gebouwde robot is specifiek ontworpen voor leer-algoritmen met lage simulatiecomplexiteit, antropomorfe beweging en hoge betrouwbaarheid tegen vallen. De smalle sim-to-real kloof van de robot maakt behendige en robuuste voortbeweging mogelijk over diverse terreinen in buitenomgevingen, bereikt met een eenvoudige reinforcement learning controller die gebruikmaakt van lichte domeinrandomisatie. Bovendien demonstreren we dat de robot honderden meters aflegt, op een steil onverhard pad loopt en springt met zowel enkele als dubbele benen, wat getuigt van zijn hoge prestaties bij dynamisch lopen. Met de mogelijkheid tot omnidirectionele voortbeweging en het weerstaan van grote verstoringen in een compacte opstelling, streeft ons systeem naar een schaalbare, sim-to-real implementatie van op leren gebaseerde humanoïde systemen. Bezoek voor meer details http://berkeley-humanoid.com.
Gezichtsuitdrukkingen en handbewegingen zijn essentieel om onze emoties uit te drukken en te interacteren met de wereld. Desondanks ondersteunen de meeste 3D-menselijke avatars die gemodelleerd zijn vanuit een casual opgenomen video alleen lichaamsbewegingen zonder gezichtsuitdrukkingen en handbewegingen. In dit werk presenteren we ExAvatar, een expressieve 3D-menselijke avatar voor het hele lichaam, geleerd vanuit een korte monoscopische video. We ontwerpen ExAvatar als een combinatie van het parametrische mesh-model voor het hele lichaam (SMPL-X) en 3D Gaussian Splatting (3DGS). De belangrijkste uitdagingen zijn 1) een beperkte diversiteit aan gezichtsuitdrukkingen en poses in de video en 2) de afwezigheid van 3D-waarnemingen, zoals 3D-scans en RGBD-beelden. De beperkte diversiteit in de video maakt animaties met nieuwe gezichtsuitdrukkingen en poses niet-triviaal. Bovendien kan de afwezigheid van 3D-waarnemingen leiden tot aanzienlijke ambiguïteit in menselijke delen die niet worden waargenomen in de video, wat merkbare artefacten kan veroorzaken onder nieuwe bewegingen. Om deze problemen aan te pakken, introduceren we onze hybride representatie van het mesh en 3D Gaussians. Onze hybride representatie behandelt elke 3D Gaussian als een vertex op het oppervlak met vooraf gedefinieerde connectiviteitsinformatie (driehoekige vlakken) tussen hen, volgens de mesh-topologie van SMPL-X. Dit maakt onze ExAvatar animeerbaar met nieuwe gezichtsuitdrukkingen door deze aan te sturen via de gezichtsuitdrukkingsruimte van SMPL-X. Daarnaast verminderen we door het gebruik van connectiviteitsgebaseerde regularizers aanzienlijk artefacten in nieuwe gezichtsuitdrukkingen en poses.
Huidige visuele basis-modellen worden uitsluitend getraind op ongestructureerde 2D-data, wat hun begrip van de 3D-structuur van objecten en scènes beperkt. In dit werk tonen we aan dat fine-tuning op 3D-bewuste data de kwaliteit van opkomende semantische kenmerken verbetert. We ontwerpen een methode om semantische 2D-kenmerken om te zetten in een efficiënte 3D Gaussische representatie, wat ons in staat stelt ze opnieuw te renderen voor willekeurige gezichtspunten. Met behulp van de gerenderde 3D-bewuste kenmerken ontwikkelen we een fine-tuning strategie om dergelijk 3D-bewustzijn over te dragen naar een 2D basis-model. We demonstreren dat modellen die op deze manier zijn gefinetuned, kenmerken produceren die de prestaties van downstream taken zoals semantische segmentatie en diepteschatting aanzienlijk verbeteren via eenvoudige lineaire probing. Opmerkelijk is dat, hoewel gefinetuned op een enkele indoor dataset, de verbetering overdraagbaar is naar een verscheidenheid aan indoor datasets en out-of-domain datasets. We hopen dat onze studie de gemeenschap aanmoedigt om 3D-bewustzijn te overwegen bij het trainen van 2D basis-modellen. Projectpagina: https://ywyue.github.io/FiT3D.
Het integreren van een temporele dimensie in vooraf getrainde beelddiffusiemodellen voor videogeneratie is een veelgebruikte aanpak. Deze methode is echter rekenintensief en vereist grootschalige videodatasets. Nog kritischer is dat de heterogeniteit tussen beeld- en videodatasets vaak leidt tot catastrofaal verlies van de beeldkennis. Recente pogingen om direct videofragmenten uit beelddiffusiemodellen te extraheren hebben deze problemen enigszins verlicht. Desalniettemin kunnen deze methoden slechts korte videoclips genereren met eenvoudige bewegingen en slagen ze er niet in om fijnmazige beweging of niet-gridvormige vervorming vast te leggen. In dit artikel introduceren we een nieuwe Zero-Shot video Sampling-algoritme, aangeduid als ZS^2, dat in staat is om direct hoogwaardige videoclips te genereren uit bestaande beeld synthesemethoden, zoals Stable Diffusion, zonder enige training of optimalisatie. Specifiek maakt ZS^2 gebruik van het afhankelijkheidsruismodel en temporele momentum aandacht om respectievelijk inhoudelijke consistentie en animatiecoherentie te waarborgen. Deze mogelijkheid stelt het in staat om uit te blinken in gerelateerde taken, zoals conditionele en context-specifieke videogeneratie en instructiegestuurde videobewerking. Experimentele resultaten tonen aan dat ZS^2 state-of-the-art prestaties bereikt in zero-shot videogeneratie, waarbij het af en toe recente gesuperviseerde methoden overtreft. Homepage: https://densechen.github.io/zss/.
Neurale velden blinken uit in computervisie en robotica vanwege hun vermogen om de 3D-visuele wereld te begrijpen, zoals het afleiden van semantiek, geometrie en dynamica. Gezien de mogelijkheden van neurale velden om een 3D-scène dicht te representeren vanuit 2D-beelden, stellen we de vraag: Kunnen we hun zelfgesuperviseerde voorafgaande training opschalen, specifiek door gebruik te maken van gemaskeerde auto-encoders, om effectieve 3D-representaties te genereren uit gepositioneerde RGB-beelden? Vanwege het verbluffende succes van het uitbreiden van transformers naar nieuwe datamodaliteiten, gebruiken we standaard 3D Vision Transformers om aan te sluiten bij de unieke formulering van NeRFs. We benutten het volumetrische raster van NeRF als een dichte invoer voor de transformer, in contrast met andere 3D-representaties zoals puntenwolken waar de informatiedichtheid ongelijk kan zijn en de representatie onregelmatig is. Vanwege de moeilijkheid om gemaskeerde auto-encoders toe te passen op een impliciete representatie, zoals NeRF, kiezen we ervoor om een expliciete representatie te extraheren die scènes over domeinen heen kanoniseren door gebruik te maken van de cameratrajecorie voor bemonstering. Ons doel wordt mogelijk gemaakt door willekeurige patches te maskeren uit het stralings- en dichtheidsraster van NeRF en een standaard 3D Swin Transformer te gebruiken om de gemaskeerde patches te reconstrueren. Hierdoor kan het model de semantische en ruimtelijke structuur van complete scènes leren. We trainen deze representatie op grote schaal vooraf op onze voorgestelde gecureerde gepositioneerde RGB-data, in totaal meer dan 1,8 miljoen beelden. Eenmaal voorgetraind, wordt de encoder gebruikt voor effectief 3D-transferleren. Onze nieuwe zelfgesuperviseerde voorafgaande training voor NeRFs, NeRF-MAE, schaalt opmerkelijk goed en verbetert de prestaties op verschillende uitdagende 3D-taken. Door gebruik te maken van ongelabelde gepositioneerde 2D-data voor voorafgaande training, presteert NeRF-MAE aanzienlijk beter dan zelfgesuperviseerde 3D-voorafgaande training en NeRF-scènebegrip-baselines op de Front3D- en ScanNet-datasets met een absolute prestatieverbetering van meer dan 20% AP50 en 8% AP25 voor 3D-objectdetectie.