Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel audiogeneratie overeenkomsten vertoont tussen verschillende soorten audio, zoals spraak, muziek en geluidseffecten, vereist het ontwerpen van modellen voor elk type een zorgvuldige afweging van specifieke doelstellingen en vooroordelen die aanzienlijk kunnen verschillen van die van andere types. Om ons dichter bij een verenigd perspectief op audiogeneratie te brengen, stelt dit artikel een raamwerk voor dat dezelfde leermethode gebruikt voor de generatie van spraak, muziek en geluidseffecten. Ons raamwerk introduceert een algemene representatie van audio, genaamd de taal van audio (Language of Audio, LOA). Elke audio kan worden vertaald naar LOA op basis van AudioMAE, een zelfgesuperviseerd vooraf getraind representatie-leermodel. In het generatieproces vertalen we elke modaliteit naar LOA met behulp van een GPT-2-model, en voeren we zelfgesuperviseerd audiogeneratie-leren uit met een latent diffusiemodel dat is geconditioneerd op LOA. Het voorgestelde raamwerk biedt van nature voordelen zoals in-context leervermogen en herbruikbare zelfgesuperviseerde vooraf getrainde AudioMAE- en latent diffusiemodellen. Experimenten op de belangrijkste benchmarks voor tekst-naar-audio, tekst-naar-muziek en tekst-naar-spraak tonen nieuwe state-of-the-art of competitieve prestaties aan ten opzichte van eerdere benaderingen. Onze demo en code zijn beschikbaar op https://audioldm.github.io/audioldm2.
Het waarborgen van alignment, wat verwijst naar het laten gedragen van modellen in overeenstemming met menselijke intenties [1,2], is een kritische taak geworden voordat grote taalmmodellen (LLM's) in real-world toepassingen worden ingezet. OpenAI besteedde bijvoorbeeld zes maanden aan het iteratief aligneren van GPT-4 voordat het werd vrijgegeven [3]. Een grote uitdaging waar praktijkmensen echter voor staan, is het gebrek aan duidelijke richtlijnen voor het evalueren of de uitvoer van LLM's in overeenstemming is met sociale normen, waarden en regelgeving. Dit obstakel belemmert de systematische iteratie en inzet van LLM's. Om dit probleem aan te pakken, presenteert dit artikel een uitgebreid overzicht van belangrijke dimensies die cruciaal zijn om te overwegen bij het beoordelen van de betrouwbaarheid van LLM's. Het overzicht behandelt zeven belangrijke categorieën van LLM-betrouwbaarheid: betrouwbaarheid, veiligheid, eerlijkheid, weerstand tegen misbruik, uitlegbaarheid en redenering, naleving van sociale normen, en robuustheid. Elke hoofdcategorie is verder onderverdeeld in verschillende subcategorieën, wat resulteert in een totaal van 29 subcategorieën. Daarnaast wordt een subset van 8 subcategorieën geselecteerd voor verder onderzoek, waarbij corresponderende meetstudies worden ontworpen en uitgevoerd op verschillende veelgebruikte LLM's. De meetresultaten geven aan dat, over het algemeen, meer gealigneerde modellen beter presteren wat betreft de algehele betrouwbaarheid. De effectiviteit van alignment varieert echter tussen de verschillende beschouwde betrouwbaarheidscategorieën. Dit benadrukt het belang van het uitvoeren van meer gedetailleerde analyses, tests en het maken van continue verbeteringen aan LLM-alignment. Door licht te werpen op deze belangrijke dimensies van LLM-betrouwbaarheid, beoogt dit artikel waardevolle inzichten en richtlijnen te bieden aan praktijkmensen in het veld. Het begrijpen en aanpakken van deze zorgen zal van cruciaal belang zijn voor het bereiken van een betrouwbare en ethisch verantwoorde inzet van LLM's in verschillende toepassingen.
Meervoudige sequentie-uitlijningen (MSA's) van eiwitten bevatten rijke biologische informatie en zijn al decennia lang werkpaarden in bioinformatica-methoden voor taken zoals eiwitontwerp en eiwitstructuurvoorspelling. Recente doorbraken zoals AlphaFold2, die transformatoren gebruiken om direct aandacht te besteden aan grote hoeveelheden ruwe MSA's, hebben hun belang opnieuw bevestigd. Het genereren van MSA's is echter zeer rekenintensief, en er zijn geen datasets beschikbaar gesteld aan de onderzoeksgemeenschap die vergelijkbaar zijn met die gebruikt om AlphaFold2 te trainen, wat de vooruitgang in machinaal leren voor eiwitten belemmert. Om dit probleem te verhelpen, introduceren we OpenProteinSet, een open-source corpus van meer dan 16 miljoen MSA's, geassocieerde structurele homologen uit de Protein Data Bank, en AlphaFold2 eiwitstructuurvoorspellingen. We hebben eerder de bruikbaarheid van OpenProteinSet aangetoond door AlphaFold2 succesvol opnieuw te trainen met deze dataset. We verwachten dat OpenProteinSet breed toepasbaar zal zijn als trainings- en validatiedata voor 1) diverse taken gericht op eiwitstructuur, functie en ontwerp, en 2) grootschalig multimodaal machinaal leren onderzoek.
Het volgen en achtervolgen van objecten van belang is cruciaal voor verschillende robotica-toepassingen, variërend van industriële automatisering tot logistiek en magazijnbeheer, en van gezondheidszorg tot beveiliging. In dit artikel presenteren we een robotsysteem om objecten in realtime te detecteren, volgen en achtervolgen. Onze aanpak, genaamd ``follow anything'' (FAn), is een open-vocabulaire en multimodaal model — het is niet beperkt tot concepten die tijdens de training zijn gezien en kan worden toegepast op nieuwe klassen tijdens de inferentie met behulp van tekst, afbeeldingen of klikquery's. Door gebruik te maken van rijke visuele beschrijvingen van grootschalige vooraf getrainde modellen (foundation models), kan FAn objecten detecteren en segmenteren door multimodale query's (tekst, afbeeldingen, klikken) te matchen met een invoerbeeldsequentie. Deze gedetecteerde en gesegmenteerde objecten worden gevolgd over beeldframes, waarbij rekening wordt gehouden met occlusie en het opnieuw verschijnen van objecten. We demonstreren FAn op een real-world robotsysteem (een micro-luchtvoertuig) en rapporteren over zijn vermogen om naadloos de objecten van belang te volgen in een realtime besturingslus. FAn kan worden geïmplementeerd op een laptop met een lichtgewicht (6-8 GB) grafische kaart, waarbij een doorvoer van 6-20 frames per seconde wordt bereikt. Om snelle adoptie, implementatie en uitbreidbaarheid mogelijk te maken, hebben we al onze code open-source gemaakt op onze projectwebpagina op https://github.com/alaamaalouf/FollowAnything. We moedigen de lezer ook aan om onze 5-minuten durende uitlegvideo te bekijken op https://www.youtube.com/watch?v=6Mgt3EPytrw.
Dit werk beschouwt gradient-gebaseerde mesh-optimalisatie, waarbij we iteratief een 3D-oppervlaktemesh optimaliseren door deze voor te stellen als de iso-oppervlakte van een scalair veld, een steeds vaker voorkomend paradigma in toepassingen zoals fotogrammetrie, generatieve modellering en inverse fysica. Bestaande implementaties passen klassieke iso-oppervlakte-extractiealgoritmen zoals Marching Cubes of Dual Contouring aan; deze technieken waren ontworpen om meshes te extraheren uit vaste, bekende velden, en in de optimalisatiecontext missen ze de vrijheidsgraden om hoogwaardige, kenmerkbehoudende meshes weer te geven, of lijden ze onder numerieke instabiliteiten. We introduceren FlexiCubes, een iso-oppervlakteweergave die specifiek is ontworpen voor het optimaliseren van een onbekende mesh met betrekking tot geometrische, visuele of zelfs fysieke doelen. Onze belangrijkste inzicht is het introduceren van aanvullende zorgvuldig gekozen parameters in de weergave, die lokale flexibele aanpassingen aan de geëxtraheerde mesh-geometrie en connectiviteit mogelijk maken. Deze parameters worden samen met het onderliggende scalair veld bijgewerkt via automatische differentiatie bij het optimaliseren voor een downstream-taak. We baseren ons extractieschema op Dual Marching Cubes voor verbeterde topologische eigenschappen, en presenteren uitbreidingen om optioneel tetrahedrale en hiërarchisch-adaptieve meshes te genereren. Uitgebreide experimenten valideren FlexiCubes op zowel synthetische benchmarks als real-world toepassingen, en tonen aan dat het aanzienlijke verbeteringen biedt in mesh-kwaliteit en geometrische nauwkeurigheid.
Het Alexa Prize-programma heeft tal van universiteitsstudenten in staat gesteld om hun talenten te verkennen, te experimenteren en te tonen bij het bouwen van conversatie-agents via uitdagingen zoals de SocialBot Grand Challenge en de TaskBot Challenge. Aangezien conversatie-agents steeds vaker voorkomen in multimodale en belichaamde contexten, is het belangrijk om de mogelijkheden van conversatie-interactie versterkt met computervisie en fysieke belichaming te onderzoeken. Dit artikel beschrijft de SimBot Challenge, een nieuwe uitdaging waarin universiteitsteams strijden om robotassistenten te bouwen die taken voltooien in een gesimuleerde fysieke omgeving. Dit artikel geeft een overzicht van de SimBot Challenge, die zowel online als offline fases omvatte. We beschrijven de infrastructuur en ondersteuning die aan de teams werd geboden, waaronder Alexa Arena, de gesimuleerde omgeving en de ML-toolkit die aan de teams werd verstrekt om het bouwen van visie- en taalmodelen te versnellen. We vatten de aanpakken samen die de deelnemende teams hebben gehanteerd om onderzoeksuitdagingen te overwinnen en trekken belangrijke lessen die zijn geleerd. Tot slot bieden we een analyse van de prestaties van de concurrerende SimBots tijdens de competitie.
Tijdsafhankelijke partiële differentiaalvergelijkingen (PDE's) zijn alomtegenwoordig in de wetenschap en techniek. Recentelijk, voornamelijk vanwege de hoge rekenkosten van traditionele oplossingstechnieken, hebben surrogaatmodellen gebaseerd op diepe neurale netwerken steeds meer aandacht gekregen. De praktische bruikbaarheid van dergelijke neurale PDE-oplossers hangt af van hun vermogen om nauwkeurige, stabiele voorspellingen te leveren over lange tijdsperioden, wat een berucht moeilijk probleem is. In dit werk presenteren we een grootschalige analyse van veelgebruikte temporele rollout-strategieën, waarbij we het verwaarlozen van niet-dominante ruimtelijke frequentie-informatie, vaak geassocieerd met hoge frequenties in PDE-oplossingen, identificeren als de belangrijkste valkuil die stabiele, nauwkeurige rollout-prestaties beperkt. Gebaseerd op deze inzichten, putten we inspiratie uit recente vooruitgang in diffusiemodellen om PDE-Refiner te introduceren; een nieuwe modelklasse die een nauwkeurigere modellering van alle frequentiecomponenten mogelijk maakt via een meerstaps verfijningsproces. We valideren PDE-Refiner op uitdagende benchmarks van complexe vloeistofdynamica, waarbij we stabiele en nauwkeurige rollouts demonstreren die consistent beter presteren dan state-of-the-art modellen, inclusief neurale, numerieke en hybride neurale-numerieke architecturen. We tonen verder aan dat PDE-Refiner de data-efficiëntie aanzienlijk verbetert, aangezien het denoising-doel impliciet een nieuwe vorm van spectrale data-augmentatie induceert. Ten slotte maakt de verbinding van PDE-Refiner met diffusiemodellen een nauwkeurige en efficiënte beoordeling van de voorspellende onzekerheid van het model mogelijk, waardoor we kunnen inschatten wanneer het surrogaat onnauwkeurig wordt.