Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Veel AI-bedrijven trainen hun grote taalmodellen (LLM's) met gegevens zonder toestemming van de auteursrechteigenaars. De toelaatbaarheid hiervan varieert per rechtsgebied: in landen zoals de EU en Japan is dit toegestaan onder bepaalde beperkingen, terwijl de juridische situatie in de Verenigde Staten meer ambigu is. Ongeacht de juridische status hebben zorgen van creatieve producenten geleid tot verschillende spraakmakende auteursrechtzaken, en de dreiging van rechtszaken wordt vaak aangehaald als reden voor de recente trend om de informatie die wordt gedeeld over trainingsdatasets te minimaliseren door zowel bedrijven als belangenbehartigers. Deze trend om de informatie over data te beperken veroorzaakt schade door het belemmeren van transparantie, verantwoording en innovatie in het bredere ecosysteem, doordat onderzoekers, controleurs en getroffen personen de benodigde informatie ontzegd wordt om AI-modellen te begrijpen. Hoewel dit zou kunnen worden verminderd door taalmodellen te trainen op open toegankelijke en publieke domeingegevens, bestaan er op dit moment geen dergelijke modellen (op een betekenisvolle schaal getraind) vanwege de aanzienlijke technische en sociologische uitdagingen bij het samenstellen van het benodigde corpus. Deze uitdagingen omvatten onvolledige en onbetrouwbare metadata, de kosten en complexiteit van het digitaliseren van fysieke archieven, en de diverse set van juridische en technische vaardigheden die nodig zijn om relevantie en verantwoordelijkheid te waarborgen in een snel veranderend landschap. Het streven naar een toekomst waarin AI-systemen kunnen worden getraind op openlijk gelicentieerde gegevens die verantwoord worden samengesteld en beheerd, vereist samenwerking over juridische, technische en beleidsdomeinen, naast investeringen in metadatastandaarden, digitalisering en het bevorderen van een cultuur van openheid.
Multi-modale documentopvraging is ontworpen om verschillende vormen van multi-modale inhoud te identificeren en op te halen, zoals afbeeldingen, tabellen, grafieken en lay-outinformatie uit uitgebreide documenten. Ondanks het belang ervan is er een opmerkelijk gebrek aan een robuuste benchmark om de prestaties van systemen in multi-modale documentopvraging effectief te evalueren. Om deze lacune aan te pakken, introduceert dit werk een nieuwe benchmark, genaamd MMDocIR, die twee verschillende taken omvat: opvraging op paginaniveau en opvraging op lay-outniveau. De eerste richt zich op het lokaliseren van de meest relevante pagina's binnen een lang document, terwijl de laatste zich richt op de detectie van specifieke lay-outs, met een fijnere granulariteit dan de analyse van hele pagina's. Een lay-out kan verwijzen naar verschillende elementen zoals tekstuele alinea's, vergelijkingen, afbeeldingen, tabellen of grafieken. De MMDocIR benchmark omvat een rijke dataset met deskundig geannoteerde labels voor 1.685 vragen en gebootstrapt gelabelde labels voor 173.843 vragen, waardoor het een essentiële bron is voor het bevorderen van multi-modale documentopvraging voor zowel training als evaluatie. Uit rigoureuze experimenten blijkt dat (i) visuele opvragers aanzienlijk beter presteren dan hun tekstuele tegenhangers, (ii) de MMDocIR-trainingsset effectief kan bijdragen aan het trainingsproces van multi-modale documentopvraging en (iii) tekstuele opvragers die gebruikmaken van VLM-tekst aanzienlijk beter presteren dan die welke OCR-tekst gebruiken. Deze bevindingen benadrukken de potentiële voordelen van het integreren van visuele elementen voor multi-modale documentopvraging.
Het genereren van 3D scènes heeft de afgelopen jaren steeds meer aandacht gekregen en heeft aanzienlijke vooruitgang geboekt. Het genereren van 4D steden is uitdagender dan 3D scènes vanwege de aanwezigheid van structureel complexe, visueel diverse objecten zoals gebouwen en voertuigen, en de verhoogde gevoeligheid van mensen voor vervormingen in stedelijke omgevingen. Om deze problemen aan te pakken, stellen we CityDreamer4D voor, een samenstellend generatief model dat specifiek is ontworpen voor het genereren van onbegrensde 4D steden. Onze belangrijkste inzichten zijn 1) 4D stadscreatie moet dynamische objecten (bijv. voertuigen) scheiden van statische scènes (bijv. gebouwen en wegen), en 2) alle objecten in de 4D scène moeten bestaan uit verschillende soorten neurale velden voor gebouwen, voertuigen en achtergrondobjecten. Specifiek stellen we een Verkeersscenario Generator en Onbegrensde Lay-out Generator voor om dynamische verkeersscenario's en statische stadsindelingen te produceren met behulp van een zeer compacte BEV representatie. Objecten in 4D steden worden gegenereerd door het combineren van stuff-georiënteerde en instantie-georiënteerde neurale velden voor achtergrondobjecten, gebouwen en voertuigen. Om aan de specifieke kenmerken van achtergrondobjecten en instanties te voldoen, maken de neurale velden gebruik van aangepaste generatieve hash grids en periodieke positionele embeddings als sceneparameterisaties. Bovendien bieden we een uitgebreide reeks datasets voor stadscreatie, waaronder OSM, GoogleEarth en CityTopia. De OSM dataset biedt een verscheidenheid aan stadsindelingen in de echte wereld, terwijl de Google Earth en CityTopia datasets grootschalige, hoogwaardige stadsbeelden leveren, compleet met 3D instantie annotaties. Dankzij het samenstellende ontwerp ondersteunt CityDreamer4D een scala aan toepassingen, zoals instantiebewerking, stadsstijl en stedelijke simulatie, terwijl het state-of-the-art prestaties levert bij het genereren van realistische 4D steden.
Met de introductie van diffusiemodellen heeft videogeneratie opmerkelijke vooruitgang geboekt, wat aanzienlijk heeft bijgedragen aan de kwaliteit van gegenereerde video's. Echter, recent onderzoek heeft zich voornamelijk gericht op het opschalen van modeltraining, met beperkte inzichten in de directe invloed van representaties op het videogeneratieproces. In dit artikel onderzoeken we aanvankelijk de kenmerken van kenmerken in tussenliggende lagen, waarbij aanzienlijke variaties in aandachtskaarten over verschillende lagen worden gevonden. Deze variaties leiden tot instabiele semantische representaties en dragen bij aan cumulatieve verschillen tussen kenmerken, wat uiteindelijk de gelijkenis tussen aangrenzende frames vermindert en de temporele coherentie negatief beïnvloedt. Om dit aan te pakken, stellen we RepVideo voor, een verbeterd representatiekader voor tekst-naar-video diffusiemodellen. Door kenmerken van naburige lagen op te stapelen om verrijkte representaties te vormen, legt deze benadering meer stabiele semantische informatie vast. Deze verbeterde representaties worden vervolgens gebruikt als invoer voor het aandachtsmechanisme, waardoor de semantische expressiviteit wordt verbeterd terwijl de kenmerkconsistentie tussen aangrenzende frames wordt gewaarborgd. Uitgebreide experimenten tonen aan dat onze RepVideo niet alleen aanzienlijk de mogelijkheid verbetert om nauwkeurige ruimtelijke verschijningen te genereren, zoals het vastleggen van complexe ruimtelijke relaties tussen meerdere objecten, maar ook de temporele consistentie bij videogeneratie verbetert.
De first-in-first-out (FIFO) videodiffusie, gebouwd op een voorgeleerd tekst-naar-video model, is recentelijk naar voren gekomen als een effectieve benadering voor afstemmingsvrije lange videogeneratie. Deze techniek onderhoudt een wachtrij van videoframes met progressief toenemend geluid, waarbij continu schone frames aan de kop van de wachtrij worden geproduceerd terwijl Gaussisch geluid aan de staart wordt toegevoegd. Echter, FIFO-Diffusie worstelt vaak met het behouden van consistente temporele samenhang op lange termijn in de gegenereerde video's vanwege het gebrek aan modellering van overeenkomsten tussen frames. In dit artikel stellen we Ouroboros-Diffusie voor, een nieuw videoruisverwijderingskader dat is ontworpen om de structurele en inhoudelijke (onderwerp) consistentie te verbeteren, waardoor de generatie van consistente video's van willekeurige lengte mogelijk wordt. Specifiek introduceren we een nieuwe latente bemonsteringstechniek aan de staart van de wachtrij om structurele consistentie te verbeteren, waardoor perceptueel soepele overgangen tussen frames worden gegarandeerd. Om onderwerpconsistentie te verbeteren, bedenken we een Mechanisme voor Onderwerpgerichte Kruisframe-Aandacht (SACFA), dat onderwerpen over frames binnen korte segmenten uitlijnt om een betere visuele samenhang te bereiken. Verder introduceren we zelf-terugkerende begeleiding. Deze techniek maakt gebruik van informatie van alle eerdere schonere frames aan de voorkant van de wachtrij om de ruisverwijdering van lawaaierige frames aan het einde te begeleiden, waardoor een rijke en contextuele wereldwijde informatie-interactie wordt bevorderd. Uitgebreide experimenten met lange videogeneratie op de VBench benchmark tonen de superioriteit van onze Ouroboros-Diffusie aan, met name op het gebied van onderwerpconsistentie, bewegingssmoothness en temporele consistentie.
We presenteren de eerste studie over hoe de redeneervaardigheid van Multimodale Taalmodelen (MLLM's) moet worden opgeroepen om de esthetiek van kunstwerken te evalueren. Om dit onderzoek te vergemakkelijken, construeren we MM-StyleBench, een nieuw hoogwaardig dataset voor het benchmarken van artistieke stijl. Vervolgens ontwikkelen we een principiële methode voor het modelleren van menselijke voorkeuren en voeren we een systematische correlatieanalyse uit tussen de reacties van MLLM's en menselijke voorkeur. Onze experimenten onthullen een inherent hallucinatieprobleem van MLLM's bij de evaluatie van kunst, geassocieerd met subjectiviteit van reacties. ArtCoT wordt voorgesteld, waarbij wordt aangetoond dat taaksplitsing specifiek voor kunst en het gebruik van concrete taal de redeneervaardigheid van MLLM's voor esthetiek verbeteren. Onze bevindingen bieden waardevolle inzichten in MLLM's voor kunst en kunnen ten goede komen aan een breed scala van toepassingen, zoals stijloverdracht en artistieke beeldgeneratie. Code beschikbaar op https://github.com/songrise/MLLM4Art.
In de afgelopen jaren zijn opmerkelijke vooruitgang geboekt in door kunstmatige intelligentie gegenereerde inhoud (AIGC) op het gebied van beeldsynthese en tekstgeneratie, waarbij inhoud wordt gegenereerd die vergelijkbaar is met wat door mensen wordt geproduceerd. Echter, de kwaliteit van door AI gegenereerde muziek heeft nog niet dit niveau bereikt, voornamelijk vanwege de uitdaging om muzikale emoties effectief te controleren en hoogwaardige resultaten te garanderen. Dit artikel presenteert een gegeneraliseerd symbolisch muziekgeneratiekader, XMusic, dat flexibele prompts ondersteunt (bijv. afbeeldingen, video's, teksten, tags en neuriën) om emotioneel controleerbare en hoogwaardige symbolische muziek te genereren. XMusic bestaat uit twee kerncomponenten, XProjector en XComposer. XProjector analyseert de prompts van verschillende modaliteiten tot symbolische muziekelementen (bijv. emoties, genres, ritmes en noten) binnen de projectieruimte om overeenkomstige muziek te genereren. XComposer bevat een Generator en een Selector. De Generator genereert emotioneel controleerbare en melodieuze muziek op basis van onze innovatieve symbolische muziekrepresentatie, terwijl de Selector hoogwaardige symbolische muziek identificeert door een multi-task leerschema te construeren met kwaliteitsbeoordeling, emotieherkenning en genreherkenningstaken. Daarnaast bouwen we XMIDI, een grootschalige symbolische muziekdataset die 108.023 MIDI-bestanden bevat die zijn geannoteerd met nauwkeurige emotie- en genrelabels. Objectieve en subjectieve evaluaties tonen aan dat XMusic aanzienlijk beter presteert dan de huidige state-of-the-art methoden met indrukwekkende muziekkwaliteit. Onze XMusic is bekroond als een van de negen hoogtepunten van Collectibles op WAIC 2023. De projecthomepage van XMusic is https://xmusic-project.github.io.
Beeldpiramides worden veel gebruikt in hoogwaardige methoden om multi-schaal eigenschappen te verkrijgen voor nauwkeurige visuele perceptie en begrip. Huidige beeldpiramides maken echter gebruik van hetzelfde grootschalige model om meerdere resoluties van beelden te verwerken, wat resulteert in aanzienlijke rekenkundige kosten. Om deze uitdaging aan te pakken, stellen wij een nieuw netwerkarchitectuur voor, genaamd Parameter-Inverted Image Pyramid Networks (PIIP). Specifiek maakt PIIP gebruik van vooraf getrainde modellen (ViTs of CNNs) als vertakkingen om multi-schaal beelden te verwerken, waarbij beelden met hogere resoluties worden verwerkt door kleinere netwerkvertakkingen om de rekenkundige kosten en prestaties in balans te brengen. Om informatie van verschillende ruimtelijke schalen te integreren, stellen wij verder een nieuw mechanisme voor voor kruis-vertakkingskenmerkinteractie voor. Om PIIP te valideren, passen we het toe op verschillende perceptiemodellen en een representatief multimodaal groot taalmodel genaamd LLaVA, en voeren uitgebreide experimenten uit op verschillende taken zoals objectdetectie, segmentatie, beeldclassificatie en multimodaal begrip. PIIP behaalt superieure prestaties in vergelijking met enkelvoudige vertakkingen en bestaande multi-resolutie benaderingen met lagere rekenkundige kosten. Wanneer toegepast op InternViT-6B, een grootschalig visionair foundationmodel, kan PIIP de prestaties ervan verbeteren met 1%-2% op detectie en segmentatie met slechts 40%-60% van de oorspronkelijke berekening, uiteindelijk een box AP van 60.0 behalen op MS COCO en 59.7 mIoU op ADE20K. Voor multimodaal begrip behaalt onze PIIP-LLaVA 73.0% nauwkeurigheid op TextVQA en 74.5% op MMBench met slechts 2.8M trainingsgegevens. Onze code is beschikbaar op https://github.com/OpenGVLab/PIIP.
We hebben vaak interactie met onbetrouwbare partijen. Prioritering van privacy kan de effectiviteit van deze interacties beperken, aangezien het bereiken van bepaalde doelen het delen van privégegevens vereist. Traditioneel is het aanpakken van deze uitdaging ofwel door het zoeken van vertrouwde tussenpersonen of door het construeren van cryptografische protocollen die beperken hoeveel data er wordt onthuld, zoals multi-party berekeningen of zero-knowledge bewijzen. Hoewel er aanzienlijke vooruitgang is geboekt in het schalen van cryptografische benaderingen, blijven ze beperkt wat betreft de omvang en complexiteit van toepassingen waarvoor ze kunnen worden gebruikt. In dit artikel betogen we dat capabele machine learning modellen de rol van een vertrouwde derde partij kunnen vervullen, waardoor veilige berekeningen mogelijk worden voor toepassingen die eerder onhaalbaar waren. In het bijzonder beschrijven we Vertrouwde Capabele Model Omgevingen (TCME's) als een alternatieve benadering voor het schalen van veilige berekeningen, waar capabele machine learning model(len) interacteren onder invoer/uitvoer beperkingen, met expliciete informatie stroom controle en expliciete staatloosheid. Deze benadering streeft naar een balans tussen privacy en computationele efficiëntie, waardoor privé inferentie mogelijk is waar klassieke cryptografische oplossingen momenteel onhaalbaar zijn. We beschrijven een aantal gebruiksscenario's die mogelijk worden gemaakt door TCME, en tonen aan dat zelfs enkele eenvoudige klassieke cryptografische problemen al kunnen worden opgelost met TCME. Tot slot schetsen we de huidige beperkingen en bespreken we de weg voorwaarts bij de implementatie ervan.
Beeldmatching voor zowel cross-view als cross-modaliteit speelt een cruciale rol bij multimodale perceptie. In de praktijk zorgt de modaliteitskloof veroorzaakt door verschillende beeldvormingssystemen/-stijlen voor grote uitdagingen bij de matchingtaak. Bestaande werken proberen invariante kenmerken te extraheren voor specifieke modaliteiten en trainen op beperkte datasets, wat resulteert in een slechte generalisatie. In dit artikel presenteren we MINIMA, een verenigd beeldmatchingraamwerk voor meerdere cross-modale gevallen. Zonder te streven naar geavanceerde modules, heeft ons MINIMA als doel de universele prestaties te verbeteren vanuit het oogpunt van het opschalen van gegevens. Voor dit doel stellen we een eenvoudige maar effectieve gegevensengine voor die vrijelijk een grote dataset kan produceren met meerdere modaliteiten, diverse scenario's en nauwkeurige matchinglabels. Specifiek schalen we de modaliteiten op van goedkope maar rijke RGB-alleen matchinggegevens, met behulp van generatieve modellen. Onder deze instelling worden de matchinglabels en de rijke diversiteit van de RGB-dataset goed overgenomen door de gegenereerde multimodale gegevens. Hierdoor construeren we MD-syn, een nieuwe uitgebreide dataset die de gegevenskloof vult voor algemene multimodale beeldmatching. Met MD-syn kunnen we direct elk geavanceerd matching-pijplijn trainen op willekeurig geselecteerde modaliteitsparen om cross-modale capaciteit te verkrijgen. Uitgebreide experimenten op in-domein en zero-shot matchingtaken, inclusief 19 cross-modale gevallen, tonen aan dat onze MINIMA aanzienlijk beter presteert dan de baselines en zelfs modality-specifieke methoden overtreft. De dataset en code zijn beschikbaar op https://github.com/LSXI7/MINIMA.
Het interacteren met de wereld is een meervoudige zintuiglijke ervaring: het bereiken van effectieve algemene interactie vereist het benutten van alle beschikbare modaliteiten - waaronder visie, aanraking en audio - om lacunes op te vullen vanuit gedeeltelijke observatie. Bijvoorbeeld, wanneer het zicht belemmerd is bij het reiken in een tas, moet een robot vertrouwen op zijn zintuigen van aanraking en geluid. Echter, geavanceerde generalistische robotbeleidslijnen worden typisch getraind op grote datasets om robotacties te voorspellen uitsluitend op basis van visuele en proprioceptieve observaties. In dit werk stellen we FuSe voor, een nieuw benadering die het fijnafstemmen van visuomotorische generalistische beleidslijnen op heterogene sensor modaliteiten waarvoor grote datasets niet direct beschikbaar zijn, mogelijk maakt door natuurlijke taal te benutten als een gemeenschappelijke cross-modale grondslag. We combineren een multimodale contrastieve verliesfunctie met een sensorisch-gegronde taalgeneratieverlies om hoog-niveau semantiek te coderen. In de context van robotmanipulatie tonen we aan dat FuSe het uitvoeren van uitdagende taken mogelijk maakt die vereisen dat er gezamenlijk wordt geredeneerd over modaliteiten zoals visie, aanraking en geluid in een zero-shot omgeving, zoals multimodale aansturing, compositorische cross-modale aansturing en beschrijvingen van objecten waarmee het interageert. We tonen aan dat hetzelfde recept van toepassing is op zeer verschillende generalistische beleidslijnen, inclusief zowel diffusie-gebaseerde generalistische beleidslijnen als grote visie-taal-actie (VLA) modellen. Uitgebreide experimenten in de echte wereld tonen aan dat FuSe in staat is om succespercentages met meer dan 20% te verhogen in vergelijking met alle overwogen baselines.