Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente evaluaties van Large Language Models (LLMs) hebben zich gericht op het testen van hun zero-shot/few-shot-capaciteiten voor basale natuurlijke-taaltaken en hun vermogen om instructies te vertalen naar tool-API's. Echter, de evaluatie van LLMs die complexe tools gebruiken om multi-turn, multi-modale instructies in een complexe multi-modale omgeving te voltooien, is nog niet onderzocht. Om dit gat te dichten, introduceren we de PowerPoint Task Completion (PPTC) benchmark om het vermogen van LLMs te beoordelen om PPT-bestanden te maken en te bewerken op basis van gebruikersinstructies. Het bevat 279 multi-turn sessies die diverse onderwerpen beslaan en honderden instructies die multi-modale operaties omvatten. We stellen ook het PPTX-Match Evaluatiesysteem voor dat evalueert of LLMs de instructie voltooien op basis van het voorspellingsbestand in plaats van de label-API-reeks, waardoor het verschillende door LLM gegenereerde API-reeksen ondersteunt. We meten 3 gesloten LLMs en 6 open-source LLMs. De resultaten tonen aan dat GPT-4 andere LLMs overtreft met een nauwkeurigheid van 75,1\% in single-turn dialoogtesten, maar moeite heeft met het voltooien van volledige sessies, met slechts 6\% sessienauwkeurigheid. We identificeren drie hoofdredenen voor fouten in onze benchmark: foutaccumulatie in de multi-turn sessie, lange PPT-sjabloonverwerking en multi-modale perceptie. Deze vormen grote uitdagingen voor toekomstige LLM- en agentsystemen. We publiceren de data, code en het evaluatiesysteem van PPTC op https://github.com/gydpku/PPTC.
Wij stellen Fast Language-Audio Pre-training (FLAP) voor, een zelfgesuperviseerde aanpak die efficiënt en effectief uitgelijnde audio- en taalrepresentaties leert door middel van masking, contrastief leren en reconstructie. Voor efficiëntie verwijdert FLAP willekeurig audiospectrogramtokens en richt zich uitsluitend op de overgebleven tokens voor zelfsupervisie. Door intermodaal contrastief leren leert FLAP om gepaarde audio- en tekstrepresentaties uit te lijnen in een gedeelde latente ruimte. Opmerkelijk is dat FLAP meerdere geaugmenteerde weergaven benut via masking voor intermodaal contrast en leert om het gemaskeerde deel van audiotokens te reconstrueren. Bovendien maakt FLAP gebruik van grote taalmodellen (LLMs) om de tekstinvoer te verrijken, wat bijdraagt aan verbeterde prestaties. Deze benaderingen leiden tot robuustere en informatievere audio-tekstrepresentaties, waardoor FLAP state-of-the-art (SoTA) prestaties kan behalen op audio-tekst retrieval taken op AudioCaps (met een score van 53,0% R@1) en Clotho (met een score van 25,5% R@1).
We presenteren EmerNeRF, een eenvoudige maar krachtige aanpak voor het leren van ruimtelijk-temporele representaties van dynamische rijscènes. Gebaseerd op neurale velden, vangt EmerNeRF tegelijkertijd scènegeometrie, uiterlijk, beweging en semantiek op via zelf-bootstrapping. EmerNeRF rust op twee kerncomponenten: Ten eerste stratificeert het scènes in statische en dynamische velden. Deze decompositie ontstaat puur uit zelfsupervisie, waardoor ons model kan leren van algemene, in-the-wild databronnen. Ten tweede parametriseert EmerNeRF een geïnduceerd stromingsveld vanuit het dynamische veld en gebruikt dit stromingsveld om multi-frame kenmerken verder te aggregeren, waardoor de renderprecisie van dynamische objecten wordt versterkt. Door deze drie velden (statisch, dynamisch en stroming) te koppelen, kan EmerNeRF zeer dynamische scènes zelfstandig representeren, zonder te vertrouwen op grondwaarheidsobjectannotaties of vooraf getrainde modellen voor dynamische objectsegmentatie of optische stromingsschatting. Onze methode behaalt state-of-the-art prestaties in sensorsimulatie en overtreft aanzienlijk eerdere methoden bij het reconstrueren van statische (+2.93 PSNR) en dynamische (+3.70 PSNR) scènes. Daarnaast versterken we de semantische generalisatie van EmerNeRF door 2D-visuele foundation modelkenmerken te tillen naar 4D ruimte-tijd en adresseren we een algemene positionele bias in moderne Transformers, wat de 3D-waarnemingsprestaties aanzienlijk verbetert (bijvoorbeeld een relatieve verbetering van 37.50% in bezettingsvoorspellingsnauwkeurigheid gemiddeld). Tot slot construeren we een diverse en uitdagende dataset van 120 sequenties om neurale velden te benchmarken onder extreme en zeer dynamische omstandigheden.