Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren een aanpak voor het modelleren van een prior in de beeldruimte voor scènedynamica. Onze prior wordt geleerd uit een verzameling bewegingsbanen die zijn geëxtraheerd uit echte videosequenties met natuurlijke, oscillerende bewegingen zoals bomen, bloemen, kaarsen en kleding die in de wind wapperen. Gegeven een enkele afbeelding, gebruikt ons getrainde model een frequentie-gestuurd diffusie-steekproefproces om een per-pixel langetermijnbewegingsrepresentatie in het Fourier-domein te voorspellen, die we een neurale stochastische bewegingsstructuur noemen. Deze representatie kan worden omgezet in dichte bewegingsbanen die een hele video omvatten. Samen met een op afbeeldingen gebaseerde weergavemodule kunnen deze banen worden gebruikt voor een aantal downstream toepassingen, zoals het omzetten van stilstaande afbeeldingen in naadloos herhalende dynamische video's, of het gebruikers in staat stellen om realistisch te interageren met objecten in echte foto's.
Recente ontwikkelingen op het gebied van grote taalmodellen (LLMs) stellen onderzoekers en ontwikkelaars in staat om autonome taalagentschappen te bouwen die automatisch verschillende taken kunnen oplossen en kunnen interacteren met omgevingen, mensen en andere agentschappen via natuurlijke taalinterfaces. Wij beschouwen taalagentschappen als een veelbelovende richting naar kunstmatige algemene intelligentie en presenteren Agents, een open-source bibliotheek met als doel deze ontwikkelingen toegankelijk te maken voor een breder, niet-specialistisch publiek. Agents is zorgvuldig ontworpen om belangrijke functies te ondersteunen, waaronder planning, geheugen, gereedschapsgebruik, communicatie tussen meerdere agentschappen en fijnmazige symbolische controle. Agents is gebruiksvriendelijk, omdat het niet-specialisten in staat stelt om state-of-the-art autonome taalagentschappen te bouwen, aan te passen, te testen, af te stemmen en te implementeren zonder veel te hoeven programmeren. De bibliotheek is ook onderzoekersvriendelijk, omdat het modulaire ontwerp het gemakkelijk uitbreidbaar maakt voor onderzoekers. Agents is beschikbaar op https://github.com/aiwaves-cn/agents.
Audio super-resolutie is een fundamentele taak die hoogfrequente componenten voorspelt voor audio met een lage resolutie, waardoor de audiokwaliteit in digitale toepassingen wordt verbeterd. Eerdere methoden hebben beperkingen, zoals het beperkte bereik van audiotypes (bijvoorbeeld muziek, spraak) en specifieke bandbreedte-instellingen die ze kunnen verwerken (bijvoorbeeld 4kHz tot 8kHz). In dit artikel introduceren we een op diffusie gebaseerd generatief model, AudioSR, dat in staat is om robuuste audio super-resolutie uit te voeren op diverse audiotypes, waaronder geluidseffecten, muziek en spraak. Specifiek kan AudioSR elk ingangsaudiosignaal binnen het bandbreedtebereik van 2kHz tot 16kHz opschalen naar een hoogwaardig audiosignaal met een bandbreedte van 24kHz en een samplefrequentie van 48kHz. Uitgebreide objectieve evaluatie op verschillende audio super-resolutie benchmarks toont de sterke resultaten die door het voorgestelde model worden behaald. Daarnaast laat onze subjectieve evaluatie zien dat AudioSR kan fungeren als een plug-and-play module om de generatiekwaliteit van een breed scala aan audio generatieve modellen te verbeteren, waaronder AudioLDM, Fastspeech2 en MusicGen. Onze code en demo zijn beschikbaar op https://audioldm.github.io/audiosr.
Het doorzoeken van grote hoeveelheden tekstuele gegevens en het samenvatten van belangrijke informatie legt een aanzienlijke druk op de tijdsbesteding van clinici. Hoewel grote taalmodelen (LLM's) veelbelovend zijn gebleken in taken voor natuurlijke taalverwerking (NLP), is hun effectiviteit bij diverse klinische samenvattings taken nog niet grondig onderzocht. In dit werk passen we domeinadaptatiemethoden toe op acht LLM's, waarbij we zes datasets en vier verschillende samenvattings taken bestrijken: radiologieverslagen, patiëntenvragen, voortgangsnotities en arts-patiëntdialogen. Onze uitgebreide kwantitatieve beoordeling onthult afwegingen tussen modellen en adaptatiemethoden, evenals gevallen waarin recente vooruitgang in LLM's niet tot verbeterde resultaten leidt. Verder tonen we in een klinische lezersstudie met zes artsen aan dat samenvattingen van het best aangepaste LLM de voorkeur genieten boven menselijke samenvattingen wat betreft volledigheid en juistheid. Onze daaropvolgende kwalitatieve analyse beschrijft gedeelde uitdagingen waar zowel LLM's als menselijke experts mee te maken hebben. Tot slot correleren we traditionele kwantitatieve NLP-metrics met scores uit de lezersstudie om ons begrip te vergroten van hoe deze metrics overeenkomen met de voorkeuren van artsen. Ons onderzoek markeert het eerste bewijs dat LLM's menselijke experts overtreffen in klinische tekstsamenvatting over meerdere taken. Dit impliceert dat de integratie van LLM's in klinische workflows de documentatielast kan verlichten, waardoor clinici meer kunnen focussen op gepersonaliseerde patiëntenzorg en andere onvervangbare menselijke aspecten van de geneeskunde.
Video matting heeft brede toepassingen, van het toevoegen van interessante effecten aan informeel vastgelegde films tot het assisteren van professionals in videoproductie. Matting met bijbehorende effecten zoals schaduwen en reflecties heeft ook steeds meer onderzoeksactiviteit aangetrokken, en methoden zoals Omnimatte zijn voorgesteld om dynamische voorgrondobjecten van interesse in hun eigen lagen te scheiden. Echter, eerdere werken representeren videobackgrounds als 2D-beeldlagen, wat hun vermogen beperkt om complexere scènes uit te drukken, en daardoor de toepassing op real-world video's belemmert. In dit artikel stellen we een nieuwe video matting-methode voor, OmnimatteRF, die dynamische 2D-voorgrondlagen combineert met een 3D-backgroundmodel. De 2D-lagen behouden de details van de onderwerpen, terwijl de 3D-background robuust scènes reconstrueert in real-world video's. Uitgebreide experimenten tonen aan dat onze methode scènes met betere kwaliteit reconstrueert op diverse video's.
In-context learning (ICL), waarbij grote taalmodellen (LLMs) slechts enkele taakspecifieke demonstraties krijgen, heeft geleid tot verbeteringen zonder dat taakspecifieke fine-tuning nodig is. LLMs zijn echter gevoelig voor de keuze van prompts, en daarom is een cruciaal onderzoeksvraag hoe goede demonstraties voor ICL geselecteerd kunnen worden. Een effectieve strategie is het benutten van semantische gelijkenis tussen de ICL-demonstraties en testinvoeren door een tekstretriever te gebruiken, wat echter suboptimaal is omdat dit geen rekening houdt met de bestaande kennis van het LLM over die taak. Uit eerder werk (Min et al., 2022) weten we al dat labels die aan de demonstraties zijn gekoppeld, de modelvoorspellingen beïnvloeden. Dit leidt tot onze hypothese dat het overwegen van de bestaande kennis van het LLM over de taak, met name met betrekking tot de uitvoerlabelruimte, kan bijdragen aan een betere demonstratieselectiestrategie. Door uitgebreide experimenten uit te voeren op drie tekstclassificatietaken, ontdekken we dat het niet alleen gunstig is om semantisch vergelijkbare ICL-demonstraties te kiezen, maar ook om demonstraties te selecteren die helpen de inherente labelambiguïteit rond het testvoorbeeld op te lossen. Interessant genoeg vinden we dat het opnemen van demonstraties die het LLM eerder verkeerd heeft geclassificeerd en die ook op de beslissingsgrens van het testvoorbeeld liggen, de grootste prestatieverbetering oplevert.
Grote Taalmodellen (LLMs) hebben indrukwekkende prestaties getoond op het gebied van Natural Language Processing (NLP)-taken, zoals Vraagbeantwoording, Samenvatting en Classificatie. Het gebruik van LLMs als evaluatoren, die de output van andere modellen (meestal LLMs) kunnen rangschikken of scoren, is steeds populairder geworden vanwege de beperkingen van huidige evaluatietechnieken, waaronder het gebrek aan geschikte benchmarks, metrieken, kosten en toegang tot menselijke annotators. Hoewel LLMs ongeveer 100 talen aankunnen, ontbreekt het bij de meeste talen buiten de top 20 aan systematische evaluatie over verschillende taken, metrieken en benchmarks. Dit creëert een dringende behoefte om meertalige evaluatie op te schalen om een nauwkeurig begrip van de prestaties van LLMs in diverse talen te waarborgen. LLM-gebaseerde evaluatoren lijken de perfecte oplossing voor dit probleem, aangezien ze geen menselijke annotators, door mensen gemaakte referenties of benchmarks vereisen en theoretisch gebruikt kunnen worden om elke taal die door het LLM wordt ondersteund te evalueren. In dit artikel onderzoeken we of LLM-gebaseerde evaluatoren kunnen helpen bij het opschalen van meertalige evaluatie. Specifiek kalibreren we LLM-gebaseerde evaluatie aan de hand van 20.000 menselijke beoordelingen van vijf metrieken over drie tekstgeneratietaken in acht talen. Onze bevindingen geven aan dat LLM-gebaseerde evaluatoren mogelijk een bias vertonen naar hogere scores en met voorzichtigheid moeten worden gebruikt, en altijd gekalibreerd moeten worden met een dataset van beoordelingen door moedertaalsprekers, met name in talen met weinig bronnen en niet-Latijnse schriften.