Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Modellen zoals GPT-4o maken real-time interactie mogelijk met grote taalmodellen (LLM's) via spraak, wat de gebruikerservaring aanzienlijk verbetert in vergelijking met traditionele op tekst gebaseerde interactie. Er is echter nog steeds weinig verkenning naar het bouwen van spraakinteractiemodellen op basis van open-source LLM's. Om dit aan te pakken, stellen we LLaMA-Omni voor, een nieuw modelarchitectuur ontworpen voor spraakinteractie met LLM's met lage latentie en hoge kwaliteit. LLaMA-Omni integreert een vooraf getrainde spraakencoder, een spraakadapter, een LLM en een continue spraakdecoder. Het elimineert de noodzaak voor spraaktranscriptie en kan tegelijkertijd tekst en spraakreacties genereren rechtstreeks vanuit spraakinstructies met een extreem lage latentie. We bouwen ons model op basis van het nieuwste Llama-3.1-8B-Instruct-model. Om het model af te stemmen op spraakinteractiescenario's, construeren we een dataset genaamd InstructS2S-200K, die 200K spraakinstructies en bijbehorende spraakreacties bevat. Experimentele resultaten tonen aan dat LLaMA-Omni betere reacties biedt dan eerdere spraak-taalmodellen, zowel qua inhoud als stijl, met een reactielatentie van slechts 226 ms. Bovendien duurt het trainen van LLaMA-Omni minder dan 3 dagen op slechts 4 GPU's, wat de weg effent voor de efficiënte ontwikkeling van spraak-taalmodellen in de toekomst.
Retrieval-Augmented Generation (RAG) is opgekomen als een gangbaar paradigma om Grote Taalmodellen (LLM's) te gebruiken naast privé- en actuele kennisbanken. In dit werk behandelen we de uitdagingen van het gebruik van LLM-als-een-Beoordelaar bij het evalueren van gefundeerde antwoorden gegenereerd door RAG-systemen. Om de kalibratie- en discriminatiecapaciteiten van beoordelingsmodellen te beoordelen, identificeren we 7 generatorfoutmodi en introduceren we GroUSE (Grounded QA Unitary Scoring of Evaluators), een meta-evaluatiebenchmark van 144 eenheidstests. Deze benchmark onthult dat bestaande geautomatiseerde RAG-evaluatiekaders vaak belangrijke foutmodi over het hoofd zien, zelfs bij het gebruik van GPT-4 als beoordelaar. Om de huidige vormgeving van geautomatiseerde RAG-evaluatiekaders te verbeteren, stellen we een nieuw proces voor en constateren we dat hoewel gesloten modellen goed presteren op GroUSE, state-of-the-art open-source beoordelaars niet generaliseren naar onze voorgestelde criteria, ondanks sterke correlatie met het oordeel van GPT-4. Onze bevindingen suggereren dat correlatie met GPT-4 een onvolledige proxy is voor de praktische prestaties van beoordelingsmodellen en aangevuld moet worden met evaluaties op eenheidstests voor nauwkeurige detectie van foutmodi. Verder tonen we aan dat het fine-tunen van Llama-3 op de redeneringssporen van GPT-4 aanzienlijk bijdraagt aan de evaluatiecapaciteiten, waarbij zowel de correlatie met de evaluaties van GPT-4 als de kalibratie op referentiesituaties worden verbeterd.
Affordance verwijst naar de potentiële interacties die inherent zijn aan objecten. De perceptie van affordance kan intelligente agenten in staat stellen om efficiënt te navigeren en te interageren met nieuwe omgevingen. Zwak gesuperviseerde affordance-gronding leert agenten het concept van affordance zonder kostbare pixelniveau-annotaties, maar met exocentrische afbeeldingen. Hoewel recente ontwikkelingen op het gebied van zwak gesuperviseerde affordance-gronding veelbelovende resultaten hebben opgeleverd, blijven er uitdagingen bestaan, waaronder de vereiste van een gekoppeld dataset van exocentrische en egocentrische afbeeldingen, en de complexiteit van het gronden van diverse affordances voor een enkel object. Om deze aan te pakken, stellen wij INTRA voor, Interaction Relationship-aware zwak gesuperviseerde Affordance-gronding. In tegenstelling tot eerdere methoden, benadert INTRA dit probleem als representatie-leren om unieke kenmerken van interacties te identificeren via contrastief leren met alleen exocentrische afbeeldingen, waardoor de noodzaak voor gekoppelde datasets wordt geëlimineerd. Bovendien maken we gebruik van visie-taalmodel-embeddings om affordance-gronding flexibel uit te voeren met behulp van tekst, waarbij tekst-geconditioneerde affordance-kaartgeneratie wordt ontworpen om de interactierelatie weer te geven voor contrastief leren en de robuustheid te verbeteren met onze tekst-synoniem-augmentatie. Onze methode presteerde beter dan eerdere methoden op diverse datasets zoals AGD20K, IIT-AFF, CAD en UMD. Bovendien tonen experimentele resultaten aan dat onze methode opmerkelijke domeinschaalbaarheid heeft voor gesynthetiseerde afbeeldingen/illustraties en in staat is om affordance-gronding uit te voeren voor nieuwe interacties en objecten.
Muziek is een integraal onderdeel van de menselijke cultuur, waarin menselijke intelligentie en creativiteit tot uiting komen, waarbij liederen een essentieel onderdeel vormen. Hoewel eerdere werken verschillende aspecten van liedgeneratie hebben onderzocht, zoals zangstem, vocale compositie en instrumentale arrangementen, blijft het genereren van liederen met zowel zang als begeleiding op basis van songteksten een aanzienlijke uitdaging, waardoor de toepassing van muziekgeneratiemodellen in de echte wereld wordt belemmerd. In dit opzicht stellen wij SongCreator voor, een liedgeneratiesysteem dat is ontworpen om deze uitdaging aan te gaan. Het model bevat twee nieuwe ontwerpen: een zorgvuldig ontworpen tweetalige taalmodel (DSLM) om de informatie van zang en begeleiding voor liedgeneratie vast te leggen, en een aanvullende aandachtsmaskerstrategie voor DSLM, waardoor ons model liederen kan begrijpen, genereren en bewerken, waardoor het geschikt is voor verschillende op liedjes gerelateerde generatietaken. Uitgebreide experimenten tonen de effectiviteit van SongCreator aan door het behalen van toonaangevende of concurrerende prestaties op alle acht taken. Opmerkelijk is dat het eerdere werken ver overtreft op het gebied van tekst-naar-lied en tekst-naar-zang. Bovendien is het in staat om onafhankelijk de akoestische omstandigheden van de zang en begeleiding in het gegenereerde lied te regelen via verschillende prompts, wat zijn potentiële toepasbaarheid aantoont. Onze voorbeelden zijn beschikbaar op https://songcreator.github.io/.
Foley is een term die vaak wordt gebruikt in de filmmaking, wat verwijst naar het toevoegen van dagelijkse geluidseffecten aan stille films of video's om de auditieve ervaring te verbeteren. Video-naar-audio (V2A), als een specifiek type automatische foley-taak, brengt inherente uitdagingen met zich mee met betrekking tot audiovisuele synchronisatie. Deze uitdagingen omvatten het behouden van de inhoudsconsistentie tussen de invoervideo en de gegenereerde audio, evenals de afstemming van temporele en luidheidskenmerken binnen de video. Om deze problemen aan te pakken, construeren we een controleerbaar video-naar-audio synthese model, genaamd Draw an Audio, dat meerdere invoerinstructies ondersteunt via getekende maskers en luidheidssignalen. Om de inhoudsconsistentie tussen de gesynthetiseerde audio en de doelvideo te waarborgen, introduceren we de Mask-Attention Module (MAM), die gemaskerde video-instructies gebruikt om het model zich te laten concentreren op interessante regio's. Daarnaast implementeren we de Time-Loudness Module (TLM), die een hulp-luidheidssignaal gebruikt om ervoor te zorgen dat het geluid dat wordt gesynthetiseerd in overeenstemming is met de video op zowel luidheid als temporele dimensies. Bovendien hebben we een grootschalige V2A dataset uitgebreid, genaamd VGGSound-Caption, door bijschriftprompts te annoteren. Uitgebreide experimenten op uitdagende benchmarks over twee grootschalige V2A datasets bevestigen dat Draw an Audio de state-of-the-art bereikt. Projectpagina: https://yannqi.github.io/Draw-an-Audio/.
In de afgelopen jaren heeft de ontwikkeling van diffusiemodellen geleid tot aanzienlijke vooruitgang in taken voor het genereren van afbeeldingen en video's, met vooraf getrainde modellen zoals de Stable Diffusion-serie die een cruciale rol spelen. Geïnspireerd door modelpruning, waarbij grote vooraf getrainde modellen worden verlicht door onbelangrijke parameters te verwijderen, stellen we een nieuw model fine-tuning methode voor om volledig gebruik te maken van deze ineffectieve parameters en het vooraf getrainde model te voorzien van nieuwe, taakspecifieke mogelijkheden. In dit werk onderzoeken we eerst het belang van parameters in vooraf getrainde diffusiemodellen en ontdekken dat de kleinste 10% tot 20% van de parameters qua absolute waarden niet bijdragen aan het generatieproces. Op basis van deze observatie stellen we een methode voor genaamd SaRA voor die deze tijdelijk ineffectieve parameters opnieuw gebruikt, wat neerkomt op het optimaliseren van een schaarse gewichtsmatrix om de taakspecifieke kennis te leren. Om overpassing te verminderen, stellen we een op de kernnorm gebaseerd laag-rang schaars trainingsschema voor voor efficiënte fine-tuning. Bovendien ontwerpen we een nieuwe progressieve parameteraanpassingsstrategie om volledig gebruik te maken van de opnieuw getrainde/gefine-tunede parameters. Ten slotte stellen we een nieuwe ongestructureerde backpropagation-strategie voor, die aanzienlijk geheugenkosten verlaagt tijdens fine-tuning. Onze methode verbetert de generatieve mogelijkheden van vooraf getrainde modellen in downstream-toepassingen en overtreft traditionele fine-tuning methoden zoals LoRA in het behouden van het generalisatievermogen van het model. We valideren onze benadering door fine-tuning-experimenten op SD-modellen uit te voeren, waarbij significante verbeteringen worden aangetoond. SaRA biedt ook een praktisch voordeel dat slechts één regel codeaanpassing vereist voor efficiënte implementatie en naadloos compatibel is met bestaande methoden.
Neurale Stralingsvelden (NeRFs) hebben de reconstructie van statische scènes en objecten in 3D gerevolutioneerd, met een ongekende kwaliteit. Het uitbreiden van NeRFs om dynamische objecten of objectarticulaties te modelleren blijft echter een uitdagend probleem. Eerdere werken hebben dit aangepakt door zich te richten op de reconstructie op deel-niveau en bewegingsschatting voor objecten, maar ze vertrouwen vaak op heuristieken met betrekking tot het aantal bewegende delen of objectcategorieën, wat hun praktische toepassing kan beperken. In dit werk introduceren we LEIA, een nieuwe benadering voor het representeren van dynamische 3D-objecten. Onze methode omvat het observeren van het object op verschillende tijdstappen of "staten" en het conditioneren van een hypernetwerk op de huidige staat, waarbij we dit gebruiken om onze NeRF te parameteriseren. Deze benadering stelt ons in staat om een kijk-onafhankelijke latente representatie te leren voor elke staat. We tonen verder aan dat door te interpoleren tussen deze staten, we nieuwe articulatieconfiguraties in 3D-ruimte kunnen genereren die eerder niet waren gezien. Onze experimentele resultaten benadrukken de effectiviteit van onze methode bij het articuleren van objecten op een manier die onafhankelijk is van de kijkhoek en gewrichtsconfiguratie. Opmerkelijk is dat onze benadering beter presteert dan eerdere methoden die vertrouwen op bewegingsinformatie voor articulatieregistratie.