Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks hun opmerkelijke capaciteiten produceren grote taalmodellen (LLMs) vaak reacties die feitelijke onjuistheden bevatten vanwege hun uitsluitende afhankelijkheid van de parametrische kennis die ze omvatten. Retrieval-Augmented Generation (RAG), een ad hoc-benadering die taalmodellen versterkt met het ophalen van relevante kennis, vermindert dergelijke problemen. Het ongericht ophalen en integreren van een vast aantal opgehaalde passages, ongeacht of het ophalen noodzakelijk is of de passages relevant zijn, vermindert echter de veelzijdigheid van het taalmodel of kan leiden tot onbruikbare reacties. Wij introduceren een nieuw framework genaamd Self-Reflective Retrieval-Augmented Generation (Self-RAG) dat de kwaliteit en feitelijkheid van een taalmodel verbetert door middel van ophalen en zelfreflectie. Ons framework traint één willekeurig taalmodel dat adaptief passages ophaalt op aanvraag, en genereert en reflecteert op opgehaalde passages en zijn eigen generaties met behulp van speciale tokens, genaamd reflectietokens. Het genereren van reflectietokens maakt het taalmodel beheersbaar tijdens de inferentiefase, waardoor het zijn gedrag kan aanpassen aan diverse taakeisen. Experimenten tonen aan dat Self-RAG (7B en 13B parameters) aanzienlijk beter presteert dan state-of-the-art LLMs en retrieval-augmented modellen op een diverse set van taken. Specifiek presteert Self-RAG beter dan ChatGPT en retrieval-augmented Llama2-chat op Open-domain QA, redenering en feitenverificatietaken, en het laat significante verbeteringen zien in het verbeteren van feitelijkheid en citaatnauwkeurigheid voor langere generaties in vergelijking met deze modellen.
AI-gestuurde muziekverwerking is een divers vakgebied dat tientallen taken omvat, variërend van generatietaken (bijv. timbresynthese) tot begripstaken (bijv. muziekclassificatie). Voor ontwikkelaars en amateurs is het zeer moeilijk om al deze taken te begrijpen om aan hun vereisten in muziekverwerking te voldoen, vooral gezien de enorme verschillen in de representaties van muziekdata en de modeltoepasbaarheid over platforms bij verschillende taken. Daarom is het noodzakelijk om een systeem te bouwen dat deze taken organiseert en integreert, en zo praktijkmensen helpt om automatisch hun behoeften te analyseren en geschikte tools aan te roepen als oplossingen om aan hun vereisten te voldoen. Geïnspireerd door het recente succes van grote taalmodelen (LLMs) in taakautomatisering, ontwikkelen we een systeem, genaamd MusicAgent, dat tal van muziekgerelateerde tools en een autonome workflow integreert om aan gebruikersvereisten te voldoen. Meer specifiek bouwen we 1) een toolset die tools uit diverse bronnen verzamelt, waaronder Hugging Face, GitHub en Web API, enz. 2) een autonome workflow, aangedreven door LLMs (bijv. ChatGPT), om deze tools te organiseren en gebruikersverzoeken automatisch op te splitsen in meerdere subtaken en overeenkomstige muziektools aan te roepen. Het primaire doel van dit systeem is om gebruikers te bevrijden van de complexiteit van AI-muziektools, zodat zij zich kunnen concentreren op het creatieve aspect. Door gebruikers de vrijheid te geven om moeiteloos tools te combineren, biedt het systeem een naadloze en verrijkende muziekervaring.
Recente tekst-naar-3D-generatiemethoden bereiken indrukwekkende capaciteiten voor het creëren van 3D-inhoud dankzij de vooruitgang in beelddiffusiemodellen en optimalisatiestrategieën. Huidige methoden hebben echter moeite om correcte 3D-inhoud te genereren voor complexe prompts in termen van semantiek, d.w.z. een prompt die meerdere interactieve objecten beschrijft die gebonden zijn aan verschillende attributen. In dit werk stellen we een algemeen framework voor genaamd Progressive3D, dat het gehele generatieproces opdeelt in een reeks lokaal progressieve bewerkingsstappen om precieze 3D-inhoud te creëren voor complexe prompts, en we beperken de inhoudsverandering tot alleen de regio's die worden bepaald door door de gebruiker gedefinieerde regiomeldingen in elke bewerkingsstap. Bovendien introduceren we een techniek voor het onderdrukken van overlappende semantische componenten om het optimalisatieproces te stimuleren zich meer te richten op de semantische verschillen tussen prompts. Uitgebreide experimenten tonen aan dat het voorgestelde Progressive3D-framework precieze 3D-inhoud genereert voor prompts met complexe semantiek en algemeen toepasbaar is voor verschillende tekst-naar-3D-methoden die worden aangedreven door verschillende 3D-representaties.