Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante le loro straordinarie capacità, i grandi modelli linguistici (LLM) spesso producono risposte contenenti inesattezze fattuali a causa della loro esclusiva dipendenza dalla conoscenza parametrica che racchiudono. La Generazione Aumentata dal Recupero (RAG), un approccio ad hoc che potenzia i modelli linguistici con il recupero di conoscenze rilevanti, riduce tali problemi. Tuttavia, il recupero e l'incorporazione indiscriminata di un numero fisso di passaggi recuperati, indipendentemente dalla necessità del recupero o dalla rilevanza dei passaggi, riduce la versatilità del modello linguistico o può portare alla generazione di risposte inutili. Introduciamo un nuovo framework chiamato Generazione Aumentata dal Recupero Auto-Riflessivo (Self-RAG) che migliora la qualità e la veridicità di un modello linguistico attraverso il recupero e l'auto-riflessione. Il nostro framework addestra un singolo modello linguistico arbitrario che recupera adattivamente passaggi su richiesta, e genera e riflette sui passaggi recuperati e sulle proprie generazioni utilizzando token speciali, chiamati token di riflessione. La generazione di token di riflessione rende il modello linguistico controllabile durante la fase di inferenza, consentendogli di adattare il proprio comportamento a diverse esigenze di compito. Gli esperimenti dimostrano che Self-RAG (con 7B e 13B parametri) supera significativamente i migliori LLM e modelli aumentati dal recupero su un insieme diversificato di compiti. In particolare, Self-RAG supera ChatGPT e Llama2-chat aumentato dal recupero nei compiti di QA a dominio aperto, ragionamento e verifica fattuale, e mostra significativi miglioramenti nella veridicità e nell'accuratezza delle citazioni per generazioni di lunga durata rispetto a questi modelli.
L'elaborazione musicale potenziata dall'IA è un campo diversificato che comprende decine di compiti, che vanno da attività di generazione (ad esempio, sintesi timbrica) a compiti di comprensione (ad esempio, classificazione musicale). Per sviluppatori e appassionati, è molto difficile padroneggiare tutti questi compiti per soddisfare le proprie esigenze nell'elaborazione musicale, soprattutto considerando le enormi differenze nelle rappresentazioni dei dati musicali e nell'applicabilità dei modelli tra piattaforme e vari compiti. Di conseguenza, è necessario costruire un sistema per organizzare e integrare questi compiti, aiutando così i professionisti ad analizzare automaticamente le proprie esigenze e a richiamare gli strumenti adatti come soluzioni per soddisfare i loro requisiti. Ispirati dal recente successo dei grandi modelli linguistici (LLM) nell'automazione dei compiti, abbiamo sviluppato un sistema, chiamato MusicAgent, che integra numerosi strumenti legati alla musica e un flusso di lavoro autonomo per affrontare le esigenze degli utenti. Più specificamente, abbiamo costruito 1) un insieme di strumenti che raccoglie strumenti da fonti diverse, tra cui Hugging Face, GitHub e API web, ecc. 2) un flusso di lavoro autonomo potenziato da LLM (ad esempio, ChatGPT) per organizzare questi strumenti e scomporre automaticamente le richieste degli utenti in più sotto-compiti e richiamare gli strumenti musicali corrispondenti. L'obiettivo principale di questo sistema è liberare gli utenti dalle complessità degli strumenti di IA musicale, consentendo loro di concentrarsi sull'aspetto creativo. Concedendo agli utenti la libertà di combinare gli strumenti senza sforzo, il sistema offre un'esperienza musicale fluida e arricchente.
I recenti metodi di generazione da testo a 3D raggiungono una capacità impressionante nella creazione di contenuti 3D grazie ai progressi nei modelli di diffusione delle immagini e nelle strategie di ottimizzazione. Tuttavia, gli attuali metodi faticano a generare contenuti 3D corretti per prompt complessi dal punto di vista semantico, ovvero prompt che descrivono più oggetti interagenti associati a diversi attributi. In questo lavoro, proponiamo un framework generale chiamato Progressive3D, che scompone l'intera generazione in una serie di passaggi di modifica localmente progressivi per creare contenuti 3D precisi per prompt complessi, e limitiamo la modifica del contenuto a verificarsi solo nelle regioni determinate da prompt di regione definiti dall'utente in ogni passaggio di modifica. Inoltre, proponiamo una tecnica di soppressione delle componenti semantiche sovrapposte per incoraggiare il processo di ottimizzazione a concentrarsi maggiormente sulle differenze semantiche tra i prompt. Esperimenti estensivi dimostrano che il framework Progressive3D proposto genera contenuti 3D precisi per prompt con semantica complessa ed è generale per vari metodi di generazione da testo a 3D guidati da diverse rappresentazioni 3D.