Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici potenziati dal retrieval possono adattarsi meglio ai cambiamenti dello stato del mondo e incorporare conoscenze di nicchia. Tuttavia, la maggior parte dei metodi esistenti recupera solo brevi segmenti contigui da un corpus di retrieval, limitando la comprensione olistica del contesto complessivo del documento. Introduciamo un approccio innovativo che prevede l'incorporazione ricorsiva, il clustering e la sintesi di segmenti di testo, costruendo un albero con diversi livelli di sintesi dal basso verso l'alto. Al momento dell'inferenza, il nostro modello RAPTOR effettua il retrieval da questo albero, integrando informazioni da documenti lunghi a diversi livelli di astrazione. Esperimenti controllati dimostrano che il retrieval con sintesi ricorsive offre miglioramenti significativi rispetto ai tradizionali modelli linguistici potenziati dal retrieval in diverse attività. Nelle attività di risposta a domande che richiedono ragionamenti complessi e multi-step, otteniamo risultati all'avanguardia; ad esempio, combinando il retrieval di RAPTOR con l'uso di GPT-4, possiamo migliorare la migliore prestazione sul benchmark QuALITY del 20% in termini di accuratezza assoluta.
I modelli linguistici n-gram sono ancora rilevanti in questa era dei grandi modelli linguistici neurali (LLM)? La nostra risposta è sì, e ne dimostriamo il valore sia nell'analisi del testo che nel miglioramento dei LLM neurali. Tuttavia, ciò richiede una modernizzazione dei modelli n-gram in due aspetti. Innanzitutto, li addestriamo sulla stessa scala di dati dei LLM neurali — 1,4 trilioni di token. Questo è il più grande modello n-gram mai costruito. In secondo luogo, i modelli n-gram esistenti utilizzano valori di n piccoli che ne limitano le prestazioni; noi invece permettiamo che n sia arbitrariamente grande, introducendo un nuovo modello linguistico infty-gram con backoff. Invece di pre-calcolare le tabelle di conteggio degli n-gram (che sarebbe molto costoso), sviluppiamo un motore chiamato infini-gram — alimentato da array di suffissi — che può calcolare le probabilità degli infty-gram (così come degli n-gram con n arbitrario) con una latenza a livello di millisecondi. Il framework infty-gram e il motore infini-gram ci permettono di condurre molte analisi nuove e interessanti su testi scritti da esseri umani e generati da macchine: scopriamo che il modello linguistico infty-gram ha un'accuratezza piuttosto elevata nella previsione del token successivo (47%) e può integrare i LLM neurali per ridurre notevolmente le loro perplessità nella modellazione del linguaggio. Quando analizziamo testi generati da macchine, osserviamo anche irregolarità nel livello di accordo macchina–infty-gram rispetto alla lunghezza del suffisso, il che indica carenze nel pre-addestramento dei LLM neurali e negli embedding posizionali dei Transformer. Rendiamo open-source il nostro motore infini-gram nella speranza di favorire ulteriori studi su come utilizzare al meglio le informazioni verbatim estratte da grandi corpora testuali.
I robot a zampe che navigano in ambienti affollati devono essere contemporaneamente agili per un'esecuzione efficiente dei compiti e sicuri per evitare collisioni con ostacoli o esseri umani. Gli studi esistenti sviluppano controller conservativi (< 1,0 m/s) per garantire la sicurezza, oppure si concentrano sull'agilità senza considerare potenziali collisioni fatali. Questo articolo introduce Agile But Safe (ABS), un framework di controllo basato sull'apprendimento che consente una locomozione agile e priva di collisioni per robot quadrupedi. ABS comprende una politica agile per eseguire abilità motorie agili in mezzo agli ostacoli e una politica di recupero per prevenire fallimenti, collaborando per ottenere una navigazione ad alta velocità e priva di collisioni. Il passaggio tra le politiche in ABS è governato da una rete di valore reach-avoid appresa teoricamente, che guida anche la politica di recupero come funzione obiettivo, proteggendo così il robot in un ciclo chiuso. Il processo di formazione coinvolge l'apprendimento della politica agile, della rete di valore reach-avoid, della politica di recupero e di una rete di rappresentazione esterocettiva, tutto in simulazione. Questi moduli addestrati possono essere direttamente implementati nel mondo reale con sensori e calcolo a bordo, portando a una navigazione ad alta velocità e priva di collisioni in spazi confinati sia interni che esterni, con ostacoli sia statici che dinamici.
Estendere i modelli linguistici di grandi dimensioni per gestire efficacemente contesti lunghi richiede un fine-tuning su istruzioni con sequenze di input di lunghezza simile. Per affrontare questa sfida, presentiamo LongAlign -- una ricetta che comprende i dati di istruzione, l'addestramento e la valutazione per l'allineamento di contesti lunghi. In primo luogo, costruiamo un dataset di istruzioni lunghe utilizzando Self-Instruct. Per garantire la diversità dei dati, copriamo un'ampia gamma di task provenienti da varie fonti di contesti lunghi. In secondo luogo, adottiamo strategie di impacchettamento e ordinamento dei batch per accelerare il fine-tuning supervisionato su dati con distribuzioni di lunghezza variabile. Inoltre, sviluppiamo un metodo di ponderazione della perdita per bilanciare il contributo alla perdita tra diverse sequenze durante l'addestramento con impacchettamento. In terzo luogo, introduciamo il benchmark LongBench-Chat per valutare le capacità di seguire istruzioni su query di lunghezza compresa tra 10k e 100k. Gli esperimenti dimostrano che LongAlign supera le ricette esistenti per i modelli linguistici di grandi dimensioni nei task di contesto lungo fino al 30\%, mantenendo al contempo la loro competenza nella gestione di task brevi e generici. Il codice, i dati e i modelli allineati per contesti lunghi sono open-source all'indirizzo https://github.com/THUDM/LongAlign.
I modelli di diffusione video stanno attirando un'attenzione crescente per la loro capacità di produrre video coerenti e di alta fedeltà. Tuttavia, il processo iterativo di rimozione del rumore li rende computazionalmente intensivi e lunghi, limitandone le applicazioni. Ispirati dal Modello di Consistenza (CM) che distilla modelli di diffusione di immagini pre-addestrati per accelerare il campionamento con un numero minimo di passaggi e dalla sua estensione di successo, il Modello di Consistenza Latente (LCM) nella generazione condizionata di immagini, proponiamo AnimateLCM, che consente la generazione di video ad alta fedeltà con un numero minimo di passaggi. Invece di condurre direttamente l'apprendimento della consistenza sul dataset video grezzo, proponiamo una strategia di apprendimento della consistenza disaccoppiata che separa la distillazione delle conoscenze pregresse sulla generazione di immagini e sulla generazione del movimento, migliorando l'efficienza dell'addestramento e la qualità visiva della generazione. Inoltre, per consentire l'integrazione di adattatori plug-and-play nella comunità di diffusione stabile per ottenere varie funzionalità (ad esempio, ControlNet per la generazione controllabile), proponiamo una strategia efficiente per adattare gli adattatori esistenti al nostro modello di consistenza video condizionato al testo distillato o per addestrare adattatori da zero senza compromettere la velocità di campionamento. Validiamo la strategia proposta nella generazione di video condizionata all'immagine e nella generazione di video condizionata al layout, ottenendo risultati di primo livello. I risultati sperimentali convalidano l'efficacia del nostro metodo. Codice e pesi saranno resi pubblici. Ulteriori dettagli sono disponibili su https://github.com/G-U-N/AnimateLCM.
Per ottenere un ragionamento fedele che si allinei con le aspettative umane, i grandi modelli linguistici (LLM) devono ancorare il loro ragionamento a conoscenze del mondo reale (ad esempio, fatti web, regole matematiche e fisiche). Gli strumenti aiutano gli LLM ad accedere a questa conoscenza esterna, ma rimangono sfide per il fine-tuning degli agenti LLM (ad esempio, Toolformer) per invocare strumenti in problemi di ragionamento a più passaggi, dove chiamate di strumenti interconnesse richiedono una pianificazione olistica ed efficiente dell'uso degli strumenti. In questo lavoro, proponiamo un nuovo metodo affinché gli LLM possano sfruttare meglio gli strumenti nel ragionamento a più passaggi. Il nostro metodo, Chain-of-Abstraction (CoA), addestra gli LLM a decodificare prima catene di ragionamento con segnaposto astratti, e poi a chiamare strumenti di dominio per concretizzare ogni catena di ragionamento riempiendo conoscenze specifiche. Questa pianificazione con catene astratte consente agli LLM di apprendere strategie di ragionamento più generali, che sono robuste ai cambiamenti di conoscenza di dominio (ad esempio, risultati matematici) rilevanti per diverse domande di ragionamento. Permette inoltre agli LLM di eseguire la decodifica e la chiamata di strumenti esterni in parallelo, evitando il ritardo di inferenza causato dall'attesa delle risposte degli strumenti. Nei domini del ragionamento matematico e delle domande Wiki QA, dimostriamo che il nostro metodo supera costantemente i precedenti baseline di catena di pensiero e strumenti aumentati sia su set di test in-distribuzione che out-of-distribution, con un miglioramento medio di ~6% in termini di accuratezza assoluta nelle risposte. Gli agenti LLM addestrati con il nostro metodo mostrano anche un uso più efficiente degli strumenti, con una velocità di inferenza in media ~1,4 volte più veloce rispetto ai baseline di LLM aumentati con strumenti.
La generazione di modelli 3D rappresenta il cuore della computer grafica ed è stata al centro di decenni di ricerca. Con l'emergere di rappresentazioni neurali avanzate e modelli generativi, il campo della generazione di contenuti 3D si sta sviluppando rapidamente, consentendo la creazione di modelli 3D sempre più di alta qualità e diversificati. La rapida crescita di questo settore rende difficile rimanere aggiornati su tutti i recenti sviluppi. In questa rassegna, ci proponiamo di introdurre le metodologie fondamentali dei metodi di generazione 3D e di stabilire una roadmap strutturata, che comprende rappresentazione 3D, metodi di generazione, dataset e applicazioni corrispondenti. Nello specifico, introduciamo le rappresentazioni 3D che fungono da spina dorsale per la generazione 3D. Inoltre, forniamo una panoramica completa della letteratura in rapida crescita sui metodi di generazione, categorizzati in base al tipo di paradigmi algoritmici, inclusi la generazione feedforward, la generazione basata su ottimizzazione, la generazione procedurale e la sintesi generativa di nuove viste. Infine, discutiamo i dataset disponibili, le applicazioni e le sfide aperte. Speriamo che questa rassegna aiuti i lettori a esplorare questo entusiasmante argomento e a favorire ulteriori progressi nel campo della generazione di contenuti 3D.
La simulazione video realistica ha dimostrato un potenziale significativo in diverse applicazioni, dalla realtà virtuale alla produzione cinematografica. Ciò è particolarmente vero per gli scenari in cui la cattura di video in ambienti reali risulta impraticabile o costosa. Gli approcci esistenti nella simulazione video spesso non riescono a modellare accuratamente l'ambiente luminoso, rappresentare la geometria degli oggetti o raggiungere elevati livelli di fotorealismo. In questo articolo, proponiamo "Anything in Any Scene", un nuovo e generico framework per la simulazione video realistica che inserisce in modo fluido qualsiasi oggetto in un video dinamico esistente, con una forte enfasi sul realismo fisico. Il nostro framework generale proposto comprende tre processi chiave: 1) integrare un oggetto realistico in un video di scena dato con un posizionamento appropriato per garantire il realismo geometrico; 2) stimare la distribuzione della luce del cielo e dell'ambiente e simulare ombre realistiche per migliorare il realismo luminoso; 3) impiegare una rete di trasferimento di stile che perfeziona l'output video finale per massimizzare il fotorealismo. Sperimentalmente dimostriamo che il framework "Anything in Any Scene" produce video simulati con un elevato realismo geometrico, luminoso e fotorealistico. Mitigando significativamente le sfide associate alla generazione di dati video, il nostro framework offre una soluzione efficiente e conveniente per l'acquisizione di video di alta qualità. Inoltre, le sue applicazioni si estendono ben oltre l'aumento dei dati video, mostrando un potenziale promettente nella realtà virtuale, nell'editing video e in varie altre applicazioni incentrate sul video. Si prega di visitare il nostro sito web del progetto https://anythinginanyscene.github.io per accedere al codice del progetto e a ulteriori risultati video ad alta risoluzione.
La rapida evoluzione dei Large Language Models (LLM), esemplificata da architetture come GPT-4, ha ridefinito il panorama del natural language processing. Questo articolo introduce un approccio pionieristico per affrontare le preoccupazioni legate all'efficienza nel pre-training degli LLM, proponendo l'uso della distillazione della conoscenza per il trasferimento cross-architettura. Sfruttando le intuizioni del meccanismo efficiente Hyena, il nostro metodo sostituisce le testine di attenzione nei modelli transformer con Hyena, offrendo un'alternativa economica al pre-training tradizionale e affrontando la sfida di elaborare informazioni contestuali lunghe, intrinseca ai meccanismi di attenzione quadratica. A differenza dei metodi convenzionali focalizzati sulla compressione, la nostra tecnica non solo migliora la velocità di inferenza, ma supera anche il pre-training in termini di accuratezza ed efficienza. Nell'era degli LLM in evoluzione, il nostro lavoro contribuisce alla ricerca di soluzioni AI sostenibili, bilanciando potenza computazionale e impatto ambientale.
Presentiamo il modello ReplaceAnything3D (RAM3D), un innovativo metodo di editing di scene 3D guidato da testo che consente la sostituzione di oggetti specifici all'interno di una scena. Dati immagini multi-vista di una scena, un prompt di testo che descrive l'oggetto da sostituire e un prompt di testo che descrive il nuovo oggetto, il nostro approccio "Cancella e Sostituisci" può scambiare efficacemente gli oggetti nella scena con contenuti appena generati, mantenendo la coerenza 3D attraverso più punti di vista. Dimostriamo la versatilità di ReplaceAnything3D applicandolo a varie scene 3D realistiche, mostrando risultati di oggetti in primo piano modificati che si integrano bene con il resto della scena senza comprometterne l'integrità complessiva.
Proponiamo CARFF: Conditional Auto-encoded Radiance Field per la previsione di scene 3D, un metodo per prevedere scene 3D future date osservazioni passate, come immagini egocentriche 2D. Il nostro metodo mappa un'immagine a una distribuzione su configurazioni latenti 3D plausibili utilizzando un encoder probabilistico e prevede l'evoluzione delle scene ipotizzate nel tempo. La nostra rappresentazione latente della scene condiziona un Neural Radiance Field (NeRF) globale per rappresentare un modello di scena 3D, che consente previsioni spiegabili e applicazioni downstream dirette. Questo approccio va oltre il precedente lavoro sul rendering neurale considerando scenari complessi di incertezza negli stati e nelle dinamiche ambientali. Utilizziamo un addestramento in due fasi di Pose-Conditional-VAE e NeRF per apprendere rappresentazioni 3D. Inoltre, prevediamo autoregressivamente le rappresentazioni latenti delle scene come un processo decisionale di Markov parzialmente osservabile, sfruttando una rete a densità mista. Dimostriamo l'utilità del nostro metodo in scenari realistici utilizzando il simulatore di guida CARLA, dove CARFF può essere utilizzato per abilitare una pianificazione efficiente delle traiettorie e delle contingenze in complessi scenari di guida autonoma multi-agente che coinvolgono occlusioni visive.