Articoli di ricerca IA selezionati quotidianamente con traduzioni
La recente comparsa di tecniche di pre-addestramento auto-supervisionato ha portato a un aumento nell'uso dell'apprendimento multimodale per la comprensione dei documenti strutturati. Tuttavia, gli approcci esistenti che estendono il modello di mascheramento linguistico ad altre modalità richiedono un'attenta regolazione multi-task, progetti complessi per gli obiettivi di ricostruzione o dati aggiuntivi per il pre-addestramento. In FormNetV2, introduciamo una strategia centralizzata di apprendimento contrastivo su grafo multimodale per unificare il pre-addestramento auto-supervisionato per tutte le modalità in una singola funzione di perdita. L'obiettivo contrastivo su grafo massimizza l'accordo tra le rappresentazioni multimodali, fornendo un'interazione naturale per tutte le modalità senza necessità di personalizzazioni specifiche. Inoltre, estraiamo le caratteristiche dell'immagine all'interno del riquadro di delimitazione che unisce una coppia di token connessi da un arco del grafo, catturando indizi visivi più mirati senza caricare un estrattore di caratteristiche immagine sofisticato e pre-addestrato separatamente. FormNetV2 stabilisce nuove prestazioni all'avanguardia sui benchmark FUNSD, CORD, SROIE e Payment con una dimensione del modello più compatta.
C'è una crescente richiesta per la creazione accessibile di avatar 3D di alta qualità che siano animabili e personalizzabili. Sebbene i modelli morfabili 3D offrano un controllo intuitivo per l'editing e l'animazione, e robustezza per la ricostruzione facciale da singola vista, non riescono a catturare facilmente i dettagli geometrici e di aspetto. I metodi basati su rappresentazioni neurali implicite, come le funzioni di distanza con segno (SDF) o i campi di radianza neurali, si avvicinano al foto-realismo, ma sono difficili da animare e non generalizzano bene a dati non visti. Per affrontare questo problema, proponiamo un nuovo metodo per costruire modelli facciali morfabili 3D impliciti che siano sia generalizzabili che intuitivi per l'editing. Addestrato da una raccolta di scansioni 3D di alta qualità, il nostro modello facciale è parametrizzato da codici latenti di geometria, espressione e texture con una SDF appresa e una parametrizzazione esplicita della texture UV. Una volta addestrato, possiamo ricostruire un avatar da una singola immagine in condizioni reali sfruttando il precedente appreso per proiettare l'immagine nello spazio latente del nostro modello. I nostri modelli facciali morfabili impliciti possono essere utilizzati per renderizzare un avatar da nuove angolazioni, animare le espressioni facciali modificando i codici di espressione e modificare le texture dipingendo direttamente sulle mappe UV-texture apprese. Dimostriamo quantitativamente e qualitativamente che il nostro metodo migliora il foto-realismo, la geometria e l'accuratezza delle espressioni rispetto ai metodi all'avanguardia.
Questo articolo propone NeuralEditor, che rende i campi di radianza neurale (NeRFs) intrinsecamente modificabili per compiti generali di editing delle forme. Nonostante i risultati impressionanti nella sintesi di nuove viste, rimane una sfida fondamentale per i NeRFs modificare la forma della scena. La nostra intuizione chiave è sfruttare la rappresentazione esplicita della nuvola di punti come struttura sottostante per costruire i NeRFs, ispirati dall'interpretazione intuitiva del rendering NeRF come un processo che proietta o "traccia" la nuvola di punti 3D associata su un piano immagine 2D. A tal fine, NeuralEditor introduce un nuovo schema di rendering basato sull'integrazione deterministica all'interno di voxel adattivi alla densità guidati da K-D tree, che produce sia risultati di rendering di alta qualità che nuvole di punti precise attraverso l'ottimizzazione. NeuralEditor esegue poi l'editing delle forme mappando i punti associati tra le nuvole di punti. Una valutazione estensiva mostra che NeuralEditor raggiunge prestazioni all'avanguardia sia nei compiti di deformazione delle forme che di morphing delle scene. In particolare, NeuralEditor supporta sia l'inferenza zero-shot che un ulteriore fine-tuning sulla scena modificata. Il nostro codice, benchmark e video demo sono disponibili su https://immortalco.github.io/NeuralEditor.
I compiti dell'IA abbracciano un'ampia gamma di domini e campi. Sebbene numerosi modelli di IA siano stati progettati per compiti e applicazioni specifici, spesso richiedono notevoli sforzi umani per individuare l'architettura del modello, l'algoritmo di ottimizzazione e gli iperparametri corretti. I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) come ChatGPT mostrano capacità straordinarie in vari aspetti del ragionamento, della comprensione e dell'interazione. Di conseguenza, proponiamo di sviluppare prompt orientati ai compiti e di utilizzare automaticamente gli LLM per automatizzare la pipeline di addestramento. Per implementare questo concetto, presentiamo AutoML-GPT, che impiega GPT come ponte verso diversi modelli di IA e addestra dinamicamente i modelli con iperparametri ottimizzati. AutoML-GPT riceve dinamicamente le richieste dell'utente dalle schede del modello e dei dati e compone il paragrafo di prompt corrispondente. Infine, con questo paragrafo di prompt, AutoML-GPT condurrà automaticamente gli esperimenti, dalla elaborazione dei dati all'architettura del modello, alla regolazione degli iperparametri e al log di addestramento previsto. Sfruttando le robuste capacità linguistiche di {\ours} e i modelli di IA disponibili, AutoML-GPT può affrontare numerosi compiti di IA complessi su vari compiti e dataset. Questo approccio ottiene risultati notevoli nella visione artificiale, nell'elaborazione del linguaggio naturale e in altre aree impegnative. Esperimenti estesi e studi di ablazione dimostrano che il nostro metodo può essere generale, efficace e vantaggioso per molti compiti di IA.
La traduzione automatica multilingue promette di migliorare la qualità della traduzione tra lingue diverse dall'inglese. Questo è vantaggioso per diversi motivi, in particolare una minore latenza (non è necessario tradurre due volte) e una riduzione delle cascate di errori (ad esempio, evitando di perdere informazioni sul genere e sulla formalità quando si traduce attraverso l'inglese). D'altro canto, l'aggiunta di più lingue riduce la capacità del modello per ciascuna lingua, che di solito viene contrastata aumentando le dimensioni complessive del modello, rendendo più difficile l'addestramento e più lenta l'inferenza. In questo lavoro, introduciamo i Livelli Transformer Specifici per Lingua (LSL), che ci permettono di aumentare la capacità del modello, mantenendo costante la quantità di calcolo e il numero di parametri utilizzati nel passaggio in avanti. L'idea chiave è che alcuni livelli dell'encoder siano specifici per la lingua sorgente o target, mentre i restanti livelli rimangono condivisi. Studiamo il modo migliore per posizionare questi livelli utilizzando un approccio ispirato alla ricerca di architetture neurali e otteniamo un miglioramento di 1,3 punti chrF (1,5 spBLEU) rispetto al non utilizzo degli LSL su un'architettura di decoder separata e di 1,9 punti chrF (2,2 spBLEU) su una con decoder condiviso.
I recenti miglioramenti nelle capacità di generazione di codice, dovuti all'uso di modelli linguistici di grandi dimensioni, hanno principalmente beneficiato i linguaggi di programmazione generici. I linguaggi specifici per dominio, come quelli utilizzati per l'automazione IT, hanno ricevuto molta meno attenzione, nonostante coinvolgano molti sviluppatori attivi e siano una componente essenziale delle moderne piattaforme cloud. Questo lavoro si concentra sulla generazione di Ansible-YAML, un linguaggio di markup ampiamente utilizzato per l'automazione IT. Presentiamo Ansible Wisdom, uno strumento di generazione di codice da linguaggio naturale a Ansible-YAML, progettato per migliorare la produttività nell'automazione IT. Ansible Wisdom è un modello basato su transformer, esteso attraverso l'addestramento con un nuovo dataset contenente Ansible-YAML. Abbiamo anche sviluppato due nuove metriche di prestazione per YAML e Ansible per catturare le caratteristiche specifiche di questo dominio. I risultati mostrano che Ansible Wisdom può generare accuratamente script Ansible da prompt in linguaggio naturale con prestazioni paragonabili o migliori rispetto ai modelli di generazione di codice all'avanguardia esistenti.
Presentiamo un sistema completo per il rendering in tempo reale di scene con un aspetto complesso, precedentemente riservato all'uso offline. Questo risultato è ottenuto attraverso una combinazione di innovazioni algoritmiche e a livello di sistema. Il nostro modello di aspetto utilizza texture gerarchiche apprese che vengono interpretate tramite decodificatori neurali, i quali producono valori di riflettanza e direzioni campionate in modo importanza. Per sfruttare al meglio la capacità di modellazione dei decodificatori, li dotiamo di due prior grafiche. La prima priorità — la trasformazione delle direzioni in frame di illuminazione appresi — facilita la ricostruzione accurata degli effetti a mesoscala. La seconda priorità — una distribuzione di campionamento microfaccettata — consente al decodificatore neurale di eseguire il campionamento per importanza in modo efficiente. Il modello di aspetto risultante supporta il campionamento anisotropo e il rendering a livelli di dettaglio, e permette di "cuocere" grafi di materiali stratificati in una rappresentazione neurale compatta e unificata. Esponendo le operazioni tensoriali accelerate dall'hardware agli shader di ray tracing, dimostriamo che è possibile integrare ed eseguire i decodificatori neurali in modo efficiente all'interno di un path tracer in tempo reale. Analizziamo la scalabilità con un numero crescente di materiali neurali e proponiamo di migliorare le prestazioni utilizzando codice ottimizzato per esecuzioni coerenti e divergenti. I nostri shader di materiali neurali possono essere oltre un ordine di grandezza più veloci rispetto ai materiali stratificati non neurali. Questo apre la porta all'uso di visuali di qualità cinematografica in applicazioni in tempo reale come giochi e anteprime live.
I modelli linguistici pre-addestrati su larga scala (LLM) catturano conoscenze procedurali sul mondo. Recenti lavori hanno sfruttato la capacità degli LLM di generare piani astratti per semplificare compiti di controllo complessi, sia attraverso il punteggio delle azioni, sia attraverso la modellazione delle azioni (fine-tuning). Tuttavia, l'architettura transformer eredita diversi vincoli che rendono difficile per l'LLM fungere direttamente come agente: ad esempio, lunghezze di input limitate, inefficienza nel fine-tuning, bias derivanti dal pre-addestramento e incompatibilità con ambienti non testuali. Per mantenere la compatibilità con un attore addestrabile a basso livello, proponiamo invece di utilizzare la conoscenza negli LLM per semplificare il problema di controllo, piuttosto che risolverlo. Proponiamo il framework Plan, Eliminate, and Track (PET). Il modulo Plan traduce una descrizione del compito in una lista di sotto-compiti di alto livello. Il modulo Eliminate maschera oggetti e contenitori irrilevanti dall'osservazione per il sotto-compito corrente. Infine, il modulo Track determina se l'agente ha completato ciascun sotto-compito. Sul benchmark AlfWorld per il seguimento di istruzioni, il framework PET porta a un significativo miglioramento del 15% rispetto allo stato dell'arte per la generalizzazione alle specifiche degli obiettivi umani.
Il tracciamento di oggetti con persistenza in ambienti affollati e dinamici rimane una sfida complessa per i sistemi di visione artificiale. In questo articolo, presentiamo TCOW, un nuovo benchmark e modello per il tracciamento visivo in presenza di forte occlusione e contenimento. Definiamo un compito in cui l'obiettivo è, data una sequenza video, segmentare sia l'estensione proiettata dell'oggetto target, sia il contenitore circostante o l'occludente, quando presente. Per studiare questo compito, creiamo un mix di dataset sintetici e reali annotati per supportare sia l'apprendimento supervisionato sia la valutazione strutturata delle prestazioni del modello in varie forme di variazione del compito, come il contenimento in movimento o annidato. Valutiamo due recenti modelli video basati su transformer e scopriamo che, sebbene possano essere sorprendentemente capaci di tracciare i target in determinate configurazioni di variazione del compito, rimane un divario di prestazioni considerevole prima di poter affermare che un modello di tracciamento abbia acquisito una vera nozione di permanenza dell'oggetto.
Ci concentriamo sulla ricostruzione di campi di radianza ad alta fedeltà di teste umane, catturandone le animazioni nel tempo e sintetizzando nuove renderizzazioni da punti di vista inediti in passaggi temporali arbitrari. A tal fine, proponiamo una nuova configurazione di acquisizione multi-vista composta da 16 telecamere per visione artificiale calibrate che registrano immagini sincronizzate temporalmente con una risoluzione di 7,1 MP e 73 fotogrammi al secondo. Con questa configurazione, raccogliamo un nuovo dataset di oltre 4700 sequenze ad alta risoluzione e ad alto frame rate di più di 220 teste umane, da cui introduciamo un nuovo benchmark per la ricostruzione di teste umane. Le sequenze registrate coprono un'ampia gamma di dinamiche facciali, inclusi movimenti della testa, espressioni naturali, emozioni e linguaggio parlato. Per ricostruire teste umane ad alta fedeltà, proponiamo i Campi di Radianza Neurale Dinamici utilizzando Insiemi di Hash (NeRSemble). Rappresentiamo le dinamiche della scena combinando un campo di deformazione e un insieme di codifiche hash 3D a multi-risoluzione. Il campo di deformazione consente una modellazione precisa di movimenti semplici della scena, mentre l'insieme di codifiche hash aiuta a rappresentare dinamiche complesse. Di conseguenza, otteniamo rappresentazioni di campi di radianza di teste umane che catturano il movimento nel tempo e facilitano la re-renderizzazione di punti di vista nuovi arbitrari. In una serie di esperimenti, esploriamo le scelte progettuali del nostro metodo e dimostriamo che il nostro approccio supera di gran lunga i metodi all'avanguardia per i campi di radianza dinamici.
I grandi modelli linguistici (LLM) alimentano molti sistemi all'avanguardia nell'elaborazione del linguaggio naturale. Tuttavia, questi modelli sono estremamente costosi dal punto di vista computazionale, anche durante l'inferenza, sollevando una domanda naturale: quando il costo aggiuntivo di implementare un modello più grande giustifica il previsto incremento delle capacità? Una migliore comprensione di questo compromesso potrebbe trarre vantaggio da una metrica di efficienza nell'inferenza che sia sia (i) facilmente confrontabile tra modelli di diversi fornitori, sia (ii) rappresentativa del costo reale di eseguire query in un ambiente di performance isolato. Purtroppo, l'accesso agli LLM oggi è largamente limitato a API di generazione di testo in modalità "black-box", e i tempi di esecuzione grezzi misurati attraverso questa interfaccia non soddisfano questi requisiti: i fornitori di modelli possono applicare varie ottimizzazioni software e hardware ortogonali al modello, e i modelli serviti su infrastrutture condivise sono suscettibili a contese di prestazioni. Per aggirare questi problemi, proponiamo una nuova metrica per confrontare l'efficienza nell'inferenza tra i modelli. Questa metrica pone i modelli su un piano di parità come se fossero serviti (i) su hardware e software uniformi, e (ii) senza contese di prestazioni. Chiamiamo questa metrica il tempo di esecuzione idealizzato, e proponiamo una metodologia per stimare in modo efficiente questa metrica per i modelli Transformer autoregressivi. Proponiamo anche varianti consapevoli del costo che incorporano il numero di acceleratori necessari per servire il modello. Utilizzando queste metriche, confrontiamo dieci LLM all'avanguardia per fornire la prima analisi dei compromessi tra efficienza nell'inferenza e capacità; traiamo diverse osservazioni da questa analisi, incluso il fatto che la superiore performance nel tempo di esecuzione di alcune API è spesso un sottoprodotto di ottimizzazioni all'interno dell'API piuttosto che del modello sottostante. La nostra metodologia facilita anche il confronto efficiente di diversi stack software e hardware.
Recentemente, DeepNorm ha scalato i Transformer a profondità estreme (ad esempio, 1000 strati) e ha rivelato il potenziale promettente del deep scaling. Per stabilizzare l'addestramento di modelli profondi, DeepNorm (Wang et al., 2022) tenta di limitare l'aggiornamento del modello a un valore costante. Sebbene l'applicazione di tale vincolo possa essere vantaggiosa nelle fasi iniziali dell'addestramento del modello, potrebbe portare a modelli sottoposti a un addestramento insufficiente durante l'intero processo. In questo articolo, proponiamo BranchNorm, che ridimensiona dinamicamente il ramo non residuo del Transformer in base al periodo di addestramento. BranchNorm non solo stabilizza teoricamente l'addestramento con gradienti regolari nelle fasi iniziali, ma favorisce anche una migliore convergenza nelle fasi successive. I risultati sperimentali su molteplici task di traduzione dimostrano che BranchNorm raggiunge un migliore equilibrio tra stabilità dell'addestramento e prestazioni di convergenza.
Le texture sono un aspetto fondamentale per creare modelli 3D visivamente accattivanti e realistici. In questo articolo, studiamo il problema della generazione di texture ad alta fedeltà date le forme di asset 3D, un ambito relativamente meno esplorato rispetto alla modellazione generica di forme 3D. Il nostro obiettivo è facilitare un processo di generazione di texture controllabile, in modo che un codice di texture possa corrispondere a uno stile di aspetto specifico indipendentemente dalle forme di input di una categoria. Introduciamo i Texture UV Radiance Fields (TUVF), che generano texture in uno spazio UV sferico apprendibile anziché direttamente sulla forma 3D. Ciò consente di separare la texture dalla forma sottostante e di trasferirla ad altre forme che condividono lo stesso spazio UV, ovvero appartenenti alla stessa categoria. Integriamo lo spazio UV sferico con il campo di radianza, che fornisce una rappresentazione delle texture più efficiente e accurata rispetto alle tradizionali mappe di texture. Eseguiamo i nostri esperimenti su dataset di oggetti del mondo reale, ottenendo non solo una sintesi realistica, ma anche miglioramenti significativi rispetto agli stati dell'arte nel controllo e nell'editing delle texture. Pagina del progetto: https://www.anjiecheng.me/TUVF
Introduciamo i Modelli di Traiettoria Mascherata (MTM) come un'astrazione generica per il processo decisionale sequenziale. MTM prende una traiettoria, come una sequenza stato-azione, e mira a ricostruire la traiettoria condizionata a sottoinsiemi casuali della stessa traiettoria. Addestrando con uno schema di mascheramento altamente randomizzato, MTM apprende reti versatili che possono assumere ruoli o capacità diversi, semplicemente scegliendo maschere appropriate al momento dell'inferenza. Ad esempio, la stessa rete MTM può essere utilizzata come modello di dinamica diretta, modello di dinamica inversa o persino come agente di RL offline. Attraverso esperimenti estesi in diversi compiti di controllo continuo, dimostriamo che la stessa rete MTM - cioè con gli stessi pesi - può eguagliare o superare reti specializzate addestrate per le suddette capacità. Inoltre, scopriamo che le rappresentazioni degli stati apprese da MTM possono accelerare significativamente la velocità di apprendimento degli algoritmi RL tradizionali. Infine, nei benchmark di RL offline, troviamo che MTM è competitivo con algoritmi RL offline specializzati, nonostante MTM sia un metodo generico di apprendimento auto-supervisionato senza componenti RL espliciti. Il codice è disponibile all'indirizzo https://github.com/facebookresearch/mtm.