HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

14 papers found

FormNetV2: Apprendimento Contrastivo Multimodale su Grafi per l'Estrazione di Informazioni da Documenti Modulistici
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

May 4

ByChen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister

La recente comparsa di tecniche di pre-addestramento auto-supervisionato ha portato a un aumento nell'uso dell'apprendimento multimodale per la comprensione dei documenti strutturati. Tuttavia, gli approcci esistenti che estendono il modello di mascheramento linguistico ad altre modalità richiedono un'attenta regolazione multi-task, progetti complessi per gli obiettivi di ricostruzione o dati aggiuntivi per il pre-addestramento. In FormNetV2, introduciamo una strategia centralizzata di apprendimento contrastivo su grafo multimodale per unificare il pre-addestramento auto-supervisionato per tutte le modalità in una singola funzione di perdita. L'obiettivo contrastivo su grafo massimizza l'accordo tra le rappresentazioni multimodali, fornendo un'interazione naturale per tutte le modalità senza necessità di personalizzazioni specifiche. Inoltre, estraiamo le caratteristiche dell'immagine all'interno del riquadro di delimitazione che unisce una coppia di token connessi da un arco del grafo, catturando indizi visivi più mirati senza caricare un estrattore di caratteristiche immagine sofisticato e pre-addestrato separatamente. FormNetV2 stabilisce nuove prestazioni all'avanguardia sui benchmark FUNSD, CORD, SROIE e Payment con una dimensione del modello più compatta.

Volti Impliciti Morfabili a Singolo Colpo con Parametrizzazione di Texture Consistente
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization

May 4

ByConnor Z. Lin, Koki Nagano, Jan Kautz, Eric R. Chan, Umar Iqbal, Leonidas Guibas, Gordon Wetzstein, Sameh Khamis

C'è una crescente richiesta per la creazione accessibile di avatar 3D di alta qualità che siano animabili e personalizzabili. Sebbene i modelli morfabili 3D offrano un controllo intuitivo per l'editing e l'animazione, e robustezza per la ricostruzione facciale da singola vista, non riescono a catturare facilmente i dettagli geometrici e di aspetto. I metodi basati su rappresentazioni neurali implicite, come le funzioni di distanza con segno (SDF) o i campi di radianza neurali, si avvicinano al foto-realismo, ma sono difficili da animare e non generalizzano bene a dati non visti. Per affrontare questo problema, proponiamo un nuovo metodo per costruire modelli facciali morfabili 3D impliciti che siano sia generalizzabili che intuitivi per l'editing. Addestrato da una raccolta di scansioni 3D di alta qualità, il nostro modello facciale è parametrizzato da codici latenti di geometria, espressione e texture con una SDF appresa e una parametrizzazione esplicita della texture UV. Una volta addestrato, possiamo ricostruire un avatar da una singola immagine in condizioni reali sfruttando il precedente appreso per proiettare l'immagine nello spazio latente del nostro modello. I nostri modelli facciali morfabili impliciti possono essere utilizzati per renderizzare un avatar da nuove angolazioni, animare le espressioni facciali modificando i codici di espressione e modificare le texture dipingendo direttamente sulle mappe UV-texture apprese. Dimostriamo quantitativamente e qualitativamente che il nostro metodo migliora il foto-realismo, la geometria e l'accuratezza delle espressioni rispetto ai metodi all'avanguardia.

NeuralEditor: Modifica dei Campi di Radianza Neurale attraverso la Manipolazione di Nuvole di Punti
NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

May 4

ByJun-Kun Chen, Jipeng Lyu, Yu-Xiong Wang

Questo articolo propone NeuralEditor, che rende i campi di radianza neurale (NeRFs) intrinsecamente modificabili per compiti generali di editing delle forme. Nonostante i risultati impressionanti nella sintesi di nuove viste, rimane una sfida fondamentale per i NeRFs modificare la forma della scena. La nostra intuizione chiave è sfruttare la rappresentazione esplicita della nuvola di punti come struttura sottostante per costruire i NeRFs, ispirati dall'interpretazione intuitiva del rendering NeRF come un processo che proietta o "traccia" la nuvola di punti 3D associata su un piano immagine 2D. A tal fine, NeuralEditor introduce un nuovo schema di rendering basato sull'integrazione deterministica all'interno di voxel adattivi alla densità guidati da K-D tree, che produce sia risultati di rendering di alta qualità che nuvole di punti precise attraverso l'ottimizzazione. NeuralEditor esegue poi l'editing delle forme mappando i punti associati tra le nuvole di punti. Una valutazione estensiva mostra che NeuralEditor raggiunge prestazioni all'avanguardia sia nei compiti di deformazione delle forme che di morphing delle scene. In particolare, NeuralEditor supporta sia l'inferenza zero-shot che un ulteriore fine-tuning sulla scena modificata. Il nostro codice, benchmark e video demo sono disponibili su https://immortalco.github.io/NeuralEditor.

AutoML-GPT: Apprendimento Automatico con GPT
AutoML-GPT: Automatic Machine Learning with GPT

May 4

ByShujian Zhang, Chengyue Gong, Lemeng Wu, Xingchao Liu, Mingyuan Zhou

I compiti dell'IA abbracciano un'ampia gamma di domini e campi. Sebbene numerosi modelli di IA siano stati progettati per compiti e applicazioni specifici, spesso richiedono notevoli sforzi umani per individuare l'architettura del modello, l'algoritmo di ottimizzazione e gli iperparametri corretti. I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) come ChatGPT mostrano capacità straordinarie in vari aspetti del ragionamento, della comprensione e dell'interazione. Di conseguenza, proponiamo di sviluppare prompt orientati ai compiti e di utilizzare automaticamente gli LLM per automatizzare la pipeline di addestramento. Per implementare questo concetto, presentiamo AutoML-GPT, che impiega GPT come ponte verso diversi modelli di IA e addestra dinamicamente i modelli con iperparametri ottimizzati. AutoML-GPT riceve dinamicamente le richieste dell'utente dalle schede del modello e dei dati e compone il paragrafo di prompt corrispondente. Infine, con questo paragrafo di prompt, AutoML-GPT condurrà automaticamente gli esperimenti, dalla elaborazione dei dati all'architettura del modello, alla regolazione degli iperparametri e al log di addestramento previsto. Sfruttando le robuste capacità linguistiche di {\ours} e i modelli di IA disponibili, AutoML-GPT può affrontare numerosi compiti di IA complessi su vari compiti e dataset. Questo approccio ottiene risultati notevoli nella visione artificiale, nell'elaborazione del linguaggio naturale e in altre aree impegnative. Esperimenti estesi e studi di ablazione dimostrano che il nostro metodo può essere generale, efficace e vantaggioso per molti compiti di IA.

Apprendimento di Livelli Specifici per Lingua nella Traduzione Automatica Multilingue
Learning Language-Specific Layers for Multilingual Machine Translation

May 4

ByTelmo Pessoa Pires, Robin M. Schmidt, Yi-Hsiu Liao, Stephan Peitz

La traduzione automatica multilingue promette di migliorare la qualità della traduzione tra lingue diverse dall'inglese. Questo è vantaggioso per diversi motivi, in particolare una minore latenza (non è necessario tradurre due volte) e una riduzione delle cascate di errori (ad esempio, evitando di perdere informazioni sul genere e sulla formalità quando si traduce attraverso l'inglese). D'altro canto, l'aggiunta di più lingue riduce la capacità del modello per ciascuna lingua, che di solito viene contrastata aumentando le dimensioni complessive del modello, rendendo più difficile l'addestramento e più lenta l'inferenza. In questo lavoro, introduciamo i Livelli Transformer Specifici per Lingua (LSL), che ci permettono di aumentare la capacità del modello, mantenendo costante la quantità di calcolo e il numero di parametri utilizzati nel passaggio in avanti. L'idea chiave è che alcuni livelli dell'encoder siano specifici per la lingua sorgente o target, mentre i restanti livelli rimangono condivisi. Studiamo il modo migliore per posizionare questi livelli utilizzando un approccio ispirato alla ricerca di architetture neurali e otteniamo un miglioramento di 1,3 punti chrF (1,5 spBLEU) rispetto al non utilizzo degli LSL su un'architettura di decoder separata e di 1,9 punti chrF (2,2 spBLEU) su una con decoder condiviso.

Generazione Automatica di Codice per Attività di Information Technology in YAML tramite Modelli Linguistici di Grande Dimensione
Automated Code generation for Information Technology Tasks in YAML through Large Language Models

May 2

BySaurabh Pujar, Luca Buratti, Xiaojie Guo, Nicolas Dupuis, Burn Lewis, Sahil Suneja, Atin Sood, Ganesh Nalawade, Matt Jones, Alessandro Morari, Ruchir Puri

I recenti miglioramenti nelle capacità di generazione di codice, dovuti all'uso di modelli linguistici di grandi dimensioni, hanno principalmente beneficiato i linguaggi di programmazione generici. I linguaggi specifici per dominio, come quelli utilizzati per l'automazione IT, hanno ricevuto molta meno attenzione, nonostante coinvolgano molti sviluppatori attivi e siano una componente essenziale delle moderne piattaforme cloud. Questo lavoro si concentra sulla generazione di Ansible-YAML, un linguaggio di markup ampiamente utilizzato per l'automazione IT. Presentiamo Ansible Wisdom, uno strumento di generazione di codice da linguaggio naturale a Ansible-YAML, progettato per migliorare la produttività nell'automazione IT. Ansible Wisdom è un modello basato su transformer, esteso attraverso l'addestramento con un nuovo dataset contenente Ansible-YAML. Abbiamo anche sviluppato due nuove metriche di prestazione per YAML e Ansible per catturare le caratteristiche specifiche di questo dominio. I risultati mostrano che Ansible Wisdom può generare accuratamente script Ansible da prompt in linguaggio naturale con prestazioni paragonabili o migliori rispetto ai modelli di generazione di codice all'avanguardia esistenti.

Modelli Neurali di Aspetto in Tempo Reale
Real-Time Neural Appearance Models

May 4

ByTizian Zeltner, Fabrice Rousselle, Andrea Weidlich, Petrik Clarberg, Jan Novák, Benedikt Bitterli, Alex Evans, Tomáš Davidovič, Simon Kallweit, Aaron Lefohn

Presentiamo un sistema completo per il rendering in tempo reale di scene con un aspetto complesso, precedentemente riservato all'uso offline. Questo risultato è ottenuto attraverso una combinazione di innovazioni algoritmiche e a livello di sistema. Il nostro modello di aspetto utilizza texture gerarchiche apprese che vengono interpretate tramite decodificatori neurali, i quali producono valori di riflettanza e direzioni campionate in modo importanza. Per sfruttare al meglio la capacità di modellazione dei decodificatori, li dotiamo di due prior grafiche. La prima priorità — la trasformazione delle direzioni in frame di illuminazione appresi — facilita la ricostruzione accurata degli effetti a mesoscala. La seconda priorità — una distribuzione di campionamento microfaccettata — consente al decodificatore neurale di eseguire il campionamento per importanza in modo efficiente. Il modello di aspetto risultante supporta il campionamento anisotropo e il rendering a livelli di dettaglio, e permette di "cuocere" grafi di materiali stratificati in una rappresentazione neurale compatta e unificata. Esponendo le operazioni tensoriali accelerate dall'hardware agli shader di ray tracing, dimostriamo che è possibile integrare ed eseguire i decodificatori neurali in modo efficiente all'interno di un path tracer in tempo reale. Analizziamo la scalabilità con un numero crescente di materiali neurali e proponiamo di migliorare le prestazioni utilizzando codice ottimizzato per esecuzioni coerenti e divergenti. I nostri shader di materiali neurali possono essere oltre un ordine di grandezza più veloci rispetto ai materiali stratificati non neurali. Questo apre la porta all'uso di visuali di qualità cinematografica in applicazioni in tempo reale come giochi e anteprime live.

Pianifica, Elimina e Monitora -- I Modelli Linguistici sono Ottimi Insegnanti per Agenti Embodied
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

May 3

ByYue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye

I modelli linguistici pre-addestrati su larga scala (LLM) catturano conoscenze procedurali sul mondo. Recenti lavori hanno sfruttato la capacità degli LLM di generare piani astratti per semplificare compiti di controllo complessi, sia attraverso il punteggio delle azioni, sia attraverso la modellazione delle azioni (fine-tuning). Tuttavia, l'architettura transformer eredita diversi vincoli che rendono difficile per l'LLM fungere direttamente come agente: ad esempio, lunghezze di input limitate, inefficienza nel fine-tuning, bias derivanti dal pre-addestramento e incompatibilità con ambienti non testuali. Per mantenere la compatibilità con un attore addestrabile a basso livello, proponiamo invece di utilizzare la conoscenza negli LLM per semplificare il problema di controllo, piuttosto che risolverlo. Proponiamo il framework Plan, Eliminate, and Track (PET). Il modulo Plan traduce una descrizione del compito in una lista di sotto-compiti di alto livello. Il modulo Eliminate maschera oggetti e contenitori irrilevanti dall'osservazione per il sotto-compito corrente. Infine, il modulo Track determina se l'agente ha completato ciascun sotto-compito. Sul benchmark AlfWorld per il seguimento di istruzioni, il framework PET porta a un significativo miglioramento del 15% rispetto allo stato dell'arte per la generalizzazione alle specifiche degli obiettivi umani.

Tracciamento attraverso contenitori e ostruzioni in ambienti reali
Tracking through Containers and Occluders in the Wild

May 4

ByBasile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick

Il tracciamento di oggetti con persistenza in ambienti affollati e dinamici rimane una sfida complessa per i sistemi di visione artificiale. In questo articolo, presentiamo TCOW, un nuovo benchmark e modello per il tracciamento visivo in presenza di forte occlusione e contenimento. Definiamo un compito in cui l'obiettivo è, data una sequenza video, segmentare sia l'estensione proiettata dell'oggetto target, sia il contenitore circostante o l'occludente, quando presente. Per studiare questo compito, creiamo un mix di dataset sintetici e reali annotati per supportare sia l'apprendimento supervisionato sia la valutazione strutturata delle prestazioni del modello in varie forme di variazione del compito, come il contenimento in movimento o annidato. Valutiamo due recenti modelli video basati su transformer e scopriamo che, sebbene possano essere sorprendentemente capaci di tracciare i target in determinate configurazioni di variazione del compito, rimane un divario di prestazioni considerevole prima di poter affermare che un modello di tracciamento abbia acquisito una vera nozione di permanenza dell'oggetto.

NeRSemble: Ricostruzione del Campo di Radianza da Multi-vista per Teste Umane
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

May 4

ByTobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner

Ci concentriamo sulla ricostruzione di campi di radianza ad alta fedeltà di teste umane, catturandone le animazioni nel tempo e sintetizzando nuove renderizzazioni da punti di vista inediti in passaggi temporali arbitrari. A tal fine, proponiamo una nuova configurazione di acquisizione multi-vista composta da 16 telecamere per visione artificiale calibrate che registrano immagini sincronizzate temporalmente con una risoluzione di 7,1 MP e 73 fotogrammi al secondo. Con questa configurazione, raccogliamo un nuovo dataset di oltre 4700 sequenze ad alta risoluzione e ad alto frame rate di più di 220 teste umane, da cui introduciamo un nuovo benchmark per la ricostruzione di teste umane. Le sequenze registrate coprono un'ampia gamma di dinamiche facciali, inclusi movimenti della testa, espressioni naturali, emozioni e linguaggio parlato. Per ricostruire teste umane ad alta fedeltà, proponiamo i Campi di Radianza Neurale Dinamici utilizzando Insiemi di Hash (NeRSemble). Rappresentiamo le dinamiche della scena combinando un campo di deformazione e un insieme di codifiche hash 3D a multi-risoluzione. Il campo di deformazione consente una modellazione precisa di movimenti semplici della scena, mentre l'insieme di codifiche hash aiuta a rappresentare dinamiche complesse. Di conseguenza, otteniamo rappresentazioni di campi di radianza di teste umane che catturano il movimento nel tempo e facilitano la re-renderizzazione di punti di vista nuovi arbitrari. In una serie di esperimenti, esploriamo le scelte progettuali del nostro metodo e dimostriamo che il nostro approccio supera di gran lunga i metodi all'avanguardia per i campi di radianza dinamici.

Valutazione Economica delle Metriche di Efficienza Inferenziale per API di Trasformatori Autoregressivi
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

May 3

ByDeepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang

I grandi modelli linguistici (LLM) alimentano molti sistemi all'avanguardia nell'elaborazione del linguaggio naturale. Tuttavia, questi modelli sono estremamente costosi dal punto di vista computazionale, anche durante l'inferenza, sollevando una domanda naturale: quando il costo aggiuntivo di implementare un modello più grande giustifica il previsto incremento delle capacità? Una migliore comprensione di questo compromesso potrebbe trarre vantaggio da una metrica di efficienza nell'inferenza che sia sia (i) facilmente confrontabile tra modelli di diversi fornitori, sia (ii) rappresentativa del costo reale di eseguire query in un ambiente di performance isolato. Purtroppo, l'accesso agli LLM oggi è largamente limitato a API di generazione di testo in modalità "black-box", e i tempi di esecuzione grezzi misurati attraverso questa interfaccia non soddisfano questi requisiti: i fornitori di modelli possono applicare varie ottimizzazioni software e hardware ortogonali al modello, e i modelli serviti su infrastrutture condivise sono suscettibili a contese di prestazioni. Per aggirare questi problemi, proponiamo una nuova metrica per confrontare l'efficienza nell'inferenza tra i modelli. Questa metrica pone i modelli su un piano di parità come se fossero serviti (i) su hardware e software uniformi, e (ii) senza contese di prestazioni. Chiamiamo questa metrica il tempo di esecuzione idealizzato, e proponiamo una metodologia per stimare in modo efficiente questa metrica per i modelli Transformer autoregressivi. Proponiamo anche varianti consapevoli del costo che incorporano il numero di acceleratori necessari per servire il modello. Utilizzando queste metriche, confrontiamo dieci LLM all'avanguardia per fornire la prima analisi dei compromessi tra efficienza nell'inferenza e capacità; traiamo diverse osservazioni da questa analisi, incluso il fatto che la superiore performance nel tempo di esecuzione di alcune API è spesso un sottoprodotto di ottimizzazioni all'interno dell'API piuttosto che del modello sottostante. La nostra metodologia facilita anche il confronto efficiente di diversi stack software e hardware.

BranchNorm: Scalabilità Robusta per Trasformatori Estremamente Profondi
BranchNorm: Robustly Scaling Extremely Deep Transformers

May 4

ByYijin Liu, Xianfeng Zeng, Fandong Meng, Jie Zhou

Recentemente, DeepNorm ha scalato i Transformer a profondità estreme (ad esempio, 1000 strati) e ha rivelato il potenziale promettente del deep scaling. Per stabilizzare l'addestramento di modelli profondi, DeepNorm (Wang et al., 2022) tenta di limitare l'aggiornamento del modello a un valore costante. Sebbene l'applicazione di tale vincolo possa essere vantaggiosa nelle fasi iniziali dell'addestramento del modello, potrebbe portare a modelli sottoposti a un addestramento insufficiente durante l'intero processo. In questo articolo, proponiamo BranchNorm, che ridimensiona dinamicamente il ramo non residuo del Transformer in base al periodo di addestramento. BranchNorm non solo stabilizza teoricamente l'addestramento con gradienti regolari nelle fasi iniziali, ma favorisce anche una migliore convergenza nelle fasi successive. I risultati sperimentali su molteplici task di traduzione dimostrano che BranchNorm raggiunge un migliore equilibrio tra stabilità dell'addestramento e prestazioni di convergenza.

TUVF: Apprendimento di Campi di Radianza UV Texture Generalizzabili
TUVF: Learning Generalizable Texture UV Radiance Fields

May 4

ByAn-Chieh Cheng, Xueting Li, Sifei Liu, Xiaolong Wang

Le texture sono un aspetto fondamentale per creare modelli 3D visivamente accattivanti e realistici. In questo articolo, studiamo il problema della generazione di texture ad alta fedeltà date le forme di asset 3D, un ambito relativamente meno esplorato rispetto alla modellazione generica di forme 3D. Il nostro obiettivo è facilitare un processo di generazione di texture controllabile, in modo che un codice di texture possa corrispondere a uno stile di aspetto specifico indipendentemente dalle forme di input di una categoria. Introduciamo i Texture UV Radiance Fields (TUVF), che generano texture in uno spazio UV sferico apprendibile anziché direttamente sulla forma 3D. Ciò consente di separare la texture dalla forma sottostante e di trasferirla ad altre forme che condividono lo stesso spazio UV, ovvero appartenenti alla stessa categoria. Integriamo lo spazio UV sferico con il campo di radianza, che fornisce una rappresentazione delle texture più efficiente e accurata rispetto alle tradizionali mappe di texture. Eseguiamo i nostri esperimenti su dataset di oggetti del mondo reale, ottenendo non solo una sintesi realistica, ma anche miglioramenti significativi rispetto agli stati dell'arte nel controllo e nell'editing delle texture. Pagina del progetto: https://www.anjiecheng.me/TUVF

Modelli di Traiettorie Mascherate per Previsione, Rappresentazione e Controllo
Masked Trajectory Models for Prediction, Representation, and Control

May 4

ByPhilipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran

Introduciamo i Modelli di Traiettoria Mascherata (MTM) come un'astrazione generica per il processo decisionale sequenziale. MTM prende una traiettoria, come una sequenza stato-azione, e mira a ricostruire la traiettoria condizionata a sottoinsiemi casuali della stessa traiettoria. Addestrando con uno schema di mascheramento altamente randomizzato, MTM apprende reti versatili che possono assumere ruoli o capacità diversi, semplicemente scegliendo maschere appropriate al momento dell'inferenza. Ad esempio, la stessa rete MTM può essere utilizzata come modello di dinamica diretta, modello di dinamica inversa o persino come agente di RL offline. Attraverso esperimenti estesi in diversi compiti di controllo continuo, dimostriamo che la stessa rete MTM - cioè con gli stessi pesi - può eguagliare o superare reti specializzate addestrate per le suddette capacità. Inoltre, scopriamo che le rappresentazioni degli stati apprese da MTM possono accelerare significativamente la velocità di apprendimento degli algoritmi RL tradizionali. Infine, nei benchmark di RL offline, troviamo che MTM è competitivo con algoritmi RL offline specializzati, nonostante MTM sia un metodo generico di apprendimento auto-supervisionato senza componenti RL espliciti. Il codice è disponibile all'indirizzo https://github.com/facebookresearch/mtm.

Valutazione Economica delle Metriche di Efficienza Inferenziale per API di Trasformatori Autoregressivi
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

May 3

ByDeepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang