Articoli di ricerca IA selezionati quotidianamente con traduzioni
La conoscenza scientifica è prevalentemente conservata in libri e riviste scientifiche, spesso in formato PDF. Tuttavia, il formato PDF comporta una perdita di informazioni semantiche, in particolare per le espressioni matematiche. Proponiamo Nougat (Neural Optical Understanding for Academic Documents), un modello Visual Transformer che esegue un'attività di riconoscimento ottico dei caratteri (OCR) per elaborare documenti scientifici in un linguaggio di markup, e dimostriamo l'efficacia del nostro modello su un nuovo dataset di documenti scientifici. L'approccio proposto offre una soluzione promettente per migliorare l'accessibilità della conoscenza scientifica nell'era digitale, colmando il divario tra documenti leggibili dall'uomo e testo leggibile dalla macchina. Rilasciamo i modelli e il codice per accelerare i futuri lavori sul riconoscimento del testo scientifico.
I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato i compiti di elaborazione del linguaggio naturale. Tuttavia, il loro impiego pratico è ostacolato dagli enormi requisiti di memoria e calcolo. Sebbene i recenti metodi di quantizzazione post-addestramento (PTQ) siano efficaci nel ridurre l'impronta di memoria e migliorare l'efficienza computazionale degli LLM, essi definiscono manualmente i parametri di quantizzazione, il che porta a prestazioni inferiori e non riesce a gestire la quantizzazione a bit estremamente bassi. Per affrontare questo problema, introduciamo una tecnica di quantizzazione calibrata omnidirezionale (OmniQuant) per gli LLM, che ottiene buone prestazioni in diverse configurazioni di quantizzazione mantenendo l'efficienza computazionale del PTQ ottimizzando in modo efficiente vari parametri di quantizzazione. OmniQuant comprende due componenti innovative: il Ritaglio Ponderato Apprendibile (LWC) e la Trasformazione Equivalente Apprendibile (LET). LWC modula i valori estremi dei pesi ottimizzando la soglia di ritaglio. Nel frattempo, LET affronta gli outlier delle attivazioni spostando la sfida della quantizzazione dalle attivazioni ai pesi attraverso una trasformazione equivalente apprendibile. Operando all'interno di un framework differenziabile utilizzando la minimizzazione dell'errore a blocchi, OmniQuant può ottimizzare in modo efficiente il processo di quantizzazione sia per la quantizzazione solo dei pesi che per la quantizzazione pesi-attivazioni. Ad esempio, la famiglia di modelli LLaMA-2 con dimensioni da 7 a 70B può essere elaborata con OmniQuant su una singola GPU A100-40G entro 1-16 ore utilizzando 128 campioni. Esperimenti estensivi convalidano le prestazioni superiori di OmniQuant in diverse configurazioni di quantizzazione come W4A4, W6A6, W4A16, W3A16 e W2A16. Inoltre, OmniQuant dimostra efficacia nei modelli ottimizzati per istruzioni e offre miglioramenti significativi nella velocità di inferenza e nella riduzione della memoria su dispositivi reali. Codici e modelli sono disponibili all'indirizzo https://github.com/OpenGVLab/OmniQuant.
Lo sviluppo software svolge un ruolo cruciale nel guidare l'innovazione e l'efficienza nelle società moderne. Per soddisfare le esigenze di questo campo dinamico, c'è una crescente necessità di un assistente efficace per lo sviluppo software. Tuttavia, i modelli linguistici di grandi dimensioni esistenti, rappresentati da ChatGPT, soffrono di un'accessibilità limitata, inclusi i dati di addestramento e i pesi del modello. Sebbene altri modelli open-source di grandi dimensioni come LLaMA abbiano mostrato promesse, continuano a lottare con la comprensione dell'intento umano. In questo articolo, presentiamo SoTaNa, un assistente open-source per lo sviluppo software. SoTaNa utilizza ChatGPT per generare dati di alta qualità basati su istruzioni per il dominio dell'ingegneria del software e impiega un approccio di fine-tuning efficiente in termini di parametri per migliorare il modello di base open-source, LLaMA. Valutiamo l'efficacia di SoTaNa nel rispondere alle domande di Stack Overflow e ne dimostriamo le capacità. Inoltre, discutiamo le sue capacità nella sintesi e generazione di codice, nonché l'impatto della variazione del volume di dati generati sulle prestazioni del modello. È degno di nota che SoTaNa possa essere eseguito su una singola GPU, rendendolo accessibile a una gamma più ampia di ricercatori. Il nostro codice, i pesi del modello e i dati sono pubblici all'indirizzo https://github.com/DeepSoftwareAnalytics/SoTaNa.
I Vision Transformer raggiungono un'accuratezza impressionante in una vasta gamma di attività di riconoscimento visivo. Purtroppo, la loro accuratezza è spesso accompagnata da elevati costi computazionali. Questo rappresenta un problema particolare nel riconoscimento video, dove i modelli vengono spesso applicati ripetutamente su fotogrammi o segmenti temporali. In questo lavoro, sfruttiamo la ridondanza temporale tra input successivi per ridurre il costo dei Transformer nell'elaborazione video. Descriviamo un metodo per identificare e rielaborare solo quei token che hanno subito cambiamenti significativi nel tempo. La nostra famiglia di modelli proposta, gli Eventful Transformer, può essere convertita da Transformer esistenti (spesso senza alcuna ri-addestramento) e offre un controllo adattivo sul costo computazionale durante l'esecuzione. Valutiamo il nostro metodo su dataset su larga scala per il rilevamento di oggetti video (ImageNet VID) e il riconoscimento di azioni (EPIC-Kitchens 100). Il nostro approccio porta a significativi risparmi computazionali (nell'ordine di 2-4x) con solo lievi riduzioni dell'accuratezza.
Questo articolo presenta una nuova rappresentazione neurale implicita della radianza per il reilluminamento da punti di vista liberi a partire da un piccolo insieme di fotografie non strutturate di un oggetto illuminato da una sorgente luminosa puntiforme in movimento, diversa dalla posizione di visualizzazione. Esprimiamo la forma come una funzione di distanza con segno modellata da un perceptron multistrato. A differenza delle precedenti rappresentazioni neurali implicite reilluminabili, non separiamo i diversi componenti di riflettanza, ma modelliamo sia la riflettanza locale che globale in ogni punto mediante un secondo perceptron multistrato che, oltre alle caratteristiche di densità, alla posizione corrente, alla normale (dalla funzione di distanza con segno), alla direzione di visualizzazione e alla posizione della luce, utilizza anche suggerimenti di ombre e luci per aiutare la rete a modellare i corrispondenti effetti di trasporto della luce ad alta frequenza. Questi suggerimenti vengono forniti come indicazioni, lasciando alla rete la decisione su come incorporarli nel risultato finale di reilluminamento. Dimostriamo e validiamo la nostra rappresentazione neurale implicita su scene sintetiche e reali che presentano una vasta gamma di forme, proprietà dei materiali e trasporto della luce nell'illuminazione globale.