Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il rapido sviluppo dei modelli linguistici di grandi dimensioni (LLM) open-source è stato veramente straordinario. Tuttavia, la legge di scala descritta nella letteratura precedente presenta conclusioni variabili, il che getta un'ombra sullo scaling degli LLM. Approfondiamo lo studio delle leggi di scala e presentiamo i nostri risultati distintivi che facilitano lo scaling di modelli su larga scala in due configurazioni open-source comunemente utilizzate, 7B e 67B. Guidati dalle leggi di scala, introduciamo DeepSeek LLM, un progetto dedicato all'avanzamento dei modelli linguistici open-source con una prospettiva a lungo termine. Per supportare la fase di pre-training, abbiamo sviluppato un dataset che attualmente consiste in 2 trilioni di token e che è in continua espansione. Inoltre, conducono un fine-tuning supervisionato (SFT) e un'ottimizzazione diretta delle preferenze (DPO) sui modelli base di DeepSeek LLM, portando alla creazione dei modelli DeepSeek Chat. I nostri risultati di valutazione dimostrano che DeepSeek LLM 67B supera LLaMA-2 70B su vari benchmark, in particolare nei domini del codice, della matematica e del ragionamento. Inoltre, valutazioni aperte rivelano che DeepSeek LLM 67B Chat mostra prestazioni superiori rispetto a GPT-3.5.
I progressi nella comprensione di documenti visivamente complessi (Visually Rich Document Understanding, VrDU) hanno reso possibile l'estrazione di informazioni e il question answering su documenti con layout complessi. Sono emersi due approcci architetturali principali: modelli basati su transformer ispirati ai Large Language Models (LLM) e reti neurali a grafo (Graph Neural Networks). In questo articolo, introduciamo DocGraphLM, un nuovo framework che combina modelli linguistici pre-addestrati con la semantica dei grafi. Per raggiungere questo obiettivo, proponiamo 1) un'architettura di codifica congiunta per rappresentare i documenti e 2) un approccio innovativo di link prediction per ricostruire i grafi dei documenti. DocGraphLM prevede sia le direzioni che le distanze tra i nodi utilizzando una funzione di perdita congiunta convergente che privilegia il ripristino del vicinato e riduce l'importanza del rilevamento di nodi distanti. I nostri esperimenti su tre dataset all'avanguardia (SotA) mostrano un miglioramento costante nelle attività di estrazione di informazioni (IE) e question answering (QA) con l'adozione delle caratteristiche dei grafi. Inoltre, riportiamo che l'adozione delle caratteristiche dei grafi accelera la convergenza nel processo di apprendimento durante l'addestramento, nonostante siano costruite esclusivamente attraverso la link prediction.
Esploriamo una sfida sfumata ma significativa intrinseca ai Vision Transformers (ViT): le mappe di feature di questi modelli presentano artefatti a griglia, che compromettono negativamente le prestazioni dei ViT nei task downstream. Le nostre indagini ricollegano questo problema fondamentale agli embedding posizionali nella fase di input. Per affrontarlo, proponiamo un nuovo modello di rumore, universalmente applicabile a tutti i ViT. Nello specifico, il modello di rumore scompone gli output dei ViT in tre componenti: un termine semantico privo di artefatti di rumore e due termini legati agli artefatti che sono condizionati dalle posizioni dei pixel. Tale decomposizione è ottenuta imponendo la consistenza delle feature tra diverse viste mediante campi neurali su base per-immagine. Questo processo di ottimizzazione per-immagine estrae feature prive di artefatti dagli output grezzi dei ViT, fornendo feature pulite per applicazioni offline. Estendendo la portata della nostra soluzione per supportare funzionalità online, introduciamo un denoiser apprendibile per prevedere feature prive di artefatti direttamente dagli output non elaborati dei ViT, che mostra notevoli capacità di generalizzazione su nuovi dati senza la necessità di ottimizzazione per-immagine. Il nostro approccio a due fasi, denominato Denoising Vision Transformers (DVT), non richiede il ri-addestramento di ViT pre-addestrati esistenti ed è immediatamente applicabile a qualsiasi architettura basata su Transformer. Valutiamo il nostro metodo su una varietà di ViT rappresentativi (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Valutazioni estensive dimostrano che il nostro DVT migliora in modo consistente e significativo i modelli general-purpose all'avanguardia esistenti in task semantici e geometrici su più dataset (ad esempio, +3.84 mIoU). Speriamo che il nostro studio incoraggi una rivalutazione del design dei ViT, in particolare riguardo all'uso ingenuo degli embedding posizionali.
Stable Diffusion XL (SDXL) è diventato il miglior modello open source di testo-immagine (T2I) grazie alla sua versatilità e alla qualità d'immagine di prim'ordine. Affrontare in modo efficiente le esigenze computazionali dei modelli SDXL è cruciale per una diffusione e applicabilità più ampia. In questo lavoro, introduciamo due varianti ridotte, Segmind Stable Diffusion (SSD-1B) e Segmind-Vega, con UNet rispettivamente da 1,3 miliardi e 0,74 miliardi di parametri, ottenute attraverso la rimozione progressiva utilizzando perdite a livello di strato, focalizzate sulla riduzione delle dimensioni del modello preservando la qualità generativa. Rilasciamo i pesi di questi modelli su https://hf.co/Segmind. La nostra metodologia prevede l'eliminazione di reti residue e blocchi transformer dalla struttura U-Net di SDXL, ottenendo riduzioni significative nei parametri e nella latenza. I nostri modelli compatti emulano efficacemente l'originale SDXL sfruttando la conoscenza trasferita, raggiungendo risultati competitivi rispetto ai modelli SDXL più grandi con miliardi di parametri. Il nostro lavoro sottolinea l'efficacia della distillazione della conoscenza abbinata a perdite a livello di strato nel ridurre le dimensioni del modello preservando le capacità generative di alta qualità di SDXL, facilitando così una distribuzione più accessibile in ambienti con risorse limitate.
CLIP e Segment Anything Model (SAM) sono modelli di base per la visione (VFMs) di notevole importanza. SAM eccelle in compiti di segmentazione in diversi domini, mentre CLIP è rinomato per le sue capacità di riconoscimento zero-shot. Questo articolo presenta un'esplorazione approfondita dell'integrazione di questi due modelli in un framework unificato. Nello specifico, introduciamo Open-Vocabulary SAM, un modello ispirato a SAM progettato per la segmentazione interattiva e il riconoscimento simultanei, sfruttando due moduli unici di trasferimento della conoscenza: SAM2CLIP e CLIP2SAM. Il primo adatta la conoscenza di SAM in CLIP tramite distillazione e adattatori trasformatori apprendibili, mentre il secondo trasferisce la conoscenza di CLIP in SAM, potenziando le sue capacità di riconoscimento. Esperimenti estesi su vari dataset e rilevatori dimostrano l'efficacia di Open-Vocabulary SAM sia nei compiti di segmentazione che di riconoscimento, superando significativamente i baseline semplici che combinano SAM e CLIP. Inoltre, con l'ausilio di dati di addestramento per la classificazione delle immagini, il nostro metodo è in grado di segmentare e riconoscere circa 22.000 classi.
Negli ultimi anni, la generazione vocale ha compiuto progressi straordinari, raggiungendo ora una capacità di generazione one-shot che spesso è praticamente indistinguibile dalla voce umana reale. L'integrazione di tali avanzamenti nella generazione vocale con i modelli linguistici di grandi dimensioni potrebbe rivoluzionare un'ampia gamma di applicazioni. Tuttavia, alcune applicazioni, come i sistemi conversazionali assistivi, richiedono strumenti di generazione vocale naturali e conversazionali che operino anche in modo efficiente in tempo reale. Gli attuali modelli all'avanguardia come VALL-E e SoundStorm, alimentati da codec neurali audio gerarchici, richiedono componenti neurali di grandi dimensioni e ampi set di dati di addestramento per funzionare bene. Al contrario, MQTTS mira a costruire modelli TTS conversazionali più compatti, sfruttando dati vocali conversazionali reali su scala ridotta. Tuttavia, la sua natura autoregressiva comporta un'elevata latenza di inferenza, limitando così il suo utilizzo in tempo reale. Al fine di mitigare le attuali limitazioni dei modelli TTS all'avanguardia pur sfruttandone i punti di forza, in questo lavoro introduciamo la serie di modelli Pheme che 1) offre modelli compatti ma ad alte prestazioni, 2) consente la generazione vocale parallela di 3) discorso conversazionale naturale, e 4) può essere addestrata in modo efficiente su dati conversazionali su scala ridotta, riducendo le esigenze di dati di oltre 10 volte pur mantenendo la qualità dei modelli TTS autoregressivi. Mostriamo inoltre che attraverso una semplice distillazione insegnante-studente possiamo ottenere miglioramenti significativi nella qualità vocale per configurazioni a singolo parlante, basandoci esclusivamente su discorsi sintetici generati da modelli insegnanti molto più grandi. Campioni audio e modelli pre-addestrati sono disponibili online.