HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

9 papers found

RedPajama: un dataset aperto per l'addestramento di grandi modelli linguistici
RedPajama: an Open Dataset for Training Large Language Models

Nov 19

ByMaurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang

I grandi modelli linguistici stanno diventando sempre più una tecnologia fondamentale nell'intelligenza artificiale, nelle scienze e nella società nel suo complesso, tuttavia le strategie ottimali per la composizione e il filtraggio dei dataset rimangono in gran parte sfuggenti. Molti dei modelli più performanti mancano di trasparenza nei processi di cura dei dataset e sviluppo del modello, creando un ostacolo allo sviluppo di modelli linguistici completamente aperti. In questo articolo, identifichiamo tre sfide principali legate ai dati che devono essere affrontate per far progredire i modelli linguistici open-source. Queste includono (1) trasparenza nello sviluppo del modello, compreso il processo di cura dei dati, (2) accesso a grandi quantità di dati di alta qualità e (3) disponibilità di artefatti e metadati per la cura e l'analisi dei dataset. Per affrontare queste sfide, rilasciamo RedPajama-V1, una riproduzione aperta del dataset di addestramento LLaMA. Inoltre, rilasciamo RedPajama-V2, un enorme dataset solo web composto da dati di testo grezzi e non filtrati insieme a segnali di qualità e metadati. Insieme, i dataset RedPajama comprendono oltre 100 trilioni di token che spaziano su più domini e i loro segnali di qualità facilitano il filtraggio dei dati, con l'obiettivo di ispirare lo sviluppo di numerosi nuovi dataset. Finora, questi dataset sono stati già utilizzati nell'addestramento di robusti modelli linguistici utilizzati in produzione, come Snowflake Arctic, XGen di Salesforce e OLMo di AI2. Per fornire un'analisi sulla qualità di RedPajama, presentiamo una serie di analisi e studi di ablazione con modelli linguistici basati solo sul decoder con fino a 1,6 miliardi di parametri. Le nostre conclusioni dimostrano come i segnali di qualità per i dati web possano essere efficacemente sfruttati per curare subset di dataset di alta qualità, sottolineando il potenziale di RedPajama nel far progredire lo sviluppo di modelli linguistici trasparenti e performanti su larga scala.

FlipSketch: Trasformare Disegni Statici in Animazioni Guidate da Testo
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Nov 16

ByHmrishav Bandyopadhyay, Yi-Zhe Song

Le animazioni a schizzo offrono un potente mezzo per la narrazione visiva, dai semplici scarabocchi di un flip-book alle produzioni professionali di uno studio. Mentre l'animazione tradizionale richiede team di artisti esperti per disegnare i fotogrammi chiave e quelli intermedi, i tentativi di automazione esistenti richiedono comunque un notevole sforzo artistico attraverso precisi percorsi di movimento o specifiche dei fotogrammi chiave. Presentiamo FlipSketch, un sistema che riporta la magia dell'animazione a flip-book: basta disegnare la propria idea e descrivere come si desidera che si muova! Il nostro approccio sfrutta i precedenti di movimento dai modelli di diffusione testo-video, adattandoli per generare animazioni a schizzo attraverso tre innovazioni chiave: (i) raffinamento per la generazione di fotogrammi in stile schizzo, (ii) un meccanismo di fotogramma di riferimento che preserva l'integrità visiva dello schizzo di input attraverso il raffinamento del rumore, e (iii) una composizione a doppia attenzione che consente un movimento fluido senza perdere coerenza visiva. A differenza delle animazioni vettoriali vincolate, i nostri fotogrammi raster supportano trasformazioni dinamiche dello schizzo, catturando la libertà espressiva dell'animazione tradizionale. Il risultato è un sistema intuitivo che rende l'animazione a schizzo semplice come scarabocchiare e descrivere, mantenendo l'essenza artistica dell'animazione disegnata a mano.

SymDPO: Potenziare l'apprendimento in contesto di grandi modelli multimodali con ottimizzazione diretta delle preferenze dimostrative simboliche.
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Nov 17

ByHongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

Man mano che i modelli linguistici continuano a scalare, i Grandi Modelli Linguistici (LLM) hanno mostrato capacità emergenti nell'Apprendimento In Contesto (ICL), consentendo loro di risolvere compiti linguistici prefissando alcune dimostrazioni in contesto (ICDs) come contesto. Ispirati da questi progressi, i ricercatori hanno esteso queste tecniche per sviluppare Grandi Modelli Multimodali (LMM) con capacità ICL. Tuttavia, i LMM esistenti affrontano un problema critico: spesso non riescono a sfruttare efficacemente il contesto visivo nelle dimostrazioni multimodali e invece seguono semplicemente schemi testuali. Ciò indica che i LMM non raggiungono un'allineamento efficace tra le dimostrazioni multimodali e le uscite del modello. Per affrontare questo problema, proponiamo Ottimizzazione Diretta delle Preferenze delle Dimostrazioni Simboliche (SymDPO). In particolare, SymDPO mira a rompere il paradigma tradizionale di costruzione delle dimostrazioni multimodali utilizzando simboli casuali per sostituire le risposte testuali all'interno delle istanze. Ciò costringe il modello a comprendere attentamente le immagini di dimostrazione e a stabilire una relazione tra le immagini e i simboli per rispondere correttamente alle domande. Convalidiamo l'efficacia di questo metodo su più benchmark, dimostrando che con SymDPO, i LMM possono comprendere in modo più efficace il contesto multimodale all'interno degli esempi e utilizzare questa conoscenza per rispondere meglio alle domande.

Decodifica Speculativa Continua per la Generazione di Immagini Autoregressive
Continuous Speculative Decoding for Autoregressive Image Generation

Nov 18

ByZili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang

I modelli di generazione di immagini autoregressivi a valori continui (AR) hanno dimostrato una notevole superiorità rispetto ai loro corrispettivi a token discreti, mostrando una considerevole qualità di ricostruzione e una maggiore fedeltà nella generazione. Tuttavia, le esigenze computazionali del framework autoregressivo comportano un significativo overhead di inferenza. Sebbene la decodifica speculativa si sia dimostrata efficace nell'accelerare i Grandi Modelli Linguistici (LLM), la loro adattamento ai modelli autoregressivi visivi a valori continui rimane inesplorato. Questo lavoro generalizza l'algoritmo di decodifica speculativa dai token discreti allo spazio continuo. Analizzando le proprietà intrinseche della distribuzione di output, stabiliamo un criterio di accettazione personalizzato per le distribuzioni di diffusione prevalenti in tali modelli. Per superare l'incoerenza che si è verificata nelle distribuzioni di output della decodifica speculativa, introduciamo metodi di allineamento della traiettoria di denoising e di pre-riempimento dei token. Inoltre, identifichiamo la distribuzione difficile da campionare nella fase di rifiuto. Per mitigare questo problema, proponiamo un meticoloso metodo di campionamento di accettazione-rifiuto con un adeguato limite superiore, evitando così integrazioni complesse. I risultati sperimentali mostrano che la nostra decodifica speculativa continua raggiunge un notevole aumento di velocità del 2,33 volte su modelli pronti all'uso mantenendo la distribuzione di output. I codici saranno disponibili su https://github.com/MarkXCloud/CSpD

ITACLIP: Potenziare la segmentazione semantica senza addestramento con miglioramenti delle immagini, del testo e dell'architettura
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Nov 18

ByM. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin

I recenti progressi nei Modelli di Visione Linguistica fondamentali (VLM) hanno ridefinito il paradigma di valutazione nei compiti di visione artificiale. Questi modelli fondamentali, in particolare CLIP, hanno accelerato la ricerca nei compiti di visione artificiale a vocabolario aperto, inclusa la Segmentazione Semantica a Vocabolario Aperto (OVSS). Anche se i risultati iniziali sono promettenti, le capacità di previsione densa dei VLM richiedono ancora ulteriori miglioramenti. In questo studio, miglioriamo le prestazioni di segmentazione semantica di CLIP introducendo nuovi moduli e modifiche: 1) cambiamenti architetturali nell'ultimo strato di ViT e l'incorporazione delle mappe di attenzione dai livelli intermedi con l'ultimo strato, 2) Ingegneria delle Immagini: applicare aumenti di dati per arricchire le rappresentazioni delle immagini in ingresso, e 3) utilizzare Modelli Linguistici Grandi (LLM) per generare definizioni e sinonimi per ciascun nome di classe per sfruttare le capacità a vocabolario aperto di CLIP. Il nostro metodo senza addestramento, ITACLIP, supera gli attuali approcci all'avanguardia sui benchmark di segmentazione come COCO-Stuff, COCO-Object, Pascal Context e Pascal VOC. Il nostro codice è disponibile su https://github.com/m-arda-aydn/ITACLIP.

Costruire Fiducia: Fondamenti della Sicurezza, della Sicurezza e della Trasparenza nell'Intelligenza Artificiale
Building Trust: Foundations of Security, Safety and Transparency in AI

Nov 19

ByHuzaifa Sidhpurwala, Garth Mollett, Emily Fox, Mark Bestavros, Huamin Chen

Questo articolo esplora l'ecosistema in rapida evoluzione dei modelli di intelligenza artificiale disponibili pubblicamente e le loro potenziali implicazioni sul panorama della sicurezza. Con l'aumentare della diffusione dei modelli di intelligenza artificiale, è fondamentale comprendere i loro rischi e vulnerabilità potenziali. Esaminiamo gli attuali scenari di sicurezza e sicurezza evidenziando sfide come problemi di tracciamento, rimedi e l'apparente assenza di processi di ciclo di vita e di proprietà dei modelli di intelligenza artificiale. Vengono proposte strategie complete per potenziare la sicurezza e la sicurezza sia per gli sviluppatori di modelli che per gli utenti finali. Questo articolo mira a fornire alcuni elementi fondamentali per una maggiore standardizzazione della sicurezza, della sicurezza e della trasparenza nello sviluppo e nell'operatività dei modelli di intelligenza artificiale e dei più ampi ecosistemi aperti e comunità che si stanno formando attorno ad essi.

Rotazione della penna dinamica in mano con robotica morbida
Soft Robotic Dynamic In-Hand Pen Spinning

Nov 19

ByYunchao Yao, Uksang Yoo, Jean Oh, Christopher G. Atkeson, Jeffrey Ichnowski

La manipolazione dinamica in mano rimane un compito impegnativo per i sistemi robotici morbidi che hanno dimostrato vantaggi nelle interazioni conformi e sicure ma faticano con compiti dinamici ad alta velocità. In questo lavoro, presentiamo SWIFT, un sistema per apprendere compiti dinamici utilizzando una mano robotica morbida e conforme. A differenza dei lavori precedenti che si basano sulla simulazione, azioni quasi-statiche e modelli precisi degli oggetti, il sistema proposto impara a far girare una penna attraverso tentativi ed errori utilizzando solo dati del mondo reale senza richiedere conoscenze esplicite pregresse sugli attributi fisici della penna. Con tentativi auto-etichettati campionati dal mondo reale, il sistema scopre l'insieme di parametri primitivi di presa e rotazione della penna che consente a una mano morbida di far girare una penna in modo robusto e affidabile. Dopo 130 azioni campionate per oggetto, SWIFT raggiunge un tasso di successo del 100% su tre penne con pesi e distribuzioni di peso diversi, dimostrando la generalizzabilità e la robustezza del sistema ai cambiamenti nelle proprietà degli oggetti. I risultati evidenziano il potenziale degli effettori finali robotici morbidi nel compiere compiti dinamici, inclusa la manipolazione rapida in mano. Dimostriamo inoltre che SWIFT si generalizza alla rotazione di oggetti con forme e pesi diversi come una spazzola e un cacciavite, che facciamo girare rispettivamente con tassi di successo del 10/10 e del 5/10. Video, dati e codice sono disponibili su https://soft-spin.github.io.

SEAGULL: Valutazione della qualità dell'immagine senza riferimento per Regioni di Interesse tramite Ottimizzazione dell'Istruzione Visione-Linguaggio
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

Nov 15

ByZewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu

I metodi esistenti di Valutazione della Qualità delle Immagini (IQA) hanno ottenuto un notevole successo nell'analisi della qualità complessiva delle immagini, ma pochi lavori esplorano l'analisi della qualità per le Regioni di Interesse (ROIs). L'analisi della qualità delle ROIs può fornire indicazioni dettagliate per il miglioramento della qualità delle immagini ed è cruciale per scenari che si concentrano sulla qualità a livello di regione. Questo articolo propone una nuova rete, SEAGULL, che può Visualizzare e Valutare la qualità delle ROIs con l'aiuto di un Grande modello di Visione-Linguaggio. SEAGULL incorpora un modello di visione-linguaggio (VLM), maschere generate dal Modello Segment Anything (SAM) per specificare le ROIs e un Estrattore di Caratteristiche basato su Maschera (MFE) progettato meticolosamente per estrarre token globali e locali per le ROIs specificate, consentendo una precisa valutazione della qualità dettagliata per le ROIs. Inoltre, questo articolo costruisce due set di dati IQA basati sulle ROI, SEAGULL-100w e SEAGULL-3k, per addestrare e valutare l'IQA basato sulle ROI. SEAGULL-100w comprende circa 100w immagini di distorsione sintetiche con 33 milioni di ROIs per il pre-addestramento al fine di migliorare la capacità del modello di percepire la qualità regionale e SEAGULL-3k contiene circa 3k ROIs di distorsione autentiche per potenziare la capacità del modello di percepire le distorsioni del mondo reale. Dopo il pre-addestramento su SEAGULL-100w e il raffinamento su SEAGULL-3k, SEAGULL mostra un notevole rendimento nella valutazione della qualità dettagliata delle ROI. Il codice e i set di dati sono disponibili pubblicamente su https://github.com/chencn2020/Seagull.

Valutazione delle prestazioni del tokenizzatore dei grandi modelli linguistici tra le Lingue Ufficiali dell'India.
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

Nov 19

ByS. Tamang, D. J. Bora

I Large Language Models (LLM) basati su architetture transformer hanno rivoluzionato una varietà di settori, con la tokenizzazione che svolge un ruolo fondamentale nelle fasi di pre-elaborazione e raffinamento. Nei modelli multilingue, in particolare quelli progettati per le lingue indiane, una tokenizzazione efficace è cruciale per ottimizzare le prestazioni. Questo articolo presenta una valutazione esaustiva dei tokenizzatori utilizzati da 12 LLM in tutte e 22 lingue ufficiali dell'India, con un focus sull'efficienza dei loro processi di tokenizzazione. Abbiamo utilizzato la Lunghezza Sequenza Normalizzata (NSL) come metrica chiave nella nostra analisi. I nostri risultati rivelano che il tokenizzatore SUTRA supera tutti gli altri modelli, compresi diversi modelli specifici per le lingue indiane, eccellendo in 14 lingue. Tra le osservazioni degne di nota vi sono la gestione superiore delle lingue indiane da parte del tokenizzatore SUTRA, il progresso del GPT-4o rispetto al suo predecessore GPT-4 nel trattare le lingue indiane e le prestazioni limitate di Project Indus in alcune lingue. Questo studio sottolinea l'importanza critica dello sviluppo di strategie di tokenizzazione mirate per modelli multilingue e incentrati sulle lingue indiane, gettando le basi per futuri miglioramenti nel design dei tokenizzatori per migliorare la copertura linguistica e l'efficienza del modello.

RedPajama: un dataset aperto per l'addestramento di grandi modelli linguistici
RedPajama: an Open Dataset for Training Large Language Models

Nov 19