Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici stanno diventando sempre più una tecnologia fondamentale nell'intelligenza artificiale, nelle scienze e nella società nel suo complesso, tuttavia le strategie ottimali per la composizione e il filtraggio dei dataset rimangono in gran parte sfuggenti. Molti dei modelli più performanti mancano di trasparenza nei processi di cura dei dataset e sviluppo del modello, creando un ostacolo allo sviluppo di modelli linguistici completamente aperti. In questo articolo, identifichiamo tre sfide principali legate ai dati che devono essere affrontate per far progredire i modelli linguistici open-source. Queste includono (1) trasparenza nello sviluppo del modello, compreso il processo di cura dei dati, (2) accesso a grandi quantità di dati di alta qualità e (3) disponibilità di artefatti e metadati per la cura e l'analisi dei dataset. Per affrontare queste sfide, rilasciamo RedPajama-V1, una riproduzione aperta del dataset di addestramento LLaMA. Inoltre, rilasciamo RedPajama-V2, un enorme dataset solo web composto da dati di testo grezzi e non filtrati insieme a segnali di qualità e metadati. Insieme, i dataset RedPajama comprendono oltre 100 trilioni di token che spaziano su più domini e i loro segnali di qualità facilitano il filtraggio dei dati, con l'obiettivo di ispirare lo sviluppo di numerosi nuovi dataset. Finora, questi dataset sono stati già utilizzati nell'addestramento di robusti modelli linguistici utilizzati in produzione, come Snowflake Arctic, XGen di Salesforce e OLMo di AI2. Per fornire un'analisi sulla qualità di RedPajama, presentiamo una serie di analisi e studi di ablazione con modelli linguistici basati solo sul decoder con fino a 1,6 miliardi di parametri. Le nostre conclusioni dimostrano come i segnali di qualità per i dati web possano essere efficacemente sfruttati per curare subset di dataset di alta qualità, sottolineando il potenziale di RedPajama nel far progredire lo sviluppo di modelli linguistici trasparenti e performanti su larga scala.
Le animazioni a schizzo offrono un potente mezzo per la narrazione visiva, dai semplici scarabocchi di un flip-book alle produzioni professionali di uno studio. Mentre l'animazione tradizionale richiede team di artisti esperti per disegnare i fotogrammi chiave e quelli intermedi, i tentativi di automazione esistenti richiedono comunque un notevole sforzo artistico attraverso precisi percorsi di movimento o specifiche dei fotogrammi chiave. Presentiamo FlipSketch, un sistema che riporta la magia dell'animazione a flip-book: basta disegnare la propria idea e descrivere come si desidera che si muova! Il nostro approccio sfrutta i precedenti di movimento dai modelli di diffusione testo-video, adattandoli per generare animazioni a schizzo attraverso tre innovazioni chiave: (i) raffinamento per la generazione di fotogrammi in stile schizzo, (ii) un meccanismo di fotogramma di riferimento che preserva l'integrità visiva dello schizzo di input attraverso il raffinamento del rumore, e (iii) una composizione a doppia attenzione che consente un movimento fluido senza perdere coerenza visiva. A differenza delle animazioni vettoriali vincolate, i nostri fotogrammi raster supportano trasformazioni dinamiche dello schizzo, catturando la libertà espressiva dell'animazione tradizionale. Il risultato è un sistema intuitivo che rende l'animazione a schizzo semplice come scarabocchiare e descrivere, mantenendo l'essenza artistica dell'animazione disegnata a mano.
I modelli di generazione di immagini autoregressivi a valori continui (AR) hanno dimostrato una notevole superiorità rispetto ai loro corrispettivi a token discreti, mostrando una considerevole qualità di ricostruzione e una maggiore fedeltà nella generazione. Tuttavia, le esigenze computazionali del framework autoregressivo comportano un significativo overhead di inferenza. Sebbene la decodifica speculativa si sia dimostrata efficace nell'accelerare i Grandi Modelli Linguistici (LLM), la loro adattamento ai modelli autoregressivi visivi a valori continui rimane inesplorato. Questo lavoro generalizza l'algoritmo di decodifica speculativa dai token discreti allo spazio continuo. Analizzando le proprietà intrinseche della distribuzione di output, stabiliamo un criterio di accettazione personalizzato per le distribuzioni di diffusione prevalenti in tali modelli. Per superare l'incoerenza che si è verificata nelle distribuzioni di output della decodifica speculativa, introduciamo metodi di allineamento della traiettoria di denoising e di pre-riempimento dei token. Inoltre, identifichiamo la distribuzione difficile da campionare nella fase di rifiuto. Per mitigare questo problema, proponiamo un meticoloso metodo di campionamento di accettazione-rifiuto con un adeguato limite superiore, evitando così integrazioni complesse. I risultati sperimentali mostrano che la nostra decodifica speculativa continua raggiunge un notevole aumento di velocità del 2,33 volte su modelli pronti all'uso mantenendo la distribuzione di output. I codici saranno disponibili su https://github.com/MarkXCloud/CSpD
I recenti progressi nei Modelli di Visione Linguistica fondamentali (VLM) hanno ridefinito il paradigma di valutazione nei compiti di visione artificiale. Questi modelli fondamentali, in particolare CLIP, hanno accelerato la ricerca nei compiti di visione artificiale a vocabolario aperto, inclusa la Segmentazione Semantica a Vocabolario Aperto (OVSS). Anche se i risultati iniziali sono promettenti, le capacità di previsione densa dei VLM richiedono ancora ulteriori miglioramenti. In questo studio, miglioriamo le prestazioni di segmentazione semantica di CLIP introducendo nuovi moduli e modifiche: 1) cambiamenti architetturali nell'ultimo strato di ViT e l'incorporazione delle mappe di attenzione dai livelli intermedi con l'ultimo strato, 2) Ingegneria delle Immagini: applicare aumenti di dati per arricchire le rappresentazioni delle immagini in ingresso, e 3) utilizzare Modelli Linguistici Grandi (LLM) per generare definizioni e sinonimi per ciascun nome di classe per sfruttare le capacità a vocabolario aperto di CLIP. Il nostro metodo senza addestramento, ITACLIP, supera gli attuali approcci all'avanguardia sui benchmark di segmentazione come COCO-Stuff, COCO-Object, Pascal Context e Pascal VOC. Il nostro codice è disponibile su https://github.com/m-arda-aydn/ITACLIP.
Questo articolo esplora l'ecosistema in rapida evoluzione dei modelli di intelligenza artificiale disponibili pubblicamente e le loro potenziali implicazioni sul panorama della sicurezza. Con l'aumentare della diffusione dei modelli di intelligenza artificiale, è fondamentale comprendere i loro rischi e vulnerabilità potenziali. Esaminiamo gli attuali scenari di sicurezza e sicurezza evidenziando sfide come problemi di tracciamento, rimedi e l'apparente assenza di processi di ciclo di vita e di proprietà dei modelli di intelligenza artificiale. Vengono proposte strategie complete per potenziare la sicurezza e la sicurezza sia per gli sviluppatori di modelli che per gli utenti finali. Questo articolo mira a fornire alcuni elementi fondamentali per una maggiore standardizzazione della sicurezza, della sicurezza e della trasparenza nello sviluppo e nell'operatività dei modelli di intelligenza artificiale e dei più ampi ecosistemi aperti e comunità che si stanno formando attorno ad essi.
La manipolazione dinamica in mano rimane un compito impegnativo per i sistemi robotici morbidi che hanno dimostrato vantaggi nelle interazioni conformi e sicure ma faticano con compiti dinamici ad alta velocità. In questo lavoro, presentiamo SWIFT, un sistema per apprendere compiti dinamici utilizzando una mano robotica morbida e conforme. A differenza dei lavori precedenti che si basano sulla simulazione, azioni quasi-statiche e modelli precisi degli oggetti, il sistema proposto impara a far girare una penna attraverso tentativi ed errori utilizzando solo dati del mondo reale senza richiedere conoscenze esplicite pregresse sugli attributi fisici della penna. Con tentativi auto-etichettati campionati dal mondo reale, il sistema scopre l'insieme di parametri primitivi di presa e rotazione della penna che consente a una mano morbida di far girare una penna in modo robusto e affidabile. Dopo 130 azioni campionate per oggetto, SWIFT raggiunge un tasso di successo del 100% su tre penne con pesi e distribuzioni di peso diversi, dimostrando la generalizzabilità e la robustezza del sistema ai cambiamenti nelle proprietà degli oggetti. I risultati evidenziano il potenziale degli effettori finali robotici morbidi nel compiere compiti dinamici, inclusa la manipolazione rapida in mano. Dimostriamo inoltre che SWIFT si generalizza alla rotazione di oggetti con forme e pesi diversi come una spazzola e un cacciavite, che facciamo girare rispettivamente con tassi di successo del 10/10 e del 5/10. Video, dati e codice sono disponibili su https://soft-spin.github.io.
I metodi esistenti di Valutazione della Qualità delle Immagini (IQA) hanno ottenuto un notevole successo nell'analisi della qualità complessiva delle immagini, ma pochi lavori esplorano l'analisi della qualità per le Regioni di Interesse (ROIs). L'analisi della qualità delle ROIs può fornire indicazioni dettagliate per il miglioramento della qualità delle immagini ed è cruciale per scenari che si concentrano sulla qualità a livello di regione. Questo articolo propone una nuova rete, SEAGULL, che può Visualizzare e Valutare la qualità delle ROIs con l'aiuto di un Grande modello di Visione-Linguaggio. SEAGULL incorpora un modello di visione-linguaggio (VLM), maschere generate dal Modello Segment Anything (SAM) per specificare le ROIs e un Estrattore di Caratteristiche basato su Maschera (MFE) progettato meticolosamente per estrarre token globali e locali per le ROIs specificate, consentendo una precisa valutazione della qualità dettagliata per le ROIs. Inoltre, questo articolo costruisce due set di dati IQA basati sulle ROI, SEAGULL-100w e SEAGULL-3k, per addestrare e valutare l'IQA basato sulle ROI. SEAGULL-100w comprende circa 100w immagini di distorsione sintetiche con 33 milioni di ROIs per il pre-addestramento al fine di migliorare la capacità del modello di percepire la qualità regionale e SEAGULL-3k contiene circa 3k ROIs di distorsione autentiche per potenziare la capacità del modello di percepire le distorsioni del mondo reale. Dopo il pre-addestramento su SEAGULL-100w e il raffinamento su SEAGULL-3k, SEAGULL mostra un notevole rendimento nella valutazione della qualità dettagliata delle ROI. Il codice e i set di dati sono disponibili pubblicamente su https://github.com/chencn2020/Seagull.
I Large Language Models (LLM) basati su architetture transformer hanno rivoluzionato una varietà di settori, con la tokenizzazione che svolge un ruolo fondamentale nelle fasi di pre-elaborazione e raffinamento. Nei modelli multilingue, in particolare quelli progettati per le lingue indiane, una tokenizzazione efficace è cruciale per ottimizzare le prestazioni. Questo articolo presenta una valutazione esaustiva dei tokenizzatori utilizzati da 12 LLM in tutte e 22 lingue ufficiali dell'India, con un focus sull'efficienza dei loro processi di tokenizzazione. Abbiamo utilizzato la Lunghezza Sequenza Normalizzata (NSL) come metrica chiave nella nostra analisi. I nostri risultati rivelano che il tokenizzatore SUTRA supera tutti gli altri modelli, compresi diversi modelli specifici per le lingue indiane, eccellendo in 14 lingue. Tra le osservazioni degne di nota vi sono la gestione superiore delle lingue indiane da parte del tokenizzatore SUTRA, il progresso del GPT-4o rispetto al suo predecessore GPT-4 nel trattare le lingue indiane e le prestazioni limitate di Project Indus in alcune lingue. Questo studio sottolinea l'importanza critica dello sviluppo di strategie di tokenizzazione mirate per modelli multilingue e incentrati sulle lingue indiane, gettando le basi per futuri miglioramenti nel design dei tokenizzatori per migliorare la copertura linguistica e l'efficienza del modello.