Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici si sono dimostrati efficaci in un'ampia gamma di applicazioni, tuttavia i modelli più sofisticati sono spesso proprietari. Ad esempio, GPT-4 di OpenAI e vari modelli di Anthropic sono costosi e consumano una quantità significativa di energia. Al contrario, la comunità open-source ha prodotto modelli competitivi, come Llama3. Inoltre, modelli linguistici più piccoli e specifici per nicchie, come quelli progettati per compiti legali, medici o finanziari, hanno superato le loro controparti proprietarie. Questo articolo introduce un nuovo approccio che utilizza token funzionali per integrare più modelli open-source, ciascuno ottimizzato per compiti specifici. Il nostro nuovo modello Octopus v4 sfrutta i token funzionali per indirizzare in modo intelligente le query degli utenti al modello verticale più appropriato e riformattare la query per ottenere le migliori prestazioni. Octopus v4, un'evoluzione dei modelli Octopus v1, v2 e v3, eccelle nella selezione, nella comprensione dei parametri e nella riformattazione. Inoltre, esploriamo l'uso del grafo come struttura dati versatile che coordina efficacemente più modelli open-source sfruttando le capacità del modello Octopus e dei token funzionali. Utilizza il nostro GitHub open-source (https://www.nexa4ai.com/) per provare i modelli Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) e contribuire a un grafo più ampio di modelli linguistici. Attivando modelli con meno di 10 miliardi di parametri, abbiamo ottenuto un punteggio MMLU SOTA di 74,8 tra i modelli dello stesso livello.
Ispirati dal teorema di rappresentazione di Kolmogorov-Arnold, proponiamo le Reti di Kolmogorov-Arnold (KANs) come alternative promettenti ai Multi-Layer Perceptron (MLP). Mentre gli MLP hanno funzioni di attivazione fisse sui nodi ("neuroni"), le KANs hanno funzioni di attivazione apprendibili sugli archi ("pesi"). Le KANs non hanno affatto pesi lineari: ogni parametro di peso è sostituito da una funzione univariata parametrizzata come spline. Dimostriamo che questo cambiamento apparentemente semplice rende le KANs superiori agli MLP in termini di accuratezza e interpretabilità. Per quanto riguarda l'accuratezza, KANs molto più piccole possono raggiungere un'accuratezza comparabile o migliore rispetto a MLP molto più grandi nell'adattamento ai dati e nella risoluzione di equazioni differenziali alle derivate parziali (PDE). Teoricamente ed empiricamente, le KANs possiedono leggi di scala neurale più veloci rispetto agli MLP. Per quanto riguarda l'interpretabilità, le KANs possono essere visualizzate in modo intuitivo e possono interagire facilmente con gli utenti umani. Attraverso due esempi in matematica e fisica, le KANs si dimostrano utili collaboratrici che aiutano gli scienziati a (ri)scoprire leggi matematiche e fisiche. In sintesi, le KANs sono alternative promettenti agli MLP, aprendo opportunità per migliorare ulteriormente i modelli di deep learning odierni che si basano pesantemente sugli MLP.
I grandi modelli linguistici come GPT e Llama vengono addestrati con una funzione di perdita basata sulla previsione del token successivo. In questo lavoro, suggeriamo che addestrare i modelli linguistici a prevedere più token futuri contemporaneamente porti a una maggiore efficienza campionaria. Più specificamente, in ogni posizione del corpus di addestramento, chiediamo al modello di prevedere i successivi n token utilizzando n teste di output indipendenti, che operano su un tronco condiviso del modello. Considerando la previsione multi-token come un'attività di addestramento ausiliaria, misuriamo miglioramenti nelle capacità downstream senza sovraccarico nel tempo di addestramento, sia per i modelli di codice che per quelli di linguaggio naturale. Il metodo è sempre più utile per dimensioni maggiori del modello e mantiene il suo appeal quando si addestra per più epoche. I guadagni sono particolarmente evidenti su benchmark generativi come la codifica, dove i nostri modelli superano costantemente baseline robuste di diversi punti percentuali. I nostri modelli da 13B parametri risolvono il 12% in più di problemi su HumanEval e il 17% in più su MBPP rispetto a modelli comparabili basati sulla previsione del token successivo. Esperimenti su piccoli compiti algoritmici dimostrano che la previsione multi-token favorisce lo sviluppo di teste di induzione e capacità di ragionamento algoritmico. Come ulteriore vantaggio, i modelli addestrati con la previsione di 4 token sono fino a 3 volte più veloci nell'inferenza, anche con dimensioni di batch elevate.
Nel campo della generazione di immagini personalizzate, la capacità di creare immagini che preservano i concetti è migliorata significativamente. Creare un'immagine che integri naturalmente più concetti in una composizione coerente e visivamente accattivante può essere effettivamente impegnativo. Questo articolo introduce "InstantFamily", un approccio che utilizza un nuovo meccanismo di cross-attention mascherato e uno stack di embedding multimodale per ottenere la generazione di immagini multi-ID in modalità zero-shot. Il nostro metodo preserva efficacemente l'ID poiché utilizza caratteristiche globali e locali di un modello pre-addestrato per il riconoscimento facciale integrato con condizioni testuali. Inoltre, il nostro meccanismo di cross-attention mascherato consente un controllo preciso del multi-ID e della composizione nelle immagini generate. Dimostriamo l'efficacia di InstantFamily attraverso esperimenti che ne evidenziano la superiorità nella generazione di immagini con multi-ID, risolvendo al contempo noti problemi di generazione multi-ID. Inoltre, il nostro modello raggiunge prestazioni all'avanguardia sia nella preservazione di singoli ID che di multi-ID. Infine, il nostro modello mostra una notevole scalabilità con un numero di preservazioni di ID superiore a quello con cui è stato originariamente addestrato.
I metodi di ottimizzazione iterativa delle preferenze hanno recentemente dimostrato di funzionare bene per compiti generali di tuning delle istruzioni, ma tipicamente apportano pochi miglioramenti nei compiti di ragionamento (Yuan et al., 2024, Chen et al., 2024). In questo lavoro sviluppiamo un approccio iterativo che ottimizza la preferenza tra candidati generati di tipo Chain-of-Thought (CoT) ottimizzando per i passaggi di ragionamento vincenti rispetto a quelli perdenti che portano alla risposta corretta. Addestriamo utilizzando una funzione di perdita DPO modificata (Rafailov et al., 2023) con un termine aggiuntivo di log-verosimiglianza negativa, che riteniamo cruciale. Mostriamo che il ragionamento migliora attraverso iterazioni ripetute di questo schema. Pur basandoci esclusivamente sugli esempi nel set di addestramento, il nostro approccio porta a un aumento dell'accuratezza per Llama-2-70B-Chat dal 55,6% all'81,6% su GSM8K (e all'88,7% con il voto a maggioranza su 32 campioni), dal 12,5% al 20,8% su MATH e dal 77,8% all'86,7% su ARC-Challenge, superando altri modelli basati su Llama-2 che non si avvalgono di dataset aggiuntivi.
Estendiamo la lunghezza del contesto di Llama-3-8B-Instruct da 8K a 80K tramite fine-tuning QLoRA. L'intero ciclo di addestramento è estremamente efficiente, richiedendo 8 ore su una macchina con 8 GPU A800 (80G). Il modello risultante mostra prestazioni superiori in un'ampia gamma di task di valutazione, come NIHS, recupero di argomenti e comprensione del linguaggio in contesti lunghi; allo stesso tempo, preserva bene le capacità originali su contesti brevi. L'estensione significativa del contesto è principalmente attribuita a soli 3.5K campioni di addestramento sintetici generati da GPT-4, il che indica il potenziale intrinseco (ma ampiamente sottovalutato) dei LLM di estendere la loro lunghezza di contesto originale. In effetti, la lunghezza del contesto potrebbe essere estesa ben oltre 80K con maggiori risorse computazionali. Pertanto, il team rilascerà pubblicamente tutte le risorse (inclusi dati, modello, pipeline di generazione dati e codice di addestramento) per facilitare la ricerca futura da parte della comunità: https://github.com/FlagOpen/FlagEmbedding.
Questo lavoro introduce MotionLCM, estendendo la generazione controllata di movimenti a un livello in tempo reale. I metodi esistenti per il controllo spaziale nella generazione di movimenti condizionati da testo soffrono di una significativa inefficienza in fase di esecuzione. Per affrontare questo problema, proponiamo innanzitutto il modello di consistenza latente per il movimento (MotionLCM) per la generazione di movimenti, basandoci sul modello di diffusione latente (MLD). Utilizzando un'inferenza a un passo (o pochi passi), miglioriamo ulteriormente l'efficienza in fase di esecuzione del modello di diffusione latente per la generazione di movimenti. Per garantire una controllabilità efficace, integriamo un ControlNet per il movimento all'interno dello spazio latente di MotionLCM e abilitiamo segnali di controllo espliciti (ad esempio, la traiettoria del bacino) nello spazio di movimento standard per controllare direttamente il processo di generazione, in modo simile al controllo di altri modelli di diffusione senza latenti per la generazione di movimenti. Utilizzando queste tecniche, il nostro approccio può generare movimenti umani con testo e segnali di controllo in tempo reale. I risultati sperimentali dimostrano le notevoli capacità di generazione e controllo di MotionLCM mantenendo un'efficienza in fase di esecuzione in tempo reale.
I metodi esistenti per la generazione automatica di didascalie per contenuti visivi affrontano sfide come la mancanza di dettagli, l'allucinazione di contenuti e una scarsa aderenza alle istruzioni. In questo lavoro, proponiamo VisualFactChecker (VFC), una pipeline flessibile e senza necessità di addestramento che genera didascalie ad alta fedeltà e dettagliate sia per immagini 2D che per oggetti 3D. VFC si compone di tre passaggi: 1) proposta, in cui modelli di captioning da immagine a testo generano multiple didascalie iniziali; 2) verifica, in cui un modello linguistico di grandi dimensioni (LLM) utilizza strumenti come modelli di rilevamento oggetti e VQA per controllare i fatti delle didascalie proposte; 3) captioning, in cui un LLM genera la didascalia finale sintetizzando le proposte di didascalie e i risultati della verifica dei fatti. In questa fase, VFC può generare flessibilmente didascalie in vari stili seguendo istruzioni complesse. Eseguiamo valutazioni complete del captioning utilizzando quattro metriche: 1) CLIP-Score per la similarità immagine-testo; 2) CLIP-Image-Score per misurare la similarità immagine-immagine tra l'originale e l'immagine ricostruita generata da un modello testo-immagine utilizzando la didascalia; 3) uno studio umano su Amazon Mechanical Turk; 4) GPT-4V per una valutazione granulare. I risultati delle valutazioni mostrano che VFC supera i metodi di captioning open-source all'avanguardia per immagini 2D sul dataset COCO e per asset 3D sul dataset Objaverse. Il nostro studio dimostra che, combinando modelli open-source in una pipeline, è possibile ottenere capacità di captioning paragonabili a modelli proprietari come GPT-4V, nonostante una dimensione del modello oltre 10 volte inferiore.
Proponiamo GS-LRM, un modello scalabile di ricostruzione su larga scala in grado di prevedere primitive 3D di alta qualità basate su Gaussiane da 2-4 immagini sparse con pose nota in 0,23 secondi su una singola GPU A100. Il nostro modello presenta un'architettura basata su transformer molto semplice; suddividiamo le immagini di input con pose nota in patch, passiamo i token delle immagini multi-vista concatenati attraverso una sequenza di blocchi transformer e decodifichiamo direttamente i parametri Gaussiani finali per pixel da questi token per il rendering differenziabile. A differenza dei precedenti LRM che potevano ricostruire solo oggetti, prevedendo Gaussiane per pixel, GS-LRM gestisce naturalmente scene con grandi variazioni di scala e complessità. Mostriamo che il nostro modello può funzionare sia su acquisizioni di oggetti che di scene addestrandolo rispettivamente su Objaverse e RealEstate10K. In entrambi gli scenari, i modelli superano ampiamente i baseline state-of-the-art. Dimostriamo inoltre applicazioni del nostro modello in compiti di generazione 3D downstream. La pagina web del progetto è disponibile all'indirizzo: https://sai-bi.github.io/project/gs-lrm/.
In seguito all'avvento dei NeRF, il 3D Gaussian Splatting (3D-GS) ha aperto la strada al rendering neurale in tempo reale, superando il carico computazionale dei metodi volumetrici. Seguendo il lavoro pionieristico del 3D-GS, diversi metodi hanno tentato di raggiungere alternative performanti, comprimibili e ad alta fedeltà. Tuttavia, impiegando uno schema di ottimizzazione agnostico alla geometria, questi metodi trascurano la struttura 3D intrinseca della scena, limitando così l'espressività e la qualità della rappresentazione, con conseguente comparsa di vari punti fluttuanti e artefatti. In questo lavoro, proponiamo un metodo di Gaussian Splatting consapevole della struttura (SAGS) che codifica implicitamente la geometria della scena, riflettendosi in prestazioni di rendering all'avanguardia e ridotti requisiti di memorizzazione su dataset di sintesi di nuove viste di riferimento. SAGS si basa su una rappresentazione grafica locale-globale che facilita l'apprendimento di scene complesse e impone spostamenti significativi dei punti che preservano la geometria della scena. Inoltre, introduciamo una versione leggera di SAGS, utilizzando uno schema di interpolazione del punto medio semplice ma efficace, che mostra una rappresentazione compatta della scena con una riduzione delle dimensioni fino a 24 volte senza fare affidamento su alcuna strategia di compressione. Esperimenti estesi su più dataset di riferimento dimostrano la superiorità di SAGS rispetto ai metodi 3D-GS all'avanguardia sia in termini di qualità di rendering che di dimensioni del modello. Inoltre, dimostriamo che il nostro metodo consapevole della struttura può mitigare efficacemente gli artefatti fluttuanti e le distorsioni irregolari dei metodi precedenti, ottenendo mappe di profondità precise. Pagina del progetto: https://eververas.github.io/SAGS/.
I dataset visione-linguaggio sono fondamentali sia per la ricerca testo-immagine (T2I) che per quella immagine-testo (I2T). Tuttavia, i dataset attuali mancano di descrizioni con dettagli granulari che consentirebbero ai modelli di apprendere associazioni più ricche. Per colmare questa lacuna, introduciamo Descriptions of Connected and Contrasting Images (DOCCI), un dataset con descrizioni lunghe e annotate manualmente in inglese per 15.000 immagini, scattate, curate e donate da un singolo ricercatore con l'obiettivo di catturare sfide chiave come relazioni spaziali, conteggio, rendering del testo, conoscenza del mondo e altro. Abbiamo istruito gli annotatori umani a creare descrizioni complete per ogni immagine; queste hanno una lunghezza media di 136 parole e sono progettate per distinguere chiaramente ogni immagine da quelle correlate o simili. Ogni descrizione è altamente composizionale e tipicamente comprende più sfide. Attraverso analisi sia quantitative che qualitative, dimostriamo che DOCCI rappresenta una risorsa di formazione efficace per la generazione immagine-testo: un modello PaLI 5B addestrato su DOCCI mostra risultati pari o superiori rispetto a modelli più grandi e ad alte prestazioni come LLaVA-1.5 7B e InstructBLIP 7B. Inoltre, mostriamo che DOCCI è un banco di prova utile per la generazione testo-immagine, evidenziando i limiti degli attuali modelli testo-immagine nel catturare descrizioni lunghe e dettagli fini.
La generazione di scene 3D è rapidamente diventata una nuova e impegnativa direzione di ricerca, alimentata dai continui miglioramenti dei modelli generativi di diffusione 2D. La maggior parte dei lavori precedenti in questo ambito genera scene unendo iterativamente nuovi frame generati con la geometria esistente. Questi lavori spesso si basano su stimatori di profondità monoculari pre-addestrati per elevare le immagini generate in 3D, fondendole con la rappresentazione della scena esistente. Questi approcci vengono poi spesso valutati tramite una metrica testuale, misurando la somiglianza tra le immagini generate e un prompt testuale dato. In questo lavoro, apportiamo due contributi fondamentali al campo della generazione di scene 3D. In primo luogo, osserviamo che elevare le immagini in 3D con un modello di stima della profondità monoculare è subottimale poiché ignora la geometria della scena esistente. Introduciamo quindi un nuovo modello di completamento della profondità, addestrato tramite distillazione insegnante e auto-addestramento per apprendere il processo di fusione 3D, ottenendo una migliore coerenza geometrica della scena. In secondo luogo, proponiamo un nuovo schema di benchmarking per i metodi di generazione di scene basato sulla geometria di riferimento, che misura quindi la qualità della struttura della scena.
Gli approcci basati sull'ottimizzazione, come il campionamento per distillazione del punteggio (SDS), mostrano potenziale nella generazione zero-shot di modelli 3D, ma soffrono di bassa efficienza, principalmente a causa dell'elevato numero di valutazioni di funzioni (NFE) richieste per ciascun campione. In questo articolo, introduciamo la ricostruzione iterativa basata sul punteggio (SIR), un algoritmo efficiente e generale per la generazione 3D con un modello di diffusione basato su punteggi multi-vista. Dati le immagini prodotte dal modello di diffusione, SIR riduce le NFE ottimizzando ripetutamente i parametri 3D, a differenza della singola ottimizzazione in SDS, imitando il processo di ricostruzione 3D. Con altri miglioramenti, tra cui l'ottimizzazione nello spazio dei pixel, presentiamo un approccio efficiente chiamato MicroDreamer che si applica generalmente a varie rappresentazioni 3D e compiti di generazione 3D. In particolare, mantenendo una performance comparabile, MicroDreamer è 5-20 volte più veloce di SDS nella generazione di campi di radianza neurale e impiega circa 20 secondi per generare mesh dalla suddivisione 3D di Gaussiane su una singola GPU A100, dimezzando il tempo della baseline zero-shot più veloce, DreamGaussian. Il nostro codice è disponibile all'indirizzo https://github.com/ML-GSAI/MicroDreamer.
La ricerca contemporanea nel campo 3D, in particolare nella ricostruzione e generazione, si basa fortemente su immagini 2D come input o supervisione. Tuttavia, le attuali progettazioni per queste mappature 2D-3D sono ad alto consumo di memoria, rappresentando un significativo collo di bottiglia per i metodi esistenti e ostacolando nuove applicazioni. In risposta, proponiamo una coppia di componenti altamente scalabili per i campi neurali 3D: Lightplane Render e Splatter, che riducono significativamente l'uso della memoria nella mappatura 2D-3D. Queste innovazioni consentono l'elaborazione di un numero molto maggiore di immagini ad alta risoluzione con costi ridotti di memoria e computazione. Dimostriamo la loro utilità in varie applicazioni, dal miglioramento dell'ottimizzazione di scene singole con perdite a livello di immagine alla realizzazione di una pipeline versatile per scalare drasticamente la ricostruzione e la generazione 3D. Codice: https://github.com/facebookresearch/lightplane.