Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo LayerSkip, una soluzione end-to-end per accelerare l'inferenza dei grandi modelli linguistici (LLM). In primo luogo, durante l'addestramento applichiamo il dropout a livello di layer, con tassi di dropout bassi per i layer iniziali e più alti per i layer successivi, insieme a una funzione di perdita per uscite anticipate in cui tutti i layer del transformer condividono la stessa uscita. In secondo luogo, durante l'inferenza, dimostriamo che questa procedura di addestramento aumenta l'accuratezza delle uscite anticipate nei layer iniziali, senza aggiungere alcun layer o modulo ausiliario al modello. In terzo luogo, presentiamo una nuova soluzione di decodifica auto-speculativa in cui usciamo dai layer iniziali e verifichiamo e correggiamo con i layer rimanenti del modello. Il nostro approccio di decodifica auto-speculativa proposto ha un'impronta di memoria inferiore rispetto ad altri approcci di decodifica speculativa e beneficia della condivisione del calcolo e delle attivazioni tra le fasi di bozza e verifica. Eseguiamo esperimenti su diverse dimensioni dei modelli Llama con diversi tipi di addestramento: pretraining da zero, pretraining continuo, fine-tuning su un dominio di dati specifico e fine-tuning su un compito specifico. Implementiamo la nostra soluzione di inferenza e dimostriamo accelerazioni fino a 2,16x nella summarizzazione di documenti CNN/DM, 1,82x nel coding e 2,0x nel task di parsing semantico TOPv2. Rendiamo disponibili il nostro codice e i checkpoint all'indirizzo https://github.com/facebookresearch/LayerSkip.
In questo rapporto, presentiamo InternVL 1.5, un modello linguistico multimodale di grandi dimensioni (MLLM) open-source progettato per colmare il divario di capacità tra i modelli open-source e quelli commerciali proprietari nella comprensione multimodale. Introduciamo tre semplici miglioramenti: (1) **Encoder Visivo Potenziato**: abbiamo esplorato una strategia di apprendimento continuo per il modello visivo di base su larga scala -- InternViT-6B, potenziando le sue capacità di comprensione visiva e rendendolo trasferibile e riutilizzabile in diversi LLM. (2) **Risoluzione Dinamica ad Alta Definizione**: dividiamo le immagini in riquadri che vanno da 1 a 40 di 448x448 pixel in base alle proporzioni e alla risoluzione delle immagini in ingresso, supportando input fino a 4K di risoluzione. (3) **Dataset Bilingue di Alta Qualità**: abbiamo raccolto con cura un dataset bilingue di alta qualità che copre scene comuni, immagini di documenti, e le abbiamo annotate con coppie di domande e risposte in inglese e cinese, migliorando significativamente le prestazioni nei task relativi all'OCR e al cinese. Abbiamo valutato InternVL 1.5 attraverso una serie di benchmark e studi comparativi. Rispetto sia ai modelli open-source che a quelli proprietari, InternVL 1.5 mostra prestazioni competitive, raggiungendo risultati all'avanguardia in 8 dei 18 benchmark. Il codice è stato rilasciato all'indirizzo https://github.com/OpenGVLab/InternVL.
Sebbene molti moderni modelli linguistici su larga scala (LLM) siano in grado di elaborare input di grandi dimensioni, continuano a incontrare difficoltà nel sfruttare appieno le informazioni all'interno di contesti lunghi, un problema noto come la sfida del "lost-in-the-middle". Ipotesizziamo che ciò derivi da una supervisione esplicita insufficiente durante l'addestramento su contesti lunghi, che non riesce a enfatizzare il fatto che qualsiasi posizione in un contesto lungo possa contenere informazioni cruciali. Basandoci su questa intuizione, il nostro studio presenta l'addestramento information-intensive (IN2), una soluzione puramente basata sui dati per superare il problema del "lost-in-the-middle". Nello specifico, l'addestramento IN2 sfrutta un dataset sintetico di domande e risposte su contesti lunghi, in cui la risposta richiede (1) una consapevolezza fine delle informazioni su un breve segmento (~128 token) all'interno di un contesto lungo sintetico (4K-32K token), e (2) l'integrazione e il ragionamento su informazioni provenienti da due o più segmenti brevi. Applicando questo addestramento information-intensive su Mistral-7B, presentiamo FILM-7B (FILl-in-the-Middle). Per valutare approfonditamente la capacità di FILM-7B di utilizzare contesti lunghi, abbiamo progettato tre task di probing che coprono vari stili di contesto (documento, codice e contesto di dati strutturati) e modelli di recupero delle informazioni (recupero in avanti, indietro e bidirezionale). I risultati dei probing dimostrano che FILM-7B può recuperare in modo robusto informazioni da diverse posizioni nella sua finestra di contesto di 32K. Oltre a questi task di probing, FILM-7B migliora significativamente le prestazioni su task reali su contesti lunghi (ad esempio, 23.5->26.9 punteggio F1 su NarrativeQA), mantenendo al contempo prestazioni comparabili su task su contesti brevi (ad esempio, 59.3->59.2 accuratezza su MMLU). Link GitHub: https://github.com/microsoft/FILM.
La generazione di oggetti 3D ha subito progressi significativi, producendo risultati di alta qualità. Tuttavia, non riesce a raggiungere un controllo preciso da parte dell'utente, spesso generando risultati che non si allineano alle aspettative dell'utente, limitando così la loro applicabilità. La generazione di oggetti 3D basata sulla visione dell'utente affronta sfide significative nel realizzare i suoi concetti utilizzando i modelli generativi attuali a causa delle limitate capacità di interazione. I metodi esistenti offrono principalmente due approcci: (i) interpretare istruzioni testuali con una controllabilità limitata, o (ii) ricostruire oggetti 3D da immagini 2D. Entrambi limitano la personalizzazione ai confini del riferimento 2D e possono introdurre artefatti indesiderati durante il processo di sollevamento 3D, restringendo la possibilità di modifiche 3D dirette e versatili. In questo lavoro, introduciamo Interactive3D, un framework innovativo per la generazione interattiva di oggetti 3D che conferisce agli utenti un controllo preciso sul processo generativo attraverso ampie capacità di interazione 3D. Interactive3D è strutturato in due fasi a cascata, utilizzando rappresentazioni 3D distinte. La prima fase impiega il Gaussian Splatting per l'interazione diretta dell'utente, consentendo modifiche e guida della direzione generativa in qualsiasi fase intermedia attraverso (i) Aggiunta e Rimozione di componenti, (ii) Trascinamento Deformabile e Rigido, (iii) Trasformazioni Geometriche e (iv) Modifica Semantica. Successivamente, i Gaussian splats vengono trasformati in InstantNGP. Introduciamo un nuovo modulo (v) Interactive Hash Refinement per aggiungere ulteriori dettagli ed estrarre la geometria nella seconda fase. I nostri esperimenti dimostrano che Interactive3D migliora notevolmente la controllabilità e la qualità della generazione 3D. La pagina web del nostro progetto è disponibile all'indirizzo https://interactive-3d.github.io/.
Le tecnologie basate sulla diffusione hanno compiuto progressi significativi, in particolare nella generazione di volti personalizzati e su misura. Tuttavia, i metodi esistenti incontrano difficoltà nel raggiungere un'elevata fedeltà e una dettagliata coerenza dell'identità (ID), principalmente a causa di un controllo insufficiente a livello granulare sulle aree del volto e della mancanza di una strategia completa per la preservazione dell'ID che consideri appieno i dettagli facciali intricati e l'aspetto complessivo del volto. Per affrontare queste limitazioni, introduciamo ConsistentID, un metodo innovativo progettato per la generazione di ritratti con preservazione dell'identità sotto prompt facciali multimodali a grana fine, utilizzando una sola immagine di riferimento. ConsistentID comprende due componenti chiave: un generatore di prompt facciali multimodali che combina caratteristiche facciali, descrizioni facciali corrispondenti e il contesto facciale complessivo per migliorare la precisione nei dettagli facciali, e una rete di preservazione dell'ID ottimizzata attraverso una strategia di localizzazione dell'attenzione facciale, mirata a preservare la coerenza dell'ID nelle regioni del volto. Insieme, queste componenti migliorano significativamente l'accuratezza della preservazione dell'ID introducendo informazioni multimodali dell'ID a grana fine dalle regioni facciali. Per facilitare l'addestramento di ConsistentID, presentiamo un dataset di ritratti a grana fine, FGID, con oltre 500.000 immagini facciali, offrendo una maggiore diversità e completezza rispetto ai dataset facciali pubblici esistenti. I risultati sperimentali confermano che il nostro ConsistentID raggiunge una precisione e una diversità eccezionali nella generazione di volti personalizzati, superando i metodi esistenti nel dataset MyStyle. Inoltre, sebbene ConsistentID introduca più informazioni multimodali sull'ID, mantiene una velocità di inferenza rapida durante la generazione.
Il prompting Set-of-Mark (SoM) libera la capacità di grounding visivo di GPT-4V, consentendo al modello di associare oggetti visivi a tag inseriti sull'immagine. Questi tag, contrassegnati con caratteri alfanumerici, possono essere indicizzati tramite token di testo per un facile riferimento. Nonostante le prestazioni straordinarie di GPT-4V, osserviamo che altri Modelli Linguistici Multimodali di Grande Scala (MLLM) faticano a comprendere questi tag visivi. Per promuovere l'apprendimento del prompting SoM nei modelli open-source, proponiamo un nuovo paradigma di apprendimento: "elencare gli elementi uno per uno", che chiede al modello di enumerare e descrivere tutti i tag visivi posizionati sull'immagine seguendo l'ordine alfanumerico dei tag. Integrando il nostro dataset curato con altri dataset di tuning delle istruzioni visive, siamo in grado di dotare gli MLLM esistenti della capacità di prompting SoM. Inoltre, valutiamo i nostri modelli SoM fine-tuned su cinque benchmark MLLM. Scopriamo che questo nuovo dataset, anche se di dimensioni relativamente ridotte (10k-30k immagini con tag), migliora significativamente le capacità di ragionamento visivo e riduce le allucinazioni per gli MLLM. Sorprendentemente, questi miglioramenti persistono anche quando i tag visivi vengono omessi dalle immagini di input durante l'inferenza. Ciò suggerisce il potenziale di "elencare gli elementi uno per uno" come nuovo paradigma per l'addestramento degli MLLM, che rafforza l'allineamento oggetto-testo attraverso l'uso di tag visivi nella fase di training. Infine, conduciamo analisi esplorando i modelli addestrati per comprendere il meccanismo di funzionamento di SoM. Il nostro codice e i dati sono disponibili su https://github.com/zzxslp/SoM-LLaVA.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità profonde nella comprensione e generazione del linguaggio, facilitando una vasta gamma di applicazioni. Tuttavia, si osserva una notevole carenza di metodologie dettagliate e open-source su come scalare efficientemente gli LLM oltre i 50 miliardi di parametri con un costo minimo di tentativi ed errori e risorse computazionali. In questo rapporto, presentiamo Tele-FLM (noto anche come FLM-2), un modello linguistico multilingue open-source da 52 miliardi di parametri che presenta un paradigma di pre-addestramento stabile ed efficiente e capacità avanzate di giudizio fattuale. Tele-FLM dimostra abilità superiori nella modellazione linguistica multilingue, misurate dal BPB su corpus testuali. Inoltre, sia nella valutazione dei modelli di base in inglese che in cinese, è paragonabile a modelli open-source robusti che coinvolgono un numero maggiore di FLOP di pre-addestramento, come Llama2-70B e DeepSeek-67B. Oltre ai pesi del modello, condividiamo i progetti principali, le pratiche ingegneristiche e i dettagli dell'addestramento, che ci aspettiamo possano beneficiare sia la comunità accademica che quella industriale.
Sebbene i modelli generativi testo-immagine (T2I) siano diventati onnipresenti, non sempre generano immagini che si allineano a un prompt dato. Mentre lavori precedenti hanno valutato l'allineamento T2I proponendo metriche, benchmark e modelli per raccogliere giudizi umani, la qualità di questi componenti non è stata misurata sistematicamente. Gli insiemi di prompt valutati dagli esseri umani sono generalmente piccoli e l'affidabilità delle valutazioni — e quindi dell'insieme di prompt utilizzato per confrontare i modelli — non viene valutata. Colmiamo questa lacuna conducendo uno studio approfondito che valuta le metriche di auto-valutazione e i modelli umani. Forniamo tre contributi principali: (1) Introduciamo un benchmark completo basato su competenze che può discriminare i modelli attraverso diversi modelli umani. Questo benchmark basato su competenze categorizza i prompt in sotto-competenze, consentendo a un praticante di identificare non solo quali competenze sono impegnative, ma anche a quale livello di complessità una competenza diventa impegnativa. (2) Raccogliamo valutazioni umane su quattro modelli e quattro modelli T2I per un totale di >100K annotazioni. Questo ci permette di capire dove le differenze sorgono a causa dell'ambiguità intrinseca nel prompt e dove sorgono a causa di differenze nella qualità della metrica e del modello. (3) Infine, introduciamo una nuova metrica di auto-valutazione basata su domande e risposte che è maggiormente correlata con le valutazioni umane rispetto alle metriche esistenti per il nostro nuovo dataset, attraverso diversi modelli umani, e su TIFA160.
Presentiamo NeRF-XL, un metodo strutturato per distribuire i Campi di Radianza Neurale (NeRF) su più GPU, consentendo così l'addestramento e il rendering di NeRF con una capacità arbitrariamente grande. Iniziamo riesaminando gli approcci multi-GPU esistenti, che scompongono scene di grandi dimensioni in più NeRF addestrati in modo indipendente, e identifichiamo diversi problemi fondamentali di questi metodi che ostacolano il miglioramento della qualità della ricostruzione man mano che vengono utilizzate risorse computazionali aggiuntive (GPU) durante l'addestramento. NeRF-XL risolve questi problemi e permette l'addestramento e il rendering di NeRF con un numero arbitrario di parametri semplicemente utilizzando più hardware. Al centro del nostro metodo si trova una nuova formulazione di addestramento e rendering distribuito, che è matematicamente equivalente al classico caso single-GPU e minimizza la comunicazione tra le GPU. Sbloccando NeRF con un numero di parametri arbitrariamente grande, il nostro approccio è il primo a rivelare le leggi di scalabilità multi-GPU per i NeRF, mostrando miglioramenti nella qualità della ricostruzione con un numero maggiore di parametri e miglioramenti nella velocità con più GPU. Dimostriamo l'efficacia di NeRF-XL su una vasta gamma di dataset, incluso il più grande dataset open-source fino ad oggi, MatrixCity, contenente 258K immagini che coprono un'area cittadina di 25km².
Comprendere contenuti visivi ricchi di testo è fondamentale per l'applicazione pratica dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM), poiché scenari ricchi di testo sono ubiquitari nel mondo reale, caratterizzati dalla presenza di testi estesi incorporati all'interno di immagini. Recentemente, l'avvento di MLLM con un'impressionante versatilità ha innalzato il livello di ciò che possiamo aspettarci da questi modelli. Tuttavia, la loro competenza in scenari ricchi di testo deve ancora essere valutata in modo completo e obiettivo, poiché gli attuali benchmark per MLLM si concentrano principalmente sulla valutazione della comprensione visiva generale. In questo lavoro, introduciamo SEED-Bench-2-Plus, un benchmark specificamente progettato per valutare la comprensione visiva di contenuti ricchi di testo nei MLLM. Il nostro benchmark comprende 2.3K domande a scelta multipla con annotazioni umane precise, che coprono tre ampie categorie: Grafici, Mappe e Pagine Web, ognuna delle quali abbraccia un ampio spettro di scenari ricchi di testo nel mondo reale. Queste categorie, grazie alla loro intrinseca complessità e diversità, simulano efficacemente ambienti reali ricchi di testo. Inoltre, conduciamo una valutazione approfondita che coinvolge 34 importanti MLLM (inclusi GPT-4V, Gemini-Pro-Vision e Claude-3-Opus) e sottolineiamo le attuali limitazioni dei MLLM nella comprensione visiva di contenuti ricchi di testo. Speriamo che il nostro lavoro possa rappresentare un'aggiunta preziosa agli attuali benchmark per MLLM, fornendo osservazioni approfondite e ispirando ulteriori ricerche nel campo della comprensione visiva di contenuti ricchi di testo con MLLM. Il dataset e il codice di valutazione sono accessibili all'indirizzo https://github.com/AILab-CVC/SEED-Bench.