Articoli di ricerca IA selezionati quotidianamente con traduzioni
Studiamo l'efficacia di un approccio semplice per sviluppare un piccolo modello linguistico di base (LM) partendo da un modello linguistico di base più grande esistente: prima ereditiamo alcuni blocchi transformer dal modello più grande, e poi addestriamo questo modello più piccolo su un sottoinsieme molto ridotto (0,1%) dei dati grezzi di pre-addestramento del modello più grande. Chiamiamo la nostra semplice ricetta Inheritune e la dimostriamo inizialmente per costruire un piccolo modello linguistico di base con 1,5 miliardi di parametri utilizzando 1 miliardo di token (e alcuni strati iniziali di un modello più grande da 3 miliardi di parametri); lo facciamo utilizzando una singola GPU A6000 per meno di mezza giornata. Su 9 diversi dataset di valutazione, così come sul benchmark MMLU, il modello risultante si confronta favorevolmente con i modelli di base pubblicamente disponibili di dimensioni comprese tra 1 e 2 miliardi di parametri, alcuni dei quali sono stati addestrati utilizzando 50-1000 volte più token. Esploriamo Inheritune in un contesto leggermente diverso, in cui addestriamo piccoli LM sfruttando modelli LM più grandi e il loro intero dataset di pre-addestramento. Qui dimostriamo che i modelli LM più piccoli addestrati utilizzando alcuni strati di GPT2-medium (355 milioni di parametri) e GPT-2-large (770 milioni di parametri) possono eguagliare efficacemente la perdita di validazione (val loss) delle loro controparti più grandi quando addestrati da zero per lo stesso numero di passi di addestramento sul dataset OpenWebText con 9 miliardi di token. Analizziamo la nostra ricetta con esperimenti estesi e ne dimostriamo l'efficacia in contesti diversi. Il nostro codice è disponibile all'indirizzo https://github.com/sanyalsunny111/LLM-Inheritune.
Negli ultimi decenni, la comunità della visione artificiale ha assistito a progressi significativi nel riconoscimento visivo, in parte grazie ai progressi nei benchmark dei dataset. In particolare, il consolidato benchmark COCO ha favorito lo sviluppo dei moderni sistemi di rilevamento e segmentazione. Tuttavia, il benchmark di segmentazione COCO ha registrato un miglioramento relativamente lento nell'ultimo decennio. Originariamente dotato di annotazioni poligonali approssimative per le istanze di oggetti, ha gradualmente incorporato annotazioni approssimative basate su superpixel per le regioni di sfondo, che sono state successivamente combinate in modo euristico per produrre annotazioni di segmentazione panottica. Queste annotazioni, eseguite da diversi gruppi di valutatori, hanno portato non solo a maschere di segmentazione approssimative, ma anche a inconsistenze tra i tipi di segmentazione. In questo studio, intraprendiamo una rivalutazione completa delle annotazioni di segmentazione di COCO. Migliorando la qualità delle annotazioni e ampliando il dataset per includere 383K immagini con oltre 5,18 milioni di maschere panottiche, introduciamo COCONut, il COCO Next Universal segmenTation dataset. COCONut armonizza le annotazioni di segmentazione attraverso la segmentazione semantica, istanziale e panottica con maschere di alta qualità accuratamente realizzate, e stabilisce un benchmark solido per tutte le attività di segmentazione. A nostra conoscenza, COCONut rappresenta il primo dataset di segmentazione universale su larga scala, verificato da valutatori umani. Anticipiamo che il rilascio di COCONut contribuirà significativamente alla capacità della comunità di valutare i progressi delle nuove reti neurali.
Questo articolo indaga le prestazioni del Contrastive Language-Image Pre-training (CLIP) quando ridimensionato a budget computazionali limitati. Esploriamo CLIP lungo tre dimensioni: dati, architettura e strategie di addestramento. Per quanto riguarda i dati, dimostriamo l'importanza di dati di addestramento di alta qualità e mostriamo che un dataset più piccolo ma di alta qualità può superare un dataset più ampio ma di qualità inferiore. Esaminiamo inoltre come le prestazioni del modello variano con diverse dimensioni dei dataset, suggerendo che modelli ViT più piccoli sono più adatti per dataset più piccoli, mentre modelli più grandi performano meglio su dataset più ampi con risorse computazionali fisse. Inoltre, forniamo indicazioni su quando scegliere un'architettura basata su CNN o su ViT per l'addestramento di CLIP. Confrontiamo quattro strategie di addestramento di CLIP - SLIP, FLIP, CLIP e CLIP+Data Augmentation - e mostriamo che la scelta della strategia di addestramento dipende dalle risorse computazionali disponibili. La nostra analisi rivela che CLIP+Data Augmentation può raggiungere prestazioni comparabili a CLIP utilizzando solo la metà dei dati di addestramento. Questo lavoro fornisce intuizioni pratiche su come addestrare e implementare efficacemente modelli CLIP, rendendoli più accessibili e convenienti per un uso pratico in varie applicazioni.
I recenti progressi nell'addestramento su larga scala hanno portato alla creazione di modelli visivi di base con capacità notevoli. Non solo i modelli recenti possono generalizzare a immagini arbitrarie per il loro compito di addestramento, ma le loro rappresentazioni intermedie sono utili per altre attività visive come il rilevamento e la segmentazione. Considerando che tali modelli possono classificare, delineare e localizzare oggetti in 2D, ci chiediamo se rappresentino anche la loro struttura 3D. In questo lavoro, analizziamo la consapevolezza 3D dei modelli visivi di base. Proponiamo che la consapevolezza 3D implichi che le rappresentazioni (1) codifichino la struttura 3D della scena e (2) rappresentino in modo coerente la superficie attraverso diverse visualizzazioni. Eseguiamo una serie di esperimenti utilizzando sonde specifiche per il compito e procedure di inferenza zero-shot su caratteristiche congelate. I nostri esperimenti rivelano diverse limitazioni dei modelli attuali. Il nostro codice e l'analisi sono disponibili all'indirizzo https://github.com/mbanani/probe3d.
I recenti progressi nella stima della profondità monoculare sono stati ottenuti incorporando il linguaggio naturale come guida aggiuntiva. Sebbene i risultati siano impressionanti, l'impatto del prior linguistico, in particolare in termini di generalizzazione e robustezza, rimane inesplorato. In questo articolo, affrontiamo questa lacuna quantificando l'impatto di questo prior e introducendo metodi per valutarne l'efficacia in vari contesti. Generiamo frasi di "basso livello" che trasmettono relazioni spaziali tridimensionali centrate sugli oggetti, le incorporiamo come prior linguistici aggiuntivi e valutiamo il loro impatto sulla stima della profondità. La nostra scoperta chiave è che gli attuali stimatori di profondità guidati dal linguaggio performano in modo ottimale solo con descrizioni a livello di scena e, controintuitivamente, ottengono risultati peggiori con descrizioni di basso livello. Nonostante l'utilizzo di dati aggiuntivi, questi metodi non sono robusti agli attacchi avversari mirati e vedono un calo delle prestazioni con un aumento dello spostamento della distribuzione. Infine, per fornire una base per la ricerca futura, identifichiamo i punti di fallimento e offriamo approfondimenti per comprendere meglio queste carenze. Con un numero crescente di metodi che utilizzano il linguaggio per la stima della profondità, i nostri risultati evidenziano le opportunità e le insidie che richiedono un'attenta considerazione per un impiego efficace in contesti reali.
Il Reinforcement Learning (RL) basato su feedback di preferenze umane è un paradigma popolare per il fine-tuning di modelli generativi, che ha prodotto modelli impressionanti come GPT-4 e Claude3 Opus. Questo framework consiste spesso in due passaggi: apprendere un modello di ricompensa da un dataset di preferenze offline, seguito dall'esecuzione di RL online per ottimizzare il modello di ricompensa appreso. In questo lavoro, sfruttando l'idea di reset, proponiamo un nuovo algoritmo RLHF con garanzie dimostrabili. Motivati dal fatto che il dataset di preferenze offline fornisce stati informativi (cioè dati preferiti dagli annotatori), il nostro nuovo algoritmo, Dataset Reset Policy Optimization (DR-PO), integra il dataset di preferenze offline esistente nel processo di addestramento della policy online tramite il reset del dataset: ripristina direttamente l'ottimizzatore della policy agli stati presenti nel dataset offline, invece di partire sempre dalla distribuzione iniziale degli stati. In teoria, dimostriamo che DR-PO impara a performare almeno quanto qualsiasi policy coperta dal dataset offline, sotto approssimazione di funzioni generali con complessità campionaria finita. Negli esperimenti, dimostriamo che sia nel dataset di riassunto TL;DR che nel dataset Anthropic Helpful Harmful (HH), la generazione di DR-PO è migliore rispetto a quella di Proximal Policy Optimization (PPO) e Direction Preference Optimization (DPO), secondo la metrica del tasso di vittoria di GPT4. Il codice per questo lavoro è disponibile su https://github.com/Cornell-RL/drpo.
I più recenti approcci regolarizzati di Neural Radiance Field (NeRF) producono geometrie scadenti e un'estrapolazione della vista insoddisfacente per benchmark di stereo multivista (MVS) come ETH3D. In questo articolo, ci proponiamo di creare modelli 3D che forniscano una geometria accurata e una sintesi delle viste, riducendo parzialmente il significativo divario prestazionale in termini di geometria tra NeRF e i metodi MVS tradizionali. Proponiamo un approccio basato su patch che sfrutta efficacemente le previsioni di normali superficiali monoculari e di profondità relativa. Il campionamento dei raggi basato su patch consente inoltre la regolarizzazione dell'aspetto attraverso la correlazione incrociata normalizzata (NCC) e la similarità strutturale (SSIM) tra viste virtuali e di addestramento campionate casualmente. Dimostriamo inoltre che le "restrizioni di densità" basate su punti sparsi ricostruiti tramite structure-from-motion possono migliorare notevolmente l'accuratezza geometrica con un lieve calo nelle metriche di sintesi di nuove viste. I nostri esperimenti mostrano un miglioramento di 4 volte rispetto a RegNeRF e di 8 volte rispetto a FreeNeRF nella media di F1@2cm per il benchmark MVS ETH3D, suggerendo una direzione di ricerca promettente per migliorare l'accuratezza geometrica dei modelli basati su NeRF e gettando luce su un potenziale approccio futuro che potrebbe consentire all'ottimizzazione basata su NeRF di superare, alla fine, i metodi MVS tradizionali.