Articoli di ricerca IA selezionati quotidianamente con traduzioni
Man mano che i modelli linguistici di grandi dimensioni migliorano, cresce l'interesse per le tecniche che sfruttano le capacità di questi modelli per affinare i propri output. In questo lavoro, presentiamo Shepherd, un modello linguistico specificamente ottimizzato per criticare le risposte e suggerire miglioramenti, andando oltre le capacità di un modello non ottimizzato per identificare errori diversi e fornire suggerimenti per rimediarvi. Al centro del nostro approccio c'è un dataset di feedback di alta qualità, che abbiamo curato a partire da feedback della comunità e annotazioni umane. Nonostante Shepherd sia di dimensioni ridotte (7 miliardi di parametri), le sue critiche sono equivalenti o preferibili rispetto a quelle di modelli consolidati, incluso ChatGPT. Utilizzando GPT-4 per la valutazione, Shepherd raggiunge un tasso di vittoria medio del 53-87% rispetto alle alternative competitive. Nella valutazione umana, Shepherd supera nettamente altri modelli e, in media, si colloca a pari merito con ChatGPT.
La generazione musicale ha attirato un interesse crescente con l'avanzamento dei modelli generativi profondi. Tuttavia, generare musica condizionata da descrizioni testuali, nota come text-to-music, rimane una sfida a causa della complessità delle strutture musicali e degli elevati requisiti di frequenza di campionamento. Nonostante l'importanza del compito, i modelli generativi prevalenti presentano limitazioni nella qualità della musica, nell'efficienza computazionale e nella generalizzazione. Questo articolo introduce JEN-1, un modello universale ad alta fedeltà per la generazione di musica da testo. JEN-1 è un modello di diffusione che incorpora sia l'addestramento autoregressivo che non autoregressivo. Attraverso l'apprendimento in contesto, JEN-1 esegue varie attività di generazione, tra cui la generazione musicale guidata da testo, il riempimento musicale e la continuazione. Le valutazioni dimostrano che JEN-1 supera i metodi all'avanguardia nell'allineamento testo-musica e nella qualità musicale, mantenendo al contempo l'efficienza computazionale. Le nostre demo sono disponibili all'indirizzo http://futureverse.com/research/jen/demos/jen1.
I recenti progressi nei grandi modelli linguistici (LLM) ne illustrano le diverse capacità. Proponiamo un nuovo algoritmo, il decoding speculativo a stadi, per accelerare l'inferenza degli LLM in scenari con piccoli batch su dispositivi locali. Affrontiamo la bassa intensità aritmetica dell'inferenza con piccoli batch migliorando il lavoro precedente sul decoding speculativo. In primo luogo, ristrutturiamo il batch speculativo come un albero, riducendo i costi di generazione e aumentando il numero atteso di token per batch. In secondo luogo, aggiungiamo una seconda fase di decoding speculativo. Nel complesso, riduciamo la latenza di decoding per singolo batch di 3,16 volte con un modello GPT-2-L da 762 milioni di parametri, preservando perfettamente la qualità dell'output.
I falsi negativi (FN) nella rilevazione di oggetti 3D, {\em ad esempio}, previsioni mancate di pedoni, veicoli o altri ostacoli, possono portare a situazioni potenzialmente pericolose nella guida autonoma. Nonostante la sua gravità, questo problema è poco studiato in molti metodi attuali di rilevazione 3D. In questo lavoro, proponiamo Hard Instance Probing (HIP), una pipeline generale che identifica i FN in modo multi-stadio e guida i modelli a concentrarsi sull'individuazione di istanze difficili. Per la rilevazione di oggetti 3D, istanziamo questo metodo come FocalFormer3D, un rilevatore semplice ma efficace che eccelle nell'individuazione di oggetti difficili e nel miglioramento del richiamo delle previsioni. FocalFormer3D presenta una generazione di query multi-stadio per scoprire oggetti difficili e un decoder transformer a livello di box per distinguere efficientemente gli oggetti da un numero massiccio di candidati. I risultati sperimentali sui dataset nuScenes e Waymo convalidano le prestazioni superiori di FocalFormer3D. Questo vantaggio porta a forti prestazioni sia nella rilevazione che nel tracciamento, sia in contesti LiDAR che multi-modali. In particolare, FocalFormer3D raggiunge un mAP di 70.5 e un NDS di 73.9 sul benchmark di rilevazione nuScenes, mentre il benchmark di tracciamento nuScenes mostra un AMOTA di 72.1, entrambi al primo posto nella classifica LiDAR di nuScenes. Il nostro codice è disponibile all'indirizzo https://github.com/NVlabs/FocalFormer3D.