Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un successo impressionante in molti benchmark per il ragionamento matematico. Tuttavia, cresce la preoccupazione che parte di questa performance rifletta in realtà una contaminazione dei dataset, in cui dati molto simili alle domande del benchmark si infiltrano nei dati di addestramento, anziché una vera capacità di ragionamento. Per indagare rigorosamente questa affermazione, abbiamo commissionato Grade School Math 1000 (GSM1k). GSM1k è progettato per rispecchiare lo stile e la complessità del consolidato benchmark GSM8k, considerato lo standard di riferimento per misurare il ragionamento matematico di base. Ci assicuriamo che i due benchmark siano comparabili rispetto a metriche importanti come i tassi di risoluzione umana, il numero di passi nella soluzione, l'ampiezza delle risposte e altro ancora. Quando valutiamo i principali LLM open-source e closed-source su GSM1k, osserviamo cali di accuratezza fino al 13%, con diverse famiglie di modelli (ad esempio, Phi e Mistral) che mostrano evidenze di overfitting sistematico in quasi tutte le dimensioni del modello. Allo stesso tempo, molti modelli, specialmente quelli all'avanguardia (ad esempio, Gemini/GPT/Claude), mostrano segni minimi di overfitting. Un'ulteriore analisi suggerisce una relazione positiva (r^2 di Spearman=0,32) tra la probabilità di un modello di generare un esempio da GSM8k e il divario di performance tra GSM8k e GSM1k, indicando che molti modelli potrebbero aver memorizzato parzialmente GSM8k.
L'editing delle immagini ha fatto progressi significativi con l'introduzione di modelli di diffusione condizionati dal testo. Nonostante questi avanzamenti, aggiungere oggetti alle immagini in modo fluido basandosi su istruzioni testuali, senza richiedere maschere fornite dall'utente, rimane una sfida. Affrontiamo questo problema sfruttando l'intuizione che rimuovere oggetti (Inpaint) è significativamente più semplice rispetto al processo inverso di aggiungerli (Paint), attribuibile all'utilizzo di dataset di maschere di segmentazione insieme a modelli di inpainting che operano all'interno di queste maschere. Capitalizzando questa realizzazione, implementando una pipeline automatizzata e estesa, curiamo un dataset di immagini su larga scala filtrato contenente coppie di immagini e le loro versioni con oggetti rimossi. Utilizzando queste coppie, addestriamo un modello di diffusione per invertire il processo di inpainting, aggiungendo efficacemente oggetti alle immagini. A differenza di altri dataset di editing, il nostro presenta immagini target naturali invece di quelle sintetiche; inoltre, mantiene la coerenza tra sorgente e target per costruzione. Inoltre, utilizziamo un grande modello Vision-Language per fornire descrizioni dettagliate degli oggetti rimossi e un Large Language Model per convertire queste descrizioni in istruzioni diversificate e in linguaggio naturale. Dimostriamo che il modello addestrato supera quelli esistenti sia qualitativamente che quantitativamente, e rilasciamo il dataset su larga scala insieme ai modelli addestrati per la comunità.
I tradizionali approcci di apprendimento per rinforzo basato sul feedback umano (RLHF) che si affidano a modelli parametrici come il modello Bradley-Terry non riescono a catturare l'intransitività e l'irrazionalità nelle preferenze umane. Recenti progressi suggeriscono che lavorare direttamente con le probabilità di preferenza può fornire una rappresentazione più accurata delle preferenze umane, consentendo un allineamento più flessibile e preciso dei modelli linguistici. In questo articolo, proponiamo un metodo basato sul self-play per l'allineamento dei modelli linguistici, che tratta il problema come un gioco a somma costante tra due giocatori finalizzato a identificare la politica di equilibrio di Nash. Il nostro approccio, denominato Self-Play Preference Optimization (SPPO), approssima l'equilibrio di Nash attraverso aggiornamenti iterativi della politica e gode di una garanzia teorica di convergenza. Il nostro metodo può aumentare efficacemente la log-verosimiglianza della risposta scelta e diminuire quella della risposta rifiutata, un risultato che non può essere ottenuto in modo banale da funzioni di perdita simmetriche come Direct Preference Optimization (DPO) e Identity Preference Optimization (IPO). Nei nostri esperimenti, utilizzando solo 60k prompt (senza risposte) dal dataset UltraFeedback e senza alcun aumento dei prompt, sfruttando un modello di preferenza pre-addestrato PairRM con soli 0.4 miliardi di parametri, SPPO è in grado di ottenere un modello derivato dal fine-tuning di Mistral-7B-Instruct-v0.2 che raggiunge un tasso di vittoria controllato per lunghezza all'avanguardia del 28.53% contro GPT-4-Turbo su AlpacaEval 2.0. Supera inoltre (iterativamente) DPO e IPO su MT-Bench e sulla Open LLM Leaderboard. È degno di nota che le forti prestazioni di SPPO sono ottenute senza ulteriori supervisioni esterne (ad esempio, risposte, preferenze, ecc.) da GPT-4 o altri modelli linguistici più potenti.
Questo studio presenta un'analisi mirata della modifica dei modelli, focalizzata sull'ultimo modello di linguaggio su larga scala, Llama-3. Esploriamo l'efficacia delle tecniche di modifica dei modelli più diffuse - ROME, MEMIT e EMMET, progettate per interventi precisi a livello di strato. Identifichiamo gli strati più efficaci per modifiche mirate attraverso una valutazione che comprende fino a 4096 modifiche applicate secondo tre strategie distinte: modifica sequenziale, modifica in batch e un approccio ibrido che definiamo modifica sequenziale-batch. I nostri risultati indicano che l'aumento delle dimensioni dei batch di modifica può degradare le prestazioni del modello in modo più significativo rispetto all'uso di batch di modifica più piccoli applicati sequenzialmente per un numero equivalente di modifiche. Sulla base di ciò, sosteniamo che la modifica sequenziale dei modelli è un componente importante per scalare i metodi di modifica e che la ricerca futura dovrebbe concentrarsi su metodi che combinino sia la modifica in batch che quella sequenziale. Questa osservazione suggerisce una potenziale limitazione nei metodi attuali di modifica dei modelli, che spingono verso batch di modifica più grandi, e speriamo che apra la strada a future indagini sull'ottimizzazione delle dimensioni dei batch e delle prestazioni nella modifica dei modelli.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nell'elaborazione audio attraverso codec che convertono l'audio in token discreti, consentendo l'applicazione di tecniche di modellazione linguistica ai dati audio. Tuttavia, i codec tradizionali spesso operano a bitrate elevati o in domini ristretti come il parlato e mancano degli indizi semantici necessari per una modellazione linguistica efficiente. Per affrontare queste sfide, introduciamo SemantiCodec, un nuovo codec progettato per comprimere l'audio in meno di cento token al secondo su diversi tipi di audio, inclusi parlato, audio generico e musica, senza compromettere la qualità. SemantiCodec presenta un'architettura a doppio encoder: un encoder semantico che utilizza un AudioMAE auto-supervisionato, discretizzato mediante clustering k-means su ampi dati audio, e un encoder acustico per catturare i dettagli rimanenti. Le uscite degli encoder semantico e acustico vengono utilizzate per ricostruire l'audio tramite un decoder basato su modelli di diffusione. SemantiCodec è disponibile in tre varianti con tassi di token di 25, 50 e 100 al secondo, supportando una gamma di bitrate ultra-bassi compresi tra 0,31 kbps e 1,43 kbps. I risultati sperimentali dimostrano che SemantiCodec supera significativamente il codec all'avanguardia Descript in termini di qualità di ricostruzione. I nostri risultati suggeriscono inoltre che SemantiCodec contiene informazioni semantiche significativamente più ricche rispetto a tutti i codec audio valutati, anche a bitrate notevolmente inferiori. Il nostro codice e le demo sono disponibili all'indirizzo https://haoheliu.github.io/SemantiCodec/.
I grandi modelli linguistici (LLM) soffrono di bassa efficienza a causa dello scostamento tra i requisiti della decodifica auto-regressiva e il design della maggior parte delle GPU contemporanee. Nello specifico, miliardi o trilioni di parametri devono essere caricati nella cache della GPU attraverso la sua limitata larghezza di banda di memoria per il calcolo, ma solo un piccolo batch di token viene effettivamente elaborato. Di conseguenza, la GPU trascorre la maggior parte del tempo nel trasferimento di memoria piuttosto che nel calcolo. Recentemente, la decodifica parallela, un tipo di algoritmo di decodifica speculativa, sta diventando sempre più popolare e ha dimostrato un notevole miglioramento dell'efficienza nella generazione. Introduce ulteriori testine di decodifica ai grandi modelli, consentendo loro di prevedere più token successivi simultaneamente e di verificare queste continuazioni candidate in un singolo passaggio di decodifica. Tuttavia, questo approccio si discosta dall'obiettivo di addestramento della previsione del token successivo utilizzato durante il pre-training, risultando in un basso tasso di successo per i token candidati. In questo articolo, proponiamo un nuovo algoritmo di decodifica speculativa, Clover, che integra la conoscenza sequenziale nel processo di decodifica parallela. Questo miglioramento aumenta il tasso di successo degli speculatori e quindi incrementa l'efficienza complessiva. Clover trasmette la conoscenza sequenziale dai token pre-speculati attraverso la Connessione Regressiva, quindi utilizza un Decodificatore di Attenzione per integrare questi token speculati. Inoltre, Clover incorpora un Blocco di Aumento che modifica gli stati nascosti per allinearli meglio allo scopo della generazione speculativa piuttosto che alla previsione del token successivo. I risultati degli esperimenti dimostrano che Clover supera la baseline fino al 91% su Baichuan-Small e al 146% su Baichuan-Large, rispettivamente, e supera le prestazioni del metodo precedentemente più performante, Medusa, fino al 37% su Baichuan-Small e al 57% su Baichuan-Large, rispettivamente.
Recentemente, il 3D Gaussian Splatting, come nuova rappresentazione 3D, ha attirato l'attenzione per la sua velocità di rendering rapida e l'alta qualità di rendering. Tuttavia, ciò comporta un elevato consumo di memoria, ad esempio, un campo Gaussiano ben addestrato può utilizzare tre milioni di primitive Gaussiane e oltre 700 MB di memoria. Attribuiamo questo elevato consumo di memoria alla mancanza di considerazione per la relazione tra le primitive. In questo articolo, proponiamo un campo Gaussiano efficiente in termini di memoria chiamato SUNDAE con potatura spettrale e compensazione neurale. Da un lato, costruiamo un grafico sull'insieme delle primitive Gaussiane per modellare la loro relazione e progettiamo un modulo di down-sampling spettrale per eliminare le primitive preservando i segnali desiderati. Dall'altro lato, per compensare la perdita di qualità dovuta alla potatura delle Gaussiane, sfruttiamo una testa di rete neurale leggera per miscelare le caratteristiche splat, che compensa efficacemente le perdite di qualità catturando la relazione tra le primitive nei suoi pesi. Dimostriamo le prestazioni di SUNDAE con risultati estesi. Ad esempio, SUNDAE può raggiungere 26.80 PSNR a 145 FPS utilizzando 104 MB di memoria, mentre l'algoritmo vanilla di Gaussian splatting raggiunge 25.60 PSNR a 160 FPS utilizzando 523 MB di memoria, sul dataset Mip-NeRF360. I codici sono disponibili pubblicamente all'indirizzo https://runyiyang.github.io/projects/SUNDAE/.
Il tracciamento degli oggetti nello spazio tridimensionale è fondamentale per la guida autonoma. Per garantire la sicurezza durante la guida, il sistema di tracciamento deve essere in grado di seguire in modo affidabile gli oggetti attraverso i fotogrammi e stimare con precisione i loro stati, come velocità e accelerazione, nel presente. I lavori esistenti si concentrano spesso sul compito di associazione, trascurando le prestazioni del modello nella stima degli stati o implementando euristiche complesse per prevedere tali stati. In questo articolo, proponiamo STT, un modello di tracciamento con stato basato su Transformer, che può tracciare in modo coerente gli oggetti nelle scene e prevedere con precisione i loro stati. STT utilizza segnali ricchi di aspetto, geometria e movimento attraverso una cronologia a lungo termine delle rilevazioni ed è ottimizzato congiuntamente per i compiti di associazione dei dati e stima degli stati. Poiché le metriche standard di tracciamento come MOTA e MOTP non catturano le prestazioni combinate dei due compiti nello spettro più ampio degli stati degli oggetti, le estendiamo con nuove metriche chiamate S-MOTA e MOTPS che affrontano questa limitazione. STT raggiunge prestazioni competitive in tempo reale sul dataset Waymo Open.
Gli sviluppatori di applicazioni promuovono le loro App creando pagine prodotto con immagini dell'App e facendo offerte sui termini di ricerca. È quindi fondamentale che le immagini dell'App siano altamente pertinenti ai termini di ricerca. Le soluzioni a questo problema richiedono un modello di corrispondenza immagine-testo per prevedere la qualità della corrispondenza tra l'immagine scelta e i termini di ricerca. In questo lavoro, presentiamo un approccio innovativo per abbinare un'immagine di App ai termini di ricerca basato sul fine-tuning di un modello LXMERT pre-addestrato. Dimostriamo che, rispetto al modello CLIP e a una baseline che utilizza un modello Transformer per i termini di ricerca e un modello ResNet per le immagini, miglioriamo significativamente l'accuratezza della corrispondenza. Valutiamo il nostro approccio utilizzando due set di etichette: coppie (immagine, termine di ricerca) associate agli inserzionisti per una determinata applicazione e valutazioni umane sulla pertinenza tra coppie (immagine, termine di ricerca). Il nostro approccio raggiunge un punteggio AUC di 0,96 per la verità di base associata agli inserzionisti, superando la baseline transformer+ResNet e il modello CLIP fine-tuned rispettivamente dell'8% e del 14%. Per la verità di base etichettata dagli esseri umani, il nostro approccio raggiunge un punteggio AUC di 0,95, superando la baseline transformer+ResNet e il modello CLIP fine-tuned rispettivamente del 16% e del 17%.