Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo l'Interpolazione di Posizione (Position Interpolation, PI) che estende le dimensioni delle finestre contestuali dei modelli linguistici pre-addestrati basati su RoPE, come i modelli LLaMA, fino a 32768 con un minimo di fine-tuning (entro 1000 passi), dimostrando al contempo risultati empirici solidi su vari compiti che richiedono contesti lunghi, tra cui il recupero di passkey, la modellazione del linguaggio e la sintesi di documenti lunghi, dai modelli LLaMA 7B a 65B. Nel frattempo, i modelli estesi tramite Interpolazione di Posizione mantengono relativamente bene la qualità sui compiti all'interno della loro finestra contestuale originale. Per raggiungere questo obiettivo, l'Interpolazione di Posizione ridimensiona linearmente gli indici di posizione in ingresso per farli corrispondere alla dimensione originale della finestra contestuale, piuttosto che estrapolare oltre la lunghezza contestuale addestrata, il che potrebbe portare a punteggi di attenzione catastroficamente alti che rovinerebbero completamente il meccanismo di self-attention. Il nostro studio teorico mostra che il limite superiore dell'interpolazione è almeno circa 600 volte più piccolo di quello dell'estrapolazione, dimostrando ulteriormente la sua stabilità. I modelli estesi tramite Interpolazione di Posizione mantengono la loro architettura originale e possono riutilizzare la maggior parte delle ottimizzazioni e delle infrastrutture preesistenti.
I grandi modelli linguistici (LLM) hanno dimostrato potenzialità nel dimostrare teoremi formali utilizzando assistenti di prova come Lean. Tuttavia, i metodi esistenti sono difficili da riprodurre o sviluppare ulteriormente, a causa di codice privato, dati e requisiti computazionali elevati. Ciò ha creato barriere significative alla ricerca sui metodi di apprendimento automatico per la dimostrazione di teoremi. Questo articolo rimuove tali barriere introducendo LeanDojo: un ambiente open-source per Lean composto da toolkit, dati, modelli e benchmark. LeanDojo estrae dati da Lean e consente l'interazione con l'ambiente di prova in modo programmatico. Contiene annotazioni dettagliate delle premesse nelle dimostrazioni, fornendo dati preziosi per la selezione delle premesse: un collo di bottiglia chiave nella dimostrazione di teoremi. Utilizzando questi dati, sviluppiamo ReProver (Retrieval-Augmented Prover): il primo dimostratore basato su LLM che è potenziato con un meccanismo di recupero per selezionare premesse da una vasta libreria matematica. È economico e richiede solo una settimana di addestramento su una GPU. Il nostro sistema di recupero sfrutta la capacità di analisi programmatica di LeanDojo per identificare premesse accessibili ed esempi negativi difficili, rendendo il recupero molto più efficace. Inoltre, costruiamo un nuovo benchmark composto da 96.962 teoremi e dimostrazioni estratti dalla libreria matematica di Lean. Presenta una suddivisione dei dati impegnativa che richiede al dimostratore di generalizzare teoremi basati su premesse nuove che non vengono mai utilizzate durante l'addestramento. Utilizziamo questo benchmark per l'addestramento e la valutazione, e i risultati sperimentali dimostrano l'efficacia di ReProver rispetto ai baseline senza recupero e a GPT-4. Forniamo quindi il primo insieme di dimostratori di teoremi basati su LLM open-source senza alcun dataset proprietario e lo rilasciamo con una licenza MIT permissiva per facilitare ulteriori ricerche.
Il recente lavoro CLIPA presenta una legge di scala inversa per l'addestramento di CLIP -- per cui più grandi sono gli encoder di immagini/testo utilizzati, più breve può essere la lunghezza della sequenza di token di immagini/testo applicata durante l'addestramento. Questa scoperta ci consente di addestrare modelli CLIP ad alte prestazioni con un significativo ridimensionamento dei calcoli. Basandoci su questo lavoro, presentiamo qui CLIPA-v2 con due contributi chiave. Tecnicamente, scopriamo che questa legge di scala inversa è applicabile anche nella fase di fine-tuning, consentendo un'ulteriore riduzione delle esigenze computazionali. Empiricamente, esploriamo CLIPA su larga scala, estendendo gli esperimenti fino al modello H/14 con circa 13 miliardi di coppie immagine-testo viste durante l'addestramento. I nostri risultati sono entusiasmanti -- allocando un budget di soli \10.000, il nostro modello CLIP raggiunge un'impressionante accuratezza zero-shot su ImageNet dell'81,1%, superando il precedente miglior modello CLIP (da OpenCLIP, 80,1%) dell'1,0% e riducendo contemporaneamente il costo computazionale di circa 39 volte. Inoltre, con un investimento aggiuntivo di 4.000, possiamo ulteriormente elevare l'accuratezza zero-shot su ImageNet all'81,8%. Il nostro codice e i nostri modelli sono disponibili su https://github.com/UCSC-VLAA/CLIPA.
La stima della posa della fotocamera è un problema di lunga data nel campo della visione artificiale che, fino ad oggi, si basa spesso su metodi classici, come il matching manuale di punti chiave, RANSAC e il bundle adjustment. In questo articolo, proponiamo di formulare il problema di Structure from Motion (SfM) all'interno di un framework probabilistico di diffusione, modellando la distribuzione condizionale delle pose della fotocamera date le immagini di input. Questa nuova prospettiva su un problema consolidato presenta diversi vantaggi. (i) La natura del framework di diffusione riflette la procedura iterativa del bundle adjustment. (ii) La formulazione consente un'integrazione fluida dei vincoli geometrici derivati dalla geometria epipolare. (iii) Eccelle in scenari tipicamente difficili, come viste sparse con basi ampie. (iv) Il metodo può prevedere i parametri intrinseci ed estrinseci per un numero arbitrario di immagini. Dimostriamo che il nostro metodo, PoseDiffusion, migliora significativamente rispetto alle pipeline classiche di SfM e agli approcci basati su apprendimento su due dataset del mondo reale. Infine, si osserva che il nostro metodo può generalizzare tra dataset senza ulteriore addestramento. Pagina del progetto: https://posediffusion.github.io/
Disentanglare le informazioni non correlate negli enunciati vocali è un argomento di ricerca cruciale all'interno della comunità del parlato. Diversi compiti legati al parlato si concentrano sull'estrazione di rappresentazioni vocali distinte, minimizzando al contempo gli effetti di altre informazioni non correlate. Presentiamo un corpus vocale su larga scala per facilitare la ricerca sul disaccoppiamento delle rappresentazioni vocali. 3D-Speaker contiene oltre 10.000 parlanti, ciascuno dei quali è registrato simultaneamente da più dispositivi, situati a diverse distanze, e alcuni parlanti utilizzano più dialetti. Le combinazioni controllate di dati audio multidimensionali generano una matrice di un mix diversificato di intrecci di rappresentazioni vocali, stimolando così metodi interessanti per disaccoppiarli. La natura multi-dominio di 3D-Speaker lo rende anche una risorsa adatta per valutare modelli vocali universali su larga scala e sperimentare metodi di apprendimento fuori dominio e apprendimento auto-supervisionato. https://3dspeaker.github.io/
Molti compiti di predizione densa a livello di pixel, come la stima della profondità e la segmentazione semantica nella visione artificiale, si basano oggi su rappresentazioni di immagini pre-addestrate. Pertanto, la creazione di dataset di pre-addestramento efficaci è fondamentale. Purtroppo, i dataset di pre-addestramento efficaci sono quelli con scene multi-vista e sono stati curati solo utilizzando mesh 3D annotate, nuvole di punti e parametri della fotocamera provenienti da ambienti simulati. Proponiamo un meccanismo di creazione di dataset che non richiede alcuna annotazione. Abbiamo estratto due dataset: MIMIC-1M con 1,3 milioni e MIMIC-3M con 3,1 milioni di coppie di immagini multi-vista da dataset video open-source e da ambienti 3D sintetici. Abbiamo addestrato diversi modelli auto-supervisionati con diversi obiettivi di modellazione di immagini mascherate per dimostrare i seguenti risultati: le rappresentazioni addestrate su MIMIC-3M superano quelle estratte utilizzando annotazioni in molteplici compiti downstream, tra cui la stima della profondità, la segmentazione semantica, le normali di superficie e la stima della posa. Superano anche le rappresentazioni che sono congelate e quando i dati di addestramento downstream sono limitati a pochi esempi. Un dataset più grande (MIMIC-3M) migliora significativamente le prestazioni, il che è promettente poiché il nostro metodo di creazione può scalare arbitrariamente per produrre dataset ancora più grandi. Il codice MIMIC, il dataset e i modelli pre-addestrati sono open-source all'indirizzo https://github.com/RAIVNLab/MIMIC.
L'apprendimento in contesto (In-context Learning, ICL) migliora le prestazioni dei modelli linguistici su una varietà di task NLP semplicemente mostrando alcuni esempi al momento dell'inferenza. Non è ancora ben compreso perché emerga la capacità di ICL, dato che il modello non è mai stato specificamente addestrato su tali dimostrazioni. A differenza di lavori precedenti che esplorano i meccanismi impliciti dietro l'ICL, noi studiamo l'ICL investigando i dati di pre-addestramento. Nello specifico, adattiamo prima un approccio iterativo basato su gradienti per trovare un piccolo sottoinsieme di dati di pre-addestramento che supporta l'ICL. Osserviamo che un ulteriore pre-addestramento su questo piccolo sottoinsieme migliora significativamente la capacità di ICL del modello, fino al 18%. Confrontiamo poi il sottoinsieme di supporto in modo contrastivo con sottoinsiemi casuali di dati di pre-addestramento e scopriamo: (1) I dati di pre-addestramento che supportano l'ICL non hanno una maggiore rilevanza di dominio rispetto ai task downstream. (2) I dati di pre-addestramento di supporto presentano una maggiore quantità di token rari e a coda lunga. (3) I dati di pre-addestramento di supporto sono esempi complessi in cui il guadagno informativo dal contesto a lungo raggio è inferiore alla media, indicando che imparare a incorporare contesti a lungo raggio difficili favorisce l'ICL. Il nostro lavoro rappresenta un primo passo verso la comprensione dell'ICL attraverso l'analisi dei dati di pre-addestramento a livello di istanza. Le nostre intuizioni hanno il potenziale di migliorare la capacità di ICL dei modelli linguistici guidando attivamente la costruzione dei dati di pre-addestramento in futuro.
I grandi modelli linguistici sono ora sintonizzati per allinearsi agli obiettivi dei loro creatori, ovvero essere "utili e innocui". Questi modelli dovrebbero rispondere in modo utile alle domande degli utenti, ma rifiutarsi di rispondere a richieste che potrebbero causare danni. Tuttavia, utenti avversari possono costruire input che aggirano i tentativi di allineamento. In questo lavoro, studiamo in che misura questi modelli rimangono allineati, anche quando interagiscono con un utente avversario che costruisce input del caso peggiore (esempi avversari). Questi input sono progettati per indurre il modello a emettere contenuti dannosi che altrimenti sarebbero proibiti. Mostriamo che gli attacchi di ottimizzazione basati su NLP esistenti non sono sufficientemente potenti per attaccare in modo affidabile i modelli di testo allineati: anche quando gli attacchi NLP attuali falliscono, possiamo trovare input avversari con la forza bruta. Di conseguenza, il fallimento degli attacchi attuali non dovrebbe essere visto come una prova che i modelli di testo allineati rimangano allineati sotto input avversari. Tuttavia, la tendenza recente nei modelli ML su larga scala è rappresentata da modelli multimodali che consentono agli utenti di fornire immagini che influenzano il testo generato. Mostriamo che questi modelli possono essere facilmente attaccati, cioè indotti a comportarsi in modo arbitrariamente non allineato attraverso perturbazioni avversarie dell'immagine di input. Congetturiamo che attacchi NLP migliorati possano dimostrare lo stesso livello di controllo avversario sui modelli di solo testo.
Esaminiamo come i transformer affrontano due sfide: apprendere l'aritmetica di base con numeri interi e generalizzare a sequenze più lunghe rispetto a quelle viste durante l'addestramento. Scopriamo che gli embedding di posizione relativa consentono la generalizzazione della lunghezza per compiti semplici, come l'addizione: modelli addestrati su numeri a 5 cifre possono eseguire somme a 15 cifre. Tuttavia, questo metodo fallisce per la moltiplicazione, e proponiamo il priming del training set: aggiungere alcune (da 10 a 50) sequenze lunghe al set di addestramento. Dimostriamo che il priming permette ai modelli addestrati su moltiplicazioni di numeri a 5 cifre per 3 cifre di generalizzare a esempi di 35x3. Mostriamo inoltre che i modelli possono essere preparati per diverse lunghezze di generalizzazione e che la dimensione del campione di priming scala come il logaritmo della dimensione del training set. Infine, discutiamo le potenziali applicazioni del priming oltre l'aritmetica.