Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nell'era dei modelli linguistici su larga scala, benchmark come il Massive Multitask Language Understanding (MMLU) sono stati fondamentali per spingere i confini di ciò che l'IA può ottenere nella comprensione e nel ragionamento linguistico attraverso diversi domini. Tuttavia, man mano che i modelli continuano a migliorare, le loro prestazioni su questi benchmark hanno iniziato a stabilizzarsi, rendendo sempre più difficile discernere le differenze nelle capacità dei modelli. Questo articolo introduce MMLU-Pro, un dataset potenziato progettato per estendere il benchmark MMLU, prevalentemente basato sulla conoscenza, integrando domande più impegnative focalizzate sul ragionamento e ampliando il set di scelte da quattro a dieci opzioni. Inoltre, MMLU-Pro elimina le domande banali e rumorose presenti in MMLU. I nostri risultati sperimentali mostrano che MMLU-Pro non solo aumenta la difficoltà, causando un calo significativo dell'accuratezza dal 16% al 33% rispetto a MMLU, ma dimostra anche una maggiore stabilità con diversi prompt. Con 24 stili di prompt testati, la sensibilità dei punteggi dei modelli alle variazioni dei prompt è diminuita dal 4-5% in MMLU a solo il 2% in MMLU-Pro. Inoltre, abbiamo riscontrato che i modelli che utilizzano il ragionamento a catena di pensiero (Chain of Thought, CoT) hanno ottenuto prestazioni migliori su MMLU-Pro rispetto alle risposte dirette, il che è in netto contrasto con i risultati ottenuti sul MMLU originale, indicando che MMLU-Pro include domande di ragionamento più complesse. Le nostre valutazioni confermano che MMLU-Pro è un benchmark più discriminativo per monitorare meglio i progressi nel campo.
I modelli linguistici sono allineati per emulare la voce collettiva di molti, producendo risultati che non si allineano a nessuno in particolare. È possibile orientare i LLM lontano da output generici attraverso il fine-tuning supervisionato o il RLHF, ma ciò richiede dataset proibitivamente grandi per nuovi task ad hoc. Sosteniamo che sia invece possibile allineare un LLM a un contesto specifico sfruttando un numero molto ridotto (<10) di dimostrazioni come feedback. Il nostro metodo, Demonstration ITerated Task Optimization (DITTO), allinea direttamente gli output del modello linguistico ai comportamenti dimostrati da un utente. Derivato utilizzando idee dall'apprendimento per imitazione online, DITTO genera in modo economico dati di confronto online trattando le dimostrazioni degli utenti come preferite rispetto all'output del LLM e dei suoi checkpoint intermedi. Valutiamo la capacità di DITTO di apprendere un allineamento fine di stile e task in domini come articoli di notizie, email e post di blog. Inoltre, conduciamo uno studio con utenti che forniscono una gamma di dimostrazioni (N=16). Nei nostri benchmark e nello studio con utenti, riscontriamo che i tassi di vittoria per DITTO superano il prompting few-shot, il fine-tuning supervisionato e altri metodi di self-play di una media del 19%. Utilizzando direttamente le dimostrazioni come feedback, DITTO offre un metodo innovativo per la personalizzazione efficace dei LLM.
Questo lavoro affronta la sfida della stima della profondità nei video, che richiede non solo accuratezza per singolo fotogramma, ma, soprattutto, coerenza tra i fotogrammi. Invece di sviluppare direttamente un estimatore di profondità da zero, riformuliamo il compito di previsione come un problema di generazione condizionata. Questo ci permette di sfruttare la conoscenza pregressa incorporata nei modelli esistenti di generazione video, riducendo così la difficoltà di apprendimento e migliorando la generalizzabilità. Nello specifico, studiamo come addestrare il modello pubblico Stable Video Diffusion (SVD) per prevedere la profondità in modo affidabile da video di input, utilizzando una combinazione di dataset di profondità di immagini e video. Confermiamo empiricamente che una strategia di addestramento procedurale - ottimizzando prima gli strati spaziali di SVD e poi ottimizzando gli strati temporali mantenendo congelati gli strati spaziali - produce i migliori risultati in termini di accuratezza spaziale e coerenza temporale. Esaminiamo inoltre la strategia della finestra scorrevole per l'inferenza su video di lunghezza arbitraria. Le nostre osservazioni indicano un compromesso tra efficienza e prestazioni, con una sovrapposizione di un fotogramma che già produce risultati favorevoli. I risultati sperimentali estesi dimostrano la superiorità del nostro approccio, denominato ChronoDepth, rispetto alle alternative esistenti, in particolare in termini di coerenza temporale della profondità stimata. Inoltre, evidenziamo i vantaggi di una profondità video più coerente in due applicazioni pratiche: la generazione di video condizionata dalla profondità e la sintesi di nuove viste. La pagina del nostro progetto è disponibile all'indirizzo https://jhaoshao.github.io/ChronoDepth/{this http URL}.
L'accumulazione culturale guida il progresso aperto e diversificato delle capacità lungo la storia umana. Costruisce un corpus in espansione di conoscenze e competenze combinando l'esplorazione individuale con la trasmissione intergenerazionale di informazioni. Nonostante il suo ampio successo tra gli esseri umani, la capacità degli agenti di apprendimento artificiale di accumulare cultura rimane poco esplorata. In particolare, gli approcci all'apprendimento per rinforzo tipicamente mirano a miglioramenti limitati a una singola generazione. Gli algoritmi generazionali esistenti non riescono a catturare la natura aperta ed emergente dell'accumulazione culturale, che consente agli individui di bilanciare innovazione e imitazione. Basandoci sulla capacità precedentemente dimostrata degli agenti di apprendimento per rinforzo di eseguire apprendimento sociale, scopriamo che le configurazioni di addestramento che bilanciano questo aspetto con l'apprendimento indipendente danno origine all'accumulazione culturale. Questi agenti accumulanti superano quelli addestrati per una singola generazione con la stessa esperienza cumulativa. Esploriamo questa accumulazione costruendo due modelli basati su due distinte nozioni di generazione: generazioni episodiche, in cui l'accumulazione avviene tramite apprendimento in-context, e generazioni durante l'addestramento, in cui l'accumulazione avviene tramite apprendimento in-weights. L'accumulazione culturale in-context e in-weights può essere interpretata come analoga rispettivamente all'accumulazione di conoscenza e di competenze. Per quanto ne sappiamo, questo lavoro è il primo a presentare modelli generali che raggiungono un'accumulazione culturale emergente nell'apprendimento per rinforzo, aprendo nuove strade verso sistemi di apprendimento più aperti, oltre a presentare nuove opportunità per modellare la cultura umana.
Gli ottimizzatori appresi (LOs) possono ridurre significativamente il tempo di addestramento in termini di clock reale delle reti neurali, diminuendo sostanzialmente i costi di training. Tuttavia, spesso soffrono di una scarsa meta-generalizzazione, specialmente quando addestrano reti più grandi di quelle viste durante il meta-training. Per affrontare questo problema, utilizziamo la recente proposta della Parametrizzazione ad Aggiornamento Massimale (muP), che consente la generalizzazione zero-shot degli iperparametri dell'ottimizzatore da modelli più piccoli a quelli più grandi. Estendiamo la teoria muP agli ottimizzatori appresi, trattando il problema del meta-training come la ricerca dell'ottimizzatore appreso sotto muP. La nostra valutazione mostra che i LOs meta-addestrati con muP migliorano sostanzialmente la meta-generalizzazione rispetto ai LOs addestrati con la parametrizzazione standard (SP). In particolare, quando applicati a modelli di grande ampiezza, il nostro miglior muLO, addestrato per 103 ore GPU, eguaglia o supera le prestazioni di VeLO, il più grande ottimizzatore appreso disponibile pubblicamente, meta-addestrato con 4000 mesi TPU di calcolo. Inoltre, i muLOs dimostrano una migliore generalizzazione rispetto alle loro controparti SP a reti più profonde e a orizzonti di addestramento molto più lunghi (25 volte più lunghi) rispetto a quelli visti durante il meta-training.
La generazione di video ha compiuto progressi significativi negli ultimi anni, in particolare dall'avvento dei modelli di diffusione video. Molti modelli di generazione video sono in grado di produrre video sintetici plausibili, come ad esempio Stable Video Diffusion (SVD). Tuttavia, la maggior parte dei modelli video può generare solo video con un basso frame rate a causa della limitata memoria GPU e della difficoltà di modellare un ampio set di frame. I video di addestramento vengono sempre campionati uniformemente a intervalli specifici per la compressione temporale. I metodi precedenti aumentano il frame rate addestrando un modello di interpolazione video nello spazio dei pixel come fase di post-elaborazione o addestrando un modello di interpolazione nello spazio latente per un specifico modello video di base. In questo articolo, proponiamo un metodo di interpolazione video senza addestramento per modelli di diffusione video generativi, che è generalizzabile a diversi modelli in modo plug-and-play. Investigiamo la non linearità nello spazio delle feature dei modelli di diffusione video e trasformiamo un modello video in un modello di diffusione video auto-cascata, incorporando i moduli di correzione dello stato nascosto progettati. L'architettura auto-cascata e il modulo di correzione sono proposti per mantenere la coerenza temporale tra i frame chiave e i frame interpolati. Valutazioni estensive vengono condotte su diversi modelli video popolari per dimostrare l'efficacia del metodo proposto, in particolare il fatto che il nostro metodo senza addestramento è paragonabile a modelli di interpolazione addestrati supportati da enormi risorse computazionali e dataset su larga scala.