Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante i notevoli progressi recenti, i modelli generativi di video faticano ancora a catturare il movimento, la dinamica e la fisica del mondo reale. Dimostriamo che questa limitazione deriva dall'obiettivo convenzionale di ricostruzione dei pixel, che porta i modelli a privilegiare la fedeltà all'aspetto a discapito della coerenza del movimento. Per affrontare questo problema, introduciamo VideoJAM, un nuovo framework che infonde una priorità efficace al movimento nei generatori di video, incoraggiando il modello a imparare una rappresentazione congiunta di aspetto e movimento. VideoJAM è composto da due unità complementari. Durante l'addestramento, estendiamo l'obiettivo per prevedere sia i pixel generati che il loro movimento corrispondente da una singola rappresentazione appresa. Durante l'inferenza, introduciamo Inner-Guidance, un meccanismo che guida la generazione verso un movimento coerente sfruttando la previsione dinamica in evoluzione del modello come segnale guida dinamico. In particolare, il nostro framework può essere applicato a qualsiasi modello video con adattamenti minimi, senza richiedere modifiche ai dati di addestramento o alla scalabilità del modello. VideoJAM raggiunge prestazioni all'avanguardia nella coerenza del movimento, superando modelli proprietari altamente competitivi migliorando anche la qualità visiva percepita delle generazioni. Questi risultati sottolineano che l'aspetto e il movimento possono essere complementari e, quando integrati in modo efficace, migliorano sia la qualità visiva che la coerenza della generazione di video. Sito web del progetto: https://hila-chefer.github.io/videojam-paper.github.io/
La maggior parte dei progressi nei modelli di codifica recenti è stata guidata dal fine-tuning supervisionato (SFT), mentre il potenziale del reinforcement learning (RL) rimane in gran parte inesplorato, principalmente a causa della mancanza di dati/modello di ricompensa affidabili nel dominio del codice. In questo articolo, affrontiamo questa sfida sfruttando la sintesi automatizzata su larga scala di casi di test per migliorare la formazione del modello di codice. In particolare, progettiamo un flusso di lavoro che genera coppie (domanda, casi di test) estese dai dati di codice esistenti. Utilizzando questi casi di test, costruiamo coppie di preferenza basate sui tassi di superamento su programmi campionati per addestrare modelli di ricompensa con perdita di Bradley-Terry. Mostra un miglioramento medio di 10 punti per Llama-3.1-8B-Ins e un miglioramento di 5 punti per Qwen2.5-Coder-7B-Ins attraverso il campionamento migliore di 32, portando il modello 7B allo stesso livello di DeepSeek-V2.5 da 236B. Inoltre, conduciamo il reinforcement learning con entrambi i modelli di ricompensa e le ricompense di superamento dei casi di test, portando a miglioramenti consistenti in HumanEval, MBPP, BigCodeBench e LiveCodeBench (V4). In particolare, seguiamo l'addestramento in stile R1 per partire direttamente da Qwen2.5-Coder-base e dimostriamo che il nostro addestramento RL può migliorare il modello su HumanEval-plus di oltre il 25\% e su MBPP-plus del 6\% con soli 80 passaggi di ottimizzazione. Crediamo che i nostri risultati mettano in luce l'enorme potenziale del reinforcement learning nei modelli di codifica.
Apprendere i modelli di ponte di diffusione è facile; renderli veloci e pratici è un'arte. I modelli di ponte di diffusione (DBM) sono un'estensione promettente dei modelli di diffusione per applicazioni nella traduzione immagine-immagine. Tuttavia, come molti modelli moderni di diffusione e flusso, i DBM soffrono del problema dell'inferezza lenta. Per affrontarlo, proponiamo una nuova tecnica di distillazione basata sulla formulazione dell'abbinamento inverso del ponte e deriviamo l'obiettivo praticabile per risolverlo in pratica. A differenza delle tecniche di distillazione DBM sviluppate in precedenza, il metodo proposto può distillare sia tipi condizionali che incondizionali di DBM, distillare modelli in un generatore a un passo e utilizzare solo le immagini corrotte per l'addestramento. Valutiamo il nostro approccio per entrambi i tipi di abbinamento di ponti, condizionali e incondizionali, su un ampio set di configurazioni, inclusi super-risoluzione, ripristino JPEG, schizzo-immagine e altre attività, e mostriamo che la nostra tecnica di distillazione ci consente di accelerare l'inferezza dei DBM da 4x a 100x e persino fornire una migliore qualità di generazione rispetto al modello di riferimento utilizzato a seconda della configurazione specifica.
I grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di ragionamento in diversi ambiti. Studi recenti hanno evidenziato che aumentare il calcolo al momento del test migliora le capacità di ragionamento dei LLM. Questo di solito comporta un campionamento esteso al momento dell'inferenza guidato da un verificatore LLM esterno, creando un sistema a due giocatori. Nonostante la guida esterna, l'efficacia di questo sistema dimostra il potenziale di un singolo LLM nel affrontare compiti complessi. Pertanto, poniamo un nuovo problema di ricerca: possiamo internalizzare le capacità di ricerca per potenziare fondamentalmente le capacità di ragionamento di un singolo LLM? Questo lavoro esplora una direzione ortogonale concentrandosi sui LLM post-addestramento per la ricerca autoregressiva (cioè, un processo di ragionamento esteso con auto-riflessione e auto-esplorazione di nuove strategie). Per raggiungere questo obiettivo, proponiamo il ragionamento a Catena di Azione-Pensiero (COAT) e un paradigma di addestramento a due fasi: 1) una fase di sintonizzazione del formato su piccola scala per internalizzare il formato di ragionamento COAT e 2) una fase di auto-miglioramento su larga scala sfruttando il reinforcement learning. Il nostro approccio porta a Satori, un LLM da 7B addestrato su modelli e dati open-source. Estese valutazioni empiriche dimostrano che Satori raggiunge prestazioni all'avanguardia su benchmark di ragionamento matematico, mostrando una forte capacità di generalizzazione a compiti al di fuori del dominio. Codice, dati e modelli saranno completamente open-source.
Gli agenti linguistici sono diventati una soluzione promettente per compiti interattivi complessi. Uno degli ingredienti chiave per il successo degli agenti linguistici è il modello di ricompensa sulla traiettoria del flusso di lavoro agente, che fornisce preziose indicazioni durante l'addestramento o l'inferenza. Tuttavia, a causa della mancanza di annotazioni delle interazioni intermedie, la maggior parte dei lavori esistenti utilizza un modello di ricompensa finale per ottimizzare le politiche lungo intere traiettorie. Ciò potrebbe portare a politiche subottimali e ostacolare le prestazioni complessive. Per affrontare questo problema, proponiamo QLASS (Q-guided Language Agent Stepwise Search), per generare automaticamente annotazioni stimando i valori Q in modo graduale per agenti linguistici aperti. Introducendo un albero di ragionamento e svolgendo la modellazione della ricompensa del processo, QLASS fornisce una guida intermedia efficace per ciascun passo. Con la guida graduale, proponiamo una strategia di generazione guidata da Q per consentire agli agenti linguistici di adattarsi meglio al valore a lungo termine, con un significativo miglioramento delle prestazioni durante l'inferenza del modello su compiti di agenti interattivi complessi. In particolare, anche con quasi la metà dei dati annotati, QLASS mantiene prestazioni elevate, dimostrando la sua efficienza nel gestire una supervisione limitata. Dimostriamo anche empiricamente che QLASS può portare a decisioni più efficaci attraverso un'analisi qualitativa. Rilasceremo il nostro codice e i dati.
Questo articolo indaga una sfida poco esplorata nei grandi modelli linguistici (LLM): l'impatto dei metodi di compressione della cache KV sulle capacità fondamentali dei LLM. Mentre i metodi esistenti raggiungono impressionanti rapporti di compressione su benchmark a lungo contesto, i loro effetti sulle capacità fondamentali del modello rimangono poco studiati. Presentiamo uno studio empirico completo che valuta prominenti metodi di compressione della cache KV su diverse attività, che spaziano dalla conoscenza del mondo, al ragionamento di senso comune, al ragionamento aritmetico, alla generazione di codice, alla sicurezza e alla comprensione e generazione di contesti lunghi. La nostra analisi rivela che i metodi di compressione della cache KV mostrano degrado delle prestazioni specifico per l'attività. Le attività di ragionamento aritmetico si dimostrano particolarmente sensibili alla compressione aggressiva, con diversi metodi che mostrano cali delle prestazioni del 17,4%-43,3%. In particolare, il modello DeepSeek R1 Distill mostra una tolleranza alla compressione più robusta rispetto ai modelli ottimizzati per le istruzioni, mostrando solo un degrado delle prestazioni del 9,67%-25,53%. Sulla base della nostra analisi dei modelli di attenzione e delle prestazioni di compressione tra attività, proponiamo ShotKV, un nuovo approccio di compressione che gestisce distintamente le fasi di prefill e decodifica mantenendo coerenza semantica a livello di shot. I risultati empirici mostrano che ShotKV ottiene miglioramenti delle prestazioni del 9%-18% su attività di generazione di contesti lunghi con rapporti di compressione aggressivi.
L'aggregazione delle uscite da fonti diverse è un approccio semplice ma efficace per migliorare le prestazioni. Il Mixture-of-Agents (MoA) è uno dei metodi di ensemble più popolari che aggrega le uscite di diversi Large Language Models (LLM). Questo articolo solleva la questione nel contesto dei modelli linguistici: mescolare diversi LLM è veramente vantaggioso? Proponiamo il Self-MoA, un metodo di ensemble che aggrega le uscite solo del miglior LLM. I nostri ampi esperimenti rivelano che, sorprendentemente, il Self-MoA supera il MoA standard che mescola diversi LLM in molti scenari: il Self-MoA ottiene un miglioramento del 6,6% rispetto al MoA nel benchmark AlpacaEval 2.0, e una media del 3,8% su vari benchmark, tra cui MMLU, CRUX e MATH. Applicando il Self-MoA a uno dei modelli più performanti in AlpacaEval 2.0, si raggiunge direttamente la nuova performance di primo piano nella classifica. Per comprendere l'efficacia del Self-MoA, investighiamo sistematicamente il compromesso tra diversità e qualità delle uscite in vari contesti MoA. Confermiamo che le prestazioni del MoA sono piuttosto sensibili alla qualità, e mescolare diversi LLM spesso abbassa la qualità media dei modelli. Per integrare lo studio, identifichiamo i casi in cui mescolare diversi LLM potrebbe essere utile. Questo articolo introduce inoltre una versione sequenziale del Self-MoA, in grado di aggregare un gran numero di uscite di LLM al volo in più round, ed è altrettanto efficace nell'aggregare tutte le uscite in una sola volta.
Nonostante i notevoli progressi nei modelli generativi di testo-immagine, sono soggetti ad attacchi avversari e generano involontariamente contenuti non sicuri ed eticamente discutibili. Gli approcci esistenti spesso si basano sul raffinamento dei modelli per rimuovere concetti specifici, il che è computazionalmente costoso, manca di scalabilità e/o compromette la qualità della generazione. In questo lavoro, proponiamo un nuovo framework che sfrutta gli autoencoder k-sparse (k-SAE) per consentire una manipolazione efficiente e interpretabile dei concetti nei modelli di diffusione. In particolare, identifichiamo innanzitutto concetti monosemantici interpretabili nello spazio latente degli embedding di testo e li sfruttiamo per guidare con precisione la generazione lontano o verso un dato concetto (ad esempio, nudità) o per introdurre un nuovo concetto (ad esempio, stile fotografico). Attraverso estesi esperimenti, dimostriamo che il nostro approccio è molto semplice, non richiede il ritraining del modello di base né adattatori LoRA, non compromette la qualità della generazione ed è robusto alle manipolazioni avversarie dei prompt. Il nostro metodo porta a un miglioramento del 20,01% nella rimozione dei concetti non sicuri, è efficace nella manipolazione dello stile ed è fino a 5 volte più veloce rispetto allo stato dell'arte attuale.
La ricerca basata su campionamento, un paradigma semplice per utilizzare il calcolo al momento del test, coinvolge la generazione di diverse risposte candidate e la selezione della migliore - tipicamente verificando ciascuna risposta per correttezza. In questo articolo, studiamo le tendenze di scalabilità che governano la ricerca basata su campionamento. Tra le nostre scoperte c'è il fatto che semplicemente aumentando proporzionalmente un'implementazione minimalista che utilizza solo campionamento casuale e auto-verifica diretta porta a miglioramenti delle prestazioni sostenuti che, ad esempio, elevano le capacità di ragionamento del modello Gemini v1.5 Pro oltre quelle di o1-Preview su benchmark popolari. Attribuiamo in parte la scalabilità della ricerca basata su campionamento a un fenomeno di scalabilità implicita, dove campionare un pool più ampio di risposte migliora a sua volta l'accuratezza della verifica. Identifichiamo inoltre due principi utili per migliorare le capacità di auto-verifica con calcolo al momento del test: (1) confrontare le risposte fornisce segnali utili sulla posizione degli errori e delle allucinazioni, e (2) stili di output del modello diversi sono utili per contesti diversi - le catene di pensiero sono utili per il ragionamento ma più difficili da verificare. Troviamo anche che, sebbene la verifica accurata possa essere ottenuta, i modelli di frontiera dimostrano capacità di verifica fuori dalla scatola notevolmente deboli e introducono un benchmark per misurare i progressi su queste carenze.
Questo articolo presenta il dataset COCONut-PanCap, creato per migliorare la segmentazione panottica e la descrizione di immagini basata su contesto. Basandosi sul dataset COCO con maschere panottiche avanzate di COCONut, questo dataset mira a superare le limitazioni nei dataset esistenti immagine-testo che spesso mancano di descrizioni dettagliate e complete della scena. Il dataset COCONut-PanCap incorpora didascalie a livello di regione dettagliate basate su maschere di segmentazione panottica, garantendo coerenza e migliorando il dettaglio delle didascalie generate. Attraverso descrizioni densamente annotate ed edite dall'uomo, COCONut-PanCap supporta il miglioramento dell'addestramento dei modelli visione-linguaggio (VLM) per la comprensione delle immagini e dei modelli generativi per compiti di testo-immagine. I risultati sperimentali dimostrano che COCONut-PanCap migliora significativamente le prestazioni nei compiti di comprensione e generazione, offrendo benefici complementari ai dataset su larga scala. Questo dataset stabilisce un nuovo punto di riferimento per valutare i modelli nei compiti congiunti di segmentazione panottica e descrizione basata su contesto, affrontando la necessità di annotazioni immagine-testo dettagliate e di alta qualità nell'apprendimento multimodale.
La creazione di modelli di progettazione assistita al computer (CAD) richiede una notevole esperienza e sforzo. Il Text-to-CAD, che converte le descrizioni testuali in sequenze parametriche CAD, è cruciale per ottimizzare questo processo. Studi recenti hanno utilizzato sequenze parametriche di verità fondamentale, note come segnali sequenziali, come supervisione per raggiungere questo obiettivo. Tuttavia, i modelli CAD sono intrinsecamente multimodali, comprendendo sequenze parametriche e oggetti visivi resi corrispondenti. Inoltre, il processo di rendering dalle sequenze parametriche agli oggetti visivi è di tipo molti-a-uno. Pertanto, sia i segnali sequenziali che visivi sono cruciali per un addestramento efficace. In questo lavoro, presentiamo CADFusion, un framework che utilizza Large Language Models (LLM) come base e alterna tra due fasi di addestramento: la fase di apprendimento sequenziale (SL) e la fase di feedback visivo (VF). Nella fase SL, addestriamo i LLM utilizzando sequenze parametriche di verità fondamentale, consentendo la generazione di sequenze parametriche logicamente coerenti. Nella fase VF, premiamo le sequenze parametriche che si traducono in oggetti visivi preferiti e penalizziamo quelle che non lo fanno, consentendo ai LLM di imparare come gli oggetti visivi resi vengono percepiti ed valutati. Queste due fasi si alternano durante l'addestramento, garantendo un apprendimento equilibrato e preservando i vantaggi di entrambi i segnali. Gli esperimenti dimostrano che CADFusion migliora significativamente le prestazioni, sia qualitativamente che quantitativamente.
La personalizzazione dei modelli di testo-immagine consente agli utenti di inserire concetti personalizzati e generare i concetti in ambienti non visti. I metodi esistenti si basano o su costose ottimizzazioni al momento del test o addestrano encoder su set di dati di addestramento di singola immagine senza supervisione multi-immagine, portando a una peggiore qualità dell'immagine. Proponiamo un approccio semplice che affronta entrambi i limiti. Prima sfruttiamo modelli esistenti di testo-immagine e set di dati 3D per creare un set di dati di personalizzazione sintetico di alta qualità (SynCD) composto da immagini multiple dello stesso oggetto in diverse illuminazioni, sfondi e pose. Proponiamo quindi una nuova architettura di encoder basata su meccanismi di attenzione condivisa che incorporano meglio dettagli visivi dettagliati dalle immagini di input. Infine, proponiamo una nuova tecnica di inferenza che mitiga i problemi di sovraesposizione durante l'inferenza normalizzando i vettori di guida del testo e dell'immagine. Attraverso estesi esperimenti, mostriamo che il nostro modello, addestrato sul set di dati sintetico con l'encoder e l'algoritmo di inferenza proposti, supera i metodi esistenti senza sintonizzazione su benchmark standard di personalizzazione.
Il raffinamento dei grandi modelli linguistici (LLM) sui dispositivi sta attirando un interesse crescente. Lavori recenti hanno fuso le tecniche di adattamento a basso rango (LoRA) con il raffinamento federato per mitigare le sfide associate alle dimensioni dei modelli sui dispositivi e alla scarsità di dati. Tuttavia, l'eterogeneità delle risorse computazionali rimane un collo di bottiglia critico: mentre i moduli di rango più elevato generalmente migliorano le prestazioni, le capacità variabili dei dispositivi limitano l'intervallo di rango fattibile per LoRA. Gli approcci esistenti che cercano di risolvere questo problema mancano di giustificazione analitica o impongono un overhead computazionale aggiuntivo, lasciando un ampio margine per una soluzione efficiente e teoricamente fondata. Per affrontare queste sfide, proponiamo LoRA a schizzo federato (FSLoRA), che sfrutta un meccanismo di schizzo per consentire ai dispositivi di aggiornare selettivamente le sottomatrici dei moduli globali LoRA mantenuti dal server. Regolando i rapporti di schizzo, che determinano i ranghi delle sottomatrici sui dispositivi, FSLoRA si adatta in modo flessibile ai vincoli di comunicazione e di calcolo specifici del dispositivo. Forniamo un'analisi rigorosa della convergenza di FSLoRA che caratterizza come i rapporti di schizzo influenzano il tasso di convergenza. Attraverso esperimenti esaustivi su più set di dati e modelli LLM, dimostriamo le prestazioni superiori di FSLoRA rispetto a vari baselines.
I Large Language Models (LLM) hanno dimostrato notevoli capacità in vari settori. Insieme all'evolversi delle capacità e all'espansione degli scenari di implementazione dei LLM, le sfide legate alla loro implementazione aumentano a causa della loro enorme dimensione e dei progettazioni di attivazione avanzate ma complesse presenti in serie di modelli di rilievo, come Llama, Gemma e Mistral. Queste sfide sono diventate particolarmente evidenti in scenari di implementazione con risorse limitate, dove è imperativo mitigare i colli di bottiglia dell'efficienza inferenziale. Tra vari sforzi recenti, l'approssimazione dell'attivazione è emersa come una via promettente per perseguire l'efficienza inferenziale, a volte considerata indispensabile in applicazioni come l'inferenza privata. Nonostante il raggiungimento di significativi miglioramenti di velocità con un impatto minimo sull'utilità, apparendo anche affidabile e pratico per l'implementazione nel mondo reale, le implicazioni sulla sicurezza delle approssimazioni dell'attivazione rimangono poco chiare. In questo lavoro, colmiamo questa lacuna critica nella sicurezza dei LLM conducendo la prima valutazione sistematica della sicurezza delle approssimazioni dell'attivazione. La nostra valutazione della sicurezza copre sette tecniche all'avanguardia attraverso tre categorie popolari, rivelando una costante degradazione della sicurezza in dieci LLM allineati alla sicurezza.