Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le prestazioni dei Large Language Models (LLM) sono fondamentalmente determinate dalle informazioni contestuali fornite durante l'inferenza. Questo studio introduce l'Ingegneria del Contesto, una disciplina formale che va oltre il semplice design dei prompt per abbracciare l'ottimizzazione sistematica dei carichi informativi per gli LLM. Presentiamo una tassonomia completa che scompone l'Ingegneria del Contesto nei suoi componenti fondamentali e nelle sofisticate implementazioni che li integrano in sistemi intelligenti. Esaminiamo innanzitutto i componenti fondamentali: recupero e generazione del contesto, elaborazione del contesto e gestione del contesto. Successivamente, esploriamo come questi componenti vengano integrati architettonicamente per creare implementazioni di sistemi avanzati: generazione aumentata dal recupero (RAG), sistemi di memoria e ragionamento integrato con strumenti, e sistemi multi-agente. Attraverso questa analisi sistematica di oltre 1300 articoli di ricerca, il nostro studio non solo stabilisce una roadmap tecnica per il campo, ma rivela anche un'importante lacuna di ricerca: esiste un'asimmetria fondamentale tra le capacità dei modelli. Mentre i modelli attuali, potenziati da un'ingegneria del contesto avanzata, dimostrano una notevole competenza nella comprensione di contesti complessi, mostrano limitazioni evidenti nella generazione di output altrettanto sofisticati e di lunga durata. Affrontare questa lacuna è una priorità definitoria per la ricerca futura. In definitiva, questo studio fornisce un quadro unificato sia per i ricercatori che per gli ingegneri che avanzano l'IA consapevole del contesto.
I recenti progressi nei modelli visione-linguaggio (VLMs) hanno migliorato le prestazioni aumentando il numero di token visivi, che sono spesso significativamente più lunghi rispetto ai token testuali. Tuttavia, osserviamo che la maggior parte degli scenari reali non richiede un numero così elevato di token visivi. Sebbene le prestazioni diminuiscano significativamente in un piccolo sottoinsieme di attività legate all'OCR, i modelli continuano a funzionare con precisione nella maggior parte delle altre attività generali di VQA (Visual Question Answering) con solo 1/4 della risoluzione. Pertanto, proponiamo di elaborare dinamicamente campioni distinti con diverse risoluzioni e presentiamo un nuovo paradigma per la compressione dei token visivi, denominato VisionThink. Questo approccio inizia con un'immagine sottocampionata e decide in modo intelligente se è sufficiente per risolvere il problema. In caso contrario, il modello può generare un token speciale per richiedere l'immagine a risoluzione più alta. Rispetto ai metodi Efficient VLM esistenti che comprimono i token utilizzando rapporti di potatura o soglie fisse, VisionThink decide autonomamente se comprimere i token caso per caso. Di conseguenza, dimostra una forte capacità di comprensione visiva fine nelle attività legate all'OCR, risparmiando al contempo un numero sostanziale di token visivi su compiti più semplici. Adottiamo l'apprendimento per rinforzo e proponiamo la strategia LLM-as-Judge per applicare con successo l'RL alle attività generali di VQA. Inoltre, progettiamo attentamente una funzione di ricompensa e un meccanismo di penalizzazione per ottenere un rapporto stabile e ragionevole di chiamate di ridimensionamento dell'immagine. Esperimenti estensivi dimostrano la superiorità, l'efficienza e l'efficacia del nostro metodo. Il nostro codice è disponibile all'indirizzo https://github.com/dvlab-research/VisionThink.
Introduciamo pi^3, una rete neurale feed-forward che offre un approccio innovativo alla ricostruzione della geometria visiva, superando la dipendenza da una vista di riferimento fissa convenzionale. I metodi precedenti spesso ancorano le loro ricostruzioni a un punto di vista designato, un bias induttivo che può portare a instabilità e fallimenti se il riferimento è subottimale. Al contrario, pi^3 utilizza un'architettura completamente permutazione-equivariante per prevedere pose della camera invarianti rispetto alle affinità e mappe di punti locali invarianti rispetto alla scala, senza alcun riferimento a frame specifici. Questo design rende il nostro modello intrinsecamente robusto all'ordine degli input e altamente scalabile. Questi vantaggi consentono al nostro approccio semplice e privo di bias di raggiungere prestazioni all'avanguardia in un'ampia gamma di compiti, tra cui la stima della posa della camera, la stima della profondità monoculare/dai video e la ricostruzione di mappe di punti dense. Codice e modelli sono pubblicamente disponibili.
Questo articolo affronta la sfida della sintesi di visualizzazioni ad alta fedeltà di esseri umani utilizzando video a vista sparsa come input. I metodi precedenti risolvono il problema dell'osservazione insufficiente sfruttando modelli di diffusione 4D per generare video da nuove prospettive. Tuttavia, i video generati da questi modelli spesso mancano di coerenza spazio-temporale, degradando così la qualità della sintesi delle visualizzazioni. In questo articolo, proponiamo un nuovo processo di denoising iterativo a scorrimento per migliorare la coerenza spazio-temporale del modello di diffusione 4D. Nello specifico, definiamo una griglia latente in cui ogni elemento latente codifica l'immagine, la posa della telecamera e la posa umana per una determinata prospettiva e timestamp, quindi denoisiamo alternativamente la griglia latente lungo le dimensioni spaziali e temporali con una finestra scorrevole, e infine decodifichiamo i video dalle prospettive target dai corrispondenti elementi latenti denoisati. Attraverso lo scorrimento iterativo, le informazioni fluiscono sufficientemente attraverso la griglia latente, consentendo al modello di diffusione di ottenere un ampio campo recettivo e quindi migliorare la coerenza 4D dell'output, mantenendo al contempo il consumo di memoria GPU entro limiti accettabili. Gli esperimenti condotti sui dataset DNA-Rendering e ActorsHQ dimostrano che il nostro metodo è in grado di sintetizzare video di nuove prospettive di alta qualità e coerenti, superando significativamente gli approcci esistenti. Visita la nostra pagina del progetto per demo interattive e risultati video: https://diffuman4d.github.io/.
La generalizzazione della lunghezza, ovvero la capacità di risolvere problemi con sequenze più lunghe rispetto a quelle osservate durante l'addestramento, rappresenta una sfida fondamentale per i modelli linguistici di grandi dimensioni (LLM) basati su Transformer. Sebbene gli studi esistenti si siano concentrati principalmente su approcci basati sui dati per operazioni aritmetiche e compiti di manipolazione simbolica, questi approcci tendono a essere specifici per il compito con prestazioni complessive limitate. Per perseguire una soluzione più generale, questo articolo si concentra su un caso più ampio di problemi di ragionamento che sono computabili, ovvero problemi che possono essere risolti da algoritmi e, quindi, dalla Macchina di Turing. Da questa prospettiva, questo articolo propone il Turing MAchine Imitation Learning (TAIL) per migliorare la capacità di generalizzazione della lunghezza degli LLM. TAIL sintetizza dati di catena di pensieri (CoT) che imitano il processo di esecuzione di una Macchina di Turing attraverso programmi informatici, espandendo linearmente i passaggi di ragionamento in stati atomici per alleviare l'apprendimento di scorciatoie e un meccanismo esplicito di recupero della memoria per ridurre le difficoltà di accesso dinamico e a lungo raggio ai dati nelle operazioni elementari. Per validare l'affidabilità e l'universalità di TAIL, abbiamo costruito un dataset sintetico impegnativo che copre 8 classi di algoritmi e 18 compiti. Senza fronzoli, TAIL migliora significativamente la capacità di generalizzazione della lunghezza e le prestazioni di Qwen2.5-7B su vari compiti utilizzando solo dati sintetici, superando i metodi precedenti e DeepSeek-R1. I risultati sperimentali rivelano che i concetti chiave della Macchina di Turing, piuttosto che gli stili di pensiero, sono indispensabili per TAIL per la generalizzazione della lunghezza, attraverso i quali il modello mostra comportamenti di lettura e scrittura coerenti con le proprietà della Macchina di Turing nei loro strati di attenzione. Questo lavoro fornisce una direzione promettente per la ricerca futura sull'apprendimento del ragionamento degli LLM da dati sintetici.
La generazione controllata di didascalie è essenziale per un allineamento multimodale preciso e il rispetto delle istruzioni, tuttavia i modelli esistenti spesso mancano di un controllo fine e di protocolli di valutazione affidabili. Per colmare questa lacuna, presentiamo il Progetto AnyCap, una soluzione integrata che comprende modello, dataset e valutazione. Introduciamo AnyCapModel (ACM), un framework leggero plug-and-play che migliora la controllabilità dei modelli di base esistenti per la generazione di didascalie omni-modali senza dover riaddestrare il modello di base. ACM riutilizza le didascalie originali dei modelli di base, incorporando le istruzioni dell'utente e le caratteristiche modali per generare didascalie migliorate. Per ovviare alla scarsità di dati nella generazione controllata di didascalie multimodali, abbiamo costruito AnyCapDataset (ACD), che copre tre modalità, 28 tipi di istruzioni utente e 300.000 voci di dati di alta qualità. Proponiamo inoltre AnyCapEval, un nuovo benchmark che fornisce metriche di valutazione più affidabili per la generazione controllata di didascalie, separando l'accuratezza del contenuto dalla fedeltà stilistica. ACM migliora significativamente la qualità delle didascalie su un'ampia gamma di modelli di base in AnyCapEval. In particolare, ACM-8B aumenta i punteggi di contenuto di GPT-4o del 45% e i punteggi stilistici del 12%, e ottiene anche guadagni sostanziali su benchmark ampiamente utilizzati come MIA-Bench e VidCapBench.
La Low-Rank Adaptation (LoRA) è diventata uno standard ampiamente adottato per il fine-tuning efficiente in termini di parametri di grandi modelli linguistici (LLM), riducendo significativamente le richieste di memoria e computazionali. Tuttavia, permangono delle sfide, tra cui la ricerca di strategie di inizializzazione ottimali o la mitigazione dell'overparametrizzazione nella fattorizzazione di matrici a basso rango. In questo lavoro, proponiamo un approccio innovativo che affronta entrambe le sfide simultaneamente all'interno di un framework unificato. Il nostro metodo tratta un insieme di matrici LoRA a rango fisso come una varietà liscia. Considerare gli adattatori come elementi su questa varietà elimina l'overparametrizzazione, mentre determinare la direzione della più rapida diminuzione della perdita lungo la varietà fornisce l'inizializzazione. Particolare attenzione è stata dedicata per ottenere un'implementazione numericamente stabile e computazionalmente efficiente del nostro metodo, utilizzando le migliori pratiche dell'algebra lineare numerica e dell'ottimizzazione Riemanniana. I risultati sperimentali su architetture di LLM e modelli di diffusione dimostrano che RiemannLoRA migliora costantemente sia la velocità di convergenza che le prestazioni finali rispetto alla LoRA standard e alle sue modifiche all'avanguardia.
Presentiamo Voxtral Mini e Voxtral Small, due modelli di chat audio multimodali. Voxtral è addestrato per comprendere sia l'audio parlato che i documenti testuali, raggiungendo prestazioni all'avanguardia su una vasta gamma di benchmark audio, pur mantenendo solide capacità di elaborazione del testo. Voxtral Small supera numerosi modelli closed-source, pur essendo abbastanza piccolo da poter essere eseguito localmente. Una finestra di contesto di 32K consente al modello di gestire file audio fino a 40 minuti di durata e lunghe conversazioni multi-turn. Contribuiamo inoltre con tre benchmark per valutare i modelli di comprensione del parlato su conoscenza e trivia. Entrambi i modelli Voxtral sono rilasciati sotto licenza Apache 2.0.
Il ragionamento spaziale nello spazio 3D è centrale per la cognizione umana e indispensabile per compiti incarnati come la navigazione e la manipolazione. Tuttavia, i modelli visione-linguaggio (VLMs) all'avanguardia spesso incontrano difficoltà con compiti semplici come anticipare come apparirà una scena dopo un movimento egocentrico: percepiscono immagini 2D ma mancano di un modello interno della dinamica 3D. Proponiamo quindi MindJourney, un framework di scalabilità al momento del test che conferisce a un VLM questa capacità mancante accoppiandolo a un modello di mondo controllabile basato sulla diffusione video. Il VLM disegna iterativamente una traiettoria concisa della telecamera, mentre il modello di mondo sintetizza la vista corrispondente ad ogni passo. Il VLM ragiona quindi su questa evidenza multi-vista raccolta durante l'esplorazione interattiva. Senza alcuna messa a punto, il nostro MindJourney ottiene un incremento medio di oltre l'8% delle prestazioni sul benchmark rappresentativo di ragionamento spaziale SAT, dimostrando che l'abbinamento di VLMs con modelli di mondo per la scalabilità al momento del test offre una via semplice e plug-and-play per un ragionamento 3D robusto. Nel frattempo, il nostro metodo migliora anche l'inferenza al momento del test dei VLMs addestrati attraverso l'apprendimento per rinforzo, dimostrando il potenziale del nostro metodo che utilizza modelli di mondo per la scalabilità al momento del test.
Generare animazioni facciali espressive a partire da immagini statiche è un compito complesso. I metodi precedenti che si basano su prior geometriche esplicite (ad esempio, punti di riferimento facciali o 3DMM) spesso presentano artefatti nel reenactment incrociato e faticano a catturare emozioni sottili. Inoltre, gli approcci esistenti non supportano l'animazione multi-personaggio, poiché le caratteristiche di guida provenienti da individui diversi interferiscono frequentemente tra loro, complicando il compito. Per affrontare queste sfide, proponiamo FantasyPortrait, un framework basato su un transformer di diffusione in grado di generare animazioni ad alta fedeltà e ricche di emozioni sia per scenari a singolo che multi-personaggio. Il nostro metodo introduce una strategia di apprendimento aumentata per le espressioni che utilizza rappresentazioni implicite per catturare dinamiche facciali indipendenti dall'identità, migliorando la capacità del modello di rendere emozioni finemente dettagliate. Per il controllo multi-personaggio, progettiamo un meccanismo di cross-attention mascherato che garantisce una generazione di espressioni indipendente ma coordinata, prevenendo efficacemente l'interferenza delle caratteristiche. Per promuovere la ricerca in questo ambito, proponiamo il dataset Multi-Expr e ExprBench, appositamente progettati per l'addestramento e la valutazione di animazioni ritratto multi-personaggio. Esperimenti estensivi dimostrano che FantasyPortrait supera significativamente i metodi all'avanguardia sia nelle metriche quantitative che nelle valutazioni qualitative, eccellendo in particolare nei contesti impegnativi di reenactment incrociato e multi-personaggio. La nostra pagina del progetto è https://fantasy-amap.github.io/fantasy-portrait/.
Presentiamo AbGen, il primo benchmark progettato per valutare le capacità dei modelli linguistici di grandi dimensioni (LLM) nella progettazione di studi di ablazione per la ricerca scientifica. AbGen è composto da 1.500 esempi annotati da esperti, derivati da 807 articoli di NLP. In questo benchmark, agli LLM viene assegnato il compito di generare progetti dettagliati di studi di ablazione per un modulo o processo specifico, basandosi sul contesto di ricerca fornito. La nostra valutazione di LLM leader, come DeepSeek-R1-0528 e o4-mini, evidenzia un significativo divario di prestazioni tra questi modelli e gli esperti umani in termini di importanza, fedeltà e solidità dei progetti di studi di ablazione. Inoltre, dimostriamo che i metodi di valutazione automatizzati attuali non sono affidabili per il nostro compito, poiché mostrano una discrepanza significativa rispetto alla valutazione umana. Per indagare meglio questo aspetto, sviluppiamo AbGen-Eval, un benchmark di meta-valutazione progettato per valutare l'affidabilità dei sistemi di valutazione automatizzati comunemente utilizzati nel misurare le prestazioni degli LLM nel nostro compito. Esaminiamo vari sistemi LLM-as-Judge su AbGen-Eval, fornendo spunti per future ricerche sullo sviluppo di sistemi di valutazione basati su LLM più efficaci e affidabili per compiti scientifici complessi.
Gli Autoencoder Sparse (SAE) si sono affermati come strumenti potenti per interpretare le rappresentazioni interne dei Large Language Model (LLM), ma spesso non riescono a catturare caratteristiche specifiche di un dominio che non sono prevalenti nei loro corpora di addestramento. Questo articolo introduce un approccio di apprendimento residuo che affronta questa cecità alle caratteristiche senza richiedere un completo riaddestramento. Proponiamo di addestrare un SAE secondario specificamente per modellare l'errore di ricostruzione di un SAE preaddestrato su testi specifici di un dominio, catturando efficacemente le caratteristiche mancate dal modello primario. Sommando gli output di entrambi i modelli durante l'inferenza, dimostriamo miglioramenti significativi sia nell'entropia incrociata dei LLM che nelle metriche di varianza spiegata attraverso più domini specializzati. I nostri esperimenti mostrano che questo metodo incorpora in modo efficiente nuove conoscenze di dominio negli SAE esistenti, mantenendo le loro prestazioni su compiti generali. Questo approccio consente ai ricercatori di migliorare selettivamente l'interpretabilità degli SAE per specifici domini di interesse, aprendo nuove possibilità per un'interpretabilità meccanicistica mirata dei LLM.
I modelli linguistici (LM) sono difficili da adattare a nuove distribuzioni di dati attraverso un semplice fine-tuning. Ciò è dovuto alla rigidità dei loro tokenizzatori subword, che tipicamente rimangono invariati durante l'adattamento. Questa mancanza di flessibilità spesso porta a una tokenizzazione inefficiente, causando una sovraframmentazione di domini fuori distribuzione, lingue non viste o script. In questo lavoro, sviluppiamo modelli linguistici a livello di byte con tokenizzatori apprendibili per rendere la tokenizzazione adattiva. I nostri modelli includono un sottomodulo che impara a prevedere i confini tra la sequenza di byte in input, codificandola in segmenti di lunghezza variabile. I metodi esistenti senza tokenizzatore addestrano questo predittore di confini utilizzando una perdita ausiliaria che impone un tasso di compressione fisso su tutto il corpus di addestramento, introducendo un nuovo tipo di rigidità. Proponiamo FLEXITOKENS, un obiettivo di addestramento semplificato che consente una flessibilità significativamente maggiore durante l'adattamento. Valutando su più benchmark multilingue, task morfologicamente diversificati e domini, dimostriamo che FLEXITOKENS riduce costantemente la sovraframmentazione dei token e ottiene miglioramenti fino al 10\% nelle prestazioni delle task downstream rispetto ai tokenizzatori subword e ad altri tokenizzatori basati su gradienti. Il codice e i dati per i nostri esperimenti saranno rilasciati su https://github.com/owos/flexitokens.
Introduciamo Einstein Fields, una rappresentazione neurale progettata per comprimere simulazioni computazionalmente intensive di relatività numerica quadridimensionale in pesi di reti neurali impliciti compatti. Modellando la metrica, che è il campo tensoriale centrale della relatività generale, Einstein Fields consentono la derivazione di quantità fisiche tramite differenziazione automatica. Tuttavia, a differenza dei campi neurali convenzionali (ad esempio, campi di distanza con segno, occupazione o radianza), Einstein Fields sono Campi Tensoriali Neurali con la differenza fondamentale che, quando si codifica la geometria dello spaziotempo della relatività generale in rappresentazioni di campi neurali, le dinamiche emergono naturalmente come sottoprodotto. Einstein Fields mostrano un potenziale notevole, tra cui la modellazione continua dello spaziotempo 4D, l'agnosticismo rispetto alla mesh, l'efficienza di archiviazione, l'accuratezza delle derivate e la facilità d'uso. Affrontiamo queste sfide attraverso diversi banchi di prova canonici della relatività generale e rilasciamo una libreria open source basata su JAX, aprendo la strada a approcci più scalabili ed espressivi alla relatività numerica. Il codice è disponibile all'indirizzo https://github.com/AndreiB137/EinFields.
La Video Frame Interpolation (VFI) mira a prevedere il frame intermedio I_n (utilizziamo n per denotare il tempo nei video per evitare sovrapposizioni di notazione con il passo temporale t nei modelli di diffusione) basandosi su due frame consecutivi adiacenti I_0 e I_1. Approcci recenti applicano modelli di diffusione (sia basati su immagini che su video) in questo compito e ottengono prestazioni significative. Tuttavia, i modelli di diffusione basati su immagini non sono in grado di estrarre informazioni temporali e sono relativamente inefficienti rispetto ai metodi non basati sulla diffusione. I modelli di diffusione basati su video possono estrarre informazioni temporali, ma sono troppo grandi in termini di scala di addestramento, dimensione del modello e tempo di inferenza. Per mitigare i problemi sopra citati, proponiamo il Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), un modello di diffusione basato su video efficiente. Estraendo ricche informazioni temporali dagli input video attraverso la nostra proposta di 3D-wavelet gating e autoencoder temporale, il nostro metodo ottiene un miglioramento del 20% nell'FID sui dataset più impegnativi rispetto ai recenti SOTA dei modelli di diffusione basati su immagini. Nel frattempo, grazie alla presenza di ricche informazioni temporali, il nostro metodo ottiene prestazioni significative pur avendo 3 volte meno parametri. Tale riduzione dei parametri si traduce in un'accelerazione di 2,3 volte. Incorporando la guida del flusso ottico, il nostro metodo richiede 9000 volte meno dati di addestramento e ottiene oltre 20 volte meno parametri rispetto ai modelli di diffusione basati su video. Codici e risultati sono disponibili sulla nostra pagina del progetto: https://zonglinl.github.io/tlbvfi_page.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno sbloccato potenti capacità di ragionamento cross-modale, ma hanno anche sollevato nuove preoccupazioni in termini di sicurezza, specialmente quando si affrontano input multimodali avversari. Per migliorare la sicurezza degli MLLM durante l'inferenza, introduciamo una tecnologia modulare e adattiva di intervento in fase di inferenza, AutoSteer, senza richiedere alcun fine-tuning del modello sottostante. AutoSteer incorpora tre componenti principali: (1) un nuovo Safety Awareness Score (SAS) che identifica automaticamente le distinzioni più rilevanti per la sicurezza tra gli strati interni del modello; (2) un safety prober adattivo addestrato per stimare la probabilità di output tossici a partire dalle rappresentazioni intermedie; e (3) un Refusal Head leggero che interviene selettivamente per modulare la generazione quando vengono rilevati rischi di sicurezza. Esperimenti su LLaVA-OV e Chameleon su diversi benchmark critici per la sicurezza dimostrano che AutoSteer riduce significativamente il tasso di successo degli attacchi (ASR) per minacce testuali, visive e cross-modali, mantenendo al contempo le capacità generali. Questi risultati posizionano AutoSteer come un framework pratico, interpretabile ed efficace per un deployment più sicuro dei sistemi di intelligenza artificiale multimodale.