Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Sud-est asiatico (SEA) è una regione caratterizzata da una straordinaria diversità linguistica e culturale, ma rimane significativamente sottorappresentata nella ricerca visione-linguaggio (VL). Ciò spesso si traduce in modelli di intelligenza artificiale (AI) che non riescono a cogliere le sfumature culturali del SEA. Per colmare questa lacuna, presentiamo SEA-VL, un'iniziativa open-source dedicata allo sviluppo di dati di alta qualità e culturalmente rilevanti per le lingue del SEA. Coinvolgendo contributori provenienti dai paesi del SEA, SEA-VL mira a garantire una migliore rilevanza e diversità culturale, promuovendo una maggiore inclusione delle lingue sottorappresentate nella ricerca VL. Oltre al crowdsourcing, la nostra iniziativa fa un ulteriore passo avanti nell'esplorazione della raccolta automatica di immagini culturalmente rilevanti attraverso il crawling e la generazione di immagini. In primo luogo, scopriamo che il crawling di immagini raggiunge circa l'85% di rilevanza culturale, risultando più efficiente in termini di costi e tempi rispetto al crowdsourcing. In secondo luogo, nonostante i notevoli progressi nei modelli generativi di visione, le immagini sintetiche rimangono inaffidabili nel riflettere accuratamente le culture del SEA. Le immagini generate spesso non riescono a rappresentare le tradizioni e i contesti culturali sfumati della regione. Complessivamente, raccogliamo 1,28 milioni di immagini culturalmente rilevanti per il SEA, più di 50 volte superiori rispetto ad altri dataset esistenti. Attraverso SEA-VL, miriamo a colmare il divario di rappresentazione nel SEA, promuovendo lo sviluppo di sistemi di AI più inclusivi che rappresentino autenticamente le diverse culture del Sud-est asiatico.
Migliorare il ragionamento nei Modelli Multimodali di Grande Dimensione (LMMs) presenta sfide uniche derivanti dalla complessa interazione tra percezione visiva e ragionamento logico, in particolare nelle architetture compatte da 3 miliardi di parametri, dove i vincoli architetturali limitano la capacità di ragionamento e l'allineamento tra le modalità. Mentre l'apprendimento per rinforzo basato su regole (RL) eccelle nei domini testuali, la sua estensione multimodale si scontra con due barriere critiche: (1) limitazioni nei dati dovute a risposte ambigue e alla scarsità di esempi di ragionamento complesso, e (2) un deterioramento del ragionamento di base indotto dal pre-addestramento multimodale. Per affrontare queste sfide, proponiamo \method, un framework in due fasi che adatta l'RL basato su regole al ragionamento multimodale attraverso il Potenziamento del Ragionamento di Base (FRE) seguito dall'Addestramento di Generalizzazione Multimodale (MGT). La fase FRE rafforza prima le capacità di ragionamento utilizzando dati testuali con RL basato su regole, mentre la fase MGT generalizza queste capacità ai domini multimodali. Gli esperimenti su Qwen2.5-VL-Instruct-3B dimostrano che \method ottiene miglioramenti medi del 4,83% e del 4,5% rispetto ai benchmark multimodali e testuali, rispettivamente, con un guadagno del 3,63% nei compiti complessi di Football Game. Questi risultati convalidano che il potenziamento del ragionamento basato su testo abilita un'efficace generalizzazione multimodale, offrendo un paradigma efficiente in termini di dati che evita il costo di dati di addestramento multimodali di alta qualità.
Affrontiamo il compito della generazione musicale di lunga durata—in particolare il complesso problema della trasformazione di testi in canzoni—introducendo YuE, una famiglia di modelli fondazionali aperti basati sull'architettura LLaMA2. Nello specifico, YuE scala fino a trilioni di token e genera musica fino a cinque minuti, mantenendo l'allineamento lirico, una struttura musicale coerente e melodie vocali coinvolgenti con un accompagnamento appropriato. Questo risultato è ottenuto attraverso (1) la previsione del token successivo con tracce disaccoppiate per superare i segnali di miscela densa, (2) il condizionamento progressivo strutturale per l'allineamento lirico in contesti lunghi, e (3) una ricetta di pre-addestramento multitask e multifase per convergere e generalizzare. Inoltre, ridisegniamo la tecnica di apprendimento in contesto per la generazione musicale, abilitando il trasferimento stilistico versatile (ad esempio, convertire il city pop giapponese in un rap inglese preservando l'accompagnamento originale) e la generazione bidirezionale. Attraverso una valutazione estensiva, dimostriamo che YuE eguaglia o addirittura supera alcuni sistemi proprietari in musicalità e agilità vocale. Inoltre, il fine-tuning di YuE consente controlli aggiuntivi e un supporto migliorato per le lingue minoritarie. Oltre alla generazione, mostriamo che le rappresentazioni apprese da YuE possono performare bene in compiti di comprensione musicale, dove i risultati di YuE eguagliano o superano i metodi all'avanguardia sul benchmark MARBLE. Parole chiave: lyrics2song, generazione di canzoni, lunga durata, modello fondazionale, generazione musicale.
Addestrare modelli per utilizzare efficacemente il calcolo al momento del test è cruciale per migliorare le prestazioni di ragionamento degli LLM. I metodi attuali lo fanno principalmente attraverso il fine-tuning su tracce di ricerca o eseguendo RL con ricompense di risultato 0/1, ma questi approcci sfruttano in modo efficiente il calcolo al momento del test? Questi approcci continuerebbero a scalare man mano che il budget migliora? In questo articolo, cerchiamo di rispondere a queste domande. Formalizziamo il problema dell'ottimizzazione del calcolo al momento del test come un problema di meta-reinforcement learning (RL), che fornisce una prospettiva principiata sull'utilizzo del calcolo al momento del test. Questa prospettiva ci permette di vedere il lungo flusso di output dell'LLM come composto da diversi episodi eseguiti al momento del test e ci porta a utilizzare una nozione di regret cumulativo sui token di output come modo per misurare l'efficacia del calcolo al momento del test. Analogamente a come gli algoritmi di RL possono bilanciare al meglio esplorazione e sfruttamento durante l'addestramento, minimizzare il regret cumulativo fornirebbe anche il miglior equilibrio tra esplorazione e sfruttamento nel flusso di token. Mentre mostriamo che i modelli all'avanguardia non minimizzano il regret, è possibile farlo massimizzando una ricompensa densa in aggiunta alla ricompensa di risultato 0/1 RL. Questo bonus è il "progresso" fatto da ogni blocco successivo nel flusso di output, quantificato dal cambiamento nella probabilità di successo finale. Utilizzando queste intuizioni, sviluppiamo il Meta Reinforcement Fine-Tuning, o MRT, una nuova classe di metodi di fine-tuning per ottimizzare il calcolo al momento del test. MRT porta a un guadagno relativo di 2-3x nelle prestazioni e a un guadagno di circa 1.5x nell'efficienza dei token per il ragionamento matematico rispetto al RL con ricompensa di risultato.
In questo rapporto presentiamo Gemini Embedding, un modello di embedding all'avanguardia che sfrutta la potenza di Gemini, il più avanzato modello linguistico su larga scala di Google. Sfruttando le capacità intrinseche di Gemini nella comprensione multilingue e del codice, Gemini Embedding produce embedding altamente generalizzabili per testi che abbracciano numerose lingue e modalità testuali. Le rappresentazioni generate da Gemini Embedding possono essere precalcolate e applicate a una varietà di task downstream, tra cui classificazione, similarità, clustering, ranking e retrieval. Valutato sul Massive Multilingual Text Embedding Benchmark (MMTEB), che include oltre cento task in più di 250 lingue, Gemini Embedding supera significativamente i precedenti modelli all'avanguardia, dimostrando miglioramenti considerevoli nella qualità degli embedding. Raggiungendo prestazioni all'avanguardia nei benchmark multilingue, inglese e codice di MMTEB, il nostro modello unificato dimostra forti capacità in un'ampia selezione di task e supera modelli specializzati specifici per dominio.
Il rapido avanzamento dei modelli di diffusione ha catalizzato progressi significativi nel campo della generazione di immagini. Tuttavia, modelli prevalenti come Flux, SD3.5 e Midjourney continuano a confrontarsi con problematiche quali il bias del modello, capacità limitate di rendering del testo e una comprensione insufficiente delle sfumature culturali cinesi. Per affrontare queste limitazioni, presentiamo Seedream 2.0, un modello di base bilingue cinese-inglese nativo per la generazione di immagini che eccelle in diverse dimensioni, gestendo con abilità i prompt di testo sia in cinese che in inglese, supportando la generazione di immagini bilingue e il rendering del testo. Abbiamo sviluppato un potente sistema di dati che facilita l'integrazione della conoscenza e un sistema di didascalie che bilancia accuratezza e ricchezza nella descrizione delle immagini. In particolare, Seedream è integrato con un modello di linguaggio bilingue sviluppato internamente come codificatore di testo, consentendogli di apprendere conoscenze native direttamente da dati massivi. Ciò gli permette di generare immagini ad alta fedeltà con accurate sfumature culturali ed espressioni estetiche descritte sia in cinese che in inglese. Inoltre, Glyph-Aligned ByT5 viene applicato per un rendering flessibile del testo a livello di carattere, mentre un Scaled ROPE generalizza bene a risoluzioni non addestrate. Ottimizzazioni post-addestramento multi-fase, inclusi iterazioni di SFT e RLHF, migliorano ulteriormente le capacità complessive. Attraverso un'ampia sperimentazione, dimostriamo che Seedream 2.0 raggiunge prestazioni all'avanguardia in molteplici aspetti, tra cui l'aderenza ai prompt, l'estetica, il rendering del testo e la correttezza strutturale. Inoltre, Seedream 2.0 è stato ottimizzato attraverso multiple iterazioni di RLHF per allineare strettamente il suo output alle preferenze umane, come rivelato dal suo eccezionale punteggio ELO. In aggiunta, può essere facilmente adattato a un modello di editing di immagini basato su istruzioni, come SeedEdit, con una forte capacità di editing che bilancia l'aderenza alle istruzioni e la coerenza dell'immagine.
Presentiamo MagicInfinite, un innovativo framework basato su Transformer di diffusione (DiT) che supera le limitazioni tradizionali dell'animazione ritrattistica, offrendo risultati ad alta fedeltà per diversi tipi di personaggi: esseri umani realistici, figure a corpo intero e personaggi anime stilizzati. Supporta varie pose facciali, incluse viste posteriori, e anima uno o più personaggi con maschere di input per la designazione precisa del parlante in scene con più personaggi. Il nostro approccio affronta le principali sfide con tre innovazioni: (1) meccanismi di attenzione completa 3D con una strategia di denoising a finestra scorrevole, che consentono la generazione infinita di video con coerenza temporale e qualità visiva per diversi stili di personaggi; (2) uno schema di apprendimento curriculare in due fasi, che integra l'audio per la sincronizzazione labiale, il testo per dinamiche espressive e immagini di riferimento per la preservazione dell'identità, permettendo un controllo multimodale flessibile su sequenze lunghe; e (3) maschere specifiche per regione con funzioni di perdita adattive per bilanciare il controllo testuale globale e la guida audio locale, supportando animazioni specifiche per il parlante. L'efficienza è migliorata grazie alle nostre innovative tecniche di distillazione unificata di step e cfg, ottenendo un aumento di 20x nella velocità di inferenza rispetto al modello base: generando un video di 10 secondi a 540x540p in 10 secondi o 720x720p in 30 secondi su 8 GPU H100, senza perdita di qualità. Le valutazioni sul nostro nuovo benchmark dimostrano la superiorità di MagicInfinite nella sincronizzazione audio-labiale, nella preservazione dell'identità e nella naturalezza del movimento in diversi scenari. È disponibile pubblicamente all'indirizzo https://www.hedra.com/, con esempi su https://magicinfinite.github.io/.
In che modo due individui differiscono nell'eseguire la stessa azione? In questo lavoro, introduciamo Video Action Differencing (VidDiff), il nuovo compito di identificare sottili differenze tra video della stessa azione, che ha molte applicazioni, come il coaching e l'apprendimento di abilità. Per favorire lo sviluppo su questo nuovo compito, creiamo prima VidDiffBench, un dataset di riferimento contenente 549 coppie di video, con annotazioni umane di 4.469 differenze d'azione di livello fine e 2.075 timestamp di localizzazione che indicano dove si verificano queste differenze. I nostri esperimenti dimostrano che VidDiffBench rappresenta una sfida significativa per i modelli multimodali di ultima generazione (LMM), come GPT-4o e Qwen2-VL. Analizzando i casi di fallimento degli LMM su VidDiffBench, evidenziamo due sfide chiave per questo compito: localizzare le sotto-azioni rilevanti in due video e il confronto fine a livello di frame. Per superare queste sfide, proponiamo il metodo VidDiff, un flusso di lavoro agentico che suddivide il compito in tre fasi: proposta di differenze d'azione, localizzazione dei fotogrammi chiave e differenziazione dei frame, con ciascuna fase che utilizza modelli di fondazione specializzati. Per incoraggiare la ricerca futura su questo nuovo compito, rilasciamo il benchmark all'indirizzo https://huggingface.co/datasets/jmhb/VidDiffBench e il codice all'indirizzo http://jmhb0.github.io/viddiff.
I modelli multimodali unificati (UMM) sono emersi come un paradigma potente nella ricerca fondamentale sulla visione artificiale, dimostrando un significativo potenziale sia nella comprensione che nella generazione di immagini. Tuttavia, la ricerca esistente nel dominio del volto si concentra principalmente sulla comprensione di attributi facciali grossolani, con una capacità limitata di gestire attributi facciali granulari e senza affrontare le capacità di generazione. Per superare queste limitazioni, proponiamo UniF^2ace, il primo UMM specificamente progettato per la comprensione e la generazione granulare del volto. In generale, addestriamo UniF^2ace su un dataset specializzato auto-costruito, utilizzando due tecniche di diffusione reciprocamente vantaggiose e un'architettura a due livelli di mixture-of-experts. Nello specifico, costruiamo prima un dataset facciale su larga scala, UniF^2ace-130K, che contiene 130K coppie immagine-testo con un milione di coppie domanda-risposta che coprono un'ampia gamma di attributi facciali. In secondo luogo, stabiliamo una connessione teorica tra il discrete diffusion score matching e i modelli generativi mascherati, ottimizzando contemporaneamente i limiti inferiori dell'evidenza, il che migliora significativamente la capacità del modello di sintetizzare dettagli facciali. Infine, introduciamo sia una mixture-of-experts a livello di token che a livello di sequenza, consentendo un apprendimento efficiente delle rappresentazioni granulari sia per i compiti di comprensione che di generazione. Esperimenti estensivi su UniF^2ace-130K dimostrano che UniF^2ace supera gli UMM e i modelli generativi esistenti, raggiungendo prestazioni superiori sia nei compiti di comprensione che di generazione.
Sebbene i Modelli Multilingue di Apprendimento (MLLM) abbiano dimostrato capacità adeguate di comprensione delle immagini, continuano a lottare con la comprensione a livello di pixel, limitando le loro applicazioni pratiche. Le attuali attività di valutazione come il VQA (Visual Question Answering) e il grounding visivo rimangono troppo approssimative per valutare accuratamente la comprensione fine a livello di pixel. Sebbene la segmentazione sia fondamentale per la comprensione a livello di pixel, i metodi esistenti spesso richiedono che i MLLM generino token impliciti, decodificati tramite decoder di pixel esterni. Questo approccio interrompe lo spazio di output testuale del MLLM, potenzialmente compromettendo le capacità linguistiche e riducendo la flessibilità e l'estensibilità, senza riuscire a riflettere la comprensione intrinseca del modello a livello di pixel. Pertanto, introduciamo il Human-Like Mask Annotation Task (HLMAT), un nuovo paradigma in cui i MLLM imitano gli annotatori umani utilizzando strumenti di segmentazione interattiva. Modellando la segmentazione come un Processo Decisionale di Markov multi-step, l'HLMAT consente ai MLLM di generare iterativamente punti di clic basati su testo, ottenendo maschere di alta qualità senza modifiche architetturali o token impliciti. Attraverso questa configurazione, sviluppiamo SegAgent, un modello fine-tuned su traiettorie di annotazione simili a quelle umane, che raggiunge prestazioni comparabili ai metodi state-of-the-art (SOTA) e supporta ulteriori attività come il perfezionamento delle maschere e il filtraggio delle annotazioni. L'HLMAT fornisce un protocollo per valutare la comprensione fine a livello di pixel nei MLLM e introduce un'attività decisionale multi-step centrata sulla visione che facilita l'esplorazione delle capacità di ragionamento visivo dei MLLM. I nostri adattamenti del metodo di miglioramento delle politiche StaR e della ricerca ad albero guidata da PRM migliorano ulteriormente la robustezza del modello in compiti di segmentazione complessi, gettando le basi per futuri progressi nella percezione visiva fine e nel processo decisionale multi-step per i MLLM.
Sebbene i recenti progressi nei modelli di diffusione testo-video consentano la generazione di video brevi di alta qualità a partire da un singolo prompt, la generazione di video lunghi del mondo reale in un'unica passata rimane una sfida a causa della limitata disponibilità di dati e degli elevati costi computazionali. Per affrontare questo problema, diversi lavori propongono approcci senza necessità di tuning, ovvero estendono i modelli esistenti per la generazione di video lunghi, utilizzando in particolare più prompt per consentire cambiamenti di contenuto dinamici e controllati. Tuttavia, questi metodi si concentrano principalmente sull'assicurare transizioni fluide tra frame adiacenti, spesso portando a una deriva del contenuto e a una graduale perdita di coerenza semantica su sequenze più lunghe. Per risolvere questo problema, proponiamo Synchronized Coupled Sampling (SynCoS), un nuovo framework di inferenza che sincronizza i percorsi di denoising lungo l'intero video, garantendo coerenza a lungo raggio sia tra frame adiacenti che distanti. Il nostro approccio combina due strategie di campionamento complementari: il campionamento inverso e quello basato su ottimizzazione, che assicurano transizioni locali fluide e impongono coerenza globale, rispettivamente. Tuttavia, alternare direttamente tra questi campionamenti disallinea le traiettorie di denoising, interrompendo la guida del prompt e introducendo cambiamenti di contenuto non intenzionali poiché operano in modo indipendente. Per risolvere questo, SynCoS li sincronizza attraverso un timestep ancorato e un rumore di base fisso, garantendo un campionamento completamente accoppiato con percorsi di denoising allineati. Esperimenti estensivi dimostrano che SynCoS migliora significativamente la generazione di video lunghi con più eventi, ottenendo transizioni più fluide e una coerenza a lungo raggio superiore, superando approcci precedenti sia quantitativamente che qualitativamente.
Il calcolo al momento del test sta emergendo come un nuovo paradigma per potenziare le capacità di ragionamento complesso e multi-step dei modelli linguistici, come dimostrato dal successo di o1 e o3 di OpenAI, nonché di R1 di DeepSeek. Rispetto al ragionamento esplicito nel calcolo al momento del test, il ragionamento implicito è più efficiente in termini di inferenza, richiedendo un numero inferiore di token generati. Tuttavia, perché la capacità avanzata di ragionamento non emerge nello stile di ragionamento implicito? In questo lavoro, addestriamo GPT-2 da zero su un dataset curato di ragionamento matematico multi-step e conduciamo esperimenti analitici per indagare come i modelli linguistici eseguono il ragionamento implicito in compiti multi-step. Le nostre scoperte rivelano: 1) I modelli linguistici possono eseguire ragionamenti passo-passo e raggiungere un'elevata accuratezza sia nei test in dominio che fuori dominio attraverso il ragionamento implicito. Tuttavia, questa capacità emerge solo quando vengono addestrati su dati a schema fisso. 2) Al contrario, le abilità di ragionamento implicito che emergono dall'addestramento su dati a schema non fisso tendono a sovra-adattarsi a uno schema specifico e non riescono a generalizzare ulteriormente. È importante notare che questa limitazione è osservata anche nei modelli linguistici di ultima generazione. Questi risultati suggeriscono che i modelli linguistici acquisiscono il ragionamento implicito attraverso l'apprendimento di scorciatoie, consentendo prestazioni forti su compiti con schemi simili ma mancando di generalizzazione.
I recenti progressi nella generazione di immagini da testo si sono basati principalmente su dataset estesi e architetture con un elevato numero di parametri. Questi requisiti limitano fortemente l'accessibilità per ricercatori e professionisti che non dispongono di risorse computazionali sostanziali. In questo articolo, presentiamo \model, un paradigma di addestramento efficiente per modelli di generazione di immagini che utilizza la distillazione della conoscenza (KD) e l'ottimizzazione diretta delle preferenze (DPO). Traendo ispirazione dal successo delle tecniche di KD sui dati ampiamente adottate nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), LightGen distilla la conoscenza da modelli all'avanguardia (SOTA) per la generazione di immagini da testo in un'architettura compatta di tipo Masked Autoregressive (MAR) con soli 0,7 miliardi di parametri. Utilizzando un dataset sintetico compatto di appena 2 milioni di immagini di alta qualità generate da didascalie variate, dimostriamo che la diversità dei dati supera significativamente il volume dei dati nel determinare le prestazioni del modello. Questa strategia riduce drasticamente le richieste computazionali e riduce il tempo di pre-addestramento da potenzialmente migliaia di giorni-GPU a soli 88 giorni-GPU. Inoltre, per affrontare le carenze intrinseche dei dati sintetici, in particolare i dettagli ad alta frequenza scadenti e le inesattezze spaziali, integriamo la tecnica DPO che affina la fedeltà delle immagini e l'accuratezza posizionale. Esperimenti completi confermano che LightGen raggiunge una qualità di generazione delle immagini paragonabile ai modelli SOTA, riducendo significativamente le risorse computazionali e ampliando l'accessibilità per ambienti con risorse limitate. Il codice è disponibile all'indirizzo https://github.com/XianfengWu01/LightGen.
I recenti progressi nei modelli unificati di comprensione multimodale e generazione visiva (o generazione multimodale) sono stati ostacolati dalla loro complessità computazionale quadratica e dalla dipendenza da dati di addestramento su larga scala. Presentiamo OmniMamba, il primo modello di generazione multimodale basato su un'architettura lineare che genera sia testo che immagini attraverso un paradigma unificato di previsione del token successivo. Il modello sfrutta appieno l'elevata efficienza computazionale e di memoria di Mamba-2, estendendo le sue capacità dalla generazione di testo alla generazione multimodale. Per affrontare l'inefficienza dei dati dei modelli unificati esistenti, proponiamo due innovazioni chiave: (1) vocabolari disaccoppiati per guidare la generazione specifica per modalità, e (2) LoRA specifico per il compito per un adattamento efficiente dei parametri. Inoltre, introduciamo una strategia di addestramento in due fasi disaccoppiata per mitigare lo squilibrio dei dati tra i due compiti. Dotato di queste tecniche, OmniMamba raggiunge prestazioni competitive con JanusFlow superando Show-o nei benchmark, nonostante sia stato addestrato su soli 2 milioni di coppie immagine-testo, ovvero 1.000 volte in meno rispetto a Show-o. In particolare, OmniMamba si distingue per un'eccellente efficienza inferenziale, raggiungendo un incremento di velocità fino a 119,2 volte e una riduzione del 63% della memoria GPU per la generazione di sequenze lunghe rispetto alle controparti basate su Transformer. Codice e modelli sono disponibili all'indirizzo https://github.com/hustvl/OmniMamba.
I sistemi di recupero basati su istruzioni sono stati ampiamente adottati insieme ai modelli linguistici di grandi dimensioni (LLM) in applicazioni reali, ma poche ricerche hanno indagato i rischi per la sicurezza legati alle loro crescenti capacità di ricerca. Studiamo empiricamente la capacità di questi sistemi di soddisfare query dannose, sia quando utilizzati direttamente sia in contesti di generazione aumentata dal recupero (RAG). Nello specifico, analizziamo sei sistemi di recupero leader, tra cui NV-Embed e LLM2Vec, e scopriamo che, di fronte a richieste malevole, la maggior parte di essi è in grado (per oltre il 50% delle query) di selezionare passaggi rilevanti ma dannosi. Ad esempio, LLM2Vec seleziona correttamente passaggi per il 61,35% delle nostre query dannose. Inoltre, evidenziamo un rischio emergente legato ai sistemi di recupero basati su istruzioni, dove informazioni altamente rilevanti ma dannose possono essere portate alla luce sfruttando le loro capacità di seguire istruzioni. Infine, dimostriamo che anche LLM allineati alla sicurezza, come Llama3, possono soddisfare richieste dannose quando vengono forniti con passaggi recuperati dannosi nel contesto. In sintesi, i nostri risultati sottolineano i rischi di uso improprio associati all'aumento delle capacità dei sistemi di recupero.
La localizzazione del codice – identificare con precisione dove in una codebase devono essere apportate le modifiche – è un compito fondamentale ma impegnativo nella manutenzione del software. Gli approcci esistenti faticano a navigare in modo efficiente codebase complesse quando si tratta di identificare le sezioni di codice rilevanti. La sfida risiede nel collegare le descrizioni dei problemi in linguaggio naturale con gli elementi di codice appropriati, spesso richiedendo un ragionamento attraverso strutture gerarchiche e molteplici dipendenze. Introduciamo LocAgent, un framework che affronta la localizzazione del codice attraverso una rappresentazione basata su grafi. Analizzando le codebase in grafi eterogenei diretti, LocAgent crea una rappresentazione leggera che cattura le strutture del codice (file, classi, funzioni) e le loro dipendenze (importazioni, invocazioni, ereditarietà), consentendo agli agenti LLM di cercare e individuare efficacemente le entità rilevanti attraverso un potente ragionamento multi-hop. I risultati sperimentali su benchmark del mondo reale dimostrano che il nostro approccio migliora significativamente l'accuratezza nella localizzazione del codice. In particolare, il nostro metodo con il modello fine-tuned Qwen-2.5-Coder-Instruct-32B raggiunge risultati comparabili ai modelli proprietari SOTA a un costo notevolmente ridotto (circa l'86% in meno), arrivando fino al 92,7% di accuratezza nella localizzazione a livello di file, migliorando del 12% i tassi di successo nella risoluzione delle issue su GitHub per più tentativi (Pass@10). Il nostro codice è disponibile all'indirizzo https://github.com/gersteinlab/LocAgent.
L'interazione umana con il mondo esterno coinvolge fondamentalmente lo scambio di memoria personale, sia con altri individui, siti web, applicazioni o, in futuro, agenti di intelligenza artificiale. Una parte significativa di questa interazione è ridondante, richiedendo agli utenti di fornire ripetutamente le stesse informazioni in contesti diversi. Le soluzioni esistenti, come le credenziali memorizzate nei browser, i meccanismi di autocompletamento e i sistemi di autenticazione unificata, hanno cercato di mitigare questa ridondanza fungendo da intermediari che memorizzano e recuperano i dati utente più comuni. L'avvento dei modelli linguistici di grandi dimensioni (LLM) presenta un'opportunità per ridefinire la gestione della memoria attraverso un paradigma nativo per l'IA: SECOND ME. SECOND ME agisce come un sistema intelligente e persistente di scarico della memoria che conserva, organizza e utilizza dinamicamente le conoscenze specifiche dell'utente. Fungendo da intermediario nelle interazioni utente, può generare autonomamente risposte contestuali, precompilare le informazioni richieste e facilitare una comunicazione fluida con i sistemi esterni, riducendo significativamente il carico cognitivo e l'attrito nell'interazione. A differenza delle tradizionali soluzioni di memorizzazione dei dati, SECOND ME va oltre la semplice conservazione statica delle informazioni sfruttando la parametrizzazione della memoria basata su LLM. Ciò consente un'organizzazione strutturata, un ragionamento contestuale e un recupero adattivo delle conoscenze, facilitando un approccio più sistematico e intelligente alla gestione della memoria. Man mano che agenti personali guidati dall'IA come SECOND ME diventano sempre più integrati negli ecosistemi digitali, SECOND ME rappresenta un passo cruciale verso il potenziamento dell'interazione uomo-mondo con sistemi di memoria persistenti, consapevoli del contesto e auto-ottimizzanti. Abbiamo reso disponibile il sistema di distribuzione completamente localizzabile su GitHub: https://github.com/Mindverse/Second-Me.
Introduciamo un nuovo framework di tokenizzazione visiva che incorpora una struttura simile alla PCA dimostrabile nello spazio latente dei token. Mentre gli attuali tokenizzatori visivi ottimizzano principalmente per la fedeltà di ricostruzione, spesso trascurano le proprietà strutturali dello spazio latente — un fattore cruciale sia per l'interpretabilità che per i task downstream. Il nostro metodo genera una sequenza causale 1D di token per le immagini, in cui ogni token successivo contribuisce con informazioni non sovrapposte e con una varianza spiegata matematicamente garantita in diminuzione, analogamente all'analisi delle componenti principali. Questo vincolo strutturale assicura che il tokenizzatore estragga prima le caratteristiche visive più salienti, con ogni token successivo che aggiunge informazioni complementari ma decrescenti. Inoltre, abbiamo identificato e risolto un effetto di accoppiamento semantico-spettrale che causa l'indesiderato intreccio di contenuto semantico di alto livello e dettagli spettrali di basso livello nei token, sfruttando un decoder di diffusione. Gli esperimenti dimostrano che il nostro approccio raggiunge prestazioni di ricostruzione all'avanguardia e consente una migliore interpretabilità in linea con il sistema visivo umano. Inoltre, i modelli auto-regressivi addestrati sulle nostre sequenze di token raggiungono prestazioni paragonabili ai metodi attuali più avanzati, pur richiedendo un numero inferiore di token per l'addestramento e l'inferenza.
Man mano che i modelli fondazionali multimodali iniziano a essere implementati sperimentalmente nelle auto a guida autonoma, una domanda ragionevole che ci poniamo è quanto questi sistemi rispondano in modo simile agli esseri umani in determinate situazioni di guida, specialmente quelle che sono fuori distribuzione? Per studiare questo, abbiamo creato il dataset Robusto-1, che utilizza dati video da dashcam provenienti dal Perù, un paese con uno dei peggiori (aggressivi) guidatori al mondo, un alto indice di traffico e un elevato rapporto di oggetti stradali bizzarri rispetto a quelli non bizzarri, probabilmente mai visti durante l'addestramento. In particolare, per testare preliminarmente a livello cognitivo quanto bene i Modelli Fondazionali di Linguaggio Visivo (VLMs) si confrontano con gli esseri umani nella guida, ci allontaniamo dalle bounding box, dalle mappe di segmentazione, dalle mappe di occupazione o dalla stima delle traiettorie per passare al Visual Question Answering (VQA) multimodale, confrontando sia gli esseri umani che le macchine attraverso un metodo popolare nella neuroscienza dei sistemi noto come Analisi di Similarità Rappresentazionale (RSA). A seconda del tipo di domande che poniamo e delle risposte che questi sistemi forniscono, mostreremo in quali casi i VLMs e gli esseri umani convergono o divergono, permettendoci di indagare sul loro allineamento cognitivo. Troviamo che il grado di allineamento varia significativamente a seconda del tipo di domande poste a ciascun tipo di sistema (esseri umani vs VLMs), evidenziando un divario nel loro allineamento.
In questo articolo presentiamo CineBrain, il primo dataset su larga scala che include registrazioni simultanee di EEG e fMRI durante stimolazione audiovisiva dinamica. Riconoscendo i punti di forza complementari dell'alta risoluzione temporale dell'EEG e della copertura spaziale profonda del cervello offerta dalla fMRI, CineBrain fornisce circa sei ore di contenuti narrativi tratti dalla popolare serie televisiva The Big Bang Theory per ciascuno dei sei partecipanti. Basandoci su questo dataset unico, proponiamo CineSync, un innovativo framework di decodifica multimodale che integra un Multi-Modal Fusion Encoder con un Neural Latent Decoder basato su diffusione. Il nostro approccio fonde efficacemente i segnali EEG e fMRI, migliorando significativamente la qualità della ricostruzione di stimoli audiovisivi complessi. Per facilitare una valutazione rigorosa, introduciamo Cine-Benchmark, un protocollo di valutazione completo che analizza le ricostruzioni attraverso dimensioni semantiche e percettive. I risultati sperimentali dimostrano che CineSync raggiunge prestazioni all'avanguardia nella ricostruzione video e sottolineano il nostro iniziale successo nel combinare fMRI ed EEG per ricostruire sia stimoli video che audio. Pagina del progetto: https://jianxgao.github.io/CineBrain.
I grandi modelli visione-linguaggio (LVLM) hanno dimostrato risultati notevoli, tuttavia la generazione di risposte non fattuali rimane prevalente nel question answering (QA) orientato ai fatti. Gli attuali benchmark multimodali per la ricerca di fatti si concentrano principalmente sul confronto tra le uscite dei modelli e le risposte di riferimento, fornendo informazioni limitate sulle prestazioni dei moduli specifici per ciascuna modalità. Per colmare questa lacuna, introduciamo VisualSimpleQA, un benchmark multimodale per la ricerca di fatti con due caratteristiche chiave. In primo luogo, consente una valutazione semplificata e disaccoppiata dei LVLM nelle modalità visiva e linguistica. In secondo luogo, incorpora criteri di difficoltà ben definiti per guidare l'annotazione umana e facilita l'estrazione di un sottoinsieme impegnativo, VisualSimpleQA-hard. Esperimenti su 15 LVLM mostrano che anche modelli all'avanguardia come GPT-4o raggiungono appena una correttezza del 60%+ nel QA multimodale orientato ai fatti su VisualSimpleQA e del 30%+ su VisualSimpleQA-hard. Inoltre, la valutazione disaccoppiata su questi modelli evidenzia ampie opportunità di miglioramento sia nei moduli visivi che linguistici. Il dataset è disponibile all'indirizzo https://huggingface.co/datasets/WYLing/VisualSimpleQA.
I benchmark sono essenziali per una valutazione coerente e la riproducibilità. L'integrazione dell'Intelligenza Artificiale nell'Ingegneria del Software (AI4SE) ha dato origine a numerosi benchmark per attività come la generazione di codice e la correzione di bug. Tuttavia, questa proliferazione presenta diverse sfide: (1) la conoscenza sui benchmark è dispersa tra diverse attività, (2) la difficoltà nella selezione di benchmark rilevanti, (3) l'assenza di uno standard uniforme per lo sviluppo dei benchmark e (4) le limitazioni dei benchmark esistenti. In questo articolo, esaminiamo 173 studi e identifichiamo 204 benchmark AI4SE. Classifichiamo questi benchmark, analizziamo le loro limitazioni e evidenziamo lacune nelle pratiche. Sulla base della nostra revisione, abbiamo creato BenchScout, uno strumento di ricerca semantica per trovare benchmark rilevanti, utilizzando il clustering automatico dei contesti derivanti dagli studi associati. Abbiamo condotto uno studio con 22 partecipanti per valutare l'usabilità, l'efficacia e l'intuitività di BenchScout, ottenendo punteggi medi di 4.5, 4.0 e 4.1 su 5. Per avanzare gli standard di benchmarking, proponiamo BenchFrame, un metodo unificato per migliorare la qualità dei benchmark. Come caso di studio, abbiamo applicato BenchFrame al benchmark HumanEval, affrontandone le principali limitazioni. Ciò ha portato a HumanEvalNext, che include (1) errori corretti, (2) una migliore conversione linguistica, (3) una copertura dei test ampliata e (4) una difficoltà aumentata. Abbiamo quindi valutato dieci modelli linguistici di codice all'avanguardia su HumanEval, HumanEvalPlus e HumanEvalNext. Su HumanEvalNext, i modelli hanno mostrato una riduzione del punteggio pass@1 del 31.22% e del 19.94% rispetto a HumanEval e HumanEvalPlus, rispettivamente.
I neuroni nei grandi modelli linguistici spesso presentano polisemanticità, codificando simultaneamente più concetti non correlati e oscurando l'interpretabilità. Invece di affidarci a metodi post-hoc, presentiamo MoE-X, un modello linguistico Mixture-of-Experts (MoE) progettato per essere intrinsecamente interpretabile. Il nostro approccio è motivato dall'osservazione che, nei modelli linguistici, reti più ampie con attivazioni sparse hanno maggiori probabilità di catturare fattori interpretabili. Tuttavia, addestrare direttamente tali reti sparse di grandi dimensioni è computazionalmente proibitivo. Le architetture MoE offrono un'alternativa scalabile attivando solo un sottoinsieme di esperti per ogni input, allineandosi intrinsecamente con gli obiettivi di interpretabilità. In MoE-X, stabiliamo questa connessione riscrivendo il livello MoE come un equivalente MLP sparso e di grandi dimensioni. Questo approccio consente una scalabilità efficiente della dimensione nascosta mantenendo la sparsità. Per migliorare ulteriormente l'interpretabilità, imponiamo un'attivazione sparsa all'interno di ogni esperto e ridisegniamo il meccanismo di routing per dare priorità agli esperti con la massima sparsità di attivazione. Questi progetti garantiscono che solo le caratteristiche più salienti vengano instradate e elaborate dagli esperti. Valutiamo MoE-X su compiti di scacchi e linguaggio naturale, dimostrando che raggiunge prestazioni comparabili ai modelli densi migliorando significativamente l'interpretabilità. MoE-X ottiene una perplessità migliore rispetto a GPT-2, con un'interpretabilità che supera persino gli approcci basati su autoencoder sparsi (SAE).
La generazione congiunta audio-video (AV) rimane una sfida significativa nell'ambito dell'IA generativa, principalmente a causa di tre requisiti critici: la qualità dei campioni generati, la sincronizzazione multimodale e la coerenza temporale, con tracce audio che corrispondano ai dati visivi e viceversa, e una durata illimitata del video. In questo articolo, presentiamo , una nuova architettura basata su transformer che affronta tutte le principali sfide della generazione AV. Esploriamo tre distinti moduli di interazione cross-modale, con il nostro modulo leggero di fusione temporale che si rivela l'approccio più efficace e computazionalmente efficiente per allineare le modalità audio e visive. I nostri risultati sperimentali dimostrano che supera i modelli state-of-the-art esistenti nei compiti di generazione multimodale AV. Il nostro codice e i checkpoint sono disponibili all'indirizzo https://github.com/ErgastiAlex/R-FLAV.
Nonostante i recenti progressi nell'interpolazione del movimento basata sull'apprendimento, una limitazione fondamentale è stata trascurata: la necessità di dataset specifici per ciascun personaggio. In questo lavoro, introduciamo AnyMoLe, un metodo innovativo che affronta questa limitazione sfruttando modelli di diffusione video per generare frame intermedi di movimento per personaggi arbitrari senza dati esterni. Il nostro approccio utilizza un processo di generazione dei frame in due fasi per migliorare la comprensione contestuale. Inoltre, per colmare il divario tra animazioni di personaggi del mondo reale e renderizzati, introduciamo ICAdapt, una tecnica di fine-tuning per modelli di diffusione video. Proponiamo inoltre una tecnica di ottimizzazione di "imitazione movimento-video", che consente una generazione fluida del movimento per personaggi con strutture articolari arbitrarie utilizzando caratteristiche 2D e 3D. AnyMoLe riduce significativamente la dipendenza dai dati mentre genera transizioni fluide e realistiche, rendendolo applicabile a un'ampia gamma di task di interpolazione del movimento.
Studi precedenti hanno stabilito che i modelli linguistici manifestano pregiudizi stereotipati. Le strategie esistenti per ridurre i pregiudizi, come il riaddestramento di un modello con dati controfattuali, la proiezione delle rappresentazioni e il prompting, spesso non riescono a eliminare i pregiudizi in modo efficiente o a modificare direttamente le rappresentazioni interne distorte dei modelli. Per affrontare questi problemi, proponiamo BiasEdit, un metodo efficiente di modifica del modello per rimuovere i pregiudizi stereotipati dai modelli linguistici attraverso reti leggere che agiscono come editor per generare aggiornamenti dei parametri. BiasEdit utilizza una funzione di perdita per la riduzione dei pregiudizi che guida le reti editoriali a eseguire modifiche locali su una parte dei parametri di un modello linguistico per ridurre i pregiudizi, preservando al contempo le capacità di modellazione linguistica durante la modifica attraverso una funzione di perdita di conservazione. Esperimenti su StereoSet e Crows-Pairs dimostrano l'efficacia, l'efficienza e la robustezza di BiasEdit nell'eliminare i pregiudizi rispetto ai metodi di riduzione dei pregiudizi tangenziali, con un impatto minimo o nullo sulle capacità generali dei modelli linguistici. Inoltre, conduciamo una tracciatura dei pregiudizi per esplorare i pregiudizi in vari moduli e analizzare gli impatti della modifica dei pregiudizi su diverse componenti dei modelli linguistici.
Gli esseri umani sono senza dubbio i partecipanti più importanti nella visione artificiale, e la capacità di rilevare qualsiasi individuo data una descrizione in linguaggio naturale, un compito che definiamo come riferirsi a qualsiasi persona, ha un valore pratico sostanziale. Tuttavia, scopriamo che i modelli esistenti generalmente non riescono a raggiungere una reale usabilità nel mondo reale, e i benchmark attuali sono limitati dal loro focus sul riferimento uno-a-uno, che ostacola i progressi in questo settore. In questo lavoro, riprendiamo in esame questo compito da tre prospettive critiche: definizione del compito, progettazione del dataset e architettura del modello. Per prima cosa, identifichiamo cinque aspetti delle entità riferibili e tre caratteristiche distintive di questo compito. Successivamente, introduciamo HumanRef, un nuovo dataset progettato per affrontare queste sfide e riflettere meglio le applicazioni del mondo reale. Dal punto di vista della progettazione del modello, integriamo un modello linguistico multimodale di grandi dimensioni con un framework di rilevamento di oggetti, costruendo un robusto modello di riferimento denominato RexSeek. I risultati sperimentali rivelano che i modelli all'avanguardia, che performano bene su benchmark comunemente utilizzati come RefCOCO/+/g, hanno difficoltà con HumanRef a causa della loro incapacità di rilevare più individui. Al contrario, RexSeek non solo eccelle nel riferimento umano, ma si generalizza efficacemente anche al riferimento di oggetti comuni, rendendolo ampiamente applicabile a varie attività di percezione. Il codice è disponibile all'indirizzo https://github.com/IDEA-Research/RexSeek.
I modelli di diffusione e il Flow Matching generano campioni di alta qualità ma sono lenti nell'inferenza, e la loro distillazione in modelli a pochi passi spesso porta a instabilità e a un'estesa ottimizzazione. Per risolvere questi compromessi, proponiamo l'Inductive Moment Matching (IMM), una nuova classe di modelli generativi per il campionamento in uno o pochi passi con una procedura di addestramento in un'unica fase. A differenza della distillazione, l'IMM non richiede un'inizializzazione pre-addestrata e l'ottimizzazione di due reti; e a differenza dei Consistency Models, l'IMM garantisce la convergenza a livello di distribuzione e rimane stabile con vari iperparametri e architetture di modelli standard. L'IMM supera i modelli di diffusione su ImageNet-256x256 con un FID di 1,99 utilizzando solo 8 passi di inferenza e raggiunge uno stato dell'arte con un FID a 2 passi di 1,98 su CIFAR-10 per un modello addestrato da zero.
Studi precedenti hanno riscontrato che i modelli di recupero basati su PLM (Pre-trained Language Models) mostrano una preferenza per i contenuti generati da LLM (Large Language Models), assegnando punteggi di rilevanza più elevati a questi documenti anche quando la loro qualità semantica è paragonabile a quella dei testi scritti da esseri umani. Questo fenomeno, noto come bias di origine, minaccia lo sviluppo sostenibile dell'ecosistema di accesso alle informazioni. Tuttavia, le cause sottostanti al bias di origine rimangono inesplorate. In questo articolo, spieghiamo il processo di recupero delle informazioni utilizzando un grafo causale e scopriamo che i sistemi di recupero basati su PLM apprendono caratteristiche di perplessità per la stima della rilevanza, causando il bias di origine classificando più in alto i documenti con bassa perplessità. L'analisi teorica rivela ulteriormente che il fenomeno deriva dalla correlazione positiva tra i gradienti delle funzioni di perdita nel task di modellazione del linguaggio e nel task di recupero. Sulla base di questa analisi, viene proposto un metodo di debiasing ispirato alla causalità da applicare al momento dell'inferenza, chiamato Causal Diagnosis and Correction (CDC). CDC prima diagnostica l'effetto del bias della perplessità e poi separa tale effetto dal punteggio complessivo di rilevanza stimato. I risultati sperimentali in tre diversi domini dimostrano l'efficacia superiore di CDC nel ridurre il bias, sottolineando la validità del nostro framework esplicativo proposto. I codici sorgente sono disponibili all'indirizzo https://github.com/WhyDwelledOnAi/Perplexity-Trap.
I modelli di diffusione hanno ottenuto un successo notevole in vari domini. Tuttavia, la loro lentezza nella generazione rimane una sfida critica. I metodi di accelerazione esistenti, pur mirando a ridurre i passaggi, spesso compromettono la qualità del campione, la controllabilità o introducono complessità nell'addestramento. Pertanto, proponiamo RayFlow, un nuovo framework di diffusione che affronta queste limitazioni. A differenza dei metodi precedenti, RayFlow guida ogni campione lungo un percorso unico verso una distribuzione target specifica per l'istanza. Questo metodo minimizza i passaggi di campionamento preservando la diversità e la stabilità della generazione. Inoltre, introduciamo Time Sampler, una tecnica di campionamento per importanza che migliora l'efficienza dell'addestramento concentrandosi sugli intervalli di tempo cruciali. Esperimenti estesi dimostrano la superiorità di RayFlow nella generazione di immagini di alta qualità con una velocità, controllo ed efficienza di addestramento migliorati rispetto alle tecniche di accelerazione esistenti.
Il campo della traduzione automatica neurale (NMT) è cambiato con l'avvento dei grandi modelli linguistici (LLM). Gran parte dell'attenzione recente nell'elaborazione del linguaggio naturale (NLP) si è concentrata sulla modellazione della traduzione automatica e di molti altri problemi utilizzando un singolo decoder Transformer pre-addestrato, mentre le architetture encoder-decoder, che erano lo standard nei precedenti modelli NMT, hanno ricevuto relativamente meno attenzione. In questo articolo, esploriamo modelli di traduzione che siano universali, efficienti e facili da ottimizzare, unendo il mondo degli LLM con quello della NMT. Applichiamo gli LLM alla codifica NMT e lasciamo invariato il decoder NMT. Sviluppiamo inoltre metodi per adattare gli LLM a funzionare meglio con il decoder NMT. Inoltre, costruiamo un nuovo dataset che coinvolge più compiti per valutare quanto bene il sistema di traduzione automatica si generalizza su vari compiti. Le valutazioni sui dataset WMT e sui nostri dataset mostrano che i risultati ottenuti con il nostro metodo eguagliano o superano una gamma di baseline in termini di qualità della traduzione, ma raggiungono un'accelerazione dell'inferenza di 2,4 ∼ 6,5 volte e una riduzione del 75% dell'impronta di memoria della cache KV. Dimostra anche una forte generalizzazione su una varietà di compiti legati alla traduzione.
I recenti progressi nella comprensione di video lunghi mitigano tipicamente la ridondanza visiva attraverso la potatura di token visivi basata sulla distribuzione dell'attenzione. Tuttavia, mentre i metodi esistenti impiegano una potatura post-hoc dei token a bassa risposta negli strati del decoder, trascurano la correlazione semantica a livello di input tra i token visivi e le istruzioni (query). In questo articolo, proponiamo QuoTA, un modulo ante-hoc senza necessità di addestramento che estende i modelli linguistico-visuali di grandi dimensioni (LVLM) esistenti per l'assegnazione di token visivi basata su una valutazione dell'importanza a livello di frame orientata alla query. La selezione dei token orientata alla query è cruciale in quanto allinea l'elaborazione visiva con i requisiti specifici del compito, ottimizzando l'utilizzo del budget di token preservando il contenuto semanticamente rilevante. Nello specifico, (i) QuoTA assegna strategicamente punteggi di importanza a livello di frame basati sulla rilevanza della query, consentendo un'assegnazione una tantum dei token visivi prima delle interazioni cross-modali negli strati del decoder, (ii) scomponiamo la query attraverso il ragionamento a catena di pensieri (Chain-of-Thoughts) per facilitare una valutazione più precisa dell'importanza dei frame basata su LVLM, e (iii) QuoTA offre una funzionalità plug-and-play che si estende agli LVLM esistenti. I risultati sperimentali estesi dimostrano che l'implementazione di QuoTA con LLaVA-Video-7B produce un miglioramento medio delle prestazioni del 3,2% su sei benchmark (inclusi Video-MME e MLVU) operando con un budget identico di token visivi rispetto alla baseline. I codici sono open-source all'indirizzo https://github.com/MAC-AutoML/QuoTA.
Per quanto possa sembrare semplice, spostare un oggetto in un'altra posizione all'interno di un'immagine è, in realtà, un compito di editing delle immagini impegnativo che richiede la riarmonizzazione dell'illuminazione, l'adeguamento della posa in base alla prospettiva, il riempimento accurato delle regioni occluse e la sincronizzazione coerente di ombre e riflessi, mantenendo al contempo l'identità dell'oggetto. In questo articolo, presentiamo ObjectMover, un modello generativo in grado di eseguire lo spostamento di oggetti in scene altamente complesse. La nostra intuizione chiave è modellare questo compito come un problema sequenza-a-sequenza e perfezionare un modello di generazione video per sfruttare la sua conoscenza della generazione coerente di oggetti tra i fotogrammi video. Dimostriamo che, con questo approccio, il nostro modello è in grado di adattarsi a scenari real-world complessi, gestendo l'armonizzazione di illuminazioni estreme e il movimento degli effetti degli oggetti. Poiché non sono disponibili dati su larga scala per lo spostamento di oggetti, costruiamo una pipeline di generazione dati utilizzando un moderno motore di gioco per sintetizzare coppie di dati di alta qualità. Proponiamo inoltre una strategia di apprendimento multi-task che consente l'addestramento su dati video real-world per migliorare la generalizzazione del modello. Attraverso esperimenti estesi, dimostriamo che ObjectMover ottiene risultati eccezionali e si adatta bene a scenari real-world.
La Mixture of Experts (MoE) è un'architettura efficace per scalare modelli linguistici di grandi dimensioni sfruttando l'attivazione sparsa degli esperti, ottimizzando il compromesso tra prestazioni ed efficienza. Tuttavia, in condizioni di parallelismo degli esperti, la MoE soffre di inefficienze nell'inferenza a causa di un'assegnazione sbilanciata dei token agli esperti, dove alcuni esperti sono sovraccaricati mentre altri rimangono sottoutilizzati. Questo squilibrio porta a una scarsa utilizzazione delle risorse e a un aumento della latenza, poiché l'esperto più carico determina il ritardo complessivo, un fenomeno che definiamo come \textit{Effetto Straggler}. Per mitigare questo problema, proponiamo l'Inferenza Consapevole della Capacità, che include due tecniche chiave: (1) \textit{Token Drop Consapevole della Capacità}, che scarta i token sovraccaricati per regolare la latenza massima della MoE, e (2) \textit{Token Reroute Consapevole della Capacità}, che riassegna i token in eccesso agli esperti sottoutilizzati, bilanciando la distribuzione dei token. Queste tecniche ottimizzano collettivamente sia l'utilizzo degli esperti ad alto carico che quelli a basso carico, portando a una pipeline di inferenza MoE più efficiente. Esperimenti estensivi dimostrano l'efficacia dei nostri metodi, mostrando miglioramenti significativi nell'efficienza dell'inferenza, ad esempio un aumento medio delle prestazioni dello 0,2\% e un'accelerazione dell'inferenza di 1,94 volte su Mixtral-8x7B-Instruct.
I modelli di retrieval denso sono comunemente utilizzati nelle applicazioni di Information Retrieval (IR), come il Retrieval-Augmented Generation (RAG). Poiché spesso rappresentano il primo passo in questi sistemi, la loro robustezza è fondamentale per evitare fallimenti. In questo lavoro, riutilizzando un dataset di estrazione di relazioni (ad esempio Re-DocRED), progettiamo esperimenti controllati per quantificare l'impatto di bias euristici, come la preferenza per documenti più brevi, in retriever come Dragon+ e Contriever. I nostri risultati rivelano vulnerabilità significative: i retriever spesso si affidano a pattern superficiali come la sovrappriorizzazione degli inizi dei documenti, documenti più corti, entità ripetute e corrispondenze letterali. Inoltre, tendono a trascurare se il documento contenga la risposta alla query, mancando di una comprensione semantica profonda. In modo particolare, quando più bias si combinano, i modelli mostrano un degrado catastrofico delle prestazioni, selezionando il documento contenente la risposta in meno del 3% dei casi rispetto a un documento distorto senza la risposta. Inoltre, dimostriamo che questi bias hanno conseguenze dirette per applicazioni downstream come il RAG, dove i documenti preferiti dal retrieval possono fuorviare i LLM, causando un calo del 34% delle prestazioni rispetto al non fornire alcun documento.
L'intelligenza è un tratto cruciale per le specie nel trovare soluzioni entro un numero limitato di tentativi ed errori. Basandoci su questa idea, introduciamo il Survival Game come framework per valutare l'intelligenza in base al numero di tentativi falliti in un processo di prova ed errore. Un minor numero di fallimenti indica un'intelligenza superiore. Quando sia l'aspettativa che la varianza del numero di fallimenti sono finite, ciò segnala la capacità di trovare costantemente soluzioni a nuove sfide, che definiamo come Livello Autonomo di intelligenza. Utilizzando il Survival Game, valutiamo in modo completo i sistemi di IA esistenti. I nostri risultati mostrano che, sebbene i sistemi di IA raggiungano il Livello Autonomo in compiti semplici, sono ancora lontani dal raggiungerlo in compiti più complessi, come la visione, la ricerca, la raccomandazione e il linguaggio. Sebbene il ridimensionamento delle attuali tecnologie di IA potrebbe aiutare, ciò comporterebbe un costo astronomico. Le proiezioni suggeriscono che il raggiungimento del Livello Autonomo per compiti generali richiederebbe 10^{26} parametri. Per dare un'idea, caricare un modello così massiccio richiederebbe così tante GPU H100 che il loro valore totale sarebbe 10^{7} volte il valore di mercato di Apple Inc. Anche con la legge di Moore, supportare una scala di parametri così ampia richiederebbe 70 anni. Questo costo sbalorditivo evidenzia la complessità dei compiti umani e le inadeguatezze delle attuali tecnologie di IA. Per approfondire questo fenomeno, conduciamo un'analisi teorica del Survival Game e dei suoi risultati sperimentali. Le nostre scoperte suggeriscono che i compiti umani possiedono una proprietà di criticità. Di conseguenza, il Livello Autonomo richiede una profonda comprensione dei meccanismi sottostanti del compito. Tuttavia, gli attuali sistemi di IA non comprendono appieno questi meccanismi e si affidano invece a una mera imitazione superficiale, rendendo difficile per loro raggiungere un livello autonomo. Crediamo che il Survival Game non solo possa guidare lo sviluppo futuro dell'IA, ma offra anche profonde intuizioni sull'intelligenza umana.
Le uscite allucinate dei modelli linguistici rappresentano un rischio nel dominio medico, in particolare per il pubblico non specializzato che prende decisioni relative alla salute. I metodi esistenti di valutazione della fattualità, come quelli basati sull'implicazione e sul question answering (QA), faticano con la generazione di riassunti in linguaggio semplice (PLS) a causa del fenomeno delle spiegazioni elaborate, che introduce contenuti esterni (ad esempio, definizioni, contesto, esempi) assenti dal documento originale per migliorare la comprensione. Per affrontare questo problema, introduciamo PlainQAFact, un framework addestrato su un dataset annotato manualmente e granulare, PlainFact, per valutare la fattualità sia delle frasi semplificate dalla fonte che di quelle spiegate in modo elaborato. PlainQAFact prima classifica il tipo di fattualità e poi valuta la fattualità utilizzando un metodo di punteggio basato su QA arricchito con il recupero di informazioni. Il nostro approccio è leggero e computazionalmente efficiente. I risultati empirici mostrano che le metriche di fattualità esistenti non riescono a valutare efficacemente la fattualità nei PLS, specialmente per le spiegazioni elaborate, mentre PlainQAFant raggiunge prestazioni all'avanguardia. Analizziamo ulteriormente la sua efficacia attraverso fonti di conoscenza esterne, strategie di estrazione delle risposte, misure di sovrapposizione e livelli di granularità dei documenti, affinando la sua valutazione complessiva della fattualità.
Le preoccupazioni relative alla privacy legate al numero crescente di telecamere sono in aumento nell'era digitale odierna. Sebbene i metodi di anonimizzazione esistenti siano in grado di oscurare le informazioni sull'identità, spesso faticano a preservare l'utilità delle immagini. In questo lavoro, introduciamo un metodo per l'anonimizzazione del volto che non richiede addestramento e preserva gli attributi chiave non legati all'identità. Il nostro approccio utilizza un modello di diffusione pre-addestrato da testo a immagine senza necessità di ottimizzazione o addestramento. Inizia invertendo l'immagine di input per recuperare il rumore iniziale. Il rumore viene poi denoisato attraverso un processo di diffusione condizionato dall'identità, in cui gli embedding di identità modificati garantiscono che il volto anonimizzato sia distinto dall'identità originale. Il nostro approccio supporta anche l'anonimizzazione localizzata, dando agli utenti il controllo su quali regioni del volto anonimizzare o mantenere intatte. Valutazioni complete rispetto ai metodi più avanzati dimostrano che il nostro approccio eccelle in anonimizzazione, preservazione degli attributi e qualità dell'immagine. La sua flessibilità, robustezza e praticità lo rendono adatto per applicazioni nel mondo reale. Codice e dati sono disponibili all'indirizzo https://github.com/hanweikung/nullface.
Negli ultimi anni si sono registrati significativi progressi nei modelli di base attraverso il pre-training generativo, tuttavia l'innovazione algoritmica in questo ambito si è in gran parte arenata attorno ai modelli autoregressivi per segnali discreti e ai modelli di diffusione per segnali continui. Questa stagnazione crea un collo di bottiglia che ci impedisce di sbloccare appieno il potenziale dei dati multimodali ricchi, limitando di conseguenza i progressi nell'intelligenza multimodale. Sosteniamo che una prospettiva incentrata sull'inferenza, che privilegi l'efficienza di scalabilità durante il tempo di inferenza attraverso la lunghezza della sequenza e i passaggi di raffinamento, possa ispirare nuovi algoritmi di pre-training generativo. Utilizzando l'Inductive Moment Matching (IMM) come esempio concreto, dimostriamo come affrontare le limitazioni nel processo di inferenza dei modelli di diffusione attraverso modifiche mirate porti a un algoritmo stabile e a singolo stadio che raggiunge una qualità campionaria superiore con un'efficienza di inferenza oltre un ordine di grandezza maggiore.
I modelli Vision-Language-Action (VLA) mirano a prevedere le azioni robotiche basandosi su osservazioni visive e istruzioni linguistiche. Gli approcci esistenti richiedono il fine-tuning di modelli pre-addestrati visione-linguaggio (VLMs), poiché le caratteristiche visive e linguistiche vengono alimentate separatamente nelle politiche downstream, degradando gli allineamenti semantici pre-addestrati. Proponiamo OTTER, una nuova architettura VLA che sfrutta questi allineamenti esistenti attraverso un'estrazione esplicita e consapevole del testo delle caratteristiche visive. Invece di elaborare tutte le caratteristiche visive, OTTER seleziona ed estrae solo le caratteristiche visive rilevanti per il compito, allineate semanticamente con l'istruzione linguistica, e le passa al trasformatore della politica. Ciò consente a OTTER di mantenere congelati gli encoder visione-linguaggio pre-addestrati. In questo modo, OTTER preserva e utilizza la ricca comprensione semantica appresa durante il pre-addestramento su larga scala, abilitando forti capacità di generalizzazione zero-shot. In esperimenti di simulazione e nel mondo reale, OTTER supera significativamente i modelli VLA esistenti, dimostrando una forte generalizzazione zero-shot a nuovi oggetti e ambienti. Video, codice, checkpoint e dataset: https://ottervla.github.io/.