Articoli di ricerca IA selezionati quotidianamente con traduzioni
I LLM e i sistemi RAG sono ora in grado di gestire milioni di token di input o più. Tuttavia, valutare la qualità dell'output di tali sistemi su compiti a lungo contesto rimane una sfida, poiché compiti come Needle-in-a-Haystack mancano di complessità. In questo lavoro, sosteniamo che la sintesi può svolgere un ruolo centrale in tale valutazione. Progettiamo una procedura per sintetizzare Haystack di documenti, assicurandoci che specifiche informazioni si ripetano tra i documenti. Il compito "Summary of a Haystack" (SummHay) richiede quindi a un sistema di elaborare l'Haystack e generare, data una query, una sintesi che identifichi le informazioni rilevanti e citi precisamente i documenti sorgente. Poiché abbiamo una conoscenza precisa di quali informazioni dovrebbero apparire in una sintesi dell'Haystack e quali documenti dovrebbero essere citati, implementiamo una valutazione automatica altamente riproducibile che può assegnare punteggi alle sintesi su due aspetti: Copertura e Citazione. Generiamo Haystack in due domini (conversazione, notizie) e eseguiamo una valutazione su larga scala di 10 LLM e i corrispondenti 50 sistemi RAG. I nostri risultati indicano che SummHay è una sfida aperta per i sistemi attuali, poiché anche i sistemi forniti con un segnale Oracle di rilevanza del documento rimangono al di sotto della nostra stima delle prestazioni umane (56%) di oltre 10 punti su un Punteggio Congiunto. Senza un retriever, LLM a lungo contesto come GPT-4o e Claude 3 Opus ottengono punteggi inferiori al 20% su SummHay. Mostriamo che SummHay può anche essere utilizzato per studiare i sistemi RAG aziendali e il bias di posizione nei modelli a lungo contesto. Speriamo che i sistemi futuri possano eguagliare e superare le prestazioni umane su SummHay.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno significativamente avanzato l'automazione delle attività di sviluppo software, inclusa la sintesi del codice, la riparazione dei programmi e la generazione di test. Più recentemente, ricercatori e professionisti del settore hanno sviluppato vari agenti LLM autonomi per eseguire attività di sviluppo software end-to-end. Questi agenti sono dotati della capacità di utilizzare strumenti, eseguire comandi, osservare feedback dall'ambiente e pianificare azioni future. Tuttavia, la complessità di questi approcci basati su agenti, insieme alle capacità limitate degli attuali LLM, solleva la seguente domanda: Dobbiamo davvero impiegare complessi agenti software autonomi? Per tentare di rispondere a questa domanda, abbiamo costruito Agentless – un approccio senza agenti per risolvere automaticamente problemi di sviluppo software. Rispetto alla configurazione verbosa e complessa degli approcci basati su agenti, Agentless impiega un processo semplificato in due fasi di localizzazione seguita da riparazione, senza lasciare che l'LLM decida azioni future o operi con strumenti complessi. I nostri risultati sul popolare benchmark SWE-bench Lite mostrano che, sorprendentemente, il semplice Agentless è in grado di ottenere sia le migliori prestazioni (27,33%) che il costo più basso (\$0,34) rispetto a tutti gli agenti software open-source esistenti! Inoltre, abbiamo classificato manualmente i problemi in SWE-bench Lite e abbiamo identificato problemi con patch di verità assoluta esatta o descrizioni di problemi insufficienti/fuorvianti. Pertanto, abbiamo costruito SWE-bench Lite-S escludendo tali problemi problematici per eseguire una valutazione e un confronto più rigorosi. Il nostro lavoro evidenzia il potenziale attualmente trascurato di una tecnica semplice e interpretabile nello sviluppo software autonomo. Speriamo che Agentless aiuti a ripristinare la linea di base, il punto di partenza e l'orizzonte per gli agenti software autonomi, e ispiri futuri lavori lungo questa direzione cruciale.
La generazione di video da testo (Text-to-Video, T2V) ha recentemente attirato un'attenzione significativa grazie al modello multimodale di grandi dimensioni Sora. Tuttavia, la generazione T2V deve ancora affrontare due importanti sfide: 1) La mancanza di un dataset open source di alta qualità e preciso. I precedenti dataset video popolari, come WebVid-10M e Panda-70M, sono di bassa qualità o troppo grandi per la maggior parte delle istituzioni di ricerca. Pertanto, è impegnativo ma cruciale raccogliere coppie testo-video precise e di alta qualità per la generazione T2V. 2) La mancata piena utilizzazione delle informazioni testuali. I recenti metodi T2V si sono concentrati sui transformer visivi, utilizzando un semplice modulo di cross attention per la generazione di video, che non riesce a estrarre a fondo le informazioni semantiche dal prompt testuale. Per affrontare questi problemi, introduciamo OpenVid-1M, un dataset preciso e di alta qualità con didascalie espressive. Questo dataset in scenario aperto contiene oltre 1 milione di coppie testo-video, facilitando la ricerca sulla generazione T2V. Inoltre, selezioniamo 433K video in 1080p da OpenVid-1M per creare OpenVidHD-0.4M, avanzando nella generazione di video ad alta definizione. In aggiunta, proponiamo un nuovo Multi-modal Video Diffusion Transformer (MVDiT) in grado di estrarre sia le informazioni strutturali dai token visivi che le informazioni semantiche dai token testuali. Esperimenti estesi e studi di ablazione verificano la superiorità di OpenVid-1M rispetto ai precedenti dataset e l'efficacia del nostro MVDiT.
Le sfide computazionali dell'inferenza dei Large Language Model (LLM) rimangono un ostacolo significativo alla loro diffusione su larga scala, specialmente con l'aumento continuo della lunghezza dei prompt. A causa della complessità quadratica del calcolo dell'attenzione, un LLM da 8B impiega 30 minuti per elaborare un prompt di 1M token (ovvero la fase di pre-riempimento) su una singola GPU A100. I metodi esistenti per accelerare il pre-riempimento spesso non riescono a mantenere un'accuratezza o un'efficienza accettabili quando applicati a LLM con contesti lunghi. Per colmare questa lacuna, introduciamo MInference (Milliontokens Inference), un metodo di calcolo sparso progettato per accelerare il pre-riempimento nell'elaborazione di sequenze lunghe. In particolare, identifichiamo tre pattern unici nelle matrici di attenzione per contesti lunghi—la forma a A, la barra verticale e la sparsità a blocchi—che possono essere sfruttati per un calcolo sparso efficiente sulle GPU. Determiniamo il pattern ottimale per ogni testa di attenzione offline e costruiamo dinamicamente indici sparsi basati sul pattern assegnato durante l'inferenza. Con il pattern e gli indici sparsi, eseguiamo calcoli di attenzione sparsa efficienti tramite i nostri kernel GPU ottimizzati, riducendo significativamente la latenza nella fase di pre-riempimento degli LLM con contesti lunghi. La nostra tecnica proposta può essere applicata direttamente agli LLM esistenti senza alcuna modifica alla configurazione di pre-training o ulteriori fine-tuning. Valutando su un'ampia gamma di task downstream, tra cui InfiniteBench, RULER, PG-19 e Needle In A Haystack, e modelli come LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K e Qwen2-128K, dimostriamo che MInference riduce efficacemente la latenza di inferenza fino a 10x per il pre-riempimento su una A100, mantenendo l'accuratezza. Il nostro codice è disponibile all'indirizzo https://aka.ms/MInference.
L'allineamento delle preferenze è diventato un componente cruciale per migliorare le prestazioni dei Large Language Models (LLM), tuttavia il suo impatto nei Multimodal Large Language Models (MLLM) rimane relativamente poco esplorato. Similmente ai modelli linguistici, gli MLLM per compiti di comprensione delle immagini affrontano sfide come l'allucinazione. Negli MLLM, l'allucinazione può verificarsi non solo affermando fatti errati, ma anche producendo risposte incoerenti con il contenuto dell'immagine. Un obiettivo primario dell'allineamento per gli MLLM è incoraggiare questi modelli ad allineare le risposte più strettamente con le informazioni dell'immagine. Recentemente, numerosi lavori hanno introdotto dataset di preferenze per gli MLLM e hanno esaminato diversi metodi di allineamento, tra cui Direct Preference Optimization (DPO) e Proximal Policy Optimization (PPO). Tuttavia, a causa delle variazioni nei dataset, nei tipi di modelli di base e nei metodi di allineamento, non è chiaro quali elementi specifici contribuiscano in modo più significativo ai miglioramenti riportati in questi lavori. In questo articolo, analizziamo indipendentemente ogni aspetto dell'allineamento delle preferenze negli MLLM. Iniziamo categorizzando gli algoritmi di allineamento in due gruppi, offline (come DPO) e online (come online-DPO), e dimostriamo che combinare metodi offline e online può migliorare le prestazioni del modello in determinati scenari. Esaminiamo una varietà di dataset di preferenze multimodali pubblicati e discutiamo come i dettagli della loro costruzione influenzino le prestazioni del modello. Sulla base di queste intuizioni, introduciamo un nuovo metodo per creare dati di preferenze multimodali chiamato Bias-Driven Hallucination Sampling (BDHS) che non richiede né annotazioni aggiuntive né modelli esterni, e dimostriamo che può raggiungere prestazioni competitive rispetto ai lavori di allineamento precedentemente pubblicati per modelli multimodali su una gamma di benchmark.
Presentiamo Magic Insert, un metodo per trascinare e rilasciare soggetti da un'immagine fornita dall'utente in un'immagine target di uno stile diverso in modo fisicamente plausibile, adattandosi allo stile dell'immagine target. Questo lavoro formalizza il problema del trascinamento e rilascio consapevole dello stile e propone un metodo per affrontarlo risolvendo due sotto-problemi: personalizzazione consapevole dello stile e inserimento realistico di oggetti in immagini stilizzate. Per la personalizzazione consapevole dello stile, il nostro metodo prima ottimizza un modello di diffusione testo-immagine preaddestrato utilizzando LoRA e token testuali appresi sull'immagine del soggetto, per poi arricchirlo con una rappresentazione CLIP dello stile target. Per l'inserimento di oggetti, utilizziamo l'Adattamento di Dominio con Bootstrapping per adattare un modello specifico di inserimento fotorealistico di oggetti al dominio di stili artistici diversi. Nel complesso, il metodo supera significativamente approcci tradizionali come l'inpainting. Infine, presentiamo un dataset, SubjectPlop, per facilitare la valutazione e i progressi futuri in questo ambito. Pagina del progetto: https://magicinsert.github.io/
Il Flow Matching (FM) è un framework generale per definire percorsi probabilistici attraverso Equazioni Differenziali Ordinarie (ODE) per trasformare campioni di rumore in dati. Recenti approcci cercano di raddrizzare queste traiettorie di flusso per generare campioni di alta qualità con un minor numero di valutazioni di funzioni, tipicamente attraverso metodi di rettifica iterativa o soluzioni di trasporto ottimale. In questo articolo, introduciamo il Consistency Flow Matching (Consistency-FM), un nuovo metodo FM che impone esplicitamente l'autoconsistenza nel campo di velocità. Il Consistency-FM definisce direttamente flussi rettilinei che partono da tempi diversi verso lo stesso punto finale, imponendo vincoli sui loro valori di velocità. Inoltre, proponiamo un approccio di addestramento multi-segmento per il Consistency-FM per migliorare l'espressività, ottenendo un migliore compromesso tra qualità di campionamento e velocità. Esperimenti preliminari dimostrano che il nostro Consistency-FM migliora significativamente l'efficienza dell'addestramento, convergendo 4,4 volte più velocemente rispetto ai modelli di consistenza e 1,7 volte più velocemente rispetto ai modelli di flusso rettificato, raggiungendo al contempo una migliore qualità di generazione. Il nostro codice è disponibile all'indirizzo: https://github.com/YangLing0818/consistency_flow_matching
I Large Language Model (LLM) addestrati su ampi corpora inevitabilmente conservano dati sensibili, come informazioni personali private e materiale protetto da copyright. I recenti progressi nell'eliminazione della conoscenza comportano l'aggiornamento dei parametri dei LLM per cancellare specifiche conoscenze. Tuttavia, gli attuali paradigmi di eliminazione sono ostacolati da confini di dimenticanza vaghi, spesso cancellando la conoscenza in modo indiscriminato. In questo lavoro, introduciamo KnowUnDo, un benchmark contenente domini di contenuti protetti da copyright e privacy degli utenti per valutare se il processo di eliminazione cancella involontariamente conoscenze essenziali. I nostri risultati indicano che i metodi di eliminazione esistenti spesso soffrono di un'eccessiva cancellazione. Per affrontare questo problema, proponiamo un metodo semplice ma efficace, MemFlex, che utilizza le informazioni sul gradiente per individuare e cancellare con precisione i parametri sensibili. I risultati sperimentali mostrano che MemFlex è superiore ai metodi esistenti sia nella precisa eliminazione della conoscenza che nel mantenimento della conoscenza generale dei LLM. Il codice e il dataset saranno rilasciati su https://github.com/zjunlp/KnowUnDo.
Scoprire valori e opinioni latenti nei grandi modelli linguistici (LLM) può aiutare a identificare pregiudizi e mitigare potenziali danni. Recentemente, questo è stato affrontato presentando agli LLM domande di sondaggio e quantificando le loro posizioni rispetto a dichiarazioni di natura morale e politica. Tuttavia, le posizioni generate dagli LLM possono variare notevolmente a seconda di come vengono sollecitati, e ci sono molti modi per argomentare a favore o contro una determinata posizione. In questo lavoro, proponiamo di affrontare questo problema analizzando un ampio e robusto dataset di 156k risposte di LLM alle 62 proposizioni del Political Compass Test (PCT) generate da 6 LLM utilizzando 420 variazioni di prompt. Eseguiamo un'analisi a grana grossa delle loro posizioni generate e un'analisi a grana fine delle giustificazioni in testo semplice per tali posizioni. Per l'analisi a grana fine, proponiamo di identificare tropi nelle risposte: frasi semanticamente simili che sono ricorrenti e coerenti tra diversi prompt, rivelando modelli nel testo che un determinato LLM tende a produrre. Troviamo che le caratteristiche demografiche aggiunte ai prompt influenzano significativamente i risultati del PCT, riflettendo pregiudizi, nonché disparità tra i risultati dei test quando si sollecitano risposte in forma chiusa rispetto a risposte in dominio aperto. Inoltre, i modelli nelle giustificazioni in testo semplice tramite tropi mostrano che giustificazioni simili vengono ripetutamente generate tra modelli e prompt anche con posizioni disparate.
I recenti progressi nella generazione di video basata su diffusione hanno mostrato risultati notevoli, tuttavia il divario tra video sintetici e video del mondo reale rimane poco esplorato. In questo studio, esaminiamo questo divario da tre prospettive fondamentali: aspetto, movimento e geometria, confrontando video del mondo reale con quelli generati da un modello AI all'avanguardia, Stable Video Diffusion. Per raggiungere questo obiettivo, addestriamo tre classificatori utilizzando reti convoluzionali 3D, ciascuno mirato ad aspetti distinti: caratteristiche di un modello di base visivo per l'aspetto, flusso ottico per il movimento e profondità monoculare per la geometria. Ogni classificatore mostra prestazioni solide nel rilevamento di video falsi, sia qualitativamente che quantitativamente. Ciò indica che i video generati dall'AI sono ancora facilmente rilevabili e che persiste un divario significativo tra video reali e falsi. Inoltre, utilizzando il Grad-CAM, identifiamo errori sistematici nei video generati dall'AI relativi ad aspetto, movimento e geometria. Infine, proponiamo un modello Ensemble-of-Experts che integra informazioni sull'aspetto, sul flusso ottico e sulla profondità per il rilevamento di video falsi, ottenendo una maggiore robustezza e capacità di generalizzazione. Il nostro modello è in grado di rilevare con alta precisione video generati da Sora, anche senza essere stato esposto a nessun video di Sora durante l'addestramento. Ciò suggerisce che il divario tra video reali e falsi può essere generalizzato attraverso vari modelli generativi di video. Pagina del progetto: https://justin-crchang.github.io/3DCNNDetection.github.io/
Studiamo Neural Foley, la generazione automatica di effetti sonori di alta qualità sincronizzati con i video, per un'esperienza audiovisiva immersiva. Nonostante le sue ampie applicazioni, gli approcci esistenti presentano limitazioni quando si tratta di sintetizzare simultaneamente suoni di alta qualità e allineati al video (cioè semanticamente rilevanti e temporalmente sincronizzati). Per superare queste limitazioni, proponiamo FoleyCrafter, un nuovo framework che sfrutta un modello pre-addestrato di testo-audio per garantire una generazione audio di alta qualità. FoleyCrafter comprende due componenti chiave: l'adattatore semantico per l'allineamento semantico e il controllore temporale per una precisa sincronizzazione audio-video. L'adattatore semantico utilizza strati di cross-attention paralleli per condizionare la generazione audio sulle caratteristiche del video, producendo effetti sonori realistici e semanticamente rilevanti rispetto al contenuto visivo. Nel frattempo, il controllore temporale incorpora un rilevatore di onset e un adattatore basato su timestamp per ottenere un preciso allineamento audio-video. Un vantaggio notevole di FoleyCrafter è la sua compatibilità con i prompt di testo, che consente l'uso di descrizioni testuali per ottenere una generazione video-audio controllabile e diversificata in base alle intenzioni dell'utente. Abbiamo condotto ampi esperimenti quantitativi e qualitativi su benchmark standard per verificare l'efficacia di FoleyCrafter. Modelli e codici sono disponibili all'indirizzo https://github.com/open-mmlab/FoleyCrafter.
I recenti progressi nella microscopia hanno permesso la rapida generazione di terabyte di dati immagine nella biologia cellulare e nella ricerca biomedica. I modelli visione-linguaggio (VLMs) offrono una soluzione promettente per l'analisi su larga scala di immagini biologiche, migliorando l'efficienza dei ricercatori, identificando nuovi biomarcatori visivi e accelerando la generazione di ipotesi e la scoperta scientifica. Tuttavia, mancano benchmark visione-linguaggio standardizzati, diversificati e su larga scala per valutare le capacità percettive e cognitive dei VLMs nella comprensione delle immagini biologiche. Per colmare questa lacuna, introduciamo {\mu}-Bench, un benchmark curato da esperti che comprende 22 task biomedici in varie discipline scientifiche (biologia, patologia), modalità microscopiche (elettronica, fluorescenza, luce), scale (subcellulare, cellulare, tissutale) e organismi in stati sia normali che anomali. Valutiamo i migliori VLMs biomedici, patologici e generalisti su {\mu}-Bench e scopriamo che: i) i modelli attuali hanno difficoltà in tutte le categorie, anche per task di base come distinguere le modalità microscopiche; ii) i modelli specialistici attuali, addestrati su dati biomedici, spesso performano peggio dei modelli generalisti; iii) il fine-tuning in specifici domini microscopici può causare un oblio catastrofico, erodendo le conoscenze biomediche precedentemente codificate nel modello base; iv) l'interpolazione dei pesi tra modelli fine-tuned e pre-addestrati offre una soluzione all'oblio e migliora le prestazioni generali nei task biomedici. Rilasciamo {\mu}-Bench con una licenza permissiva per accelerare la ricerca e lo sviluppo di modelli fondazionali per la microscopia.