Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Machine Unlearning (MU) è fondamentale per migliorare la privacy e la sicurezza nei modelli di deep learning, in particolare nei grandi modelli di linguaggio multimodali (MLLM), rimuovendo informazioni specifiche private o pericolose. Mentre il MU ha fatto progressi significativi nelle modalità testuale e visiva, l'unlearning multimodale (MMU) rimane notevolmente inesplorato, in parte a causa dell'assenza di un adeguato benchmark open-source. Per affrontare questo problema, presentiamo CLEAR, un nuovo benchmark progettato per valutare i metodi MMU. CLEAR contiene 200 individui finti e 3.700 immagini collegate a coppie di domande e risposte corrispondenti, consentendo una valutazione approfondita tra modalità diverse. Valutiamo 10 metodi MU, adattandoli per il MMU, e evidenziamo nuove sfide specifiche legate all'oblio multimodale. Dimostriamo inoltre che una semplice regolarizzazione ell_1 sui pesi LoRA mitiga significativamente l'oblio catastrofico, preservando le prestazioni del modello sui dati trattenuti. Il dataset è disponibile su https://huggingface.co/datasets/therem/CLEAR.
Le attività di data science che coinvolgono dati tabulari presentano sfide complesse che richiedono approcci sofisticati alla risoluzione dei problemi. Proponiamo AutoKaggle, un framework potente e centrato sull'utente che assiste i data scientist nel completamento delle pipeline dati quotidiane attraverso un sistema collaborativo multi-agente. AutoKaggle implementa un processo di sviluppo iterativo che combina esecuzione del codice, debugging e test unitari completi per garantire la correttezza del codice e la coerenza logica. Il framework offre flussi di lavoro altamente personalizzabili, consentendo agli utenti di intervenire in ogni fase, integrando così l'intelligenza automatizzata con l'esperienza umana. Il nostro toolkit universale di data science, che comprende funzioni validate per la pulizia dei dati, l'ingegneria delle caratteristiche e la modellazione, costituisce la base di questa soluzione, migliorando la produttività attraverso la razionalizzazione delle attività comuni. Abbiamo selezionato 8 competizioni Kaggle per simulare flussi di lavoro di elaborazione dati in scenari di applicazione del mondo reale. I risultati dell'evaluazione dimostrano che AutoKaggle raggiunge un tasso di sottomissione di validazione del 0.85 e un punteggio completo del 0.82 nelle tipiche pipeline di data science, dimostrando appieno la sua efficacia e praticità nella gestione di complesse attività di data science.
Il ragionamento sulle relazioni sociali mira a identificare categorie di relazioni come amici, coniugi e colleghi dalle immagini. Mentre i metodi attuali adottano il paradigma di addestrare una rete dedicata end-to-end utilizzando dati di immagini etichettati, sono limitati in termini di generalizzabilità e interpretabilità. Per affrontare questi problemi, presentiamo innanzitutto un framework semplice ma ben strutturato chiamato {\name}, che combina la capacità di percezione dei Modelli di Base Visiva (VFMs) e la capacità di ragionamento dei Grandi Modelli Linguistici (LLMs) all'interno di un framework modulare, fornendo una solida base per il riconoscimento delle relazioni sociali. In particolare, istruiremo i VFMs a tradurre il contenuto dell'immagine in una storia sociale testuale, e poi utilizzeremo i LLMs per il ragionamento basato sul testo. {\name} introduce principi di progettazione sistematici per adattare i VFMs e i LLMs separatamente e colmare le loro lacune. Senza ulteriore addestramento del modello, ottiene risultati competitivi zero-shot su due database offrendo risposte interpretabili, poiché i LLMs possono generare spiegazioni basate sul linguaggio per le decisioni. Il processo di progettazione manuale dei prompt per i LLMs nella fase di ragionamento è noioso e si desidera un metodo automatizzato di ottimizzazione dei prompt. Poiché convertiamo essenzialmente un compito di classificazione visiva in un compito generativo dei LLMs, l'ottimizzazione automatica dei prompt si trova di fronte a un problema unico di ottimizzazione del prompt a lungo termine. Per affrontare questo problema, proponiamo inoltre l'Ottimizzazione del Prompt a Segmenti Greedy (GSPO), che esegue una ricerca avida utilizzando informazioni sul gradiente a livello di segmento. I risultati sperimentali mostrano che GSPO migliora significativamente le prestazioni, e il nostro metodo si generalizza anche a diversi stili di immagini. Il codice è disponibile su https://github.com/Mengzibin/SocialGPT.
Il ragionamento matematico è una capacità cruciale per i Grandi Modelli Linguistici (LLM), tuttavia generare tracce di ragionamento dettagliate e accurate rimane una sfida significativa. Questo articolo introduce un nuovo approccio per produrre tracce di ragionamento di alta qualità per il raffinamento dei LLM utilizzando Flussi di apprendimento online. Il nostro metodo impiega un Flusso incrementale di produzione dell'output, in cui i LLM componenti costruiscono soluzioni collaborativamente attraverso comunicazioni iterative. Addestriamo il Flusso utilizzando l'apprendimento online di Ottimizzazione delle Preferenze Dirette (DPO) con rollouts, generando coppie DPO per ogni esempio di addestramento e aggiornando i modelli in tempo reale. Confrontiamo direttamente la qualità delle tracce di ragionamento generate dal nostro metodo con quelle prodotte attraverso l'inferenza diretta del modello, dimostrando l'efficacia del nostro approccio nel migliorare le prestazioni dei LLM nei compiti di ragionamento matematico.
I grandi modelli linguistici (LLM) hanno dimostrato una notevole capacità nella generazione di codice con più del 90% di successo nel risolvere problemi di codifica Python in HumanEval e MBPP. Una tale elevata accuratezza porta alla domanda: possono i LLM sostituire i programmatori umani? I benchmark esistenti per la generazione di codice manualmente creati, semplici o di una sola riga, non possono rispondere a questa domanda a causa della loro distanza dallo sviluppo software del mondo reale. Per rispondere a questa domanda, proponiamo REPOCOD, un benchmark per la generazione di codice con 980 problemi raccolti da 11 progetti reali popolari, di cui più del 58% richiedono informazioni di contesto a livello di file o repository. Inoltre, REPOCOD ha la lunghezza media della soluzione canonica più lunga (331,6 token) e la complessità ciclomatica media più alta (9,00) rispetto ai benchmark esistenti. Nelle nostre valutazioni su dieci LLM, nessuno dei modelli può ottenere più del 30% di successo nel passaggio 1 su REPOCOD, rivelando la necessità di costruire LLM più potenti che possano aiutare gli sviluppatori nello sviluppo software del mondo reale.
Lo sviluppo rapido di modelli linguistici e multimodali di grandi dimensioni ha suscitato un notevole interesse nell'utilizzo di modelli proprietari, come il GPT-4o, per sviluppare agenti autonomi capaci di gestire scenari del mondo reale come la navigazione web. Sebbene recenti sforzi open-source abbiano cercato di dotare gli agenti della capacità di esplorare ambienti e migliorare continuamente nel tempo, stanno costruendo agenti solo testuali in ambienti sintetici in cui i segnali di ricompensa sono chiaramente definiti. Tali agenti faticano a generalizzare a contesti realistici che richiedono abilità di percezione multimodale e mancano di segnali di verità fondamentale. In questo articolo, presentiamo un framework open-source progettato per facilitare lo sviluppo di un agente web multimodale in grado di condurre esplorazioni del mondo reale in modo autonomo e migliorarsi. Prima addestriamo il modello base con apprendimento per imitazione per acquisire le abilità di base. Successivamente permettiamo all'agente di esplorare il web aperto e raccogliere feedback sui suoi percorsi. Dopo di che, migliora ulteriormente la sua politica apprendendo dai percorsi che si comportano bene giudicati da un altro modello generale. Questo ciclo di esplorazione-feedback-ottimizzazione può continuare per diverse iterazioni. I risultati sperimentali mostrano che il nostro agente web migliora con successo se stesso dopo ogni iterazione, dimostrando prestazioni solide su più set di test.
Il Reinforcement Learning (RL) offre grandi promesse per consentire l'acquisizione autonoma di abilità complesse di manipolazione robotica, ma realizzare questo potenziale in contesti reali è stato impegnativo. Presentiamo un sistema di RL basato sulla visione con interazione umana che dimostra un'ottima performance su un insieme diversificato di compiti di manipolazione abile, inclusa la manipolazione dinamica, l'assemblaggio di precisione e la coordinazione a due braccia. Il nostro approccio integra dimostrazioni e correzioni umane, algoritmi di RL efficienti e altre scelte di progettazione a livello di sistema per apprendere politiche che raggiungono tassi di successo quasi perfetti e tempi di ciclo rapidi in soli 1-2,5 ore di addestramento. Mostreremo che il nostro metodo supera significativamente le basi di apprendimento per imitazione e gli approcci di RL precedenti, con un miglioramento medio del 2x nel tasso di successo e un'esecuzione 1,8x più veloce. Attraverso ampi esperimenti e analisi, forniremo approfondimenti sull'efficacia del nostro approccio, dimostrando come apprende politiche robuste e adattive per strategie di controllo reattive e predictive. I nostri risultati suggeriscono che il RL può effettivamente apprendere una vasta gamma di politiche di manipolazione basate sulla visione direttamente nel mondo reale entro tempi di addestramento pratici. Speriamo che questo lavoro possa ispirare una nuova generazione di tecniche di manipolazione robotica apprese, beneficiando sia le applicazioni industriali che i progressi nella ricerca. I video e il codice sono disponibili sul nostro sito web del progetto https://hil-serl.github.io/.
Il prompting a catena di pensiero (CoT) è diventato una strategia ampiamente utilizzata per lavorare con modelli linguistici e multimodali di grandi dimensioni. Sebbene il CoT abbia dimostrato di migliorare le prestazioni in molte attività, determinare le condizioni in cui è efficace rimane un impegno in corso. In particolare, è ancora una questione aperta in quali contesti il CoT riduca sistematicamente le prestazioni del modello. In questo articolo, cerchiamo di identificare le caratteristiche delle attività in cui il CoT riduce le prestazioni, prendendo ispirazione dalla psicologia cognitiva, esaminando casi in cui (i) il pensiero verbale o la deliberazione danneggiano le prestazioni umane e (ii) i vincoli che regolano le prestazioni umane si generalizzano ai modelli linguistici. Tre casi simili sono il learning statistico implicito, il riconoscimento visivo e la classificazione con schemi contenenti eccezioni. In esperimenti approfonditi in tutti e tre i contesti, scopriamo che una vasta gamma di modelli all'avanguardia mostra significativi cali di prestazioni (ad esempio, fino al 36,3% di accuratezza assoluta per OpenAI o1-preview rispetto a GPT-4o) quando si utilizza il ragionamento al momento dell'inferenza rispetto ai corrispettivi zero-shot. Identifichiamo anche tre attività che soddisfano la condizione (i) ma non la (ii) e scopriamo che mentre il pensiero verbale riduce le prestazioni umane in queste attività, il CoT mantiene o aumenta le prestazioni del modello. Nel complesso, i nostri risultati mostrano che sebbene non ci sia un parallelo esatto tra i processi cognitivi dei modelli e quelli degli esseri umani, considerare i casi in cui il pensiero ha conseguenze negative sulle prestazioni umane può aiutarci a identificare i contesti in cui influisce negativamente sui modelli. Collegando la letteratura sulla deliberazione umana alle valutazioni del CoT, offriamo uno strumento nuovo che può essere utilizzato per comprendere l'impatto delle scelte di prompt e del ragionamento al momento dell'inferenza.
Indaghiamo le rappresentazioni interne dei modelli di visione e linguaggio (VLM) e come codificano le rappresentazioni delle attività. Consideriamo attività specificate tramite esempi o istruzioni, utilizzando input di testo o immagini. Sorprendentemente, scopriamo che attività concettualmente simili sono mappate in rappresentazioni vettoriali di attività simili, indipendentemente da come sono specificate. I nostri risultati suggeriscono che per produrre risposte, i token nei VLM attraversano tre fasi distinte: input, attività e risposta, un processo che è coerente tra diverse modalità e specifiche. I vettori di attività che identifichiamo nei VLM sono sufficientemente generali da poter essere derivati in una modalità (ad esempio, testo) e trasferiti in un'altra (ad esempio, immagine). Inoltre, scopriamo che l'insieme di vettori di attività basati su esempi e istruzioni produce rappresentazioni di attività migliori. Insieme, queste intuizioni gettano luce sui meccanismi sottostanti dei VLM, in particolare la loro capacità di rappresentare attività in modo condiviso tra diverse modalità e specifiche di attività. Pagina del progetto: https://task-vectors-are-cross-modal.github.io.
Con la diffusa implementazione di modelli linguistici di lungo contesto a grande scala (LLM), c'è stata una crescente domanda di supporto efficiente per l'inferenza ad alto throughput. Tuttavia, poiché la cache chiave-valore (KV) si espande con la lunghezza della sequenza, l'aumento della memoria e la necessità di accedervi per ogni generazione di token comportano un basso throughput durante il servizio di LLM a lungo contesto. Mentre sono stati proposti vari metodi dinamici di attenzione sparsa per accelerare l'inferenza mantenendo la qualità della generazione, essi non riescono a ridurre in modo sufficiente il consumo di memoria della GPU o introducono un significativo ritardo di decodifica scaricando la cache KV sulla CPU. Presentiamo ShadowKV, un sistema di inferenza LLM ad alto throughput a lungo contesto che memorizza la cache chiave a basso rango e scarica la cache valore per ridurre l'occupazione di memoria per dimensioni di batch più grandi e sequenze più lunghe. Per minimizzare il ritardo di decodifica, ShadowKV utilizza una strategia accurata di selezione KV che ricostruisce coppie KV sparse minime al volo. Valutando ShadowKV su un'ampia gamma di benchmark, tra cui RULER, LongBench e Needle In A Haystack, e modelli come Llama-3.1-8B, Llama-3-8B-1M, GLM-4-9B-1M, Yi-9B-200K, Phi-3-Mini-128K e Qwen2-7B-128K, dimostriamo che può supportare dimensioni di batch fino a 6 volte più grandi e aumentare il throughput fino a 3,04 volte su una GPU A100 senza sacrificare l'accuratezza, superando persino le prestazioni ottenibili con dimensioni di batch infinite nell'ipotesi di memoria GPU infinita. Il codice è disponibile su https://github.com/bytedance/ShadowKV.
Il pre-addestramento delle rappresentazioni visive ha migliorato l'efficienza dell'apprendimento dei robot. A causa della mancanza di ampi set di dati robotici in-domain, i lavori precedenti utilizzano video umani in-the-wild per pre-addestrare la rappresentazione visiva dei robot. Nonostante i risultati promettenti, le rappresentazioni dai video umani sono inevitabilmente soggette a spostamenti di distribuzione e mancano delle informazioni dinamiche cruciali per il completamento dei compiti. Valutiamo innanzitutto varie rappresentazioni pre-addestrate in termini di correlazione con i compiti di manipolazione robotica successivi (cioè, la centralità della manipolazione). Interessantemente, scopriamo che la "centralità della manipolazione" è un forte indicatore dei tassi di successo quando applicata ai compiti successivi. Trasferendo queste scoperte, proponiamo la Rappresentazione Centrica della Manipolazione (MCR), un framework di apprendimento delle rappresentazioni fondamentale che cattura sia le caratteristiche visive che le informazioni dinamiche come azioni e proprietà di manipolazione per migliorare la centralità della manipolazione. In particolare, pre-addestriamo un codificatore visivo sul set di dati robotici DROID e sfruttiamo dati rilevanti per il movimento come gli stati propriocettivi e le azioni del robot. Introduciamo una nuova perdita contrastiva che allinea le osservazioni visive con le dinamiche stato-azione propriocettive del robot, combinata con una perdita di attore simile al clonaggio del comportamento (BC) per prevedere le azioni durante il pre-addestramento, insieme a una perdita contrastiva temporale. I risultati empirici su 4 domini di simulazione con 20 compiti verificano che MCR supera il metodo di base più forte del 14,8%. Inoltre, MCR potenzia le prestazioni dell'apprendimento efficiente dei dati con un braccio UR5e su 3 compiti del mondo reale del 76,9%. Sito web del progetto: https://robots-pretrain-robots.github.io/.
Costruire sistemi di recupero denso efficaci rimane difficile quando la supervisione della rilevanza non è disponibile. Lavori recenti hanno cercato di superare questa sfida utilizzando un Grande Modello Linguistico (LLM) per generare documenti ipotetici che possono essere utilizzati per trovare il documento reale più vicino. Tuttavia, questo approccio si basa esclusivamente sul fatto che il LLM abbia conoscenze specifiche del dominio rilevanti per la query, il che potrebbe non essere pratico. Inoltre, generare documenti ipotetici può essere inefficiente in quanto richiede al LLM di generare un gran numero di token per ogni query. Per affrontare queste sfide, presentiamo i Real Document Embeddings from Relevance Feedback (ReDE-RF). Ispirato al feedback di rilevanza, ReDE-RF propone di riformulare la generazione di documenti ipotetici come un compito di stima della rilevanza, utilizzando un LLM per selezionare quali documenti dovrebbero essere utilizzati per la ricerca del vicino più prossimo. Attraverso questa riformulazione, il LLM non ha più bisogno di conoscenze specifiche del dominio ma deve solo valutare ciò che è rilevante. Inoltre, la stima della rilevanza richiede al LLM di produrre un singolo token, migliorando così la latenza della ricerca. I nostri esperimenti mostrano che ReDE-RF supera costantemente i metodi di recupero denso zero-shot all'avanguardia su una vasta gamma di set di dati di recupero a bassa risorsa, apportando significativi miglioramenti anche nella latenza per query.
Gli algoritmi di ottimizzazione delle preferenze accoppiate offline sono diventati un approccio popolare per il raffinamento sui dati di preferenza, superando il tradizionale raffinamento supervisionato in varie attività. Tuttavia, le implementazioni tradizionali spesso comportano calcoli ridondanti, specialmente per compiti con prompt condivisi lunghi. Introduciamo la condivisione di prefissi per il raffinamento delle preferenze, una nuova tecnica che elabora le risposte scelte e respinte come una sequenza con un prefisso condiviso. Per prevenire la contaminazione tra le risposte, utilizziamo una maschera di attenzione personalizzata a blocchi sparsi. Il nostro metodo raggiunge un miglioramento del throughput di addestramento del 1,1-1,5 volte sui popolari set di dati DPO, senza alcun effetto sulla convergenza. Quando combinato con l'impacchettamento delle sequenze, osserviamo accelerazioni costanti del 1,3-1,6 volte, beneficiando anche i set di dati con lunghezze di sequenza più piccole. Sebbene ci concentriamo sull'Ottimizzazione Diretta delle Preferenze (DPO), il nostro approccio è applicabile ad altri metodi di raffinamento delle preferenze accoppiate. Migliorando l'efficienza computazionale, il nostro lavoro contribuisce a rendere il raffinamento basato sulle preferenze più accessibile per una gamma più ampia di applicazioni e dimensioni del modello. Rendiamo il nostro codice open-source su https://github.com/frankxwang/dpo-prefix-sharing.
Indaghiamo se gli esempi in contesto, ampiamente utilizzati nei modelli linguistici a sola decodifica (LLM), possano migliorare le prestazioni del modello di embedding nei compiti di recupero. A differenza dei LLM, preporre in modo ingenuo esempi in contesto (coppie query-documento) alla query target al momento dell'infrazione non funziona immediatamente. Introduciamo un approccio semplice per consentire ai recuperatori di utilizzare esempi in contesto. Il nostro approccio, RARe, adatta un modello pre-addestrato con esempi in contesto la cui query è semanticamente simile alla query target. Questo può essere applicato per adattare varie architetture di base (ossia, modelli linguistici a sola decodifica, modelli recuperatori) e ottiene costantemente guadagni di prestazioni fino al +2.72% nDCG su vari set di dati di recupero in dominio aperto (BeIR, RAR-b). In particolare, scopriamo che RARe mostra una maggiore generalizzazione fuori dominio rispetto ai modelli che utilizzano query senza esempi in contesto, simile a quanto si osserva per l'apprendimento in contesto nei LLM. Forniamo inoltre un'analisi sulle scelte progettuali dell'aumento degli esempi in contesto e gettiamo le basi per futuri lavori in questo ambito.
I grandi modelli linguistici (LLM) sono suscettibili di memorizzare i dati di addestramento, sollevando preoccupazioni a causa della potenziale estrazione di informazioni sensibili. I metodi attuali per misurare i tassi di memorizzazione dei LLM, principalmente l'estrazione scopribile (Carlini et al., 2022), si basano su campionamenti avidi a singola sequenza, potenzialmente sottovalutando la vera entità della memorizzazione. Questo articolo introduce un rilassamento probabilistico dell'estrazione scopribile che quantifica la probabilità di estrarre una sequenza target all'interno di un insieme di campioni generati, considerando vari schemi di campionamento e molteplici tentativi. Questo approccio affronta le limitazioni del reporting dei tassi di memorizzazione attraverso l'estrazione scopribile tenendo conto della natura probabilistica dei LLM e dei modelli di interazione dell'utente. I nostri esperimenti dimostrano che questa misura probabilistica può rivelare casi di tassi di memorizzazione più elevati rispetto ai tassi trovati attraverso l'estrazione scopribile. Investigando ulteriormente l'impatto di diversi schemi di campionamento sull'estraibilità, forniamo una valutazione più completa e realistica della memorizzazione dei LLM e dei rischi associati. Le nostre contribuzioni includono una nuova definizione probabilistica di memorizzazione, prove empiriche della sua efficacia e una valutazione approfondita su modelli, dimensioni, schemi di campionamento e ripetizioni dei dati di addestramento diversi.