Articoli di ricerca IA selezionati quotidianamente con traduzioni
Migliorare i modelli esistenti con nuove conoscenze è un aspetto cruciale dello sviluppo dell'IA. Questo articolo introduce un metodo innovativo per integrare una nuova lingua in un modello linguistico di grandi dimensioni (LLM). Il nostro approccio incorpora con successo una lingua target precedentemente non vista in un LLM esistente senza compromettere le sue conoscenze pregresse. Abbiamo addestrato un piccolo modello da 1,5 miliardi di parametri, denominato Kuwain, iniettando la lingua araba in un modello open-source di piccole dimensioni principalmente addestrato in inglese. Il nostro metodo dimostra miglioramenti significativi nelle prestazioni della lingua araba, con un incremento medio dell'8% su vari benchmark, mantenendo al contempo le conoscenze esistenti del modello con una quantità minima di dati del modello originale. Questo offre un'alternativa economicamente vantaggiosa rispetto all'addestramento di un modello completo sia in inglese che in arabo. I risultati evidenziano il potenziale per un'espansione efficiente e mirata dei modelli linguistici senza la necessità di un riaddestramento estensivo o processi ad alto consumo di risorse.
Questo articolo indaga l'apprendimento per rinforzo (Reinforcement Learning, RL) su dati senza etichette esplicite per compiti di ragionamento nei modelli linguistici di grandi dimensioni (Large Language Models, LLMs). La sfida principale del problema è la stima della ricompensa durante l'inferenza senza avere accesso a informazioni di verità assoluta. Sebbene questo contesto possa sembrare elusivo, scopriamo che pratiche comuni nel ridimensionamento al momento del test (Test-Time Scaling, TTS), come il voto a maggioranza, producono ricompense sorprendentemente efficaci adatte a guidare l'addestramento RL. In questo lavoro, introduciamo l'apprendimento per rinforzo al momento del test (Test-Time Reinforcement Learning, TTRL), un metodo innovativo per addestrare LLMs utilizzando RL su dati non etichettati. TTRL consente l'auto-evoluzione degli LLMs sfruttando i priori nei modelli pre-addestrati. I nostri esperimenti dimostrano che TTRL migliora costantemente le prestazioni in una varietà di compiti e modelli. In particolare, TTRL aumenta le prestazioni pass@1 di Qwen-2.5-Math-7B di circa il 159% sull'AIME 2024 utilizzando solo dati di test non etichettati. Inoltre, sebbene TTRL sia supervisionato solo dalla metrica Maj@N, ha dimostrato prestazioni che superano costantemente il limite superiore del modello iniziale e si avvicinano alle prestazioni di modelli addestrati direttamente su dati di test con etichette di verità assoluta. I nostri risultati sperimentali convalidano l'efficacia generale di TTRL in vari compiti e evidenziano il potenziale di TTRL per compiti e domini più ampi. GitHub: https://github.com/PRIME-RL/TTRL
Man mano che i modelli linguistici di grandi dimensioni (LLM) continuano a progredire nelle capacità linguistiche, una valutazione multilingue robusta è diventata essenziale per promuovere un progresso tecnologico equo. Questo position paper esamina oltre 2.000 benchmark multilingue (non in inglese) provenienti da 148 paesi, pubblicati tra il 2021 e il 2024, per valutare le pratiche passate, presenti e future nel benchmarking multilingue. I nostri risultati rivelano che, nonostante investimenti significativi che ammontano a decine di milioni di dollari, l'inglese rimane significativamente sovrarappresentato in questi benchmark. Inoltre, la maggior parte dei benchmark si basa su contenuti in lingua originale piuttosto che su traduzioni, con la maggior parte proveniente da paesi ad alte risorse come Cina, India, Germania, Regno Unito e Stati Uniti. Inoltre, un confronto tra le prestazioni dei benchmark e i giudizi umani evidenzia notevoli disparità. I compiti legati alle discipline STEM mostrano forti correlazioni con le valutazioni umane (0,70-0,85), mentre i tradizionali compiti di NLP come il question answering (ad esempio, XQuAD) mostrano correlazioni molto più deboli (0,11-0,30). Inoltre, tradurre benchmark dall'inglese in altre lingue si rivela insufficiente, poiché i benchmark localizzati dimostrano un allineamento significativamente più alto con i giudizi umani locali (0,68) rispetto alle loro controparti tradotte (0,47). Ciò sottolinea l'importanza di creare benchmark culturalmente e linguisticamente adattati piuttosto che affidarsi esclusivamente alle traduzioni. Attraverso questa analisi completa, evidenziamo sei limitazioni chiave nelle attuali pratiche di valutazione multilingue, proponiamo i principi guida di conseguenza per un benchmarking multilingue efficace e delineiamo cinque direzioni di ricerca critiche per guidare il progresso nel campo. Infine, sollecitiamo uno sforzo collaborativo globale per sviluppare benchmark allineati agli esseri umani che diano priorità alle applicazioni nel mondo reale.
Generare descrizioni dettagliate e accurate per regioni specifiche in immagini e video rimane una sfida fondamentale per i modelli di visione e linguaggio. Presentiamo il Describe Anything Model (DAM), un modello progettato per la descrizione localizzata dettagliata (DLC). DAM preserva sia i dettagli locali che il contesto globale attraverso due innovazioni chiave: un prompt focale, che garantisce una codifica ad alta risoluzione delle regioni target, e un backbone visivo localizzato, che integra una localizzazione precisa con il suo contesto più ampio. Per affrontare la scarsità di dati DLC di alta qualità, proponiamo una pipeline di dati basata sull'apprendimento semi-supervisionato (SSL), denominata DLC-SDP. DLC-SDP parte da dataset di segmentazione esistenti e si espande a immagini web non etichettate utilizzando SSL. Introduciamo DLC-Bench, un benchmark progettato per valutare la DLC senza fare affidamento su descrizioni di riferimento. DAM stabilisce nuovi record di stato dell'arte su 7 benchmark che coprono la descrizione localizzata a livello di parola chiave, frase e descrizione multi-frase dettagliata per immagini e video.
Il ridimensionamento del calcolo durante l'inferenza ha migliorato significativamente le capacità di ragionamento dei modelli linguistici. Tuttavia, i metodi esistenti presentano limitazioni importanti: gli approcci serializzati a catena di pensiero generano output eccessivamente lunghi, portando a una maggiore latenza e all'esaurimento delle finestre di contesto, mentre i metodi paralleli come l'autoconsistenza soffrono di una coordinazione insufficiente, risultando in calcoli ridondanti e guadagni di prestazioni limitati. Per affrontare queste carenze, proponiamo il Ragionamento Parallelo Adattivo (APR), un nuovo framework di ragionamento che consente ai modelli linguistici di orchestrare sia calcoli serializzati che paralleli end-to-end. APR generalizza i metodi di ragionamento esistenti abilitando l'inferenza multi-thread adattiva utilizzando operazioni spawn() e join(). Un'innovazione chiave è la nostra strategia di apprendimento per rinforzo end-to-end, che ottimizza sia i thread di inferenza principali che quelli secondari per migliorare il tasso di successo del compito senza richiedere strutture di ragionamento predefinite. Gli esperimenti sul compito di ragionamento Countdown dimostrano i significativi vantaggi di APR: (1) prestazioni superiori all'interno della stessa finestra di contesto (83,4% vs. 60,0% con contesto di 4k); (2) scalabilità superiore con un aumento del calcolo (80,1% vs. 66,6% con 20k token totali); (3) maggiore accuratezza a latenza equivalente (75,2% vs. 57,3% a circa 5.000ms). APR rappresenta un passo verso l'abilitazione dei modelli linguistici a ottimizzare autonomamente i loro processi di ragionamento attraverso l'allocazione adattiva del calcolo.
I recenti modelli linguistici di grandi dimensioni per video (Video LLM) spesso dipendono da costose annotazioni umane o da API di modelli proprietari (ad esempio, GPT-4o) per generare dati di addestramento, il che limita il loro training su larga scala. In questo articolo, esploriamo l'addestramento su larga scala per Video LLM utilizzando trascrizioni economiche di riconoscimento automatico del parlato (ASR). Nello specifico, proponiamo un nuovo approccio di training in streaming che intercala densamente le parole ASR e i fotogrammi video in base ai loro timestamp. Rispetto agli studi precedenti sulla rappresentazione visivo-linguistica con ASR, il nostro metodo si adatta naturalmente alle caratteristiche di streaming dell'ASR, consentendo al modello di apprendere una modellizzazione visivo-linguistica temporallmente allineata e fine. Per supportare l'algoritmo di training, introduciamo una pipeline di produzione dati per elaborare video di YouTube e i loro sottotitoli (CC, equivalenti all'ASR), ottenendo il dataset Live-CC-5M per il pre-training e il dataset Live-WhisperX-526K per il fine-tuning supervisionato (SFT) di alta qualità. Notevolmente, anche senza SFT, il modello LiveCC-7B-Base pre-addestrato solo con ASR dimostra prestazioni competitive nel QA video generale e mostra una nuova capacità nel commento video in tempo reale. Per valutare ciò, abbiamo progettato con cura un nuovo benchmark LiveSports-3K, utilizzando LLM come giudice per misurare il commento libero. Gli esperimenti mostrano che il nostro modello finale LiveCC-7B-Instruct può superare modelli avanzati da 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) nella qualità del commento, anche operando in modalità real-time. Nel frattempo, raggiunge risultati all'avanguardia nella scala 7B/8B su benchmark popolari di QA video come VideoMME e OVOBench, dimostrando l'ampia generalizzabilità del nostro approccio. Tutte le risorse di questo articolo sono state rilasciate su https://showlab.github.io/livecc.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno reso possibile la simulazione sociale attraverso sistemi multi-agente. Gli sforzi precedenti si sono concentrati su società di agenti create da zero, assegnando agli agenti nuove personalità definite. Tuttavia, la simulazione di mondi e personaggi fittizi già consolidati rimane in gran parte inesplorata, nonostante il suo significativo valore pratico. In questo articolo, introduciamo BookWorld, un sistema completo per la costruzione e la simulazione di società multi-agente basate su libri. Il design di BookWorld copre una vasta gamma di complessità del mondo reale, inclusi personaggi diversi e dinamici, visioni del mondo fittizie, vincoli geografici e cambiamenti, ecc. BookWorld consente diverse applicazioni, tra cui la generazione di storie, giochi interattivi e simulazione sociale, offrendo nuovi modi per estendere ed esplorare opere fittizie amate. Attraverso esperimenti estensivi, dimostriamo che BookWorld genera storie creative e di alta qualità mantenendo la fedeltà ai libri originali, superando i metodi precedenti con un tasso di vittoria del 75,36%. Il codice di questo articolo può essere trovato alla pagina del progetto: https://bookworld2025.github.io/.
I framework di valutazione esistenti per i Modelli Linguistici Multimodali di Grande Scala (MLLMs) si concentrano principalmente sul ragionamento basato su immagini o su compiti generali di comprensione video, trascurando in larga misura il ruolo significativo del contesto visivo nella comprensione video. Per colmare questa lacuna, proponiamo IV-Bench, il primo benchmark completo per valutare la Percezione e il Ragionamento Video basati su Immagini. IV-Bench è composto da 967 video associati a 2.585 query immagine-testo annotate meticolosamente, distribuite su 13 task (7 di percezione e 6 di ragionamento) e 5 categorie rappresentative. Valutazioni estensive dei migliori MLLM open-source (ad esempio, InternVL2.5, Qwen2.5-VL) e closed-source (ad esempio, GPT-4o, Gemini2-Flash e Gemini2-Pro) dimostrano che i modelli attuali hanno prestazioni significativamente inferiori nella Percezione e Ragionamento Video basati su immagini, raggiungendo al massimo un'accuratezza del 28,9%. Un'analisi più approfondita rivela i fattori chiave che influenzano le prestazioni dei modelli su IV-Bench, tra cui il modello di inferenza, il numero di frame e la risoluzione. Inoltre, attraverso un semplice approccio di sintesi dei dati, dimostriamo che le sfide di IV-Bench vanno oltre il semplice allineamento del formato dei dati nel processo di addestramento. Questi risultati forniscono collettivamente spunti preziosi per la ricerca futura. I nostri codici e dati sono disponibili su https://github.com/multimodal-art-projection/IV-Bench.
Il successo dei Large Language Models (LLM) ha suscitato interesse in varie applicazioni agentiche. Un'ipotesi chiave è che i LLM, sfruttando il senso comune e il ragionamento a catena di pensiero (Chain-of-Thought, CoT), possano esplorare efficacemente e risolvere in modo efficiente domini complessi. Tuttavia, è stato osservato che gli agenti basati su LLM soffrono di esplorazione sub-ottimale e del divario tra conoscenza e azione (knowing-doing gap), ovvero l'incapacità di agire efficacemente sulla conoscenza presente nel modello. In questo lavoro, studiamo sistematicamente perché i LLM performano in modo sub-ottimale negli scenari di decision-making. In particolare, esaminiamo da vicino tre modalità di fallimento prevalenti: l'avidità (greediness), il bias di frequenza (frequency bias) e il divario tra conoscenza e azione. Proponiamo di mitigare queste carenze attraverso il fine-tuning tramite Reinforcement Learning (RL) su razionali CoT auto-generati. I nostri esperimenti, condotti su bandit multi-braccio, bandit contestuali e Tic-tac-toe, dimostrano che il fine-tuning con RL migliora le capacità di decision-making dei LLM aumentando l'esplorazione e riducendo il divario tra conoscenza e azione. Infine, studiamo sia meccanismi classici di esplorazione, come l'epsilon-greedy, sia approcci specifici per i LLM, come l'autocorrezione e l'autoconsistenza, per consentire un fine-tuning più efficace dei LLM per il decision-making.
I recenti progressi nei modelli linguistici di grandi dimensioni hanno dimostrato l'efficacia del ridimensionamento della lunghezza durante il post-training, tuttavia il suo potenziale nel pre-training rimane ancora poco esplorato. Presentiamo il Parallel Hidden Decoding Transformer (PHD-Transformer), un nuovo framework che consente un efficiente ridimensionamento della lunghezza durante il pre-training mantenendo al contempo l'efficienza nell'inferenza. Il PHD-Transformer raggiunge questo obiettivo attraverso una strategia innovativa di gestione della cache KV che distingue tra token originali e token di decodifica nascosti. Conservando solo la cache KV dei token originali per le dipendenze a lungo raggio e scartando immediatamente i token di decodifica nascosti dopo l'uso, il nostro approccio mantiene la stessa dimensione della cache KV del transformer tradizionale, consentendo un efficace ridimensionamento della lunghezza. Per migliorare ulteriormente le prestazioni, introduciamo due varianti ottimizzate: PHD-SWA utilizza l'attenzione a finestra scorrevole per preservare le dipendenze locali, mentre PHD-CSWA implementa l'attenzione a finestra scorrevole a blocchi per eliminare la crescita lineare nel tempo di pre-riempimento. Esperimenti estesi dimostrano miglioramenti consistenti su molteplici benchmark.
Possiamo costruire modelli del mondo accurati a partire da modelli linguistici di grandi dimensioni (LLM)? In che modo i modelli del mondo possono beneficiare gli agenti basati su LLM? Il divario tra la conoscenza a priori degli LLM e le dinamiche di un ambiente specifico rappresenta solitamente un collo di bottiglia per le prestazioni degli LLM come modelli del mondo. Per colmare questo divario, proponiamo un approccio "allineamento del mondo" senza addestramento che apprende la conoscenza simbolica di un ambiente complementare agli LLM. La conoscenza simbolica copre regole di azione, grafi di conoscenza e grafi di scena, che vengono estratti dagli LLM dalle traiettorie di esplorazione e codificati in codice eseguibile per regolare le politiche degli agenti LLM. Proponiamo inoltre un agente basato su modelli, "WALL-E 2.0", privo di apprendimento per rinforzo (RL), attraverso il framework di controllo predittivo basato su modello (MPC). A differenza del classico MPC che richiede un'ottimizzazione costosa in tempo reale, adottiamo un agente LLM come ottimizzatore efficiente delle azioni future, interagendo con il modello del mondo neurosimbolico. Mentre le forti euristiche dell'agente LLM lo rendono un pianificatore efficiente in MPC, la qualità delle azioni pianificate è garantita anche dalle previsioni accurate del modello del mondo allineato. Insieme, migliorano notevolmente l'efficienza dell'apprendimento in un nuovo ambiente. Su sfide in mondi aperti come Mars (simile a Minecraft) e ALFWorld (ambienti indoor incarnati), WALL-E 2.0 supera significativamente i metodi esistenti, ad esempio superando i baseline in Mars del 16,1%-51,6% nel tasso di successo e di almeno il 61,7% nel punteggio. In ALFWorld, raggiunge un nuovo record del 98% di tasso di successo dopo solo 4 iterazioni.
La sintesi personalizzata di immagini è emersa come un'applicazione fondamentale nella generazione di immagini da testo, consentendo la creazione di immagini che includono soggetti specifici in contesti diversi. Sebbene i modelli di diffusione abbiano dominato questo ambito, i modelli auto-regressivi, con la loro architettura unificata per la modellazione di testo e immagini, rimangono poco esplorati per la generazione personalizzata di immagini. Questo articolo indaga il potenziale dell'ottimizzazione dei modelli auto-regressivi per la sintesi personalizzata di immagini, sfruttando le loro capacità multimodali intrinseche per eseguire tale compito. Proponiamo una strategia di addestramento in due fasi che combina l'ottimizzazione degli embedding di testo e il fine-tuning degli strati del trasformatore. I nostri esperimenti sul modello auto-regressivo dimostrano che questo metodo raggiunge una fedeltà al soggetto e un'aderenza al prompt comparabili ai principali metodi di personalizzazione basati sulla diffusione. I risultati evidenziano l'efficacia dei modelli auto-regressivi nella generazione personalizzata di immagini, offrendo una nuova direzione per la ricerca futura in questo campo.
Gli esseri umani possono sviluppare modelli interni del mondo che codificano conoscenze di senso comune, indicando loro come funziona il mondo e prevedendo le conseguenze delle loro azioni. Questo concetto è emerso come una direzione promettente per stabilire modelli di apprendimento automatico a scopo generale in lavori preliminari recenti, ad esempio per l'apprendimento di rappresentazioni visive. In questo articolo, presentiamo CheXWorld, il primo tentativo verso un modello del mondo auto-supervisionato per immagini radiografiche. Nello specifico, il nostro lavoro sviluppa un framework unificato che modella simultaneamente tre aspetti della conoscenza medica essenziali per radiologi qualificati, tra cui 1) strutture anatomiche locali che descrivono le caratteristiche dettagliate dei tessuti locali (ad esempio, architetture, forme e texture); 2) layout anatomici globali che descrivono l'organizzazione globale del corpo umano (ad esempio, la disposizione di organi e scheletri); e 3) variazioni di dominio che incoraggiano CheXWorld a modellare le transizioni tra diversi domini di aspetto delle radiografie (ad esempio, variazioni di chiarezza, contrasto ed esposizione causate dalla raccolta di radiografie da diversi ospedali, dispositivi o pazienti). Empiricamente, progettiamo analisi qualitative e quantitative su misura, rivelando che CheXWorld cattura con successo queste tre dimensioni della conoscenza medica. Inoltre, esperimenti di transfer learning su otto benchmark di classificazione e segmentazione di immagini mediche dimostrano che CheXWorld supera significativamente i metodi SSL esistenti e i modelli di fondazione medica su larga scala. Codice e modelli pre-addestrati sono disponibili all'indirizzo https://github.com/LeapLabTHU/CheXWorld.
I recenti modelli di diffusione testo-immagine raggiungono una qualità visiva impressionante grazie a un'estesa scalabilità dei dati di addestramento e dei parametri del modello, ma spesso incontrano difficoltà con scene complesse e dettagli fini. Ispirati dalle capacità di autoriflessione emerse nei grandi modelli linguistici, proponiamo ReflectionFlow, un framework in fase di inferenza che consente ai modelli di diffusione di riflettere e perfezionare iterativamente i propri output. ReflectionFlow introduce tre assi di scalabilità complementari in fase di inferenza: (1) scalabilità a livello di rumore per ottimizzare l'inizializzazione latente; (2) scalabilità a livello di prompt per una guida semantica precisa; e, soprattutto, (3) scalabilità a livello di riflessione, che fornisce esplicitamente riflessioni attuabili per valutare e correggere iterativamente le generazioni precedenti. Per facilitare la scalabilità a livello di riflessione, abbiamo costruito GenRef, un dataset su larga scala composto da 1 milione di triplette, ciascuna contenente una riflessione, un'immagine imperfetta e un'immagine migliorata. Sfruttando questo dataset, eseguiamo in modo efficiente il tuning delle riflessioni sul transformer di diffusione all'avanguardia, FLUX.1-dev, modellando congiuntamente input multimodali all'interno di un framework unificato. I risultati sperimentali dimostrano che ReflectionFlow supera significativamente i metodi di scalabilità a livello di rumore più semplici, offrendo una soluzione scalabile e computazionalmente efficiente per una sintesi di immagini di qualità superiore in compiti impegnativi.
Gli esseri umani condividono naturalmente informazioni con coloro con cui sono connessi, e il video è diventato uno dei mezzi dominanti per la comunicazione e l'espressione su Internet. Per supportare la creazione di contenuti video su larga scala di alta qualità, una pipeline moderna richiede una comprensione completa sia dei materiali di input grezzi (ad esempio, le riprese non modificate catturate dalle telecamere) che dei componenti di editing (ad esempio, gli effetti visivi). Negli scenari di editing video, i modelli devono elaborare più modalità (ad esempio, visione, audio, testo) con una solida conoscenza di base e gestire lunghezze di input flessibili (ad esempio, video grezzi della durata di un'ora), il che pone sfide significative per i modelli tradizionali. In questo rapporto, presentiamo Vidi, una famiglia di Large Multimodal Models (LMM) per una vasta gamma di scenari di comprensione e editing video. La prima versione si concentra sul recupero temporale, ovvero l'identificazione degli intervalli di tempo all'interno dei video di input corrispondenti a una determinata query testuale, che svolge un ruolo cruciale nell'editing intelligente. Il modello è in grado di elaborare video della durata di un'ora con una forte capacità di comprensione temporale, ad esempio, recuperare intervalli di tempo per determinate query. Per supportare una valutazione completa in scenari reali, presentiamo anche il benchmark VUE-TR, che introduce cinque progressi chiave. 1) Durata del video: significativamente più lunga rispetto ai dataset esistenti di recupero temporale, 2) Supporto audio: include query basate su audio, 3) Formato della query: lunghezze/formati di query diversificati, 4) Qualità delle annotazioni: gli intervalli di tempo di riferimento sono annotati manualmente. 5) Metrica di valutazione: una metrica IoU raffinata per supportare la valutazione su più intervalli di tempo. In modo notevole, Vidi supera significativamente i modelli proprietari leader, ad esempio GPT-4o e Gemini, nel compito di recupero temporale, indicando la sua superiorità negli scenari di editing video.
L'animazione controllata dei personaggi rimane un problema complesso, in particolare nella gestione di pose rare, personaggi stilizzati, interazioni tra personaggi e oggetti, illuminazione complessa e scene dinamiche. Per affrontare queste sfide, il lavoro precedente si è concentrato principalmente sull'iniezione di indicazioni relative alla posa e all'aspetto tramite reti di bypass elaborate, ma spesso fatica a generalizzare a scenari di mondo aperto. In questo articolo, proponiamo una nuova prospettiva: purché il modello di base sia sufficientemente potente, modifiche dirette al modello con strategie di fine-tuning flessibili possono affrontare in larga misura le sfide sopra citate, compiendo un passo verso l'animazione controllata dei personaggi in contesti reali. Nello specifico, introduciamo RealisDance-DiT, basato sul modello video di base Wan-2.1. La nostra analisi approfondita rivela che il design ampiamente adottato di Reference Net non è ottimale per i modelli DiT su larga scala. Al contrario, dimostriamo che modifiche minime all'architettura del modello di base producono una baseline sorprendentemente solida. Proponiamo inoltre le strategie di "riscaldamento a basso rumore" e "lotti grandi e iterazioni piccole" per accelerare la convergenza del modello durante il fine-tuning, preservando al massimo i priori del modello di base. In aggiunta, introduciamo un nuovo dataset di test che cattura diverse sfide del mondo reale, integrando benchmark esistenti come il dataset TikTok e il dataset UBC fashion video, per valutare in modo completo il metodo proposto. Esperimenti estensivi dimostrano che RealisDance-DiT supera di gran lunga i metodi esistenti.
Gli agenti LLM rappresentano una forma emergente di sistemi di intelligenza artificiale in cui i modelli linguistici di grandi dimensioni (LLM) fungono da componente centrale, utilizzando un insieme diversificato di strumenti per completare i compiti assegnati dagli utenti. Nonostante il loro grande potenziale, gli agenti LLM presentano significativi rischi per la sicurezza. Quando interagiscono con il mondo esterno, potrebbero incontrare comandi malevoli da parte di attaccanti, portando all'esecuzione di azioni pericolose. Un modo promettente per affrontare questo problema è l'applicazione del principio del privilegio minimo: consentire solo le azioni essenziali per il completamento del compito, bloccando quelle non necessarie. Tuttavia, raggiungere questo obiettivo è complesso, poiché richiede di coprire una vasta gamma di scenari degli agenti mantenendo sia la sicurezza che l'utilità. Introduciamo Progent, il primo meccanismo di controllo dei privilegi per gli agenti LLM. Al suo cuore c'è un linguaggio specifico per il dominio che consente di esprimere in modo flessibile le politiche di controllo dei privilegi applicate durante l'esecuzione dell'agente. Queste politiche forniscono vincoli granulari sulle chiamate agli strumenti, decidendo quando le chiamate sono consentite e specificando alternative nel caso non lo siano. Ciò permette agli sviluppatori e agli utenti degli agenti di creare politiche adatte ai loro casi d'uso specifici e di applicarle in modo deterministico per garantire la sicurezza. Grazie al suo design modulare, l'integrazione di Progent non altera gli interni dell'agente e richiede solo modifiche minime all'implementazione, migliorandone la praticità e il potenziale di adozione diffusa. Per automatizzare la scrittura delle politiche, sfruttiamo gli LLM per generare politiche basate sulle query degli utenti, che vengono poi aggiornate dinamicamente per migliorare sicurezza e utilità. La nostra valutazione estensiva dimostra che Progent consente una forte sicurezza mantenendo un'elevata utilità in tre scenari o benchmark distinti: AgentDojo, ASB e AgentPoison. Inoltre, eseguiamo un'analisi approfondita, evidenziando l'efficacia dei suoi componenti principali e la resilienza della sua generazione automatica di politiche contro attacchi adattativi.
Proponiamo MR. Video, un framework agentico per la comprensione di video lunghi che dimostra il principio MapReduce semplice ma efficace per l'elaborazione di video estesi: (1) Map: percezione indipendente e densa di brevi clip video, e (2) Reduce: aggregazione congiunta delle informazioni da tutte le clip. Rispetto ai modelli visione-linguaggio (VLMs) sequenza-a-sequenza, MR. Video esegue una percezione dettagliata dei brevi video senza essere limitato dalla lunghezza del contesto. Rispetto agli agenti video esistenti che tipicamente si basano sulla selezione sequenziale di segmenti chiave, l'operazione Map consente una percezione parallela più semplice e scalabile dei brevi segmenti video. Il passo Reduce permette un'aggregazione e un ragionamento contestuale più completo, superando il recupero esplicito dei segmenti chiave. Questo principio MapReduce è applicabile sia ai VLMs che agli agenti video, e utilizziamo agenti LLM per validarne l'efficacia. Nella pratica, MR. Video impiega due fasi MapReduce: (A) Captioning: generazione di didascalie per brevi clip video (map), seguita dalla standardizzazione di personaggi e oggetti ripetuti in nomi condivisi (reduce); (B) Analisi: per ogni domanda dell'utente, analisi delle informazioni rilevanti dai singoli brevi video (map), e loro integrazione in una risposta finale (reduce). MR. Video ottiene un miglioramento di oltre il 10% in accuratezza sul benchmark LVBench rispetto ai VLMs e agli agenti video all'avanguardia. Il codice è disponibile all'indirizzo: https://github.com/ziqipang/MR-Video
Riconoscere e ragionare su oggetti occlusi (parzialmente o completamente nascosti) è fondamentale per comprendere le scene visive, poiché le occlusioni si verificano frequentemente negli ambienti del mondo reale e rappresentano ostacoli per la comprensione spaziale. Per testare la capacità dei modelli di ragionare su più oggetti occlusi, introduciamo un nuovo compito, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), che richiede a un modello di contare oggetti disposti in un pattern inferendo come il pattern continua dietro un oclusore (un oggetto che blocca parti della scena). CAPTURe richiede sia il riconoscimento di pattern visivi che il ragionamento, rendendolo un banco di prova utile per valutare i modelli visione-linguaggio (VLMs) sulla loro comprensione dei pattern occlusi e sulle capacità di comprensione spaziale. Richiedendo ai modelli di ragionare su oggetti occlusi, CAPTURe testa anche la capacità dei VLMs di formare modelli del mondo che consentano loro di colmare le informazioni mancanti. CAPTURe è composto da due parti: (1) CAPTURe-real, con immagini filtrate manualmente di oggetti reali disposti in pattern, e (2) CAPTURe-synthetic, un test diagnostico controllato con immagini generate di pattern. Valutiamo quattro potenti VLMs (GPT-4o, Intern-VL2, Molmo e Qwen2-VL) su CAPTURe, riscontrando che i modelli faticano a contare sia su pattern occlusi che non occlusi. In particolare, troviamo che i modelli performano peggio con l'occlusione, suggerendo che i VLMs sono anche carenti nell'inferire relazioni spaziali non visibili: anche i VLMs più forti come GPT-4o falliscono nel contare con l'occlusione. Al contrario, troviamo che gli esseri umani commettono errori minimi su CAPTURe. Troviamo inoltre che fornire informazioni ausiliarie sulle posizioni degli oggetti occlusi migliora le prestazioni, sottolineando che l'errore del modello deriva sia dall'incapacità di gestire l'occlusione che dalla difficoltà di contare nelle immagini.
La Proprietà Intellettuale (IP) è un dominio unico che integra conoscenze tecniche e legali, rendendolo intrinsecamente complesso e ad alta intensità di conoscenza. Man mano che i modelli linguistici di grandi dimensioni (LLM) continuano a progredire, dimostrano un grande potenziale nell'elaborazione di compiti legati alla IP, consentendo un'analisi, una comprensione e una generazione più efficiente di contenuti relativi alla proprietà intellettuale. Tuttavia, i dataset e i benchmark esistenti si concentrano in modo ristretto sui brevetti o coprono aspetti limitati del campo della IP, mancando di allinearsi con scenari reali. Per colmare questa lacuna, introduciamo la prima tassonomia completa dei compiti di IP e un benchmark bilingue ampio e diversificato, IPBench, che copre 8 meccanismi di IP e 20 compiti. Questo benchmark è progettato per valutare i LLM in applicazioni reali di proprietà intellettuale, comprendendo sia la comprensione che la generazione. Abbiamo testato 16 LLM, che vanno da modelli generici a modelli specifici per il dominio, e abbiamo riscontrato che anche il modello con le migliori prestazioni raggiunge solo il 75,8% di accuratezza, rivelando un ampio margine di miglioramento. È degno di nota che i modelli open-source orientati alla IP e al diritto rimangono indietro rispetto ai modelli generici closed-source. Rilasciamo pubblicamente tutti i dati e il codice di IPBench e continueremo ad aggiornarlo con ulteriori compiti legati alla IP per riflettere meglio le sfide reali nel dominio della proprietà intellettuale.
Questo studio introduce un modello innovativo e interpretabile, DiffVox, per l'adeguamento degli effetti vocali nella produzione musicale. DiffVox, abbreviazione di "Differentiable Vocal Fx", integra equalizzazione parametrica, controllo della gamma dinamica, delay e riverbero con implementazioni efficienti e differenziabili, consentendo l'ottimizzazione basata su gradienti per la stima dei parametri. I preset vocali sono estratti da due dataset, comprendenti 70 tracce da MedleyDB e 365 tracce da una collezione privata. L'analisi delle correlazioni dei parametri evidenzia forti relazioni tra effetti e parametri, come i filtri high-pass e low-shelf che spesso agiscono insieme per modellare le frequenze basse, e il tempo di delay che si correla con l'intensità dei segnali ritardati. L'analisi delle componenti principali rivela connessioni con le dimensioni del timbro di McAdams, dove la componente più cruciale modula la percezione di spazialità, mentre le componenti secondarie influenzano la brillantezza spettrale. I test statistici confermano la natura non-Gaussiana della distribuzione dei parametri, sottolineando la complessità dello spazio degli effetti vocali. Questi risultati iniziali sulle distribuzioni dei parametri pongono le basi per future ricerche nella modellazione degli effetti vocali e nel mixing automatico. Il nostro codice sorgente e i dataset sono accessibili all'indirizzo https://github.com/SonyResearch/diffvox.