Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli di ragionamento hanno dimostrato notevoli capacità di problem solving, tuttavia i compiti del mondo reale richiedono spesso strumenti esterni e interazioni a lungo termine. I framework per agenti esistenti seguono generalmente flussi di lavoro predefiniti, limitando il completamento autonomo e globale dei task. In questo articolo presentiamo DeepAgent, un agente di ragionamento profondo end-to-end che esegue pensiero autonomo, scoperta di strumenti ed esecuzione di azioni all'interno di un unico processo di ragionamento coerente. Per affrontare le sfide delle interazioni a lungo termine, in particolare l'esplosione della lunghezza del contesto dovuta a chiamate multiple a strumenti e l'accumulo della cronologia interattiva, introduciamo un meccanismo autonomo di ripiegamento della memoria che comprime le interazioni passate in memorie episodiche, di lavoro e di strumento strutturate, riducendo l'accumulo di errori preservando al contempo le informazioni critiche. Per insegnare l'uso di strumenti generici in modo efficiente e stabile, sviluppiamo una strategia di apprendimento per rinforzo end-to-end, denominata ToolPO, che sfrutta API simulate da LLM e applica l'attribuzione del vantaggio delle chiamate agli strumenti per assegnare credito granulare ai token di invocazione. Esperimenti estesi su otto benchmark, inclusi compiti di uso generico di strumenti (ToolBench, API-Bank, TMDB, Spotify, ToolHop) e applicazioni downstream (ALFWorld, WebShop, GAIA, HLE), dimostrano che DeepAgent supera costantemente i baseline sia in scenari di recupero di strumenti etichettati che a insieme aperto. Questo lavoro rappresenta un passo verso agenti più generali e capaci per applicazioni nel mondo reale. Il codice e la demo sono disponibili su https://github.com/RUC-NLPIR/DeepAgent.
I modelli di ragionamento all'avanguardia hanno dimostrato capacità incredibili in un'ampia gamma di discipline, spinti dall'addestramento post-allenamento di grandi modelli linguistici (LLM) con apprendimento per rinforzo (RL). Tuttavia, nonostante il diffuso successo di questo paradigma, gran parte della letteratura si è concentrata sul distinguere i comportamenti veramente nuovi che emergono durante il RL ma che non sono presenti nei modelli base. Nel nostro lavoro, affrontiamo questa questione da un'angolazione diversa, chiedendoci invece se capacità di ragionamento comparabili possano essere elicitate dai modelli base al momento dell'inferenza mediante puro campionamento, senza alcun addestramento aggiuntivo. Ispirati dalle tecniche di Markov chain Monte Carlo (MCMC) per il campionamento da distribuzioni affilate, proponiamo un semplice algoritmo di campionamento iterativo che sfrutta le verosimiglianze dei modelli base. Su diversi modelli base, dimostriamo che il nostro algoritmo offre miglioramenti sostanziali nel ragionamento che quasi eguagliano e addirittura superano quelli ottenuti con il RL in un'ampia varietà di task one-shot, tra cui MATH500, HumanEval e GPQA. Inoltre, il nostro campionatore evita il collasso della diversità su campioni multipli che è caratteristico del post-addestramento con RL. Crucialmente, il nostro metodo non richiede addestramento, dataset curati o un verificatore, suggerendo un'ampia applicabilità al di là di domini facilmente verificabili.
Il controllo semantico unificato e generalizzabile nella generazione video rimane una sfida aperta cruciale. I metodi esistenti introducono artefatti applicando prior inappropriati a livello di pixel da controlli basati sulla struttura, oppure si basano su fine-tuning non generalizzabili e specifici per condizione o su architetture specializzate per compito. Introduciamo Video-As-Prompt (VAP), un nuovo paradigma che riformula questo problema come generazione in contesto. VAP utilizza un video di riferimento come prompt semantico diretto, guidando un Video Diffusion Transformer (DiT) congelato tramite un esperto plug-and-play Mixture-of-Transformers (MoT). Questa architettura previene la dimenticanza catastrofica ed è guidata da un embedding posizionale con bias temporale che elimina le prior di mappatura spurie per un recupero del contesto robusto. Per supportare questo approccio e catalizzare la ricerca futura, abbiamo creato VAP-Data, il più grande dataset per la generazione video controllata semanticamente, con oltre 100.000 video accoppiati attraverso 100 condizioni semantiche. Come modello unificato singolo, VAP stabilisce un nuovo stato dell'arte per i metodi open-source, raggiungendo un tasso di preferenza utente del 38,7% che rivaleggia con i principali modelli commerciali specifici per condizione. La forte generalizzazione zero-shot di VAP e il supporto per varie applicazioni a valle segnano un progresso significativo verso la generazione video versatile e controllabile.
Affrontiamo la sfida della generazione di mondi 3D infinitamente estendibili – ambienti ampi e continui con geometria coerente e aspetto realistico. I metodi esistenti presentano sfide chiave: gli approcci basati sul "sollevamento" 2D soffrono di incoerenze geometriche e di aspetto tra le diverse viste, le rappresentazioni implicite 3D sono difficili da scalare, e gli attuali modelli fondazionali 3D sono per lo più incentrati su oggetti singoli, limitandone l'applicabilità alla generazione a livello di scena. La nostra intuizione chiave è sfruttare i forti priori di generazione di modelli 3D pre-addestrati per la generazione strutturata di blocchi di scena. A tal fine, proponiamo WorldGrow, un framework gerarchico per la sintesi di scene 3D illimitate. Il nostro metodo presenta tre componenti fondamentali: (1) una pipeline di curatela dei dati che estrae blocchi di scena di alta qualità per l'addestramento, rendendo le rappresentazioni latenti strutturate 3D adatte alla generazione di scene; (2) un meccanismo di inpaint di blocchi 3D che abilita l'estensione della scena consapevole del contesto; e (3) una strategia di generazione coarse-to-fine che garantisce sia la plausibilità del layout globale che la fedeltà geometrica/testurale locale. Valutato sul dataset su larga scala 3D-FRONT, WorldGrow raggiunge prestazioni allo stato dell'arte nella ricostruzione geometrica, supportando in modo unico la generazione infinita di scene con output fotorealistici e strutturalmente coerenti. Questi risultati ne evidenziano la capacità di costruire ambienti virtuali su larga scala e il potenziale per la costruzione di futuri modelli mondiali.
La mancanza di una definizione concreta per l'Intelligenza Generale Artificiale (AGI) oscura il divario tra l'IA specializzata odierna e la cognizione di livello umano. Questo articolo introduce una struttura quantificabile per affrontare tale questione, definendo l'AGI come la capacità di eguagliare la versatilità e la competenza cognitiva di un adulto ben istruito. Per rendere operativa questa definizione, ancoriamo la nostra metodologia alla teoria di Cattell-Horn-Carroll, il modello della cognizione umana più convalidato empiricamente. La struttura scompone l'intelligenza generale in dieci domini cognitivi fondamentali – inclusi ragionamento, memoria e percezione – e adatta consolidate batterie psicometriche umane per valutare i sistemi di IA. L'applicazione di questa struttura rivela un profilo cognitivo altamente "irregolare" nei modelli contemporanei. Sebbene competenti in domini ad alta intensità di conoscenza, gli attuali sistemi di IA presentano deficit critici nei meccanismi cognitivi fondamentali, in particolare nell'archiviazione della memoria a lungo termine. I punteggi AGI risultanti (ad esempio, GPT-4 al 27%, GPT-5 al 58%) quantificano concretamente sia i rapidi progressi che il divario sostanziale che rimane prima del raggiungimento dell'AGI.
Il Group Relative Policy Optimization (GRPO) ha dimostrato un forte potenziale per la generazione di immagini da testo (Text-to-Image, T2I) basata sul flow matching, ma affronta due limitazioni chiave: un'attribuzione del vantaggio inaccurata e la trascuratezza delle dinamiche temporali della generazione. In questo lavoro, sosteniamo che spostare il paradigma di ottimizzazione dal livello del singolo step al livello del chunk possa alleviare efficacemente questi problemi. Sulla base di questa idea, proponiamo Chunk-GRPO, il primo approccio per la generazione T2I basato su GRPO a livello di chunk. L'idea fondamentale è raggruppare step consecutivi in "chunk" coerenti che catturino le dinamiche temporali intrinseche del flow matching e ottimizzare le policy a livello di chunk. Inoltre, introduciamo una strategia opzionale di campionamento pesato per migliorare ulteriormente le prestazioni. Esperimenti estensivi mostrano che Chunk-GRPO ottiene risultati superiori sia nell'allineamento alle preferenze che nella qualità dell'immagine, evidenziando le promesse dell'ottimizzazione a livello di chunk per i metodi basati su GRPO.
I modelli di diffusione discreta sono emersi come una direzione promettente per i compiti di visione e linguaggio, offrendo modellizzazione contestuale bidirezionale e parallelizzazione teorica. Tuttavia, la loro applicazione pratica è fortemente ostacolata da una discrepanza addestramento-inferenza, che porta a cascate di errori catastrofiche: gli errori iniziali dei token durante la decodifica parallela inquinano il contesto di generazione, innescando una reazione a catena di errori cumulativi e portando a errori sintattici e allucinazioni semantiche. Per affrontare questa sfida fondamentale, riformuliamo il processo di generazione da denoising passivo a raffinamento attivo. Introduciamo ReDiff, un framework di diffusione potenziato per la raffinazione che insegna al modello a identificare e correggere i propri errori. Il nostro approccio presenta un processo di addestramento in due fasi: prima, instilliamo una capacità di revisione fondamentale addestrando il modello a revisionare errori sintetici; secondo, implementiamo un nuovo ciclo di autocorrezione online in cui il modello viene esplicitamente addestrato a revisionare le proprie bozze imperfette apprendendo dalle correzioni di un esperto. Questo apprendimento guidato dagli errori conferisce al modello la cruciale capacità di riesaminare e raffinare il proprio output già generato, interrompendo efficacemente la cascata di errori. Esperimenti estensivi dimostrano che ReDiff migliora significativamente la coerenza e l'accuratezza fattuale dei contenuti generati, consentendo una generazione parallela stabile ed efficiente di gran lunga superiore ai metodi tradizionali di denoising. I nostri codici e modelli sono disponibili su https://rediff-hku.github.io/.
L'aumento della lunghezza del contesto nei grandi modelli linguistici (LLM) offre vantaggi significativi ma risulta computazionalmente oneroso. Questa spesa deriva principalmente dal meccanismo di self-attention, la cui complessità O(N²) rispetto alla lunghezza della sequenza rappresenta un collo di bottiglia critico per memoria e latenza. Fortunatamente, la matrice di attenzione è spesso sparsa, specialmente per sequenze lunghe, suggerendo un'opportunità di ottimizzazione. L'attenzione block-sparse è emersa come soluzione promettente, partizionando le sequenze in blocchi ed evitando il calcolo per un loro sottoinsieme. Tuttavia, l'efficacia di questo metodo dipende fortemente dai pattern di attenzione sottostanti, che possono generare sparsità a livello di blocco sub-ottimale. Ad esempio, i token chiave importanti per le query all'interno di un singolo blocco potrebbero essere dispersi tra numerosi altri blocchi, causando ridondanza computazionale. In questo lavoro proponiamo Permuted Block-Sparse Attention (PBS-Attn), un metodo plug-and-play che sfrutta le proprietà di permutazione dell'attenzione per aumentare la sparsità a livello di blocco e migliorare l'efficienza computazionale del prefilling degli LLM. Abbiamo condotto esperimenti completi su dataset reali e complessi a contesto lungo, dimostrando che PBS-Attn supera costantemente i metodi di attenzione block-sparse esistenti in accuratezza del modello e si avvicina notevolmente al baseline di attenzione completa. Grazie ai nostri kernel personalizzati permuted-FlashAttention, PBS-Attn raggiunge un speedup end-to-end fino a 2.75x nel prefilling a contesto lungo, confermandone la fattibilità pratica. Codice disponibile all'indirizzo https://github.com/xinghaow99/pbs-attn.
La GUI grounding, che mappa le istruzioni in linguaggio naturale a elementi UI azionabili, è una capacità fondamentale degli agenti GUI. I lavori precedenti trattano largamente le istruzioni come un proxy statico per l'intento dell'utente, trascurando l'impatto della diversità e qualità delle istruzioni sulle prestazioni del grounding. Attraverso un'attenta analisi dei dataset di grounding esistenti, abbiamo riscontrato un tasso di difetti del 23,3% nelle loro istruzioni e dimostriamo che lo sfruttamento della diversità delle istruzioni in fase di inferenza produce un miglioramento delle prestazioni relativo fino a un sostanziale 76%. In questo articolo, introduciamo il paradigma Instruction-as-Reasoning, trattando le istruzioni come percorsi analitici dinamici che offrono prospettive distinte e consentendo al modello di selezionare il percorso più efficace durante il ragionamento. Per raggiungere questo obiettivo, proponiamo un framework di addestramento a due stadi: fine-tuning supervisionato (SFT) su istruzioni sintetizzate e diversificate per instillare un ragionamento multi-prospettico, seguito da apprendimento per rinforzo (RL) per ottimizzare la selezione e composizione dei percorsi. I nostri modelli risultanti, UI-Ins-7B e UI-Ins-32B, raggiungono risultati state-of-the-art su cinque benchmark di grounding impegnativi ed esibiscono un ragionamento emergente, componendo e sintetizzando selettivamente nuovi percorsi di istruzioni durante l'inferenza. In particolare, UI-Ins-32B raggiunge la migliore accuratezza di grounding, ottenendo l'87,3% su UI-I2E-Bench, il 57,0% su ScreenSpot-Pro e l'84,9% su MMBench-GUI L2. Inoltre, il nostro modello dimostra un forte potenziale agentico, raggiungendo un tasso di successo del 74,1% su AndroidWorld utilizzando UI-Ins-7B come esecutore. La nostra analisi approfondita rivale ulteriori intuizioni, come come il ragionamento possa essere formulato per migliorare piuttosto che ostacolare le prestazioni di grounding, e come il nostro metodo mitighi il collasso della politica nel framework SFT+RL. Tutto il codice e i checkpoint del modello saranno rilasciati pubblicamente su https://github.com/alibaba/UI-Ins.
In questo articolo dimostriamo che i modelli di diffusione visiva possono fungere da efficaci risolutori geometrici: sono in grado di ragionare direttamente su problemi geometrici operando nello spazio dei pixel. Illustriamo inizialmente questo principio sul Problema del Quadrato Inscritto, un problema geometrico di lunga data che si chiede se ogni curva di Jordan contenga quattro punti che formano un quadrato. Estendiamo successivamente l'approccio a due altri noti problemi geometrici complessi: il Problema dell'Albero di Steiner e il Problema del Poligono Semplice. Il nostro metodo tratta ogni istanza del problema come un'immagine e addestra un modello di diffusione visiva standard che trasforma del rumore Gaussiano in un'immagine rappresentante una soluzione approssimata valida che si avvicina strettamente a quella esatta. Il modello impara a trasformare strutture geometriche rumorose in configurazioni corrette, riformulando di fatto il ragionamento geometrico come generazione di immagini. A differenza di lavori precedenti che necessitano di architetture specializzate e adattamenti specifici per il dominio quando si applica la diffusione a rappresentazioni geometriche parametriche, noi impieghiamo un modello di diffusione visiva standard che opera sulla rappresentazione visiva del problema. Questa semplicità mette in luce un ponte sorprendente tra la modellazione generativa e la risoluzione di problemi geometrici. Oltre ai problemi specifici qui studiati, i nostri risultati indicano un paradigma più ampio: operare nello spazio dell'immagine fornisce una struttura generale e pratica per approssimare problemi notoriamente difficili e apre la porta all'affrontare una classe molto più vasta di compiti geometrici impegnativi.
I modelli linguistici di grandi dimensioni per video (VideoLLM) estendono le capacità dei modelli visione-linguaggio agli input spaziotemporali, abilitando compiti come la risposta a domande su video (VideoQA). Nonostante i recenti progressi nei VideoLLM, i loro meccanismi interni su dove e come estraggono e propagano le informazioni video e testuali rimangono poco esplorati. In questo studio, investigiamo il flusso informativo interno dei VideoLLM utilizzando tecniche di interpretabilità meccanicistica. La nostra analisi rivela modelli consistenti tra diversi compiti di VideoQA: (1) il ragionamento temporale nei VideoLLM inizia con interazioni attive tra frame negli strati iniziali e intermedi, (2) seguito da un'integrazione progressiva video-linguaggio negli strati intermedi. Ciò è facilitato dall'allineamento tra le rappresentazioni video e gli embedding linguistici contenenti concetti temporali. (3) Al completamento di questa integrazione, il modello è pronto a generare risposte corrette negli strati intermedi e finali. (4) Sulla base della nostra analisi, dimostriamo che i VideoLLM possono mantenere le loro prestazioni di VideoQA selezionando questi percorsi informativi efficaci sopprimendo contemporaneamente una quantità sostanziale di connessioni di attenzione, ad esempio il 58% in LLaVA-NeXT-7B-Video-FT. Questi risultati forniscono una mappa su come i VideoLLM eseguono il ragionamento temporale e offrono spunti pratici per migliorare l'interpretabilità del modello e la generalizzazione per compiti downstream. La nostra pagina del progetto con il codice sorgente è disponibile all'indirizzo https://map-the-flow.github.io.
La fusione di modelli è una strategia efficiente di post-addestramento per integrare la conoscenza proveniente da checkpoint specializzati multipli di un modello base condiviso. I metodi esistenti operano nello spazio dei parametri, combinando i vettori di task per mitigare i conflitti, ma rimangono vincolati da inconsistenze parametriche. Proponiamo le Ancore Funzionali Doppie (FDA), un framework che modella invece lo spazio delle rappresentazioni in input. Le FDA sono input sintetici i cui gradienti indotti si allineano con i vettori di task, catturando gli spostamenti funzionali specifici per task rispetto al modello pre-addestrato. Questa prospettiva collega l'addestramento multi-task congiunto e la fusione post-hoc, offrendo sia robustezza che flessibilità. Introduciamo inoltre uno schema di inizializzazione principiato e dimostriamo che le FDA sono complementari alla fusione di modelli nello spazio dei parametri. Esperimenti esaustivi dimostrano l'efficacia delle FDA nella fusione di modelli.
La progettazione dei prompt svolge un ruolo cruciale nella generazione testo-video (T2V), tuttavia i prompt forniti dagli utenti sono spesso brevi, non strutturati e disallineati rispetto ai dati di addestramento, limitando il potenziale generativo dei modelli T2V basati su diffusione. Presentiamo RAPO++, un framework di ottimizzazione cross-stage dei prompt che unisce raffinamento allineato ai dati di addestramento, scalatura iterativa al tempo di test e fine-tuning di large language model (LLM) per migliorare sostanzialmente la generazione T2V senza modificare l'architettura generativa sottostante. Nello Stage 1, la Retrieval-Augmented Prompt Optimization (RAPO) arricchisce i prompt utente con modificatori semanticamente rilevanti recuperati da un grafo delle relazioni e li ristruttura per adattarli alle distribuzioni di addestramento, migliorando composizionalità e fedeltà multi-oggetto. Lo Stage 2 introduce la Sample-Specific Prompt Optimization (SSPO), un meccanismo a ciclo chiuso che affina iterativamente i prompt utilizzando feedback multi-sorgente – inclusi allineamento semantico, fedeltà spaziale, coerenza temporale e segnali task-specific come il flusso ottico – producendo una qualità di generazione video progressivamente migliorata. Lo Stage 3 sfrutta coppie di prompt ottimizzate dalla SSPO per effettuare il fine-tuning del LLM riscrittore, internalizzando pattern di ottimizzazione task-specific e abilitando una generazione di prompt efficiente e di alta qualità ancora prima dell'inferenza. Esperimenti estensivi su cinque modelli T2V all'avanguardia e cinque benchmark dimostrano che RAPO++ ottiene miglioramenti significativi in allineamento semantico, ragionamento composizionale, stabilità temporale e plausibilità fisica, superando di ampio margine i metodi esistenti. I nostri risultati evidenziano RAPO++ come una soluzione model-agnostic, efficiente in termini di costi e scalabile, che stabilisce un nuovo standard per l'ottimizzazione dei prompt nella generazione T2V. Il codice è disponibile all'indirizzo https://github.com/Vchitect/RAPO.
Riveliamo che le rappresentazioni interne nei grandi modelli linguistici (LLM) fungono da indicatori affidabili della conoscenza appresa e proponiamo RECALL, un innovativo framework di fusione di modelli consapevole delle rappresentazioni per l'apprendimento continuo senza accesso ai dati storici. RECALL calcola la similarità inter-modello dalle rappresentazioni nascoste stratificate su campioni tipici raggruppati ed esegue una fusione parametrica gerarchica e adattativa per allineare la conoscenza tra i modelli. Questo design consente di preservare le caratteristiche dominio-generali negli strati superficiali, permettendo al contempo l'adattamento specifico per task negli strati più profondi. A differenza dei metodi precedenti che richiedono etichette di task o comportano compromessi prestazionali, RECALL raggiunge un'integrazione multi-dominio senza soluzione di continuità e un'elevata resistenza alla dimenticanza catastrofica. Esperimenti estesi su cinque task di NLP e molteplici scenari di apprendimento continuo dimostrano che RECALL supera i baseline sia nella ritenzione della conoscenza che nella generalizzazione, fornendo una soluzione scalabile e senza dati per l'evoluzione degli LLM.
Le metriche tradizionali di Information Retrieval (IR), come nDCG, MAP e MRR, presuppongono che gli utenti umani esaminino sequenzialmente i documenti con un'attenzione decrescente verso i ranghi inferiori. Questo presupposto non è valido nei sistemi di Retrieval Augmented Generation (RAG), dove i risultati della ricerca sono consumati da Large Language Model (LLM), i quali, a differenza degli umani, elaborano tutti i documenti recuperati come un insieme piuttosto che in sequenza. Inoltre, le metriche IR tradizionali non tengono conto dei documenti correlati ma irrilevanti che degradano attivamente la qualità della generazione, anziché essere semplicemente ignorati. A causa di questi due principali disallineamenti, ovvero lo sconto posizionale umano vs. macchina e la rilevanza umana vs. l'utilità per la macchina, le metriche IR classiche non predicono accuratamente le prestazioni dei RAG. Introduciamo uno schema di annotazione basato sull'utilità che quantifica sia il contributo positivo dei passaggi rilevanti che l'impatto negativo di quelli distraenti. Basandoci su questo fondamento, proponiamo l'UDCG (Utility and Distraction-aware Cumulative Gain), una metrica che utilizza uno sconto posizionale orientato agli LLM per ottimizzare direttamente la correlazione con l'accuratezza end-to-end della risposta. Esperimenti su cinque dataset e sei LLM dimostrano che l'UDCG migliora la correlazione fino al 36% rispetto alle metriche tradizionali. Il nostro lavoro rappresenta un passo cruciale verso l'allineamento della valutazione dell'IR con i consumatori LLM e consente una valutazione più affidabile dei componenti RAG.
Tecniche recenti come la generazione aumentata dal recupero di informazioni o il ragionamento a catena di pensiero hanno portato a contesti più lunghi e costi di inferenza aumentati. Le tecniche di compressione del contesto possono ridurre questi costi, ma gli approcci più efficaci richiedono il fine-tuning del modello target o addirittura la modifica della sua architettura. Ciò può degradare le sue capacità generali quando non viene utilizzato per questo scopo specifico. Qui esploriamo un approccio alternativo: un encoder che comprime il contesto in rappresentazioni continue che sostituiscono gli embedding dei token nei LLM di tipo decoder. In primo luogo, conduciamo uno studio sistematico delle strategie di addestramento e delle scelte architetturali per l'encoder. I nostri risultati hanno portato alla progettazione di un Compressore di Rappresentazioni di Testo Adattabile, denominato ARC-Encoder, che produce un numero di rappresentazioni continue inferiore di un fattore x (tipicamente x∈{4,8}) rispetto ai token di testo. Valutiamo ARC-Encoder in una varietà di scenari di utilizzo di LLM, dall'apprendimento in-context all'estensione della finestra contestuale, sia su decoder di tipo "instruct" che "base". I risultati mostrano che ARC-Encoder raggiunge prestazioni allo stato dell'arte su diversi benchmark, migliorando al contempo l'efficienza computazionale durante l'inferenza. Infine, dimostriamo che i nostri modelli possono essere adattati a più decoder simultaneamente, permettendo a un singolo encoder di generalizzare su diversi LLM decoder. Ciò rende ARC-Encoder una soluzione flessibile ed efficiente per encoder portabili che funzionano perfettamente con molteplici LLM. Rilasciamo il codice di addestramento all'indirizzo https://github.com/kyutai-labs/ARC-Encoder, mentre il dataset per il fine-tuning e i modelli pre-addestrati sono disponibili su https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
Recentemente sono stati compiuti progressi significativi nell'apprendimento continuo multimodale, che mira ad apprendere nuovi task in sequenza in contesti multimodali preservando le prestazioni su quelli appresi in precedenza. Tuttavia, i metodi esistenti si concentrano principalmente su task a granularità grossolana, presentando limitazioni nell'affrontare l'entanglement delle modalità in contesti di apprendimento continuo a granularità fine. Per colmare questa lacuna, introduciamo un nuovo task di Segmentazione Audio-Visuale Continua (CAVS), finalizzato a segmentare continuamente nuove classi guidati dall'audio. Attraverso un'analisi approfondita, sono state identificate due sfide critiche: 1) la deriva semantica multimodale, in cui un oggetto sonoro viene etichettato come sfondo in task sequenziali; 2) la confusione da co-occorrenza, per cui classi che co-occorrono frequentemente tendono a essere confuse. In questo lavoro, viene progettato un framework di Rehearsal Multimodale basato su Collisione (CMR) per affrontare queste sfide. Nello specifico, per la deriva semantica multimodale, viene proposta una strategia di Selezione Campioni Multimodale (MSS) per selezionare campioni con elevata consistenza modale per il rehearsal. Nel frattempo, per la confusione da co-occorrenza, è stato progettato un meccanismo di Rehearsal Campioni basato su Collisione (CSR), che consente di aumentare la frequenza dei campioni di rehearsal di quelle classi confondibili durante il processo di addestramento. Inoltre, abbiamo costruito tre scenari incrementali audio-visivi per verificare l'efficacia del nostro metodo. Esperimenti completi dimostrano che il nostro metodo supera significativamente i metodi di apprendimento continuo unimodale.
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in sistemi agenti che interagiscono con un ambiente esterno; ciò li rende suscettibili ad attacchi di prompt injection quando elaborano dati non attendibili. Per superare questa limitazione, proponiamo SIC (Soft Instruction Control) – un ciclo iterativo di sanitizzazione dei prompt, semplice ma efficace, progettato per agenti LLM potenziati da strumenti. Il nostro metodo ispeziona ripetutamente i dati in ingresso alla ricerca di istruzioni che potrebbero compromettere il comportamento dell'agente. Se viene individuato tale contenuto, il contenuto malevolo viene riscritto, mascherato o rimosso, e il risultato viene rivalutato. Il processo continua finché l'input non è pulito o viene raggiunto un limite massimo di iterazioni; se rimane contenuto imperativo simile a un'istruzione, l'agente si interrompe per garantire la sicurezza. Consentendo passaggi multipli, il nostro approccio riconosce che singole riscritture possono fallire, ma permette al sistema di individuare e correggere injection mancate nei passaggi successivi. Sebbene immediatamente utile, un'analisi del caso peggiore mostra che SIC non è infallibile; un avversario forte può comunque ottenere un tasso di successo d'attacco (ASR) del 15% incorporando flussi di lavoro non imperativi. Ciò nondimeno, innalza l'asticella della sicurezza.
I recenti progressi nei modelli di ragionamento su larga scala (LRM) hanno introdotto un processo "pensante" intermedio prima della generazione delle risposte finali, migliorando le loro capacità di ragionamento su compiti complessi a valle. Tuttavia, il potenziale degli LRM come valutatori per la qualità della traduzione automatica (MT) rimane poco esplorato. Forniamo la prima analisi sistematica dell'approccio "LRM come giudice" nella valutazione della MT. Identifichiamo sfide chiave, rivelando che gli LRM richiedono materiali di valutazione su misura, tendono a "pensare troppo" (overthink) istanze più semplici e presentano problemi con i meccanismi di punteggio che portano a sovrastime. Per affrontare questi problemi, proponiamo di calibrare il pensiero degli LRM addestrandoli su traiettorie di pensiero sintetiche e simili a quelle umane. I nostri esperimenti sui benchmark WMT24 Metrics dimostrano che questo approccio riduce notevolmente i budget computazionali del pensiero di ~35x, migliorando simultaneamente le prestazioni valutative su diverse scale LRM da 7B a 32B (ad esempio, R1-Distill-Qwen-7B raggiunge un miglioramento di +8.7 punti di correlazione). Questi risultati evidenziano il potenziale degli LRM efficientemente calibrati per far progredire la valutazione automatica fine-grana della MT.
I modelli mondiali interattivi che simulano la dinamica degli oggetti sono cruciali per la robotica, la realtà virtuale (VR) e quella aumentata (AR). Tuttavia, apprendere modelli di dinamica fisicamente consistenti a partire da dati video reali limitati rimane una sfida significativa, specialmente per oggetti deformabili con proprietà fisiche variabili spazialmente. Per superare la sfida della scarsità di dati, proponiamo PhysWorld, un nuovo framework che utilizza un simulatore per sintetizzare dimostrazioni fisicamente plausibili e diversificate al fine di apprendere modelli mondiali efficienti. Nello specifico, costruiamo prima un gemello digitale fisicamente consistente all'interno del simulatore MPM attraverso la selezione di modelli costitutivi e l'ottimizzazione globale-to-locale delle proprietà fisiche. Successivamente, applichiamo perturbazioni part-aware alle proprietà fisiche e generiamo vari pattern di movimento per il gemello digitale, sintetizzando così dimostrazioni estese e diversificate. Infine, utilizzando queste dimostrazioni, addestriamo un modello mondiale leggero basato su GNN (Graph Neural Network) in cui sono incorporate le proprietà fisiche. Il video reale può essere utilizzato per affinare ulteriormente le proprietà fisiche. PhysWorld ottiene previsioni future accurate e rapide per vari oggetti deformabili e si generalizza bene anche a interazioni non viste. Gli esperimenti mostrano che PhysWorld ha prestazioni competitive consentendo al contempo velocità di inferenza 47 volte superiori rispetto al recente metodo state-of-the-art, ovvero PhysTwin.
Applichiamo la teoria delle categorie per estrarre la struttura multimodale dei documenti, il che ci porta a sviluppare misure di teoria dell'informazione, tecniche di summarizzazione ed estensione dei contenuti, e un miglioramento auto-supervisionato di grandi modelli preaddestrati. In primo luogo, sviluppiamo una rappresentazione matematica di un documento come una categoria di coppie domanda-risposta. In secondo luogo, sviluppiamo una procedura di ortogonalizzazione per suddividere l'informazione contenuta in uno o più documenti in parti non sovrapposte. Le strutture estratte nel primo e nel secondo passaggio ci permettono di sviluppare metodi per misurare ed enumerare l'informazione contenuta in un documento. Basandoci su questi passi, sviluppiamo anche nuove tecniche di summarizzazione, nonché una soluzione a un nuovo problema, ovvero l'esegesi che risulta in un'estensione del documento originale. La nostra metodologia basata su coppie domanda-risposta consente una nuova analisi di rate-distortion delle tecniche di summarizzazione. Implementiamo le nostre tecniche utilizzando grandi modelli preaddestrati e proponiamo un'estensione multimodale del nostro quadro matematico complessivo. Infine, sviluppiamo un nuovo metodo auto-supervisionato che utilizza RLVR per migliorare i grandi modelli preaddestrati sfruttando vincoli di consistenza come la componibilità e la chiusura rispetto a determinate operazioni che scaturiscono naturalmente dal nostro quadro di teoria delle categorie.
L'apprendimento per rinforzo (RL) è emerso come un approccio cruciale per potenziare le capacità dei grandi modelli linguistici. Tuttavia, nei modelli a miscela di esperti (MoE), il meccanismo di instradamento spesso introduce instabilità, arrivando persino a causare un collasso catastrofico dell'addestramento RL. Analizziamo la coerenza addestramento-inferenza dei modelli MoE e identifichiamo una discrepanza significativa nei comportamenti di instradamento tra le due fasi. Inoltre, anche in condizioni identiche, il framework di instradamento può produrre selezioni di esperti divergenti in passaggi in avanti ripetuti. Per affrontare questa incoerenza fondamentale, proponiamo Rollout Routing Replay (R³), un metodo che registra le distribuzioni di instradamento dal motore di inferenza e le riproduce durante l'addestramento. R³ riduce significativamente la divergenza KL delle politiche tra addestramento e inferenza e mitiga discrepanze estreme senza compromettere la velocità di addestramento. Esperimenti estesi su vari contesti confermano che R³ riesce a stabilizzare l'addestramento RL, prevenendo il collasso e superando metodi come GSPO e TIS. Riteniamo che questo lavoro possa offrire una nuova soluzione per stabilizzare l'RL nei modelli MoE.
Foley Control è un approccio leggero per la Foley guidata da video che mantiene congelati i modelli preaddestrati a singola modalità e apprende solo un piccolo ponte di cross-attention tra di essi. Colleghiamo gli embedding video di V-JEPA2 a un modello congelato Stable Audio Open DiT per la generazione audio da testo (T2A) inserendo una compatta cross-attention video dopo l'esistente cross-attention per il testo del modello, in modo che i prompt impostino la semantica globale mentre il video affina la temporizzazione e le dinamiche locali. I backbone congelati conservano forti distribuzioni marginali (video; audio dato il testo) e il ponte apprende la dipendenza audio-video necessaria per la sincronizzazione, senza riaddestrare la prior audio. Per ridurre la memoria e stabilizzare l'addestramento, effettuiamo il pooling dei token video prima del conditioning. Su benchmark curati di video-audio, Foley Control fornisce un allineamento temporale e semantico competitivo con un numero di parametri addestrabili di gran lunga inferiore rispetto ai recenti sistemi multi-modali, preservando al contempo la controllabilità basata su prompt e una modularità adatta alla produzione (sostituire/aggiornare encoder o il backbone T2A senza riaddestramento end-to-end). Sebbene ci concentriamo sulla Video-to-Foley, lo stesso design del ponte può potenzialmente estendersi ad altre modalità audio (ad esempio, il parlato).
Gli agenti di intelligenza artificiale hanno il potenziale di rivoluzionare la produttività scientifica automatizzando le revisioni della letteratura, replicando esperimenti, analizzando dati e persino proponendo nuove direzioni di indagine; esistono infatti numerosi agenti di questo tipo, che spaziano da sistemi generici di "ricerca approfondita" ad agenti specializzati per la scienza, come AI Scientist e AIGS. Una valutazione rigorosa di questi agenti è fondamentale per il progresso. Tuttavia, i benchmark esistenti presentano diverse carenze: (1) non forniscono misure olistiche e informate al prodotto dei casi d'uso reali come la ricerca scientifica; (2) mancano degli strumenti riproducibili necessari per un confronto controllato delle capacità agentiche fondamentali; (3) non tengono conto di variabili confondenti come il costo dei modelli e l'accesso agli strumenti; (4) non offrono interfacce standardizzate per la prototipazione e valutazione rapida degli agenti; (5) sono privi di agenti baseline completi necessari per identificare i veri progressi. In risposta, definiamo principi e strumenti per benchmark più rigorosi degli agenti. Utilizzandoli, presentiamo AstaBench, una suite che fornisce la prima misura olistica della capacità agentica di condurre ricerca scientifica, comprendendo oltre 2400 problemi che coprono l'intero processo di scoperta scientifica e molteplici domini scientifici, inclusi problemi ispirati a richieste effettive di utenti ad agenti Asta già implementati. La nostra suite include il primo ambiente di ricerca scientifica con strumenti di ricerca di livello produttivo che consentono una valutazione controllata e riproducibile, tenendo meglio conto dei fattori confondenti. Insieme, forniamo un insieme completo di nove classi di agenti Asta ottimizzati per la scienza e numerose baseline. La nostra valutazione estensiva di 57 agenti attraverso 22 classi rivela diversi risultati interessanti, il più importante dei quali è che, nonostante progressi significativi in alcuni aspetti specifici, l'IA è ancora lontana dal risolvere la sfida dell'assistenza alla ricerca scientifica.
Il ragionamento visivo nei modelli linguistici multimodali di grandi dimensioni (MLLM) è stato studiato principalmente in contesti statici e completamente osservabili, limitandone l'efficacia negli ambienti reali, dove le informazioni sono spesso incomplete a causa di occlusioni o di un campo visivo limitato. Al contrario, gli esseri umani esplorano e interagiscono attivamente con l'ambiente circostante - muovendosi, esaminando e manipolando oggetti - per raccogliere informazioni attraverso un processo a ciclo chiuso che integra percezione, ragionamento e azione. Ispirati da questa capacità umana, introduciamo il compito di Ragionamento Visivo Attivo (AVR), che estende il ragionamento visivo ad ambienti interattivi e parzialmente osservabili. L'AVR richiede agli agenti di: (1) acquisire attivamente informazioni tramite azioni fisiche sequenziali, (2) integrare osservazioni multiple per un ragionamento coerente e (3) adattare dinamicamente le decisioni in base al feedback visivo in evoluzione. Per valutare rigorosamente l'AVR, presentiamo CLEVR-AVR, un benchmark di simulazione con ambienti interattivi multi-round progettati per valutare sia la correttezza del ragionamento che l'efficienza nella raccolta di informazioni. Presentiamo AVR-152k, un dataset su larga scala che offre ricche annotazioni di Catena del Pensiero (CoT) che dettagliano il ragionamento iterativo per l'identificazione dell'incertezza, la previsione del guadagno informativo condizionato all'azione e la selezione di azioni che massimizzano l'informazione, cruciali per l'addestramento di agenti in un Processo Decisionale di Markov di ordine superiore. Su questa base, sviluppiamo PhysVLM-AVR, un MLLM che raggiunge prestazioni all'avanguardia su CLEVR-AVR, ragionamento embodied (OpenEQA, RoboVQA) e ragionamento visivo passivo (GeoMath, Geometry30K). La nostra analisi rivela inoltre che gli attuali MLLM embodied, nonostante riescano a rilevare l'incompletezza informativa, faticano ad acquisire e integrare attivamente nuove informazioni attraverso l'interazione, evidenziando un divario fondamentale nelle capacità di ragionamento attivo.
I sensori LiDAR 3D sono essenziali per la navigazione autonoma, il monitoraggio ambientale e la mappatura di precisione nelle applicazioni di telerilevamento. Per elaborare efficientemente le enormi nuvole di punti generate da questi sensori, i dati LiDAR vengono spesso proiettati in immagini di distanza 2D che organizzano i punti in base alla loro posizione angolare e distanza. Sebbene queste rappresentazioni a immagine di distanza consentano un'elaborazione efficiente, i metodi di proiezione convenzionali soffrono di incoerenze geometriche fondamentali che causano una perdita irreversibile di informazioni, compromettendo le applicazioni ad alta fedeltà. Presentiamo ALICE-LRI (Automatic LiDAR Intrinsic Calibration Estimation for Lossless Range Images), il primo metodo generale, indipendente dal sensore, che ottiene una generazione di immagini di distanza senza perdita di dati da nuvole di punti LiDAR a rotazione, senza richiedere metadati del produttore o file di calibrazione. Il nostro algoritmo ricostruisce automaticamente la geometria intrinseca di qualsiasi sensore LiDAR a rotazione inferendo parametri critici tra cui la configurazione del fascio laser, le distribuzioni angolari e le correzioni di calibrazione per fascio, consentendo una proiezione senza perdite e una ricostruzione completa della nuvola di punti con zero punti persi. Una valutazione completa sui dataset KITTI e DurLAR dimostra che ALICE-LRI raggiunge una conservazione perfetta dei punti, con zero punti persi in tutte le nuvole di punti. L'accuratezza geometrica viene mantenuta ben entro i limiti di precisione del sensore, stabilendo l'assenza di perdite geometriche con prestazioni in tempo reale. Presentiamo anche uno studio di compressione che convalida sostanziali vantaggi a valle, dimostrando significativi miglioramenti della qualità nelle applicazioni pratiche. Questo cambio di paradigma da proiezioni LiDAR approssimate a senza perdite apre nuove possibilità per applicazioni di telerilevamento ad alta precisione che richiedono una preservazione geometrica completa.