Articoli di ricerca IA selezionati quotidianamente con traduzioni
Man mano che i modelli linguistici diventano sempre più capaci, gli utenti si aspettano che forniscano non solo risposte accurate, ma anche comportamenti allineati con le diverse preferenze umane in una varietà di scenari. Per raggiungere questo obiettivo, le pipeline di apprendimento per rinforzo (Reinforcement Learning, RL) hanno iniziato a incorporare molteplici ricompense, ciascuna delle quali cattura una preferenza distinta, per guidare i modelli verso questi comportamenti desiderati. Tuttavia, i lavori recenti hanno applicato per default l'ottimizzazione della politica relativa al gruppo (Group Relative Policy Optimization, GRPO) in contesti multi-ricompensa senza esaminarne l'adeguatezza. In questo articolo, dimostriamo che l'applicazione diretta del GRPO per normalizzare combinazioni distinte di ricompense sui rollout fa sì che queste collassino in valori di vantaggio identici, riducendo la risoluzione del segnale di addestramento e portando a una convergenza subottimale e, in alcuni casi, a un fallimento precoce dell'addestramento. Introduciamo quindi l'ottimizzazione della politica con normalizzazione disaccoppiata delle ricompense di gruppo (Group reward-Decoupled Normalization Policy Optimization, GDPO), un nuovo metodo di ottimizzazione delle politiche per risolvere questi problemi disaccoppiando la normalizzazione delle singole ricompense, preservando in modo più fedele le loro differenze relative e consentendo un'ottimizzazione multi-ricompensa più accurata, insieme a una stabilità dell'addestramento notevolmente migliorata. Confrontiamo il GDPO con il GRPO in tre compiti: tool calling, ragionamento matematico e ragionamento di codifica, valutando sia metriche di correttezza (accuratezza, rapporto di bug) che metriche di aderenza ai vincoli (formato, lunghezza). In tutti gli scenari, il GDPO supera costantemente il GRPO, dimostrandone l'efficacia e la generalizzabilità per l'ottimizzazione dell'apprendimento per rinforzo multi-ricompensa.
La costanza del colore notturna rimane un problema complesso nella fotografia computazionale a causa del rumore in condizioni di scarsa illuminazione e delle complesse condizioni di illuminazione. Presentiamo RL-AWB, un framework innovativo che combina metodi statistici con l'apprendimento per rinforzo profondo per il bilanciamento del bianco notturno. Il nostro metodo inizia con un algoritmo statistico specifico per scene notturne, integrando la rilevazione di pixel grigi salienti con una nuova stima dell'illuminazione. Su questa base, sviluppiamo il primo approccio di apprendimento per rinforzo profondo per la costanza del colore che utilizza l'algoritmo statistico come nucleo, imitando i professionisti della regolazione AWB ottimizzando dinamicamente i parametri per ogni immagine. Per facilitare la valutazione cross-sensore, introduciamo il primo dataset notturno multi-sensore. I risultati sperimentali dimostrano che il nostro metodo raggiunge capacità di generalizzazione superiori sia per immagini in condizioni di scarsa illuminazione che ben illuminate. Pagina del progetto: https://ntuneillee.github.io/research/rl-awb/
L'applicazione del decadimento del peso (weight decay, WD) agli strati matriciali è una pratica standard nel pre-addestramento di modelli linguistici di grandi dimensioni. Ricerche precedenti suggeriscono che il rumore stocastico del gradiente induce un'espansione di tipo browniano delle matrici dei pesi W, la cui crescita è contrastata dal WD, portando a un equilibrio WD-rumore con una certa norma dei pesi ||W||. In questo lavoro, consideriamo la norma di equilibrio come un artefatto dannoso della procedura di addestramento e la affrontiamo introducendo moltiplicatori apprendibili per apprendere la scala ottimale. In primo luogo, associamo un moltiplicatore scalare apprendibile a W e confermiamo che la norma di equilibrio WD-rumore è subottimale: la scala appresa si adatta ai dati e migliora le prestazioni. Successivamente, sosteniamo che anche le norme individuali delle righe e delle colonne sono vincolate in modo simile e liberiamo la loro scala introducendo moltiplicatori apprendibili per riga e per colonna. Il nostro metodo può essere visto come una generalizzazione apprendibile e più espressiva dei moltiplicatori muP. Esso supera una baseline muP ben regolata, riduce il sovraccarico computazionale della sintonizzazione dei moltiplicatori e solleva questioni pratiche come le simmetrie nel passaggio in avanti (forward-pass) e la scalabilità in ampiezza (width-scaling) dei moltiplicatori appresi. Infine, convalidiamo i moltiplicatori apprendibili sia con l'ottimizzatore Adam che con Muon, dove si osserva un miglioramento nelle valutazioni downstream che eguaglia il miglioramento ottenuto passando da Adam a Muon.
I grandi modelli linguistici (LLM) dimostrano punti di forza in diversi ambiti. Tuttavia, ottenere prestazioni solide in tutti questi domini con un unico modello generico richiede tipicamente un ridimensionamento verso dimensioni proibitive in termini di costi di addestramento e implementazione. D'altro canto, sebbene i modelli più piccoli e specializzati per dominio siano molto più efficienti, faticano a generalizzare al di là delle loro distribuzioni di addestramento. Per affrontare questo dilemma, proponiamo FusionRoute, un framework robusto ed efficace per la collaborazione multi-LLM a livello di token, in cui un router leggero seleziona simultaneamente (i) l'esperto più adatto in ogni fase di decodifica e (ii) fornisce un logit complementare che affina o corregge la distribuzione del token successivo dell'esperto selezionato tramite addizione di logit. A differenza dei metodi di collaborazione a livello di token esistenti che si basano esclusivamente sugli output fissi degli esperti, forniamo un'analisi teorica che dimostra come il routing puramente basato sugli esperti sia intrinsecamente limitato: a meno che non valgano forti assunzioni di copertura globale, esso non può in generale realizzare la politica di decodifica ottimale. Aumentando la selezione degli esperti con un generatore complementare addestrabile, FusionRoute espande la classe di politiche effettiva e consente il recupero delle funzioni di valore ottimali sotto condizioni non restrittive. Empiricamente, attraverso le famiglie sia di Llama-3 che di Gemma-2 e vari benchmark che spaziano dal ragionamento matematico, alla generazione di codice, al seguimento di istruzioni, FusionRoute supera sia la collaborazione a livello di sequenza e di token, sia la fusione di modelli e il fine-tuning diretto, rimanendo allo stesso tempo competitivo con gli esperti di dominio nei rispettivi compiti.
Il ragionamento a catena di pensieri (CoT) è emerso come uno strumento potente per i modelli linguistici multimodali di grandi dimensioni nei compiti di comprensione video. Tuttavia, la sua necessità e i suoi vantaggi rispetto alle risposte dirette rimangono poco esplorati. In questo articolo, dimostriamo innanzitutto che per i modelli video addestrati con RL, la risposta diretta spesso eguaglia o addirittura supera le prestazioni del CoT, nonostante il CoT produca analisi passo-passo a un costo computazionale più elevato. Motivati da ciò, proponiamo VideoAuto-R1, un framework per la comprensione video che adotta una strategia di ragionamento-quando-necessario. Durante l'addestramento, il nostro approccio segue un paradigma "Pensare Una Volta, Rispondere Due Volte": il modello genera prima una risposta iniziale, poi esegue un ragionamento e infine produce una risposta rivista. Entrambe le risposte sono supervisionate tramite ricompense verificabili. Durante l'inferenza, il modello utilizza il punteggio di confidenza della risposta iniziale per determinare se procedere con il ragionamento. Su benchmark di video QA e grounding, VideoAuto-R1 raggiunge un'accuratezza allo stato dell'arte con un'efficienza significativamente migliorata, riducendo la lunghezza media della risposta di circa 3,3 volte, ad esempio da 149 a soli 44 token. Inoltre, osserviamo un basso tasso di attivazione della modalità di pensiero su compiti orientati alla percezione, ma un tasso più elevato su compiti ad alta intensità di ragionamento. Ciò suggerisce che il ragionamento esplicito basato sul linguaggio sia generalmente benefico ma non sempre necessario.
I modelli linguistici di grandi dimensioni (LLM) per il ragionamento complesso sono spesso ostacolati da elevati costi computazionali e latenza, mentre i modelli linguistici piccoli (SLM) efficienti in termini di risorse tipicamente mancano della necessaria capacità di ragionamento. Gli approcci collaborativi esistenti, come il cascading o il routing, operano a una granularità grossolana delegando intere query agli LLM, risultando in uno spreco computazionale significativo quando lo SLM è in grado di gestire la maggior parte dei passaggi di ragionamento. Per affrontare questo problema, proponiamo RelayLLM, un nuovo framework per il ragionamento efficiente tramite decodifica collaborativa a livello di token. A differenza dei router, RelayLLM consente allo SLM di agire come un controllore attivo che invoca dinamicamente l'LLM solo per i token critici tramite un comando speciale, "rilanciando" efficacemente il processo di generazione. Introduciamo un framework di addestramento in due fasi, che include una fase di warm-up e l'ottimizzazione delle politiche relative di gruppo (Group Relative Policy Optimization, GRPO) per insegnare al modello a bilanciare l'indipendenza con la ricerca strategica di aiuto. I risultati empirici su sei benchmark dimostrano che RelayLLM raggiunge un'accuratezza media del 49,52%, colmando efficacemente il divario prestazionale tra i due modelli. Notevolmente, questo risultato è ottenuto invocando l'LLM solo per l'1,07% del totale dei token generati, offrendo una riduzione dei costi del 98,2% rispetto a router casuali con prestazioni equivalenti.
Gli agenti LLM sono emersi come sistemi potenti per affrontare compiti multi-turno intercalando ragionamento interno e interazioni con strumenti esterni. Il Reinforcement Learning agentico ha recentemente attirato significativa attenzione della ricerca come paradigma critico di post-training per affinare ulteriormente queste capacità. In questo articolo, presentiamo AT^2PO (Agentic Turn-based Policy Optimization via Tree Search), un framework unificato per il RL agentico multi-turno che affronta tre sfide fondamentali: diversità limitata dell'esplorazione, assegnazione sparse del credito e disallineamento dell'ottimizzazione delle politiche. AT^2PO introduce una struttura ad albero a livello di turno che abilita congiuntamente l'Espansione dell'Albero Guidata dall'Entropia per l'esplorazione strategica e l'Assegnazione del Credito per Turno per la propagazione granulare delle ricompense da esiti sparsi. A complemento di ciò, proponiamo l'Ottimizzazione delle Politiche Agentica a Livello di Turno, un obiettivo di apprendimento a livello di turno che allinea gli aggiornamenti delle politiche con la granularità decisionale naturale delle interazioni agentiche. ATPO è ortogonale alla ricerca ad albero e può essere facilmente integrato in qualsiasi pipeline RL multi-turno. Esperimenti su sette benchmark dimostrano miglioramenti consistenti rispetto allo stato dell'arte fino a 1,84 punti percentuali in media, con studi di ablazione che convalidano l'efficacia di ogni componente. Il nostro codice è disponibile su https://github.com/zzfoutofspace/ATPO.
La diversità, quantità e qualità dei dati di manipolazione sono fattori critici per l'addestramento di politiche robotiche efficaci. Tuttavia, a causa dei vincoli hardware e delle configurazioni fisiche, la raccolta di dati di manipolazione su larga scala nel mondo reale rimane difficile da scalare attraverso ambienti diversi. Recenti lavori utilizzano modelli di diffusione di immagini condizionati da prompt testuali per aumentare i dati di manipolazione alterando gli sfondi e gli oggetti sul piano di lavoro nelle osservazioni visive. Tuttavia, questi approcci spesso trascurano l'esigenza pratica di osservazioni coerenti temporalmente e da più visuali, richieste dai modelli di politica all'avanguardia. Inoltre, i soli prompt testuali non possono specificare in modo affidabile la configurazione della scena. Per fornire al modello di diffusione una guida visiva esplicita, introduciamo il prompting di identità visiva, che fornisce immagini di esempio come input di condizionamento per guidare la generazione della configurazione scenica desiderata. A tal fine, abbiamo anche costruito una pipeline scalabile per curare un pool di identità visive da grandi dataset robotici. L'utilizzo dei nostri dati di manipolazione aumentati per addestrare modelli di politica visione-linguaggio-azione e visuomotori downstream produce guadagni di prestazioni consistenti sia in ambienti simulati che in contesti con robot reali.
I modelli visione-linguaggio (VLM) raggiungono prestazioni notevoli ma rimangono vulnerabili ad attacchi adversariali. L'entropia, una misura dell'incertezza del modello, è fortemente correlata con l'affidabilità dei VLM. I precedenti attacchi basati sull'entropia massimizzano l'incertezza in tutti i passi di decodifica, assumendo implicitamente che ogni token contribuisca equamente all'instabilità della generazione. Al contrario, dimostriamo che una piccola frazione (circa il 20%) di token ad alta entropia, ovvero punti critici di decisione nella generazione autoregressiva, governa in modo sproporzionato le traiettorie di output. Concentrando le perturbazioni adversariali su queste posizioni, otteniamo un degrado semantico comparabile ai metodi globali utilizzando budget sostanzialmente inferiori. Ancora più importante, su molteplici VLM rappresentativi, tali attacchi selettivi convertono il 35-49% degli output benigni in dannosi, esponendo un rischio per la sicurezza più critico. Notevolmente, queste diramazioni vulnerabili ad alta entropia si ripresentano in VLM architetturalmente diversi, abilitando una trasferibilità fattibile (tassi dannosi del 17-26% su target non visti). Motivati da questi risultati, proponiamo gli attacchi adversariali guidati da Entropy-bank (EGA), che raggiungono tassi di successo d'attacco competitivi (93-95%) insieme ad un'alta conversione dannosa, rivelando così nuove debolezze negli attuali meccanismi di sicurezza dei VLM.
LLM-as-a-Judge ha rivoluzionato la valutazione dell'IA sfruttando i grandi modelli linguistici per valutazioni scalabili. Tuttavia, man mano che i soggetti da valutare diventano sempre più complessi, specializzati e multi-step, l'affidabilità di LLM-as-a-Judge è diventata limitata da bias intrinseci, ragionamenti superficiali single-pass e dall'incapacità di verificare le valutazioni rispetto a osservazioni del mondo reale. Ciò ha catalizzato la transizione verso Agent-as-a-Judge, dove giudici agentivi impiegano pianificazione, verifica potenziata da strumenti, collaborazione multi-agente e memoria persistente per consentire valutazioni più robuste, verificabili e sfumate. Nonostante la rapida proliferazione di sistemi di valutazione agentivi, il campo manca di un quadro unificato per orientarsi in questo panorama in evoluzione. Per colmare questa lacuna, presentiamo la prima rassegna completa che traccia questa evoluzione. Nello specifico, identifichiamo le dimensioni chiave che caratterizzano questo cambio di paradigma e stabiliamo una tassonomia dello sviluppo. Organizziamo le metodologie fondamentali e analizziamo le applicazioni in ambiti generali e professionali. Inoltre, analizziamo le sfide all'avanguardia e identifichiamo promettenti direzioni di ricerca, fornendo infine una roadmap chiara per la prossima generazione di valutazione agentiva.
I modelli video del mondo mirano a simulare ambienti dinamici e realistici, ma i metodi esistenti faticano a fornire un controllo unificato e preciso sul movimento della telecamera e di oggetti multipli, poiché i video operano intrinsecamente le dinamiche nel piano dell'immagine 2D proiettata. Per colmare questa lacuna, introduciamo VerseCrafter, un modello video del mondo consapevole della 4D che abilita un controllo esplicito e coerente sia sulla dinamica della telecamera che su quella degli oggetti all'interno di uno stato mondiale geometrico 4D unificato. Il nostro approccio è incentrato su una nuova rappresentazione di Controllo Geometrico 4D, che codifica lo stato del mondo attraverso una nuvola di punti statica per lo sfondo e traiettorie di Gaussiane 3D per oggetto. Questa rappresentazione cattura non solo il percorso di un oggetto, ma anche la sua occupazione probabilistica 3D nel tempo, offrendo un'alternativa flessibile e indipendente dalla categoria ai bounding box rigidi o ai modelli parametrici. Questi controlli 4D vengono renderizzati in segnali di condizionamento per un modello di diffusione video pre-addestrato, permettendo la generazione di video ad alta fedeltà e con vista consistente che aderiscono precisamente alle dinamiche specificate. Sfortunatamente, un'ulteriore sfida principale risiede nella scarsità di dati di addestramento su larga scala con annotazioni 4D esplicite. Affrontiamo questo problema sviluppando un motore di dati automatico che estrae i controlli 4D richiesti da video in-the-wild, consentendoci di addestrare il nostro modello su un dataset massiccio e diversificato.
I modelli Mixture of Experts sono ampiamente ritenuti in grado di ottenere una specializzazione di dominio attraverso l'instradamento sparso. In questo lavoro, mettiamo in discussione questa ipotesi introducendo COMMITTEEAUDIT, un framework *post hoc* che analizza il comportamento di instradamento a livello di gruppi di esperti piuttosto che di esperti individuali. In tre modelli rappresentativi e nel benchmark MMLU, scopriamo un Comitato Permanente invariante al dominio. Si tratta di una coalizione compatta di esperti instradati che cattura costantemente la maggior parte della massa di instradamento attraverso domini, strati e budget di instradamento, anche quando le architetture includono già esperti condivisi. Un'analisi qualitativa mostra inoltre che i Comitati Permanenti ancorano la struttura del ragionamento e la sintassi, mentre gli esperti periferici gestiscono la conoscenza specifica del dominio. Questi risultati rivelano un forte bias strutturale verso il calcolo centralizzato, suggerendo che la specializzazione nei modelli Mixture of Experts è molto meno pervasiva di quanto comunemente si creda. Questo bias intrinseco indica anche che gli obiettivi di addestramento attuali, come le funzioni di perdita di bilanciamento del carico che impongono un utilizzo uniforme degli esperti, potrebbero operare contro il percorso di ottimizzazione naturale del modello, limitando così l'efficienza e le prestazioni dell'addestramento.
Il ragionamento a Catena di Pensiero (CoT) migliora la risoluzione di problemi matematici multi-step nei grandi modelli linguistici, ma rimane vulnerabile al bias di esposizione e all'accumulo di errori, poiché gli sbagli iniziali si propagano in modo irreversibile attraverso il decoding autoregressivo. In questo lavoro, proponiamo DiffCoT, un framework CoT in stile diffusione che riformula il ragionamento CoT come un processo iterativo di rimozione del rumore. DiffCoT integra i principi della diffusione a livello di passo di ragionamento mediante un meccanismo a finestra scorrevole, consentendo la generazione unificata e la correzione retrospettiva dei passi intermedi preservando l'autoregressione a livello di token. Per mantenere la consistenza causale, introduciamo inoltre una pianificazione del rumore di diffusione causale che rispetta la struttura temporale delle catene di ragionamento. Esperimenti estesi su tre benchmark di ragionamento CoT multi-step, condotti su diverse architetture di modelli, dimostrano che DiffCoT supera costantemente i metodi esistenti di ottimizzazione delle preferenze CoT, producendo una maggiore robustezza e capacità di correzione degli errori nel ragionamento CoT.
I metodi di re-rendering video generativo controllati da telecamera, come ReCamMaster, hanno ottenuto progressi notevoli. Tuttavia, nonostante il loro successo in contesti single-view, questi lavori spesso faticano a mantenere la coerenza in scenari multi-view. Garantire la coerenza spazio-temporale nelle regioni allucinate rimane impegnativo a causa dell'intrinseca stocasticità dei modelli generativi. Per affrontare questo problema, introduciamo PlenopticDreamer, un framework che sincronizza le allucinazioni generative per mantenere una memoria spazio-temporale. L'idea centrale è addestrare un modello video-condizionato multi-input-single-output in maniera autoregressiva, coadiuvato da una strategia di recupero video guidata dalla telecamera che seleziona in modo adattivo video salienti dalle generazioni precedenti come input condizionali. Inoltre, il nostro addestramento incorpora uno scaling contestuale progressivo per migliorare la convergenza, il self-conditioning per aumentare la robustezza contro il degrado visivo a lungo raggio causato dall'accumulo di errori, e un meccanismo di condizionamento a video lunghi per supportare la generazione video estesa. Esperimenti estesi sui benchmark Basic e Agibot dimostrano che PlenopticDreamer raggiunge uno stato dell'arte nel re-rendering video, offrendo una sincronizzazione di vista superiore, visuali ad alta fedeltà, controllo accurato della telecamera e trasformazioni di vista diversificate (ad esempio, da terza persona a terza persona, e da vista della testa a vista del gripper nella manipolazione robotica). Pagina del progetto: https://research.nvidia.com/labs/dir/plenopticdreamer/
La risposta a domande in ambienti 3D (EQA) spesso richiede la raccolta di contesto distribuito su più punti di vista e parzialmente occluso. Tuttavia, la maggior parte dei recenti modelli visione-linguaggio (VLM) è vincolata a un insieme fisso e finito di viste in input, il che limita la loro capacità di acquisire contesto rilevante per la domanda al momento dell'inferenza e ostacola il ragionamento spaziale complesso. Proponiamo il prompting Chain-of-View (CoV), un framework di ragionamento *training-free* al momento del test che trasforma un VLM in un ragionatore attivo del punto di vista attraverso un processo di esploramento *coarse-to-fine*. CoV impiega prima un agente di Selezione della Vista per filtrare i frame ridondanti e identificare viste ancorate allineate alla domanda. Successivamente, esegue una regolazione fine della vista intervallando il ragionamento iterativo con azioni discrete della camera, ottenendo nuove osservazioni dalla rappresentazione della scena 3D sottostante fino a quando non viene raccolto un contesto sufficiente o viene raggiunto un budget di step. Valutiamo CoV su OpenEQA su quattro VLM mainstream e otteniamo un miglioramento medio di +11,56% in LLM-Match, con un guadagno massimo di +13,62% su Qwen3-VL-Flash. CoV mostra inoltre uno *scaling* al momento del test: aumentare il budget minimo di azione produce un ulteriore miglioramento medio di +2,51%, con un picco di +3,73% su Gemini-2.5-Flash. Su ScanQA e SQA3D, CoV fornisce prestazioni solide (ad esempio, 116 CIDEr / 31.9 EM@1 su ScanQA e 51.1 EM@1 su SQA3D). Nel complesso, questi risultati suggeriscono che la selezione della vista allineata alla domanda, unita a una ricerca a vista aperta, è una strategia efficace e indipendente dal modello per migliorare il ragionamento spaziale nell'EQA 3D senza addestramento aggiuntivo.
La capacità di ragionamento dei grandi modelli linguistici (LLM) può essere potenziata mediante l'apprendimento per rinforzo (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). Il successo dei tentativi di RL esistenti sugli LLM si basa solitamente su campioni di alta qualità nell'ordine delle migliaia o più. In questo articolo, mettiamo in discussione i presupposti fondamentali sui requisiti dati nel RL per gli LLM dimostrando la straordinaria efficacia dell'apprendimento one-shot. Nello specifico, introduciamo il *polymath learning*, un framework per progettare un singolo campione di addestramento in grado di elicitare un impatto multidisciplinare. Presentiamo tre risultati chiave: (1) Un singolo campione di ragionamento matematico, selezionato strategicamente, può produrre miglioramenti significativi delle prestazioni in molteplici domini, inclusi fisica, chimica e biologia, tramite RL; (2) Le abilità matematiche salienti per il ragionamento suggeriscono le caratteristiche del campione polimatico ottimale; e (3) Un campione sintetico progettato che integra elementi multidisciplinari supera l'addestramento con singoli campioni che occorrono naturalmente. Il nostro approccio raggiunge prestazioni superiori rispetto all'addestramento con dataset più grandi su vari benchmark di ragionamento, dimostrando che la qualità e la progettazione del campione, piuttosto che la quantità, potrebbero essere la chiave per sbloccare capacità di ragionamento potenziate nei modelli linguistici. I nostri risultati suggeriscono un cambiamento di paradigma, denominato *sample engineering*, verso una progettazione di precisione dei campioni di addestramento piuttosto che il semplice aumento del volume dei dati.
La clonazione comportamentale sta vivendo una rinascita di popolarità, poiché la scalabilità sia delle dimensioni del modello che dei dati si dimostra in grado di fornire un solido punto di partenza per molti compiti di interesse. In questo lavoro, introduciamo una ricetta aperta per addestrare un modello fondazionale per il gioco di videogiochi, progettato per l'inferenza in tempo reale su una GPU consumer. Rilasciamo tutti i dati (oltre 8300 ore di gameplay umano di alta qualità), il codice di addestramento e inferenza, e i checkpoint pre-addestrati sotto una licenza aperta. Dimostriamo che il nostro modello migliore è in grado di giocare a una varietà di videogiochi 3D a un livello competitivo con le prestazioni umane. Utilizziamo questa ricetta per esaminare sistematicamente le leggi di scalabilità della clonazione comportamentale, al fine di comprendere come le prestazioni e il ragionamento causale del modello varino con la scala del modello e dei dati. Inizialmente mostriamo, in un semplice problema giocattolo, che per alcuni tipi di ragionamento causale, l'aumento sia della quantità di dati di addestramento che della profondità della rete porta il modello ad apprendere una policy più causale. Successivamente, studiamo sistematicamente come la causalità vari con il numero di parametri (e la profondità) e i passi di addestramento in modelli scalati fino a 1,2 miliardi di parametri, e riscontriamo risultati di scalabilità simili a quelli osservati nel problema giocattolo.
Il Document Question Answering (DocQA) si concentra sulla risposta a domande basate su documenti forniti, tuttavia gli agenti DocQA esistenti mancano di un utilizzo efficace degli strumenti e si basano in larga misura su modelli closed-source. In questo lavoro, presentiamo DocDancer, un agente Doc open-source addestrato end-to-end. Formuliamo il DocQA come un problema di ricerca di informazioni e proponiamo un framework di agente guidato da strumenti che modella esplicitamente l'esplorazione e la comprensione del documento. Per abilitare l'addestramento end-to-end di tali agenti, introduciamo una pipeline di sintesi dei dati Exploration-then-Synthesis che affronta la scarsità di dati di addestramento di alta qualità per il DocQA. L'addestramento sui dati sintetizzati, condotto su due benchmark di comprensione di documenti a contesto lungo, MMLongBench-Doc e DocBench, ne dimostra l'efficacia. Un'ulteriore analisi fornisce spunti preziosi per la progettazione di strumenti agentici e per i dati sintetici.
La generazione e modifica di immagini in contesto (ICGE) consente agli utenti di specificare concetti visivi mediante prompt intercalati di immagini e testo, richiedendo una comprensione precisa e un'esecuzione fedele dell'intento dell'utente. Sebbene i recenti modelli multimodali unificati mostrino capacità di comprensione promettenti, questi punti di forza spesso non si trasferiscono efficacemente alla generazione di immagini. Introduciamo Re-Align, un framework unificato che colma il divario tra comprensione e generazione attraverso un allineamento guidato da ragionamento strutturato. Il suo nucleo è costituito dall'In-Context Chain-of-Thought (IC-CoT), un paradigma di ragionamento strutturato che dissocia la guida semantica dall'associazione di riferimento, fornendo un obiettivo testuale chiaro e mitigando la confusione tra le immagini di riferimento. Inoltre, Re-Align introduce un efficace schema di addestramento RL che sfrutta una ricompensa sostitutiva per misurare l'allineamento tra il testo di ragionamento strutturato e l'immagine generata, migliorando così le prestazioni complessive del modello nelle attività ICGE. Esperimenti estesi verificano che Re-Align supera metodi competitivi di scala e risorse comparabili sia nelle attività di generazione che di modifica di immagini in contesto.
I recenti progressi nei modelli di diffusione video si sono orientati verso architetture basate su transformer, raggiungendo risultati all'avanguardia nella generazione video ma al prezzo di una complessità quadratica dell'attenzione, che limita fortemente la scalabilità per sequenze più lunghe. Introduciamo ReHyAt, un meccanismo di Attenzione Ibrida Ricorrente che combina la fedeltà dell'attenzione softmax con l'efficienza dell'attenzione lineare, consentendo una riformulazione ricorrente a blocchi e un uso costante della memoria. A differenza del contemporaneo SANA Video, che utilizza solo attenzione lineare, il design ibrido di ReHyAt permette una distillazione efficiente dai modelli esistenti basati su softmax, riducendo il costo dell'addestramento di due ordini di grandezza a circa 160 ore GPU, pur risultando competitivo in termini di qualità. La nostra pipeline leggera di distillazione e fine-tuning fornisce una metodologia applicabile ai futuri modelli bidirezionali basati su softmax all'avanguardia. Esperimenti su VBench e VBench-2.0, insieme a uno studio sulle preferenze umane, dimostrano che ReHyAt raggiunge una qualità video allo stato dell'arte riducendo contemporaneamente il costo computazionale dell'attenzione da quadratico a lineare, sbloccando una scalabilità pratica per la generazione video di lunga durata e su dispositivo. La pagina del progetto è disponibile all'indirizzo https://qualcomm-ai-research.github.io/rehyat.
I modelli piramidali proposti di recente scompongono i convenzionali processi di diffusione in avanti e all'indietro in più stadi operanti a diverse risoluzioni. Questi modelli gestiscono input con livelli di rumore più elevati a risoluzioni inferiori, mentre input meno rumorosi vengono elaborati a risoluzioni superiori. Questo approccio gerarchico riduce significativamente il costo computazionale dell'inferenza nei modelli di denoising multi-step. Tuttavia, gli attuali modelli piramidali video open-source sono stati addestrati da zero e tendono a ottenere prestazioni inferiori rispetto ai sistemi all'avanguardia in termini di plausibilità visiva. In questo lavoro, presentiamo una pipeline che converte un modello di diffusione preaddestrato in uno piramidale mediante fine-tuning a basso costo, raggiungendo questa trasformazione senza degradare la qualità dei video in output. Inoltre, investigiamo e confrontiamo varie strategie di distillazione dei passi all'interno dei modelli piramidali, con l'obiettivo di migliorare ulteriormente l'efficienza inferenziale. I nostri risultati sono disponibili su https://qualcomm-ai-research.github.io/PyramidalWan.
I modelli autoregressivi (AR) hanno ottenuto un notevole successo nella sintesi di immagini, ma la loro natura sequenziale impone significativi vincoli di latenza. Lo Speculative Decoding offre una strada promettente per l'accelerazione, ma gli approcci esistenti sono limitati dall'ambiguità a livello di token e dalla mancanza di consapevolezza spaziale. In questo lavoro, introduciamo il *Multi-Scale Local Speculative Decoding* (MuLo-SD), un nuovo framework che combina la generazione di bozze multi-risoluzione con una verifica spazialmente informata per accelerare la generazione di immagini AR. Il nostro metodo utilizza un generatore di bozze a bassa risoluzione abbinato a *upsampler* appresi per proporre token di immagine candidati, che vengono poi verificati in parallelo da un modello target ad alta risoluzione. In modo cruciale, incorporiamo un meccanismo locale di rifiuto e ricampionamento, che consente una correzione efficiente degli errori delle bozze concentrandosi su intorni spaziali, piuttosto che su un ricampionamento a scansione raster dopo il primo rifiuto. Dimostriamo che MuLo-SD raggiunge accelerazioni sostanziali - fino a 1,7 volte - superando solide baseline di speculative decoding come EAGLE-2 e LANTERN in termini di accelerazione, mantenendo al contempo una allineamento semantico e una qualità percettiva comparabili. Questi risultati sono convalidati utilizzando GenEval, DPG-Bench e FID/HPSv2 sulla suddivisione di validazione MS-COCO da 5k. Estese ablazioni evidenziano l'impatto della progettazione degli *upsampler*, del *probability pooling* e del rifiuto e ricampionamento locale con espansione dell'intorno. Il nostro approccio stabilisce un nuovo stato dell'arte nello speculative decoding per la sintesi di immagini, colmando il divario tra efficienza e fedeltà.
Presentiamo ProFuse, un framework efficiente e contestuale per la comprensione di scene 3D a vocabolario aperto con Gaussian Splatting 3D (3DGS). La pipeline migliora la coerenza inter-vista e la coesione intra-maschera in una configurazione di registrazione diretta, aggiungendo un overhead minimo e senza richiedere una messa a punto supervisionata dal rendering. Invece di basarsi su una scena 3DGS pre-addestrata, introduciamo una fase di pre-registrazione guidata da corrispondenze dense che inizializza i Gaussian con una geometria accurata, costruendo simultaneamente Proposte di Contesto 3D tramite clustering inter-vista. Ogni proposta possiede una caratteristica globale ottenuta attraverso l'aggregazione ponderata degli embedding dei membri, e questa caratteristica viene fusa sui Gaussian durante la registrazione diretta per mantenere una coerenza linguistica per primitiva attraverso le viste. Con le associazioni stabilite in anticipo, la fusione semantica non richiede ottimizzazioni aggiuntive oltre alla ricostruzione standard, e il modello mantiene l'affinamento geometrico senza addensamento. ProFuse raggiunge una solida comprensione 3DGS a vocabolario aperto completando l'assegnazione semantica in circa cinque minuti per scena, il che è due volte più veloce dello stato dell'arte.
I recenti progressi negli agenti basati su grandi modelli linguistici (LLM) si sono concentrati principalmente sull'incorporazione di meccanismi di auto-miglioramento all'interno dell'agente o sulla ricerca tra molte varianti concorrenti. Sebbene questi approcci possano aumentare i punteggi aggregati, spesso producono traiettorie di miglioramento instabili e difficili da verificare, rendendo complesso garantire l'assenza di regressioni o analizzare i guasti tra le versioni. Noi riformuliamo il miglioramento degli agenti come ingegneria del rilascio: gli agenti sono trattati come artefatti distribuibili e il miglioramento viene esternalizzato in una pipeline di rilascio consapevole delle regressioni. Introduciamo AgentDevel, una pipeline di ingegneria del rilascio che esegue iterativamente l'agente corrente, produce segnali di qualità a livello sintomatico e indipendenti dall'implementazione dalle tracce di esecuzione, sintetizza un singolo candidato al rilascio (RC) tramite diagnosi eseguibile e lo promuove sotto un sistema di gatekeeping centrato sui ribaltamenti. AgentDevel presenta tre progetti fondamentali: (i) un critico LLM indipendente dall'implementazione che caratterizza le manifestazioni di fallimento senza accedere agli interni dell'agente, (ii) una diagnosi eseguibile basata su script che aggrega i pattern sintomatici dominanti e produce specifiche ingegneristiche verificabili, e (iii) un gatekeeping centrato sui ribaltamenti che prioritizza le regressioni da passaggio a fallimento e le correzioni da fallimento a passaggio come evidenza di prima classe. A differenza della ricerca basata su popolazione o dell'auto-affinamento interno all'agente, AgentDevel mantiene una singola linea di versione canonica ed enfatizza la non-regressione come obiettivo primario. Esperimenti su benchmark con forte componente esecutiva dimostrano che AgentDevel produce miglioramenti stabili con significativamente meno regressioni, generando al contempo artefatti riproducibili e verificabili. Nel complesso, AgentDevel fornisce una disciplina di sviluppo pratica per costruire, debuggare e rilasciare agenti LLM come nello sviluppo software.
L'allineamento post-addestramento dei modelli di diffusione si basa su segnali semplificati, come ricompense scalari o preferenze binarie. Ciò limita l'allineamento con l'esperienza umana complessa, che è gerarchica e granulare. Per affrontare questo problema, abbiamo prima costruito un criterio di valutazione gerarchico e granulare con esperti di dominio, che scompone la qualità dell'immagine in molteplici attributi positivi e negativi organizzati in una struttura ad albero. Sulla base di questo, proponiamo un framework di allineamento in due fasi. In primo luogo, iniettiamo la conoscenza del dominio in un modello di diffusione ausiliario tramite Supervised Fine-Tuning. In secondo luogo, introduciamo l'Optimizzazione delle Preferenze Complesse (CPO) che estende DPO per allineare il modello di diffusione target ai nostri criteri gerarchici non binari. Nello specifico, riformuliamo il problema di allineamento per massimizzare simultaneamente la probabilità degli attributi positivi minimizzando la probabilità degli attributi negativi utilizzando il modello di diffusione ausiliario. Istanziamo il nostro approccio nel dominio della generazione di dipinti e conduciamo l'addestramento CPO con un dataset annotato di dipinti contenente attributi granulari basati sui nostri criteri. Esperimenti estensivi dimostrano che CPO migliora significativamente la qualità della generazione e l'allineamento con l'espertise, aprendo nuove strade per l'allineamento con criteri granulari.
I bordi morbidi, come capelli sottili, sono comunemente osservati nelle immagini naturali e generate al computer, ma rimangono una sfida per la visione 3D a causa della miscela ambigua di indizi in primo piano e sullo sfondo. Questo articolo presenta Guardians of the Hair (HairGuard), un framework progettato per recuperare i dettagli granulari dei bordi morbidi nelle attività di visione 3D. Nello specifico, proponiamo prima una nuova pipeline di preparazione dei dati che sfrutta dataset di image matting per l'addestramento e progettiamo una rete "depth fixer" per identificare automaticamente le regioni di bordo morbido. Con un modulo residuo a gate, il "depth fixer" perfeziona la profondità proprio attorno ai bordi morbidi mantenendo la qualità della profondità globale, consentendo un'integrazione plug-and-play con modelli di profondità all'avanguardia. Per la sintesi di nuove viste, eseguiamo un forward warping basato sulla profondità per conservare texture ad alta fedeltà, seguito da un "generative scene painter" che riempie le regioni disoccluse ed elimina gli artefatti di sfondo ridondanti all'interno dei bordi morbidi. Infine, un "color fuser" combina in modo adattivo i risultati deformati e inpainted per produrre nuove viste con geometria coerente e dettagli granulari. Esperimenti estensivi dimostrano che HairGuard raggiunge prestazioni all'avanguardia nella stima della profondità monoculare, nella conversione di immagini/video stereo e nella sintesi di nuove viste, con miglioramenti significativi nelle regioni di bordo morbido.
Presentiamo IMDD-1M, il primo dataset industriale multimodale su larga scala per difetti, comprendente 1.000.000 di coppie immagine-testo allineate, progettato per far avanzare l'apprendimento multimodale per la produzione e il controllo qualità. IMDD-1M contiene difetti del mondo reale ad alta risoluzione che abbracciano oltre 60 categorie di materiali e più di 400 tipi di difetti, ciascuno accompagnato da annotazioni verificate da esperti e descrizioni testuali granulari che dettagliano localizzazione, gravità e attributi contestuali del difetto. Questo dataset abilita un'ampia gamma di applicazioni, inclusi classificazione, segmentazione, retrieval, captioning e modellazione generativa. Basandoci su IMDD-1M, addestriamo da zero un modello fondazionale visione-linguaggio basato sulla diffusione, specificamente progettato per scenari industriali. Il modello funge da base generalizzabile che può essere efficientemente adattata a domini specializzati attraverso un fine-tuning leggero. Richiedendo meno del 5% dei dati specifici per task necessari a modelli esperti dedicati, raggiunge prestazioni comparabili, evidenziando il potenziale dell'adattamento efficiente dei modelli fondazionali per l'ispezione industriale e la generazione, aprendo la strada a un'intelligenza manifatturiera scalabile, adattabile al dominio e basata sulla conoscenza.
I modelli generativi sono sempre più utilizzati nella visione 3D per sintetizzare nuove forme, ma rimane poco chiaro se la loro generazione si basi sulla memorizzazione delle forme di addestramento. Comprenderne la memorizzazione potrebbe aiutare a prevenire la fuoriuscita dei dati di training e a migliorare la diversità dei risultati generati. In questo articolo, progettiamo un framework di valutazione per quantificare la memorizzazione nei modelli generativi 3D e studiamo l'influenza di diversi dati e progetti di modellazione sulla memorizzazione. Applichiamo innanzitutto il nostro framework per quantificare la memorizzazione nei metodi esistenti. Successivamente, attraverso esperimenti controllati con un modello di diffusione a vettore-set latente (Vecset), scopriamo che, per quanto riguarda i dati, la memorizzazione dipende dalla modalità dei dati e aumenta con la diversità dei dati e un condizionamento più granulare; per quanto riguarda la modellazione, raggiunge il picco con una scala di guida moderata e può essere mitigata da Vecset più lunghi e da una semplice augmentazione rotazionale. Insieme, il nostro framework e la nostra analisi forniscono una comprensione empirica della memorizzazione nei modelli generativi 3D e suggeriscono strategie semplici ma efficaci per ridurla senza degradare la qualità della generazione. Il nostro codice è disponibile all'indirizzo https://github.com/zlab-princeton/3d_mem.
Man mano che gli agenti conversazionali accumulano esperienza nella collaborazione con gli utenti, l'adattamento alle preferenze degli utenti diventa essenziale per favorire relazioni a lungo termine e migliorare la qualità della collaborazione nel tempo. Introduciamo MultiSessionCollab, un benchmark che valuta la capacità degli agenti di apprendere le preferenze degli utenti e di sfruttarle per migliorare la qualità della collaborazione attraverso più sessioni. Per sviluppare agenti che abbiano successo in questo contesto, presentiamo agenti collaborativi a lungo termine dotati di una memoria che persiste e perfeziona le preferenze dell'utente man mano che l'esperienza interattiva si accumula. Inoltre, dimostriamo che è possibile derivare segnali di apprendimento dal comportamento del simulatore di utenti in MultiSessionCollab per addestrare gli agenti a generare riflessioni più complete e aggiornare la propria memoria in modo più efficace. Esperimenti estensivi mostrano che dotare gli agenti di memoria migliora la collaborazione a lungo termine, producendo tassi di successo del compito più elevati, interazioni più efficienti e una riduzione dello sforzo dell'utente. Infine, conduciamo uno studio con utenti umani che dimostra come la memoria contribuisca a migliorare l'esperienza utente in contesti reali.
Presentiamo LEMAS-Dataset, che, a nostra conoscenza, è attualmente il più grande corpus vocale multilingue open-source con timestamp a livello di parola. Coprendo oltre 150.000 ore in 10 lingue principali, LEMAS-Dataset è costruito tramite una pipeline di elaborazione dati efficiente che garantisce dati e annotazioni di alta qualità. Per validare l'efficacia di LEMAS-Dataset in paradigmi generativi diversificati, addestriamo due modelli di riferimento con architetture e specializzazioni di compito distinte su questo dataset. LEMAS-TTS, basato su un framework non autoregressivo di flow-matching, sfrutta la scala massiccia e la diversità linguistica del dataset per ottenere una sintesi multilingue zero-shot robusta. Il nostro approccio di addestramento accent-adversarial e la loss CTC mitigano i problemi di accento cross-linguale, migliorando la stabilità della sintesi. In modo complementare, LEMAS-Edit utilizza un'architettura autoregressiva decoder-only che formula l'editing vocale come un task di infilling di token mascherati. Sfruttando gli allineamenti precisi a livello di parola per costruire maschere di addestramento e adottando strategie di decoding adattive, esso raggiunge un editing vocale seamless con limiti fluidi e transizioni naturali. I risultati sperimentali dimostrano che i modelli addestrati su LEMAS-Dataset forniscono prestazioni di sintesi e editing di alta qualità, confermando la qualità del dataset. Prevediamo che questo corpus multilingue riccamente annotato con timestamp e di granularità fine guiderà i futuri progressi nei sistemi di generazione vocale basati su prompt.
Questo studio indaga l'integrazione del paradigma di Apprendimento con Informazioni Privilegiate (LUPI) nella rilevazione di oggetti per sfruttare informazioni granulari e descrittive disponibili durante l'addestramento ma non durante l'inferenza. Introduciamo una metodologia generale, indipendente dal modello, per iniettare informazioni privilegiate – come maschere di bounding box, mappe di salienza e suggerimenti di profondità – all'interno di rilevatori di oggetti basati sul deep learning attraverso un'architettura teacher-student. Gli esperimenti sono condotti su cinque modelli all'avanguardia per la rilevazione di oggetti e su molteplici benchmark pubblici, inclusi dataset per la rilevazione di rifiuti da UAV e Pascal VOC 2012, per valutarne l'impatto su accuratezza, generalizzazione ed efficienza computazionale. I nostri risultati dimostrano che i modelli studente addestrati con LUPI superano costantemente le loro controparti baseline, ottenendo miglioramenti significativi nell'accuratezza di rilevazione senza aumentare la complessità inferenziale o la dimensione del modello. I miglioramenti delle prestazioni sono particolarmente marcati per oggetti di medie e grandi dimensioni, mentre studi di ablazione rivelano che una ponderazione intermedia della guida del teacher bilancia ottimalmente l'apprendimento da input privilegiati e standard. I risultati confermano che il framework LUPI fornisce una strategia efficace e pratica per far avanzare i sistemi di rilevazione oggetti sia in contesti con risorse limitate che in scenari reali.
Questo lavoro introduce VERSE, una metodologia per analizzare e migliorare i Modelli Visione-Linguaggio applicati alla Comprensione di Documenti Visivamente Ricchi, esplorandone lo spazio degli embedding visivi. VERSE consente la visualizzazione delle rappresentazioni latenti, supportando la valutazione della fattibilità del modello. Facilita inoltre l'identificazione di regioni problematiche e guida la generazione di dati sintetici per migliorare le prestazioni in quei cluster. Convalidiamo la metodologia addestrando sul dataset sintetico MERIT e valutando sulla sua controparte reale, MERIT Secret. I risultati mostrano che VERSE aiuta a scoprire le caratteristiche visive associate a cluster soggetti a errori e che il riaddestramento con campioni contenenti queste caratteristiche aumenta sostanzialmente le prestazioni F1 senza degradare la generalizzazione. Inoltre, dimostriamo che modelli on-premise come Donut e Idefics2, quando ottimizzati con VERSE, eguagliano o addirittura superano le prestazioni di soluzioni SaaS come GPT-4 e Pixtral.
L'ottimizzazione fine di grandi modelli linguistici (LLM) allineati alla sicurezza può comprometterne sostanzialmente la protezione. Gli approcci precedenti richiedono numerosi esempi di sicurezza o set di calibrazione, che non solo comportano un sovraccarico computazionale significativo durante il riallineamento, ma portano anche a un degrado evidente dell'utilità del modello. Contrariamente a questa convinzione, dimostriamo che l'allineamento alla sicurezza può essere completamente recuperato con un solo esempio di sicurezza, senza sacrificarne l'utilità e a costi minimi. Notevolmente, questo recupero è efficace indipendentemente dal numero di esempi dannosi utilizzati nell'ottimizzazione fine o dalla dimensione del modello sottostante, e la convergenza viene raggiunta in poche epoche. Inoltre, scopriamo la struttura a basso rango del gradiente di sicurezza, che spiega perché una correzione così efficiente è possibile. Convalidiamo i nostri risultati su cinque LLM allineati alla sicurezza e su più dataset, dimostrando la generalità del nostro approccio.