Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli Mixture-of-Experts (MoE) mancano di vincoli espliciti per garantire che le decisioni del router si allineino correttamente con le capacità degli esperti, il che limita in ultima analisi le prestazioni del modello. Per affrontare questo problema, proponiamo l'ERC loss (expert-router coupling loss), una funzione di perdita ausiliaria leggera che accoppia strettamente le decisioni del router con le capacità degli esperti. Il nostro approccio tratta l'embedding del router di ciascun esperto come un token proxy per i token assegnati a quell'esperto, e alimenta gli embedding del router perturbati attraverso gli esperti per ottenere le attivazioni interne. L'ERC loss impone due vincoli su queste attivazioni: (1) Ciascun esperto deve mostrare un'attivazione più alta per il proprio token proxy rispetto ai token proxy di qualsiasi altro esperto. (2) Ciascun token proxy deve elicitare un'attivazione più forte dal proprio esperto corrispondente rispetto a qualsiasi altro esperto. Questi vincoli garantiscono congiuntamente che ogni embedding del router rappresenti fedelmente la capacità del suo esperto corrispondente, mentre ciascun esperto si specializza nell'elaborare i token effettivamente instradati ad esso. L'ERC loss è computazionalmente efficiente, operando solo su n² attivazioni, dove n è il numero di esperti. Ciò rappresenta un costo fisso indipendente dalla dimensione del batch, a differenza dei metodi di accoppiamento precedenti che scalano con il numero di token (spesso milioni per batch). Attraverso il pre-addestramento di MoE-LLM che vanno da 3B a 15B di parametri e un'analisi estesa su trilioni di token, dimostriamo l'efficacia dell'ERC loss. Inoltre, l'ERC loss offre un controllo flessibile e un monitoraggio quantitativo dei livelli di specializzazione degli esperti durante l'addestramento, fornendo preziose intuizioni sui modelli MoE.
La generazione di video in tempo reale tramite modelli di diffusione è essenziale per la costruzione di sistemi di IA interattivi multimodali e general-purpose. Tuttavia, la simultanea eliminazione del rumore su tutti i fotogrammi video mediante attenzione bidirezionale in un processo iterativo nei modelli di diffusione impedisce l'interazione in tempo reale. Sebbene i metodi di distillazione esistenti possano rendere il modello autoregressivo e ridurre i passi di campionamento per mitigare questo problema, essi si concentrano principalmente sulla generazione di video da testo, rendendo l'interazione uomo-IA innaturale e meno efficiente. Questo articolo si propone di realizzare una diffusione di video interattiva in tempo reale condizionata da un contesto multimodale, includendo testo, immagini e audio, per colmare questa lacuna. Data l'osservazione che l'approccio principale di distillazione on-policy, Self Forcing, incontra sfide (artefatti visivi come flickering, fotogrammi neri e degrado della qualità) con il condizionamento multimodale, investigiamo una ricetta di distillazione migliorata che enfatizza la qualità degli input di condizionamento, nonché l'inizializzazione e la schedulazione per l'ottimizzazione on-policy. Su benchmark per la generazione di video avatar condizionati multimodalmente (audio, immagine e testo), inclusi HDTF, AVSpeech e CelebV-HQ, il nostro modello distillato eguaglia la qualità visiva dei baseline bidirezionali a pieno numero di passi di dimensioni simili o maggiori, con un costo inferenziale e una latenza 20 volte inferiori. Inoltre, integriamo il nostro modello con modelli linguistici audio e la tecnica di inferenza video per contenuti lunghi Anchor-Heavy Identity Sinks per costruire LiveTalk, un sistema avatar interattivo multimodale in tempo reale. Una valutazione a livello di sistema sul nostro benchmark curato di interazione multi-turno mostra che LiveTalk supera i modelli all'avanguardia (Sora2, Veo3) in coerenza video multi-turno e qualità dei contenuti, riducendo al contempo la latenza di risposta da 1-2 minuti a una generazione in tempo reale, abilitando un'interazione multimodale uomo-IA senza soluzione di continuità.
Gli approcci recenti hanno dimostrato le potenzialità dei modelli di diffusione per generare mondi interattivi ed esplorabili. Tuttavia, la maggior parte di questi metodi affronta sfide critiche come dimensioni eccessivamente grandi dei parametri, dipendenza da lunghe fasi di inferenza e contesto storico in rapida crescita, che limitano gravemente le prestazioni in tempo reale e mancano di capacità di generazione controllata da testo. Per affrontare queste sfide, proponiamo \method, un framework innovativo progettato per generare mondi realistici, interattivi e continui a partire da una singola immagine o prompt testuale. \method raggiunge questo obiettivo attraverso un'architettura accuratamente progettata che supporta l'esplorazione tramite tastiera dei mondi generati. Il framework comprende tre componenti fondamentali: (1) un'architettura per la generazione di video lunghi che integra la compressione del contesto unificata con l'attenzione lineare; (2) una strategia di accelerazione dello streaming in tempo reale alimentata dalla distillazione bidirezionale dell'attenzione e da uno schema potenziato di incorporamento testuale; (3) un metodo controllato da testo per generare eventi mondiali. Abbiamo reso disponibile il codice sorgente nel materiale supplementare.
I metodi di super-risoluzione video basati su diffusione (VSR) raggiungono un'elevata qualità percettiva, ma rimangono impraticabili per contesti sensibili alla latenza a causa della dipendenza dai frame futuri e della costosa denoising multi-step. Proponiamo Stream-DiffVSR, un framework di diffusione condizionato causalmente per un VSR online efficiente. Operando rigorosamente sui frame passati, combina un denoiser distillato a quattro step per un'inferenza veloce, un modulo di Guida Temporale Auto-regressiva (ARTG) che inietta segnali allineati al movimento durante la denoising latente, e un decoder leggero con consapevolezza temporale dotato di un Modulo di Elaborazione Temporale (TPM) che migliora i dettagli e la coerenza temporale. Stream-DiffVSR elabora frame 720p in 0,328 secondi su una GPU RTX4090 e supera significativamente i precedenti metodi basati su diffusione. Rispetto allo stato dell'arte online TMP, migliora la qualità percettiva (LPIPS +0,095) riducendo al contempo la latenza di oltre 130 volte. Stream-DiffVSR raggiunge la latenza più bassa mai riportata per il VSR basato su diffusione, riducendo il ritardo iniziale da oltre 4600 secondi a 0,328 secondi, diventando così il primo metodo di VSR a diffusione adatto per il deployment online a bassa latenza. Pagina del progetto: https://jamichss.github.io/stream-diffvsr-project-page/
Sebbene i modelli autoregressivi di grandi dimensioni visione-linguaggio (VLM) abbiano ottenuto risultati notevoli, la loro generazione sequenziale spesso ne limita l'efficacia nella pianificazione visiva complessa e nel controllo robotico dinamico. In questo lavoro, indaghiamo il potenziale della costruzione di modelli visione-linguaggio su modelli linguistici di grandi dimensioni basati su diffusione (dLLM) per superare questi limiti. Introduciamo Dream-VL, un VLM aperto basato su diffusione (dVLM) che raggiunge prestazioni allo stato dell'arte tra i precedenti dVLM. Dream-VL è paragonabile ai migliori VLM basati su AR addestrati su dati aperti in vari benchmark, ma mostra un potenziale superiore quando applicato a compiti di pianificazione visiva. Basandoci su Dream-VL, introduciamo Dream-VLA, un modello visione-linguaggio-azione basato su dLLM (dVLA) sviluppato mediante pre-addestramento continuo su dataset robotici aperti. Dimostriamo che la natura nativamente bidirezionale di questo backbone a diffusione funge da base superiore per i compiti VLA, intrinsecamente adatta al chunking delle azioni e alla generazione parallela, portando a una convergenza significativamente più rapida nella messa a punto a valle. Dream-VLA raggiunge prestazioni di primo livello con una percentuale media di successo del 97.2% su LIBERO, una media complessiva del 71.4% su SimplerEnv-Bridge e del 60.5% su SimplerEnv-Fractal, superando modelli leader come π_0 e GR00T-N1. Validiamo inoltre che i dVLM superano i baseline AR sui compiti a valle attraverso diversi obiettivi di addestramento. Rilasciamo sia Dream-VL che Dream-VLA per facilitare ulteriori ricerche nella comunità.
Gli oggetti trasparenti rimangono notoriamente difficili per i sistemi di percezione: rifrazione, riflessione e trasmissione infrangono le assunzioni alla base della stereo visione, del Time-of-Flight e della profondità monoculare puramente discriminativa, causando buchi e stime temporalmente instabili. La nostra osservazione chiave è che i moderni modelli di diffusione video sintetizzano già fenomeni trasparenti convincenti, suggerendo che abbiano internalizzato le regole ottiche. Costruiamo TransPhy3D, un corpus video sintetico di scene trasparenti/riflettenti: 11k sequenze renderizzate con Blender/Cycles. Le scene sono assemblate da una libreria curata di asset statici ricchi di categorie e asset procedurali ricchi di forme, abbinati a materiali vetro/plastica/metallo. Renderizziamo RGB + profondità + normali con ray tracing fisicamente basato e denoising OptiX. Partendo da un grande modello di diffusione video, apprendiamo un traduttore video-to-video per la profondità (e le normali) tramite adattatori LoRA leggeri. Durante l'addestramento concateniamo i latenti RGB e di profondità (rumorosa) nel backbone DiT e co-addestriamo su TransPhy3D e dataset sintetici frame-wise esistenti, ottenendo previsioni temporalmente coerenti per video di input di lunghezza arbitraria. Il modello risultante, DKT, raggiunge lo stato dell'arte zero-shot su benchmark video reali e sintetici che coinvolgono trasparenza: ClearPose, DREDS (CatKnown/CatNovel) e TransPhy3D-Test. Migliora accuratezza e coerenza temporale rispetto a baseline robuste per immagini/video, e una variante per le normali stabilisce i migliori risultati per la stima video delle normali su ClearPose. Una versione compatta da 1.3B opera a ~0.17 s/frame. Integrato in uno stack di presa, la profondità di DKT aumenta i tassi di successo su superfici traslucide, riflettenti e diffuse, superando gli stimatori precedenti. Insieme, questi risultati supportano un'affermazione più ampia: "La diffusione conosce la trasparenza". I prior generativi video possono essere riproposti, in modo efficiente e senza etichette, per una percezione robusta e temporalmente coerente per manipolazioni nel mondo reale impegnative.
I modelli Diffusion Transformer hanno fatto progredire significativamente l'editing delle immagini codificando immagini condizionali e integrandole negli strati del transformer. Tuttavia, la maggior parte degli interventi di modifica coinvolge solo piccole regioni, mentre i metodi attuali processano e rimuovono il rumore in modo uniforme per tutti i token a ogni step temporale, causando calcoli ridondanti e potenzialmente degradando le aree non modificate. Ciò solleva una questione fondamentale: è veramente necessario rigenerare ogni regione durante l'editing? Per affrontare questo problema, proponiamo SpotEdit, un framework di editing per diffusion che non richiede training e aggiorna selettivamente solo le regioni modificate. SpotEdit comprende due componenti chiave: SpotSelector identifica le regioni stabili tramite similarità percettiva e salta il loro calcolo riutilizzando le caratteristiche dell'immagine condizionale; SpotFusion fonde adattivamente queste caratteristiche con i token modificati attraverso un meccanismo di fusione dinamica, preservando la coerenza contestuale e la qualità dell'editing. Riducendo i calcoli non necessari e mantenendo un'alta fedeltà nelle aree non modificate, SpotEdit raggiunge un editing di immagini efficiente e preciso.
L'apprendimento per rinforzo agentico (RL) promette grandi progressi nello sviluppo di agenti autonomi per compiti complessi su interfaccia grafica (GUI), ma la sua scalabilità rimane fortemente limitata dalla verifica del completamento del compito. Le attuali metodologie di verifica sono trattate come processi passivi e a posteriori: un verificatore (ad esempio, script di valutazione basato su regole, modello di ricompensa o critico, o LLM come giudice) analizza l'intera traiettoria di interazione dell'agente per determinare il successo. Questo approccio, che elabora contesti verbosi contenenti storie irrilevanti e rumorose, pone sfide significative ai protocolli di verifica, risultando in costi proibitivi e bassa affidabilità. Per superare questo collo di bottiglia, proponiamo SmartSnap, un cambio di paradigma che passa dalla verifica passiva e a posteriori all'auto-verifica proattiva e in-situ da parte dell'agente stesso. Introduciamo l'Agente Auto-Verificante, un nuovo tipo di agente progettato con una doppia missione: non solo completare un compito, ma anche dimostrarne il raggiungimento attraverso evidenze selezionate (snapshot). Guidato dai nostri Principi 3C (Completezza, Concisione e Creatività), l'agente sfrutta il suo accesso all'ambiente online per eseguire l'auto-verifica su un insieme minimo e decisivo di snapshot. Queste evidenze costituiscono l'unico materiale fornito a un verificatore generico LLM come giudice per determinarne validità e rilevanza. Esperimenti su compiti mobili, condotti su diverse famiglie e scale di modelli, dimostrano che il nostro paradigma SmartSnap consente l'addestramento di agenti guidati da LLM in modo scalabile, apportando miglioramenti delle prestazioni fino al 26,08% e al 16,66% rispettivamente per modelli da 8B e 30B. La sinergia tra la ricerca della soluzione e la ricerca dell'evidenza facilita lo sviluppo di agenti efficienti e auto-verificanti con prestazioni competitive rispetto a DeepSeek V3.1 e Qwen3-235B-A22B.
Gli agenti linguistici richiedono sempre più mondi persistenti in cui possano agire, ricordare e apprendere. Gli approcci esistenti si collocano su due estremi: i framework web convenzionali forniscono contesti affidabili ma fissi supportati da database, mentre i modelli di mondo completamente generativi mirano a ambienti illimitati a scapito della controllabilità e dell'ingegnerizzazione pratica. In questo lavoro, introduciamo il Web World Model (WWM), un punto intermedio in cui lo stato del mondo e la "fisica" sono implementati in codice web ordinario per garantire coerenza logica, mentre i grandi modelli linguistici generano contesto, narrative e decisioni di alto livello su questo stato latente strutturato. Costruiamo una suite di WWM su uno stack web realistico, inclusi un atlante di viaggio infinito ancorato a geografie reali, esploratori di galassie fittizie, mondi enciclopedici e narrativi su scala web, e ambienti simili a simulazioni e giochi. Attraverso questi sistemi, identifichiamo principi pratici di progettazione per i WWM: separare le regole definite dal codice dall'immaginazione guidata dai modelli, rappresentare lo stato latente come interfacce web tipizzate e utilizzare la generazione deterministica per ottenere un'esplorazione illimitata ma strutturata. I nostri risultati suggeriscono che gli stack web stessi possano servire come substrato scalabile per modelli di mondo, abilitando ambienti controllabili ma aperti. Pagina del progetto: https://github.com/Princeton-AI2-Lab/Web-World-Models.
Il codificatore testuale è un componente critico dei modelli di diffusione testo-immagine e testo-video, determinando fondamentalmente la fedeltà semantica del contenuto generato. Tuttavia, il suo sviluppo è stato ostacolato da due sfide principali: la mancanza di un framework di valutazione efficiente che predice in modo affidabile le prestazioni generative downstream e la difficoltà di adattare efficacemente modelli linguistici preaddestrati per la sintesi visiva. Per affrontare questi problemi, introduciamo GRAN-TED, un paradigma per generare embedding testuali Robusti, Allineati e Sfumati per modelli di diffusione. Il nostro contributo è duplice. In primo luogo, proponiamo TED-6K, un nuovo benchmark esclusivamente testuale che consente una valutazione efficiente e robusta della qualità rappresentativa di un codificatore senza richiedere costosi addestramenti end-to-end del modello. Dimostriamo che le prestazioni su TED-6K, standardizzate tramite un adattatore unificato e leggero, correlano fortemente con l'efficacia di un codificatore nelle attività generative downstream. Notevolmente, nella nostra configurazione sperimentale, rispetto all'addestramento di un modello di diffusione da zero, la valutazione con TED-6K è circa 750 volte più veloce. In secondo luogo, guidati da questo framework validato, sviluppiamo un codificatore testuale superiore utilizzando un nuovo paradigma di addestramento a due stadi. Questo processo coinvolge una fase iniziale di fine-tuning su un Modello Linguistico Multimodale di Grande Scala per una migliore rappresentazione visiva, seguita da un metodo di ponderazione strato per strato per estrarre caratteristiche testuali più sfumate e potenti. I nostri esperimenti mostrano che il codificatore GRAN-TED risultante non solo raggiunge prestazioni all'avanguardia su TED-6K, ma porta anche a miglioramenti dimostrabili nelle prestazioni per la generazione testo-immagine e testo-video. Il nostro dataset TED-6K e il codice di valutazione sono disponibili al seguente link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
Definire le attività di manipolazione robotica in modo sia espressivo che preciso rimane una sfida centrale. Sebbene gli obiettivi visivi forniscano una specifica compatta e non ambigua del compito, le politiche condizionate all'obiettivo esistenti spesso incontrano difficoltà con la manipolazione a lungo termine a causa della loro dipendenza dalla previsione di azioni a singolo passo, senza una modellizzazione esplicita del progresso del compito. Proponiamo Act2Goal, una politica generale di manipolazione condizionata all'obiettivo che integra un modello visivo del mondo condizionato all'obiettivo con un controllo temporale multi-scala. Dati un'osservazione corrente e un obiettivo visivo target, il modello del mondo genera una sequenza plausibile di stati visivi intermedi che cattura la struttura a lungo termine. Per tradurre questo piano visivo in un'esecuzione robusta, introduciamo il Multi-Scale Temporal Hashing (MSTH), che scompone la traiettoria immaginata in frame prossimali densi per un controllo a ciclo chiuso granulare e in frame distali sparsi che ancorano la coerenza globale del compito. La politica accoppia queste rappresentazioni con il controllo motorio attraverso un meccanismo di cross-attention end-to-end, consentendo un comportamento coerente a lungo termine rimanendo reattiva ai disturbi locali. Act2Goal raggiunge una forte generalizzazione zero-shot verso nuovi oggetti, layout spaziali e ambienti. Abilitiamo inoltre un adattamento online senza ricompensa tramite rilabeling retrospettivo degli obiettivi con fine-tuning basato su LoRA, permettendo un rapido miglioramento autonomo senza supervisione esterna. Esperimenti su robot reali dimostrano che Act2Goal migliora i tassi di successo dal 30% al 90% su compiti complessi fuori distribuzione in pochi minuti di interazione autonoma, convalidando che i modelli del mondo condizionati all'obiettivo con controllo temporale multi-scala forniscono la guida strutturata necessaria per una manipolazione robusta a lungo termine. Pagina del progetto: https://act2goal.github.io/
I modelli linguistici diffusion (dLLM) sono emersi come promettenti alternative ai modelli auto-regressivi (AR). Sebbene recenti sforzi ne abbiano convalidato il potenziale nel pre-training e accelerato le velocità di inferenza, il panorama del post-training per i dLLM rimane sottosviluppato. I metodi esistenti soffrono di inefficienza computazionale e di una mancata corrispondenza tra gli obiettivi di addestramento e quelli di inferenza, limitando severamente le prestazioni in compiti di ragionamento complesso come la matematica. Per affrontare questo problema, introduciamo DiRL, un framework efficiente di post-training che integra strettamente l'addestramento a blocchi accelerato da FlexAttention con l'inferenza ottimizzata da LMDeploy. Questa architettura abilita un ciclo semplificato di aggiornamento online del modello, facilitando un efficiente post-training in due fasi (Supervised Fine-Tuning seguito da Reinforcement Learning). Basandoci su questo framework, proponiamo DiPO, la prima implementazione imparziale di Group Relative Policy Optimization (GRPO) specificamente progettata per i dLLM. Convalidiamo il nostro approccio addestrando DiRL-8B-Instruct su dati matematici di alta qualità. Il nostro modello raggiunge prestazioni matematiche all'avanguardia tra i dLLM e supera modelli comparabili della serie Qwen2.5 su diversi benchmark.
Gli assistenti di ricerca IA stanno emergendo come strumenti per supportare i ricercatori umani nel raggiungimento dei propri obiettivi di ricerca. Una caratteristica cruciale di questi co-scienziati IA è la capacità di generare un piano di ricerca dati una serie di obiettivi e vincoli. Il piano può essere utilizzato dai ricercatori per il brainstorming, o potrebbe persino essere implementato dopo un ulteriore affinamento. Tuttavia, i modelli linguistici attualmente faticano a generare piani di ricerca che rispettino tutti i vincoli e i requisiti impliciti. In questo lavoro, studiamo come sfruttare il vasto corpus di articoli di ricerca esistenti per addestrare modelli linguistici che generino piani di ricerca migliori. Costruiamo un corpus di addestramento scalabile e diversificato estraendo automaticamente obiettivi di ricerca e griglie di valutazione specifiche per obiettivo da articoli di diversi ambiti. Addestriamo quindi modelli per la generazione di piani di ricerca tramite apprendimento per rinforzo con autovalutazione. Una copia congelata della politica iniziale funge da valutatore durante l'addestramento, con le griglie che creano un divario generatore-verificatore che consente miglioramenti senza supervisione umana esterna. Per convalidare questo approccio, conduciamo uno studio con esperti umani per obiettivi di ricerca nel machine learning, per un totale di 225 ore. Gli esperti preferiscono i piani generati dal nostro modello messo a punto Qwen3-30B-A3B rispetto al modello iniziale per il 70% degli obiettivi di ricerca e approvano l'84% delle griglie di valutazione specifiche per obiettivo estratte automaticamente. Per valutarne la generalità, estendiamo il nostro approccio anche a obiettivi di ricerca tratti da articoli medici e nuove preprint di arXiv, valutando con una giuria di modelli all'avanguardia. La nostra messa a punto produce miglioramenti relativi del 12-22% e una significativa generalizzazione cross-dominio, dimostrandosi efficace anche in contesti problematici come la ricerca medica dove il feedback di esecuzione è impraticabile. Nel complesso, questi risultati dimostrano il potenziale di una procedura di addestramento automatizzata e scalabile come passo verso il miglioramento dei co-scienziati IA generali.
Gli agenti di ricerca di informazioni (IS) hanno ottenuto prestazioni solide in un'ampia gamma di compiti di ricerca estesi e approfonditi, tuttavia il loro utilizzo di strumenti rimane largamente limitato al recupero di snippet a livello API e al fetching di pagine basato su URL, limitando l'accesso alle informazioni più ricche disponibili attraverso la navigazione reale. Sebbene l'interazione completa con il browser potrebbe sbloccare capacità più profonde, il suo controllo granulare e i verbose ritorni di contenuto della pagina introducono una complessità sostanziale per gli agenti con chiamate di funzione in stile ReAct. Per colmare questa lacuna, proponiamo il Nested Browser-Use Learning (NestBrowse), che introduce un framework di azioni browser minimo e completo, disaccoppiando il controllo dell'interazione dall'esplorazione della pagina attraverso una struttura nidificata. Questo design semplifica il ragionamento agentico consentendo al contempo un'acquisizione efficace di informazioni dal deep web. I risultati empirici su benchmark impegnativi di IS profondo dimostrano che NestBrowse offre chiari vantaggi nella pratica. Ulteriori analisi approfondite ne sottolineano l'efficienza e la flessibilità.
I recenti progressi nella computer vision hanno esteso con successo la segmentazione open-vocabulary (OVS) al dominio 3D sfruttando il Gaussian Splatting 3D (3D-GS). Nonostante questi progressi, il rendering efficiente delle feature ad alta dimensionalità richieste per query open-vocabulary rappresenta una sfida significativa. I metodi esistenti impiegano codebook o compressione delle feature, causando una perdita di informazioni che degrada la qualità della segmentazione. Per affrontare questa limitazione, introduciamo il Quantile Rendering (Q-Render), una nuova strategia di rendering per Gaussiane 3D che gestisce efficientemente feature ad alta dimensionalità mantenendo un'alta fedeltà. A differenza del rendering volumetrico convenzionale, che campiona densamente tutte le Gaussiane 3D che intersecano ogni raggio, Q-Render campiona in modo sparso solo quelle con influenza dominante lungo il raggio. Integrando Q-Render in una rete neurale 3D generalizzabile, proponiamo anche la Gaussian Splatting Network (GS-Net), che predice le feature delle Gaussiane in modo generalizzabile. Esperimenti estensivi su ScanNet e LeRF dimostrano che il nostro framework supera i metodi allo stato dell'arte, consentendo al contempo un rendering in tempo reale con un aumento di velocità approssimativo di ~43.7x su mappe di feature a 512 dimensioni. Il codice sarà reso pubblico.
Introduciamo Self-Evaluating Model (Self-E), un approccio innovativo di addestramento da zero per la generazione di testo-immagine che supporta l'inferenza con un numero qualsiasi di passi. Self-E apprende dai dati in modo simile a un modello di Flow Matching, impiegando contemporaneamente un nuovo meccanismo di autovalutazione: valuta i propri campioni generati utilizzando le stime correnti del punteggio, fungendo efficacemente da un insegnante dinamico per se stesso. A differenza dei modelli di diffusione o di flusso tradizionali, non si affida esclusivamente a una supervisione locale, che tipicamente richiede molti passi di inferenza. A differenza degli approcci basati sulla distillazione, non necessita di un insegnante preaddestrato. Questa combinazione di apprendimento locale istantaneo e corrispondenza globale autoguidata colma il divario tra i due paradigmi, permettendo l'addestramento da zero di un modello testo-immagine di alta qualità che eccelle anche con un numero di passi molto basso. Esperimenti estensivi su benchmark testo-immagine su larga scala mostrano che Self-E non solo eccelle nella generazione con pochi passi, ma è anche competitivo con i modelli all'avanguardia di Flow Matching a 50 passi. Inoltre, scopriamo che le sue prestazioni migliorano in modo monotono all'aumentare dei passi di inferenza, consentendo sia una generazione ultra-rapida con pochi passi sia un campionamento di alta qualità con traiettorie lunghe all'interno di un unico modello unificato. A nostra conoscenza, Self-E è il primo modello testo-immagine addestrato da zero e per qualsiasi numero di passi, che offre un framework unificato per una generazione efficiente e scalabile.
I metodi esistenti per la rilevazione di oggetti in tempo reale (RTOD) adottano comunemente architetture di tipo YOLO per il loro favorevole compromesso tra accuratezza e velocità. Tuttavia, questi modelli si basano su un calcolo statico denso che applica un'elaborazione uniforme a tutti gli input, allocando erroneamente la capacità rappresentativa e le risorse computazionali, ad esempio sovra-allocando su scene banali mentre sotto-servendo quelle complesse. Questa discrepanza si traduce sia in ridondanza computazionale che in prestazioni di rilevamento subottimali. Per superare questa limitazione, proponiamo YOLO-Master, un nuovo framework di tipo YOLO che introduce un calcolo adattivo condizionato all'istanza per la RTOD. Ciò è ottenuto tramite un blocco Efficient Sparse Mixture-of-Experts (ES-MoE) che alloca dinamicamente le risorse computazionali a ciascun input in base alla sua complessità della scena. Nella sua essenza, una rete di routing dinamica leggera guida la specializzazione degli esperti durante l'addestramento attraverso un obiettivo di potenziamento della diversità, incoraggiando competenze complementari tra gli esperti. Inoltre, la rete di routing apprende in modo adattivo ad attivare solo gli esperti più rilevanti, migliorando così le prestazioni di rilevamento mentre minimizza l'overhead computazionale durante l'inferenza. Esperimenti completi su cinque benchmark su larga scala dimostrano la superiorità di YOLO-Master. Su MS COCO, il nostro modello raggiunge il 42.4% AP con una latenza di 1.62ms, superando YOLOv13-N di +0.8% mAP con un'inferenza più veloce del 17.8%. È degno di nota che i vantaggi siano più pronunciati su scene dense e complesse, mentre il modello preserva l'efficienza su input tipici e mantiene una velocità di inferenza in tempo reale. Il codice sarà reso disponibile.
I modelli linguistici di grandi dimensioni onnimodali hanno compiuto progressi significativi nell'unificazione delle modalità audio e visive; tuttavia, spesso mancano di una comprensione cross-modale granulare e presentano difficoltà con l'allineamento multimodale. Per affrontare queste limitazioni, introduciamo OmniAgent, un agente di percezione attiva completamente guidato dall'audio che orchestra dinamicamente strumenti specializzati per ottenere un ragionamento audio-visivo più granulare. A differenza dei lavori precedenti che si basano su flussi di lavoro rigidi e statici e su descrizioni dense di fotogrammi, questo articolo dimostra un cambio di paradigma dalla generazione passiva di risposte all'indagine multimodale attiva. OmniAgent impiega una pianificazione dinamica per orchestrare autonomamente l'invocazione di strumenti on-demand, concentrando strategicamente l'attenzione percettiva sugli indizi rilevanti per il compito. Elemento centrale del nostro approccio è un nuovo paradigma di percezione guidata dall'audio di tipo coarse-to-fine, che sfrutta i segnali audio per localizzare eventi temporali e guidare il ragionamento successivo. Valutazioni empiriche estese su tre benchmark di comprensione audio-video dimostrano che OmniAgent raggiunge prestazioni all'avanguardia, superando modelli proprietari e open-source leader con margini sostanziali del 10% - 20% in accuratezza.
La scarsità di dati rimane una barriera fondamentale per il raggiungimento di una piena autonomia dei robot chirurgici. Sebbene i modelli su larga scala di linguaggio visivo e azione (VLA) abbiano dimostrato un'impressionante capacità di generalizzazione nella manipolazione domestica e industriale sfruttando dati video-azione accoppiati da domini diversi, la robotica chirurgica soffre della carenza di dataset che includano sia osservazioni visive che cinematiche robotiche accurate. Al contrario, esistono vasti corpora di video chirurgici, ma questi mancano delle corrispondenti etichette d'azione, impedendo l'applicazione diretta dell'apprendimento per imitazione o dell'addestramento VLA. In questo lavoro, miriamo ad alleviare questo problema apprendendo modelli politici da SurgWorld, un modello mondiale progettato per l'IA fisica chirurgica. Abbiamo curato il dataset Surgical Action Text Alignment (SATA) con descrizioni d'azione dettagliate specifiche per robot chirurgici. Successivamente, abbiamo costruito SurgeWorld basandoci sul più avanzato modello mondiale di IA fisica e su SATA. Esso è in grado di generare video chirurgici diversificati, generalizzabili e realistici. Siamo anche i primi a utilizzare un modello di dinamica inversa per inferire pseudocinematiche da video chirurgici sintetici, producendo dati video-azione sintetici accoppiati. Dimostriamo che una politica VLA chirurgica addestrata con questi dati aumentati supera significativamente i modelli addestrati esclusivamente su dimostrazioni reali su una piattaforma robotica chirurgica reale. Il nostro approccio offre un percorso scalabile verso l'acquisizione autonoma di abilità chirurgiche sfruttando l'abbondanza di video chirurgici non etichettati e la modellazione mondiale generativa, aprendo così la porta a politiche per robot chirurgici generalizzabili ed efficienti dal punto di vista dei dati.
La proliferazione dei Large Language Model (LLM) ha catalizzato una transizione verso agenti autonomi capaci di ragionamento complesso e utilizzo di strumenti. Tuttavia, le architetture degli agenti attuali sono spesso costruite utilizzando pattern imperativi e ad hoc. Ciò si traduce in sistemi fragili, afflitti da difficoltà nella gestione dello stato, nella gestione degli errori e nella concorrenza. Questo articolo introduce la Monadic Context Engineering (MCE), un nuovo paradigma architetturale che sfrutta le strutture algebriche di Functor, Applicative Functor e Monadi per fornire una base formale per la progettazione di agenti. MCE tratta i flussi di lavoro degli agenti come contesti computazionali in cui problematiche trasversali, come la propagazione dello stato, la gestione degli errori con interruzione e l'esecuzione asincrona, sono gestite intrinsecamente dalle proprietà algebriche dell'astrazione. Dimostriamo come le Monadi consentano una composizione sequenziale robusta, come gli Applicative forniscano una struttura principiata per l'esecuzione parallela e, in modo cruciale, come i Monad Transformer permettano la composizione sistematica di queste capacità. Questo approccio a strati consente agli sviluppatori di costruire agenti di IA complessi, resilienti ed efficienti a partire da componenti semplici e verificabili indipendentemente. Estendiamo ulteriormente questo quadro per descrivere i Meta-Agenti, che sfruttano MCE per l'orchestrazione generativa, creando e gestendo dinamicamente flussi di lavoro di sub-agent attraverso il metaprogrammazione. Pagina del progetto: https://github.com/yifanzhang-pro/monadic-context-engineering.
L'evoluzione degli agenti autonomi sta ridefinendo la ricerca delle informazioni, transitando dal recupero passivo a un'indagine web proattiva e aperta. Tuttavia, sebbene gli agenti testuali e multimodali statici abbiano compiuto rapidi progressi, persiste un'importante lacuna modale nell'elaborazione della modalità più dinamica del web: il video. I benchmark video esistenti si concentrano prevalentemente sulla percezione passiva, fornendo clip curati ai modelli senza richiedere recupero esterno. Essi non valutano la ricerca video agentiva, che richiede invece di interrogare attivamente le timeline video, incrociare prove disperse e verificare affermazioni sul web aperto. Per colmare questa lacuna, presentiamo Video-BrowseComp, un benchmark impegnativo composto da 210 domande progettate per il ragionamento video agentivo sul web aperto. A differenza dei benchmark precedenti, Video-BrowseComp impone una dipendenza obbligatoria da prove visive temporali, garantendo che le risposte non possano essere derivate solo tramite ricerca testuale, ma richiedano la navigazione delle timeline video per verificare affermazioni esterne. La nostra valutazione dei modelli più avanzati riviene un collo di bottiglia critico: persino modelli potenziati dalla ricerca come GPT-5.1 (con Ricerca) raggiungono solo un'accuratezza del 15,24%. La nostra analisi mostra che questi modelli si affidano largamente a proxy testuali, eccellendo in domini ricchi di metadati (ad esempio, programmi TV con riassunti della trama) ma collassando in ambienti dinamici e poveri di metadati (ad esempio, sport, gameplay) dove l'ancoraggio visivo è essenziale. Come primo benchmark per la ricerca video sul web aperto, Video-BrowseComp avanza il campo oltre la percezione passiva verso un ragionamento video proattivo.
Nella maggior parte delle compiti esistenti di navigazione embodied, le istruzioni sono ben definite e inequivocabili, come nel caso del seguire istruzioni o della ricerca di oggetti. In questo contesto idealizzato, gli agenti devono semplicemente produrre output di navigazione efficaci condizionati da input visivi e linguistici. Tuttavia, le istruzioni di navigazione nel mondo reale sono spesso vaghe e ambigue, richiedendo all'agente di risolvere l'incertezza e inferire l'intento dell'utente attraverso dialoghi attivi. Per colmare questa lacuna, proponiamo Interactive Instance Object Navigation (IION), un compito che richiede agli agenti non solo di generare azioni di navigazione ma anche di produrre output linguistici tramite dialoghi attivi, allineandosi così maggiormente a contesti pratici. IION estende Instance Object Navigation (ION) consentendo agli agenti di consultare liberamente un oracolo in linguaggio naturale durante la navigazione. Basandoci su questo compito, presentiamo il benchmark Vision Language-Language Navigation (VL-LN), che fornisce un dataset su larga scala generato automaticamente e un protocollo di valutazione completo per l'addestramento e la valutazione di modelli di navigazione abilitati al dialogo. VL-LN comprende oltre 41k traiettorie a lungo orizzonte aumentate con dialoghi per l'addestramento e un protocollo di valutazione automatica con un oracolo in grado di rispondere alle interrogazioni dell'agente. Utilizzando questo benchmark, addestriamo un modello di navigazione dotato di capacità dialogiche e dimostriamo che raggiunge miglioramenti significativi rispetto ai baseline. Esperimenti e analisi estese dimostrano ulteriormente l'efficacia e l'affidabilità di VL-LN per far progredire la ricerca sulla navigazione embodied abilitata al dialogo. Codice e dataset: https://0309hws.github.io/VL-LN.github.io/
I sistemi di modelli linguistici (LM) agentici alimentano applicazioni moderne come "Deep Research" e "Claude Code" e sfruttano architetture multi-LM per superare i limiti del contesto. Al di sotto della loro apparente diversità si cela uno schema ricorrente: LM "compressori" più piccoli (che possono anche essere eseguiti localmente) distillano il contesto grezzo in un testo compatto che viene poi elaborato da LM "predittori" più grandi. Nonostante la loro popolarità, la progettazione di sistemi compressore-predittore rimane in gran parte ad hoc, con poche linee guida su come le scelte del compressore e del predittore influenzino le prestazioni finali. Nella pratica, attribuire i miglioramenti alla compressione rispetto alla predizione richiede costose analisi a coppie specifiche per task. Sosteniamo che queste questioni di progettazione di sistemi agentici siano, in sostanza, di natura teoria dell'informazione. Considerando il LM compressore come un canale rumoroso, introduciamo un semplice stimatore dell'informazione mutua tra il contesto e la sua compressione per quantificare la qualità della compressione in modo indipendente dal task. Dimostriamo che l'informazione mutua predice fortemente le prestazioni finali, indipendentemente da qualsiasi task specifico. Attraverso un quadro teorico dell'informazione, eseguiamo un'analisi empirica completa su cinque dataset e tre famiglie di modelli. I risultati rivelano che i compressori più grandi non solo sono più accurati, ma anche più efficienti in termini di token, trasmettendo più bit di informazione per token. Un compressore Qwen-2.5 da 7B, ad esempio, è 1,6 volte più accurato, 4,6 volte più conciso e trasmette 5,5 volte più bit di informazione mutua per token rispetto al suo equivalente da 1,5B. Attraverso i dataset, il ridimensionamento dei compressori è sostanzialmente più efficace del ridimensionamento dei predittori, consentendo a compressori più grandi on-device di abbinarsi a predittori cloud più piccoli. Applicati a un sistema Deep Research, questi principi consentono a compressori locali di dimensioni fino a 3B di parametri di recuperare il 99% dell'accuratezza dei LM all'avanguardia al 26% dei costi API.
L'ostacolo principale per l'applicazione dell'apprendimento per rinforzo (RL) alla robotica nel mondo reale è la progettazione di funzioni di ricompensa efficaci. Sebbene i modelli di ricompensa basati su apprendimento (PRM) rappresentino di recente una direzione promettente, sono spesso ostacolati da due limitazioni fondamentali: i loro modelli di ricompensa mancano di una comprensione step-aware e si basano su una percezione single-view, portando a valutazioni inaffidabili del progresso nella manipolazione fine; e le loro procedure di reward shaping sono teoricamente inconsistenti, inducendo spesso una trappola semantica che disorienta l'ottimizzazione della policy. Per affrontare questi problemi, introduciamo Dopamine-Reward, un metodo innovativo di modellazione della ricompensa per apprendere un modello di ricompensa di processo step-aware e generico da input multi-view. Il suo cuore è il nostro General Reward Model (GRM), addestrato su un vasto dataset di oltre 3.400 ore, che sfrutta la Discretizzazione Step-wise della Ricompensa per una comprensione strutturale e la Fusione della Ricompensa Multi-Prospettiva per superare le limitazioni percettive. Basandoci su Dopamine-Reward, proponiamo Dopamine-RL, un framework robusto per l'apprendimento di policy che impiega un metodo di Policy-Invariant Reward Shaping teoricamente solido, che permette all'agente di sfruttare ricompense dense per un'automiglioramento efficiente senza alterare la policy ottimale, evitando così fondamentalmente la trappola semantica. Esperimenti estesi su vari compiti simulati e del mondo reale convalidano il nostro approccio. Il GRM raggiunge un'accuratezza all'avanguardia nella valutazione delle ricompense, e Dopamine-RL, costruito su GRM, migliora significativamente l'efficienza dell'apprendimento delle policy. Ad esempio, dopo che GRM viene adattato a un nuovo compito in modalità one-shot a partire da una singola traiettoria esperta, il modello di ricompensa risultante consente a Dopamine-RL di migliorare la policy da un successo quasi nullo al 95% con soli 150 rollout online (circa 1 ora di interazione robotica reale), mantenendo al contempo una forte generalizzazione tra i compiti. Sito web del progetto: https://robo-dopamine.github.io
I sistemi esistenti di creazione video basati sull'intelligenza artificiale trattano tipicamente la stesura della sceneggiatura e la progettazione degli scatti chiave come due compiti separati: il primo si affida a modelli linguistici di grandi dimensioni, mentre il secondo dipende da modelli di generazione di immagini. Sosteniamo che questi due compiti dovrebbero essere unificati in un unico framework, poiché il ragionamento logico e il pensiero immaginativo sono entrambi qualità fondamentali di un regista cinematografico. In questo lavoro, proponiamo UniMAGE, un modello di regia unificato che collega i prompt dell'utente con sceneggiature ben strutturate, consentendo così ai non esperti di produrre film multi-scena a lungo contesto sfruttando modelli esistenti di generazione audio-video. Per raggiungere questo obiettivo, utilizziamo l'architettura Mixture-of-Transformers che unifica la generazione di testo e immagini. Per migliorare ulteriormente la logica narrativa e la coerenza dei fotogrammi chiave, introduciamo un paradigma di addestramento "prima interlacciamento, poi separazione". Nello specifico, eseguiamo prima l'Interleaved Concept Learning, che utilizza dati testo-immagine interlacciati per favorire una comprensione più profonda e un'interpretazione immaginativa delle sceneggiature da parte del modello. Successivamente conduciamo il Disentangled Expert Learning, che disaccoppia la scrittura della sceneggiatura dalla generazione dei fotogrammi chiave, consentendo maggiore flessibilità e creatività nella narrazione. Esperimenti estensivi dimostrano che UniMAGE raggiunge prestazioni all'avanguardia tra i modelli open-source, generando sceneggiature video logicamente coerenti e immagini dei fotogrammi chiave visivamente consistenti.
Rendere veloce ed efficiente l'addestramento e l'inferenza dei modelli di raccomandazione basati sul deep learning (DLRM) è di fondamentale importanza. Tuttavia, ciò presenta tre principali sfide a livello di sistema: la diversità delle architetture dei modelli, la diversità dei kernel primitivi e l'eterogeneità delle generazioni e delle architetture hardware. Questo articolo presenta KernelEvolve, un framework agent-based per la codifica dei kernel, concepito per affrontare l'eterogeneità su larga scala per i DLRM. KernelEvolve è progettato per ricevere specifiche dei kernel come input e automatizzare il processo di generazione e ottimizzazione dei kernel per i modelli di raccomandazione su architetture hardware eterogenee. KernelEvolve opera a più livelli di astrazione di programmazione, dai DSL Triton e CuTe fino a linguaggi di basso livello indipendenti dall'hardware, coprendo l'intero stack di ottimizzazione hardware-software. Il processo di ottimizzazione del kernel è descritto come una ricerca basata su grafi con criteri di selezione, operatori universali, funzioni di fitness e regole di terminazione, che si adatta dinamicamente al contesto di esecuzione runtime attraverso una sintesi prompt aumentata da retrieval. Abbiamo progettato, implementato e distribuito KernelEvolve per ottimizzare un'ampia varietà di modelli di raccomandazione in produzione su diverse generazioni di GPU NVIDIA e AMD, nonché sugli acceleratori AI interni di Meta. Convalidiamo KernelEvolve sulla suite pubblicamente disponibile KernelBench, raggiungendo un tasso di successo del 100% su tutti i 250 problemi attraverso tre livelli di difficoltà e su 160 operatori ATen di PyTorch su tre piattaforme hardware eterogenee, dimostrando una correttezza del 100%. KernelEvolve riduce il tempo di sviluppo da settimane a ore e consegue sostanziali miglioramenti delle prestazioni rispetto ai baseline PyTorch in svariati casi d'uso produttivi e per sistemi di IA eterogenei su larga scala. Oltre ai miglioramenti dell'efficienza prestazionale, KernelEvolve mitiga significativamente la barriera della programmabilità per i nuovi hardware di IA, abilitando la generazione automatizzata di kernel per hardware di IA sviluppati internamente.
La rapida evoluzione dei modelli generativi ha portato a un'emergenza continua di rischi multimodali per la sicurezza, evidenziando i limiti dei metodi di difesa esistenti. Per affrontare queste sfide, proponiamo ProGuard, un sistema di protezione proattivo visione-linguaggio che identifica e descrive i rischi di sicurezza out-of-distribution (OOD) senza richiedere gli aggiustamenti del modello necessari agli approcci reattivi tradizionali. Inizialmente costruiamo un dataset bilanciato per modalità di 87.000 campioni, ciascuno annotato con etichette di sicurezza binarie e categorie di rischio secondo una tassonomia multimodale gerarchica, mitigando efficacemente il bias modale e garantendo una moderazione coerente per input testuali, visivi e testo-immagine. Basandoci su questo dataset, addestriamo il nostro modello base visione-linguaggio esclusivamente attraverso reinforcement learning (RL) per ottenere un ragionamento efficiente e conciso. Per approssimare scenari di sicurezza proattivi in ambiente controllato, introduciamo ulteriormente un task di inferenza per categorie di sicurezza OOD e arricchiamo l'obiettivo RL con una ricompensa di similarità basata su banche di sinonimi che incentiva il modello a generare descrizioni concise per categorie non sicure non viste. I risultati sperimentali dimostrano che ProGuard raggiunge prestazioni paragonabili a modelli large closed-source nella classificazione binaria della sicurezza, superando sostanzialmente i modelli di protezione open-source esistenti nella categorizzazione di contenuti non sicuri. Notevolmente, ProGuard dimostra una forte capacità di moderazione proattiva, migliorando il rilevamento dei rischi OOD del 52.6% e la descrizione dei rischi OOD del 64.8%.
Presentiamo la sorprendente scoperta che le capacità di ragionamento di un modello linguistico possano essere migliorate addestrandolo su dataset sintetici di tracce di ragionamento a catena (chain-of-thought, CoT) provenienti da modelli più capaci, anche quando tutte queste tracce portano a una risposta finale errata. I nostri esperimenti dimostrano che questo approccio può produrre prestazioni migliori sui compiti di ragionamento rispetto all'addestramento su dataset annotati da esseri umani. Ipotesizziamo che due fattori chiave spieghino questo fenomeno: in primo luogo, la distribuzione dei dati sintetici è intrinsecamente più vicina alla distribuzione del modello linguistico stesso, rendendoli più adatti all'apprendimento. In secondo luogo, queste tracce "errate" sono spesso solo parzialmente imperfette e contengono passaggi di ragionamento validi dai quali il modello può apprendere. Per testare ulteriormente la prima ipotesi, utilizziamo un modello linguistico per parafrasare le tracce annotate da esseri umani – spostandone la distribuzione più vicino a quella del modello stesso – e dimostriamo che ciò migliora le prestazioni. Per la seconda ipotesi, introduciamo tracce CoT progressivamente più imperfette e studiamo fino a che punto i modelli sono tolleranti a questi errori. Dimostriamo le nostre scoperte in vari domini di ragionamento come la matematica, il ragionamento algoritmico e la generazione di codice, utilizzando i dataset MATH, GSM8K, Countdown e MBPP su vari modelli linguistici, che vanno da 1,5B a 9B parametri, tra i modelli Qwen, Llama e Gemma. Il nostro studio mostra che la cura di dataset più vicini alla distribuzione del modello è un aspetto critico da considerare. Mostriamo anche che una risposta finale corretta non è sempre un indicatore affidabile di un processo di ragionamento fedele.
L'animazione ritrattistica in tempo reale è fondamentale per applicazioni interattive come assistenti virtuali e avatar live, richiedendo alta fedeltà visiva, coerenza temporale, latenza ultra-bassa e controllo reattivo da input dinamici come immagini di riferimento e segnali di guida. Sebbene i modelli basati su diffusione raggiungano un'elevata qualità, la loro natura non causale ostacola il deployment in streaming. Gli approcci di generazione video autoregressivi causali consentono una generazione efficiente frame-by-frame ma soffrono di accumulo di errori, discontinuità del movimento ai confini dei chunk e degrado della coerenza a lungo termine. In questo lavoro, presentiamo un framework di streaming innovativo denominato Knot Forcing per l'animazione ritrattistica in tempo reale che affronta queste sfide attraverso tre progetti chiave: (1) una strategia di generazione chunk-wise con preservazione dell'identità globale tramite stati KV memorizzati dell'immagine di riferimento e modellazione temporale locale mediante sliding window attention; (2) un modulo temporale knot che sovrappone chunk adiacenti e propaga indizi spazio-temporali tramite condizionamento image-to-video per fluidificare le transizioni di movimento inter-chunk; e (3) un meccanismo di "running ahead" che aggiorna dinamicamente la coordinata temporale del frame di riferimento durante l'inferenza, mantenendo il suo contesto semantico anticipato rispetto al frame corrente di rollout per supportare la coerenza a lungo termine. Knot Forcing abilita un'animazione ritrattistica di alta fedeltà, temporalmente coerente e interattiva su sequenze infinite, raggiungendo prestazioni in tempo reale con forte stabilità visiva su GPU di livello consumer.
La valutazione delle prestazioni di varie architetture di modelli, come i transformer, i grandi modelli linguistici (LLM) e altri sistemi di NLP, richiede benchmark completi che misurino le prestazioni su molteplici dimensioni. Tra queste, la valutazione della comprensione del linguaggio naturale (NLU) è particolarmente critica in quanto costituisce un criterio fondamentale per valutare le capacità dei modelli. Pertanto, è essenziale stabilire benchmark che consentano una valutazione e un'analisi approfondite delle abilità di NLU da diverse prospettive. Sebbene il benchmark GLUE abbia stabilito uno standard per la valutazione dell'NLU inglese, benchmark simili sono stati sviluppati per altre lingue, come CLUE per il cinese, FLUE per il francese e JGLUE per il giapponese. Tuttavia, al momento non esiste un benchmark comparabile per la lingua turca. Per colmare questa lacuna, introduciamo TrGLUE, un benchmark completo che comprende una varietà di compiti di NLU per il turco. Inoltre, presentiamo SentiTurca, un benchmark specializzato per l'analisi del sentiment. Per supportare i ricercatori, forniamo anche codice per il fine-tuning e la valutazione di modelli basati su transformer, facilitando l'uso efficace di questi benchmark. TrGLUE comprende corpora nativi per il turco, selezionati per rispecchiare i domini e le formulazioni dei compiti delle valutazioni in stile GLUE, con etichette ottenute attraverso una pipeline semi-automatizzata che combina annotazione avanzata basata su LLM, controlli di accordo incrociato tra modelli e successiva validazione umana. Questo progetto privilegia la naturalezza linguistica, minimizza gli artefatti da traduzione diretta e produce un flusso di lavoro scalabile e riproducibile. Con TrGLUE, il nostro obiettivo è stabilire un quadro di valutazione solido per l'NLU turco, fornire ai ricercatori risorse preziose e offrire spunti per la generazione di dataset semi-automatizzati di alta qualità.
I recenti modelli di diffusione text-to-image hanno dimostrato una notevole capacità di generare immagini facciali realistiche condizionate da prompt testuali e identità umane, consentendo la creazione di immagini facciali personalizzate. Tuttavia, i metodi esistenti basati su prompt per rimuovere o modificare caratteristiche specifiche dell'identità si basano sul fatto che il soggetto sia ben rappresentato nel modello pre-addestrato o richiedono una messa a punto del modello per identità specifiche. In questo lavoro, analizziamo il processo di generazione dell'identità e introduciamo un framework di personalizzazione inversa per l'anonimizzazione del volto. Il nostro approccio sfrutta l'inversione di diffusione condizionata, consentendo la manipolazione diretta delle immagini senza utilizzare prompt testuali. Per generalizzare oltre i soggetti presenti nei dati di addestramento del modello, incorporiamo un ramo di condizionamento guidato dall'identità. A differenza dei precedenti metodi di anonimizzazione, che mancano di controllo sugli attributi facciali, il nostro framework supporta un'anonimizzazione controllabile per attributi. Dimostriamo che il nostro metodo raggiunge un equilibrio all'avanguardia tra rimozione dell'identità, preservazione degli attributi e qualità dell'immagine. Il codice sorgente e i dati sono disponibili all'indirizzo https://github.com/hanweikung/reverse-personalization.