Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici ricorsivi o ad anello sono recentemente emersi come un nuovo asse di scalabilità, raffinando iterativamente lo stesso calcolo del modello su stati latenti per approfondire il ragionamento. Estendiamo tale principio di scalabilità da un singolo modello a sistemi multi-agente, chiedendoci: la collaborazione tra agenti può essere scalata attraverso la ricorsione? A tal fine, introduciamo RecursiveMAS, un framework multi-agente ricorsivo che interpreta l'intero sistema come un calcolo ricorsivo unificato nello spazio latente. RecursiveMAS collega agenti eterogenei come un anello di collaborazione attraverso il modulo leggero RecursiveLink, abilitando la generazione di pensieri latenti in-distribuzione e il trasferimento di stati latenti cross-agente. Per ottimizzare il nostro framework, sviluppiamo un algoritmo di apprendimento a doppio ciclo (interno-esterno) per la co-ottimizzazione iterativa dell'intero sistema attraverso l'assegnazione del credito basata su gradienti condivisi tra i round ricorsivi. Le analisi teoriche della complessità computazionale e delle dinamiche di apprendimento stabiliscono che RecursiveMAS è più efficiente dei MAS testuali standard e mantiene gradienti stabili durante l'addestramento ricorsivo. Empiricamente, istanziamo RecursiveMAS sotto 4 pattern di collaborazione rappresentativi e valutiamo su 9 benchmark che spaziano da matematica, scienze, medicina, ricerca e generazione di codice. Rispetto a baseline avanzate single/multi-agente e di calcolo ricorsivo, RecursiveMAS fornisce costantemente un miglioramento medio di accuratezza dell'8.3%, insieme a un'accelerazione inferenziale end-to-end di 1.2-2.4 volte e una riduzione dell'uso di token del 34.6%-75.6%. Codice e Dati sono disponibili su https://recursivemas.github.io.
Il trasferimento affidabile di conoscenze umane specializzate dal testo ai grandi modelli linguistici rimane una sfida fondamentale nell'intelligenza artificiale. Il fine-tuning su corpora di dominio ha consentito guadagni sostanziali nelle capacità, ma il processo opera senza feedback: quando un modello fallisce in un compito di dominio, non esiste un metodo per diagnosticare cosa sia carente nei dati di addestramento, e l'unica soluzione è aggiungere indiscriminatamente più dati. Qui dimostriamo che quando una rappresentazione strutturata della conoscenza estratta dal corpus sorgente funge da fondamento condiviso sia per i dati di addestramento che per la valutazione, l'intero ciclo di vita dell'ingegneria dei dati si mappa sul ciclo di vita dello sviluppo software in modo preciso e operativo: i dati di addestramento diventano codice sorgente che specifica cosa il modello dovrebbe apprendere, l'addestramento del modello diventa compilazione, il benchmarking diventa testing unitario, e la riparazione guidata dagli errori dei dati diventa debug. In base a questa corrispondenza, i fallimenti del modello si scompongono in lacune a livello concettuale e interruzioni della catena di ragionamento che possono essere ricondotte a carenze specifiche nei dati e riparate tramite patch mirate, con ogni ciclo di riparazione che produce miglioramenti consistenti attraverso scale e architetture di modello senza degradare le capacità generali. Formalizziamo questo principio come Programmazione con i Dati e lo istanziamo in sedici discipline che spaziano dalle scienze naturali, all'ingegneria, alla biomedicina e alle scienze sociali, rilasciando come risorse aperte una base di conoscenza strutturata, una suite di benchmark e un corpus di addestramento. Dimostrando che la relazione tra dati di addestramento e comportamento del modello è strutturalmente tracciabile e sistematicamente riparabile, questo lavoro stabilisce una base principiata per l'ingegnerizzazione affidabile dell'esperienza umana nei modelli linguistici.
La visualizzazione dei dati (DV) nel mondo reale richiede un ancoraggio ambientale nativo, un'evoluzione cross-platform e un allineamento proattivo dell'intento. Tuttavia, i benchmark esistenti spesso soffrono di limitazioni da sandbox di codice, di compiti incentrati esclusivamente sulla creazione in un singolo linguaggio e del presupposto di un intento perfetto. Per colmare queste lacune, introduciamo DV-World, un benchmark di 260 task progettato per valutare gli agenti di DV lungo l'intero ciclo di vita professionale reale. DV-World copre tre domini: DV-Sheet per la manipolazione nativa di fogli di calcolo, inclusa la creazione di grafici e dashboard nonché la riparazione diagnostica; DV-Evolution per adattare e ristrutturare artefatti visivi di riferimento per adattarli a nuovi dati attraverso paradigmi di programmazione diversi; e DV-Interact per l'allineamento proattivo dell'intento con un simulatore utente che imita i requisiti ambigui del mondo reale. Il nostro framework di valutazione ibrido integra Table-value Alignment per la precisione numerica e MLLM-as-a-Judge con rubriche per la valutazione semantico-visiva. Gli esperimenti rivelano che i modelli allo stato dell'arte raggiungono meno del 50% delle prestazioni complessive, evidenziando deficit critici nella gestione delle complesse sfide della visualizzazione dei dati reale. DV-World fornisce un banco di prova realistico per indirizzare lo sviluppo verso le competenze versatili richieste nei flussi di lavoro aziendali. I nostri dati e codice sono disponibili su https://github.com/DA-Open/DV-World{questa pagina del progetto}.
La ricerca scientifica autonoma è significativamente avanzata grazie allo sviluppo di agenti di IA. Un passo fondamentale in questo processo è la ricerca della letteratura scientifica appropriata, sia per esplorare le conoscenze esistenti relative a un problema di ricerca, sia per acquisire evidenze per verificare ipotesi e supportare affermazioni. Per valutare la capacità degli agenti di IA di guidare questo processo, presentiamo AutoResearchBench, un benchmark dedicato alla scoperta autonoma della letteratura scientifica. AutoResearchBench consiste in due tipologie di compiti complementari: (1) Ricerca Approfondita (Deep Research), che richiede di individuare un articolo target specifico attraverso un processo di esplorazione progressivo e multi-step, e (2) Ricerca Ampia (Wide Research), che richiede di raccogliere in modo esaustivo un insieme di articoli che soddisfino determinate condizioni. Rispetto ai benchmark precedenti sul browsing web agentivo, AutoResearchBench si distingue lungo tre dimensioni: è orientato alla ricerca, richiedendo una comprensione approfondita dei concetti scientifici; è focalizzato sulla letteratura, richiedendo un utilizzo granulare di informazioni dettagliate; ed è aperto (open-ended), coinvolgendo un numero sconosciuto di articoli qualificati e richiedendo quindi un ragionamento deliberato e una ricerca estensiva. Queste proprietà rendono AutoResearchBench particolarmente adatto per valutare le capacità di ricerca autonoma, e straordinariamente impegnativo. Anche i modelli linguistici più potenti, nonostante abbiano largamente superato benchmark generali di browsing web agentivo come BrowseComp, raggiungono solo un'accuratezza del 9.39% sulla Ricerca Approfondita e un IoU del 9.31% sulla Ricerca Ampia, mentre molte altre solide baseline si attestano al di sotto del 5%. Rilasciamo pubblicamente il dataset, la pipeline di valutazione e il codice all'indirizzo https://github.com/CherYou/AutoResearchBench per facilitare la ricerca futura in questa direzione.
I modelli unificati di comprensione/generazione multi-modale hanno dimostrato prestazioni migliorate nell'editing di immagini incorporando una comprensione granulare nel loro processo di Catena di Pensiero (CoT). Tuttavia, una questione cruciale rimane poco esplorata: quali forme di CoT e strategie di addestramento possono migliorare congiuntamente sia la granularità della comprensione che la generalizzazione? Per affrontare questo problema, proponiamo Meta-CoT, un paradigma che esegue una scomposizione a due livelli di qualsiasi operazione di editing su singola immagine con due proprietà chiave: (1) Scomponibilità. Osserviamo che qualsiasi intenzione di editing può essere rappresentata come una tripla - (compito, obiettivo, capacità di comprensione richiesta). Ispirati da ciò, Meta-CoT scompone sia il compito di editing che l'obiettivo, generando CoT specifica per il compito e attraversando le operazioni di editing su tutti gli obiettivi. Questa scomposizione migliora la granularità di comprensione del modello riguardo alle operazioni di editing e lo guida ad apprendere ogni elemento della tripla durante l'addestramento, migliorando sostanzialmente la capacità di editing. (2) Generalizzabilità. Nel secondo livello di scomposizione, scomponiamo ulteriormente i compiti di editing in cinque meta-compiti fondamentali. Riteniamo che l'addestramento su questi cinque meta-compiti, insieme agli altri due elementi della tripla, sia sufficiente per ottenere una forte generalizzazione su vari compiti di editing non visti. Per allineare ulteriormente il comportamento di editing del modello con il suo ragionamento CoT, introduciamo il CoT-Editing Consistency Reward, che incoraggia un utilizzo più accurato ed efficace delle informazioni CoT durante l'editing. Gli esperimenti dimostrano che il nostro metodo raggiunge un miglioramento complessivo del 15,8% su 21 compiti di editing e generalizza efficacemente a compiti di editing non visti quando addestrato solo su un piccolo insieme di meta-compiti. Il nostro codice, benchmark e modello sono rilasciati su https://shiyi-zh0408.github.io/projectpages/Meta-CoT/
I modelli multimodali unificati (UMM) integrano la comprensione e la generazione visiva all'interno di un unico framework. Per i compiti di testo-immagine (T2I), questa capacità unificata consente agli UMM di perfezionare gli output dopo la loro generazione iniziale, potenzialmente estendendo il limite superiore delle prestazioni. Gli attuali metodi di perfezionamento basati su UMM seguono principalmente un paradigma di perfezionamento tramite modifica (RvE), in cui gli UMM producono istruzioni di modifica per correggere le regioni disallineate preservando il contenuto allineato. Tuttavia, le istruzioni di modifica spesso descrivono il disallineamento prompt-immagine solo in modo approssimativo, portando a un perfezionamento incompleto. Inoltre, la preservazione a livello di pixel, sebbene necessaria per la modifica, restringe inutilmente lo spazio di modifica efficace per il perfezionamento. Per affrontare queste limitazioni, proponiamo il Perfezionamento tramite Rigenerazione (RvR), un nuovo framework che riformula il perfezionamento come rigenerazione condizionata dell'immagine piuttosto che come modifica. Invece di affidarsi a istruzioni di modifica e imporre una rigorosa preservazione del contenuto, RvR rigenera le immagini condizionate sul prompt target e sui token semantici dell'immagine iniziale, consentendo un allineamento semantico più completo con uno spazio di modifica più ampio. Esperimenti estensivi dimostrano l'efficacia di RvR, che migliora Geneval da 0,78 a 0,91, DPGBench da 84,02 a 87,21 e UniGenBench++ da 61,53 a 77,41.
In questo lavoro, proponiamo Mutual Forcing, un framework per la generazione autoregressiva rapida di contenuti audio-video con sincronizzazione audio-video a lungo orizzonte. Il nostro approccio affronta due sfide chiave: la modellizzazione congiunta audio-video e la generazione autoregressiva veloce. Per facilitare l'ottimizzazione congiunta audio-video, adottiamo una strategia di addestramento in due fasi: addestriamo prima generatori unimodali e poi li accoppiamo in un modello audio-video unificato per l'addestramento congiunto su dati accoppiati. Per la generazione in streaming, ci chiediamo se un modello audio-video causale rapido nativo possa essere addestrato direttamente, invece di seguire le pipeline di distillazione per lo streaming esistenti che tipicamente addestrano prima un modello bidirezionale per poi convertirlo in un generatore causale attraverso molteplici stadi di distillazione. La nostra risposta è Mutual Forcing, che si basa direttamente su un modello autoregressivo nativo e integra la generazione a pochi passi e a più passi all'interno di un unico modello a pesi condivisi, consentendo l'auto-distillazione e un migliore allineamento addestramento-inferenza. La modalità multi-passo migliora la modalità a pochi passi tramite auto-distillazione, mentre la modalità a pochi passi genera il contesto storico durante l'addestramento per migliorare la coerenza addestramento-inferenza; poiché le due modalità condividono i parametri, questi due effetti si rafforzano a vicenda all'interno di un unico modello. Rispetto ad approcci precedenti come Self-Forcing, Mutual Forcing elimina la necessità di un ulteriore modello insegnante bidirezionale, supporta lunghezze di sequenza di addestramento più flessibili, riduce il sovraccarico computazionale di addestramento e permette al modello di migliorare direttamente da dati accoppiati reali piuttosto che da un insegnante fisso. Gli esperimenti mostrano che Mutual Forcing eguaglia o supera baseline robuste che richiedono circa 50 passi di campionamento mentre utilizza solo 4-8 passi, dimostrando vantaggi sostanziali sia in efficienza che in qualità. La pagina del progetto è disponibile all'indirizzo https://mutualforcing.github.io.
I recenti progressi nei grandi modelli linguistici audio hanno esteso il ragionamento a catena del pensiero (CoT) nel dominio uditivo, consentendo ai modelli di affrontare compiti acustici e vocali sempre più complessi. Per stimolare e sostenere queste catene di ragionamento estese, il paradigma prevalente – guidato dal successo dei modelli di ragionamento basati sul testo – fa ampio affidamento sul Reinforcement Learning con Ricompense Verificate (RLVR). Tuttavia, poiché i modelli sono ottimizzati rigorosamente per distillare contesti uditivi ricchi e continui in etichette testuali isolate e verificabili, sorge una domanda fondamentale: stiamo favorendo una vera intelligenza audio, o stiamo semplicemente riducendo un mezzo sensoriale continuo in un puzzle discreto? Identifichiamo questo fenomeno come la "trappola della ricompensa verificabile". Sebbene l'RLVR produca punteggi notevoli su benchmark oggettivi standardizzati, esso degrada sistematicamente la sensazione conversazionale nel mondo reale dei modelli audio. Privilegiando la correttezza isolata rispetto alla sfumatura acustica, l'RLVR riduce le interazioni dinamiche a "macchine risponditori" meccaniche, compromettendo gravemente la naturalezza prosodica, la continuità emotiva e l'immersione dell'utente, specialmente nei dialoghi con molti turni. Per colmare il divario tra la verifica oggettiva meccanica e la genuina empatia sensoriale, introduciamo Step-Audio-R1.5, che segna un cambio di paradigma verso il Reinforcement Learning dal Feedback Umano (RLHF) nel ragionamento audio. Valutazioni complete dimostrano che Step-Audio-R1.5 non solo mantiene un robusto ragionamento analitico, ma trasforma profondamente l'esperienza interattiva, ridefinendo i confini del dialogo parlato profondamente immersivo e con molti turni.
Sebbene i modelli di diffusione generino clip video ad alta fedeltà, trasformarli in motori di narrazione coerenti rimane una sfida. Le pipeline agenti attuali automatizzano questo processo tramite moduli concatenati, ma soffrono di deriva semantica e fallimenti a cascata a causa di prompt indipendenti e artigianali. Presentiamo Co-Director, un framework multi-agente gerarchico che formalizza la narrazione video come un problema di ottimizzazione globale. Per garantire coerenza semantica, introduciamo una parametrizzazione gerarchica: un bandit multi-braccio identifica globalmente direzioni creative promettenti, mentre un ciclo locale di auto-affinamento multimodale mitiga la deriva identitaria e assicura coerenza a livello di sequenza. Questo bilancia l'esplorazione di nuove strategie narrative con lo sfruttamento di configurazioni creative efficaci. Per la valutazione, introduciamo GenAD-Bench, un dataset di 400 scenari di prodotti fittizi per la pubblicità personalizzata. Gli esperimenti dimostrano che Co-Director supera significativamente i baseline state-of-the-art, offrendo un approccio principiato che si generalizza senza soluzione di continuità a narrative cinematografiche più ampie. Pagina del progetto: https://co-director-agent.github.io/
L'implementazione di guardrail per politiche personalizzate rimane complessa, poiché i modelli di sicurezza generici non riescono a cogliere requisiti specifici del compito, mentre il prompting di LLM soffre di prestazioni inconsistenti nei casi limite e di elevati costi computazionali. L'addestramento di classificatori personalizzati garantisce sia accuratezza che efficienza, ma richiede grandi quantità di dati etichettati costosi da ottenere. Presentiamo BARRED (Boundary Alignment Refinement through REflection and Debate), un framework per generare dati di addestramento sintetici fedeli e diversificati utilizzando solo una descrizione del compito e un piccolo insieme di esempi non etichettati. Il nostro approccio scompone lo spazio del dominio in dimensioni per garantire una copertura completa e impiega un dibattito multi-agente per verificare la correttezza delle etichette, producendo un corpus di addestramento ad alta fedeltà. Esperimenti su varie politiche personalizzate dimostrano che piccoli modelli linguistici addestrati sui nostri dati sintetici superano costantemente LLM proprietari all'avanguardia (inclusi modelli di ragionamento) e modelli di guardrail dedicati. Studi di ablazione confermano che sia la scomposizione dimensionale che la verifica basata su dibattito sono cruciali per garantire la diversità e la fedeltà delle etichette necessarie per un fine-tuning efficace. Il framework BARRED elimina la dipendenza da annotazioni umane estensive, offrendo una soluzione scalabile per guardrail personalizzati accurati.
La distillazione on-policy (OPD) ha dimostrato un forte potenziale nel trasferire la capacità di ragionamento da modelli all'avanguardia o specializzati in domini specifici a modelli studente più piccoli. Sebbene sia efficace su compiti statici a turno singolo, il suo comportamento in contesti di agenti multi-turno rimane poco esplorato. In questo lavoro, identifichiamo una limitazione chiave della OPD standard in tali contesti, che definiamo Instabilità KL a Livello di Traiettoria. In particolare, osserviamo che la divergenza KL aumenta insieme a un calo del tasso di successo e che, anche dopo la convergenza, la KL rimane elevata, portando a un addestramento instabile. Questa instabilità deriva dalla composizione degli errori tra i turni: man mano che gli errori si accumulano, lo studente viene spinto al di fuori del supporto efficace del teacher, rendendo il segnale di supervisione inaffidabile. Per affrontare questo problema, proponiamo TCOD (Temporal Curriculum On-Policy Distillation), un framework semplice ma efficace che controlla la profondità della traiettoria esposta allo studente e la espande progressivamente da corta a lunga secondo una pianificazione di curriculum. I risultati sperimentali su quattro coppie studente-teacher in tre benchmark per agenti multi-turno (ALFWorld, WebShop, ScienceWorld) mostrano che TCOD mitiga l'escalation della KL e ne migliora la stabilità durante l'addestramento, aumentando le prestazioni dell'agente fino a 18 punti rispetto alla OPD standard. Ulteriori valutazioni dimostrano che TCOD può addirittura superare le prestazioni del teacher e generalizzare a compiti in cui il teacher fallisce.
Gli agenti di terminale hanno dimostrato un forte potenziale per l'esecuzione autonoma da riga di comando, tuttavia il loro addestramento rimane vincolato dalla scarsità di traiettorie di esecuzione di alta qualità e diversificate. Gli approcci esistenti mitigano questo collo di bottiglia sintetizzando istanze di attività di terminale su larga scala per il campionamento delle traiettorie. Tuttavia, si concentrano principalmente sul scalare il numero di attività, offrendo un controllo limitato sulla diversità delle traiettorie di esecuzione che gli agenti sperimentano effettivamente durante l'addestramento. In questo articolo presentiamo SkillSynth, un framework automatizzato per la sintesi di attività di terminale basato su un grafo delle competenze mediato da scenari. SkillSynth costruisce prima un grafo delle competenze su larga scala, in cui gli scenari fungono da nodi di transizione intermedi che collegano diverse competenze da riga di comando. Successivamente, campiona percorsi da questo grafo come astrazioni di flussi di lavoro del mondo reale e utilizza un sistema multi-agente per istanziarli in attività eseguibili. Fondando la sintesi delle attività su percorsi di lavoro campionati dal grafo, SkillSynth controlla esplicitamente la diversità delle traiettorie di esecuzione minime necessarie per risolvere le attività sintetizzate. Esperimenti su Terminal-Bench dimostrano l'efficacia di SkillSynth. Inoltre, le istanze di attività sintetizzate da SkillSynth sono state adottate per addestrare Hy3 Preview, contribuendo alle sue capacità agentive potenziate in ambienti basati su terminale.
La creazione tradizionale di courseware STEM interattivi richiede competenze in HTML/CSS/JavaScript, rappresentando una barriera per gli educatori. Sebbene l'IA generativa possa produrre codici HTML, gli strumenti esistenti generano presentazioni statiche anziché simulazioni interattive, faticano con documenti lunghi e mancano di meccanismi di accuratezza pedagogica. Inoltre, la rigenerazione completa per le modifiche richiede 200-600 secondi, interrompendo il flusso creativo. Presentiamo MAIC-UI, un sistema di authoring zero-code che consente agli educatori di creare e modificare rapidamente courseware interattivi a partire da libri di testo, PPT e PDF. MAIC-UI utilizza: (1) un'analisi strutturata della conoscenza con comprensione multimodale per garantire il rigore pedagogico; (2) una pipeline a due stadi genera-verifica-ottimizza che separa l'allineamento dei contenuti dal perfezionamento visivo; e (3) un editing Click-to-Locate con generazione incrementale basata su Unified Diff che raggiunge cicli di iterazione inferiori a 10 secondi. Uno studio di laboratorio controllato con 40 partecipanti mostra che MAIC-UI riduce le iterazioni di modifica (4,9 vs 7,0) e migliora significativamente l'apprendibilità e la controllabilità rispetto alla generazione diretta da testo a HTML. Un deployment in classe di tre mesi con 53 studenti delle superiori dimostra che MAIC-UI promuove l'agency di apprendimento e riduce le disparità di risultati – la classe pilota ha ottenuto miglioramenti di 9,21 punti nelle materie STEM rispetto a -2,32 punti nelle classi di controllo. Il nostro codice è disponibile su https://github.com/THU-MAIC/MAIC-UI.
L'allineamento dei modelli generativi di denoising con le preferenze umane o con ricompense verificabili rimane una sfida chiave. Sebbene l'apprendimento per rinforzo (RL) online con gradienti delle politiche offra un framework principiato post-addestramento, la sua applicazione diretta è ostacolata dalle likelihood intrattabili di questi modelli. I lavori precedenti hanno quindi optato per ottimizzare un processo decisionale di Markov (MDP) indotto sulle traiettorie di campionamento, che è stabile ma inefficiente, o per utilizzare surrogati della likelihood basati sul lower bound dell'evidenza (ELBO) di diffusione, che finora hanno ottenuto prestazioni inferiori nella generazione visiva. La nostra intuizione chiave è che l'approccio basato sull'ELBO possa, in realtà, essere reso sia stabile che efficiente. Riducendo la varianza del surrogato e controllando i passi del gradiente, dimostriamo che questo approccio può superare i metodi basati su MDP. A tal fine, introduciamo il Variational GRPO (V-GRPO), un metodo che integra i surrogati basati sull'ELBO con l'algoritmo di ottimizzazione relativa di gruppo delle politiche (GRPO), insieme a una serie di tecniche semplici ma essenziali. Il nostro metodo è facile da implementare, si allinea con gli obiettivi di pre-addestramento ed evita le limitazioni dei metodi basati su MDP. V-GRPO raggiunge prestazioni all'avanguardia nella sintesi testo-immagine, garantendo un aumento di velocità di 2 volte rispetto a MixGRPO e di 3 volte rispetto a DiffusionNFT.
Sebbene i modelli di diffusione video su larga scala abbiano dimostrato capacità impressionanti nella generazione di contenuti ad alta risoluzione e semanticamente ricchi, rimane un divario significativo tra le loro prestazioni in pre-addestramento e i requisiti per un utilizzo nel mondo reale, a causa di problemi critici come la sensibilità ai prompt, l'incoerenza temporale e i costi di inferenza proibitivi. Per colmare questa lacuna, proponiamo un quadro completo di post-addestramento che allinea sistematicamente i modelli pre-addestrati con le intenzioni dell'utente attraverso quattro fasi sinergiche: inizialmente impieghiamo un Fine-Tuning Supervisionato (SFT) per trasformare il modello base in una politica stabile di seguito delle istruzioni, seguita da una fase di Apprendimento per Rinforzo tramite Feedback Umano (RLHF) che utilizza un nuovo metodo di Ottimizzazione Relativa di Politica di Gruppo (GRPO), sviluppato specificamente per la diffusione video, per migliorare la qualità percettiva e la coerenza temporale; successivamente, integriamo un Miglioramento del Prompt tramite un modello linguistico specializzato per affinare gli input dell'utente, e affrontiamo infine l'efficienza del sistema attraverso un'Ottimizzazione dell'Inferenza. Insieme, questi componenti forniscono un approccio sistematico per migliorare la qualità visiva, la coerenza temporale e l'aderenza alle istruzioni, preservando al contempo la controllabilità appresa durante il pre-addestramento. Il risultato è una guida pratica per la costruzione di pipeline di post-addestramento scalabili, stabili, adattabili ed efficaci per un impiego reale. Esperimenti estensivi dimostrano che questa pipeline unificata mitiga efficacemente gli artefatti comuni e migliora significativamente la controllabilità e l'estetica visiva, rispettando al contempo stringenti vincoli sui costi di campionamento.
La valutazione pairwise crowdsourced è emersa come approccio scalabile per valutare i modelli di base. Tuttavia, applicarla alla sintesi vocale (Text-to-Speech, TTS) introduce un'elevata varianza a causa della diversità linguistica e della natura multidimensionale della percezione del parlato. Presentiamo un framework controllato di valutazione pairwise multidimensionale per TTS multilingue che combina il controllo linguistico con annotazioni basate sulla percezione. Utilizzando oltre 5.000 frasi native e in code-mixing in 10 lingue indiane, valutiamo 7 sistemi TTS all'avanguardia e raccogliamo oltre 120.000 confronti pairwise da più di 1900 valutatori nativi. Oltre alla preferenza complessiva, i valutatori forniscono giudizi su 6 dimensioni percettive: intelligibilità, espressività, qualità della voce, vivacità, rumore e allucinazioni. Utilizzando il modello di Bradley-Terry, costruiamo una classifica multilingue, interpretiamo la preferenza umana mediante l'analisi SHAP e analizziamo l'affidabilità della classifica insieme ai punti di forza e ai compromessi dei modelli attraverso le dimensioni percettive.
I grandi modelli linguistici visivi (VLM) sono sempre più utilizzati per valutare gli output di altri modelli, sia per compiti di immagine-a-testo (I2T), come il question answering visivo, che per compiti di generazione testo-a-immagine (T2I). Nonostante questa crescente dipendenza, l'affidabilità di questi VLM valutatori rimane poco esplorata. In questo lavoro, valutiamo sistematicamente l'affidabilità dei VLM valutatori sia per i compiti I2T che T2I. Introduciamo perturbazioni mirate che degradano la qualità dell'output lungo dimensioni chiave di errore, incluse allucinazioni di oggetti, ragionamento spaziale, fondatezza fattuale e fedeltà visiva. Queste perturbazioni testano se i VLM valutatori sono in grado di tenere conto in modo affidabile di questi errori che degradano la qualità nelle loro valutazioni. Utilizzando un benchmark completo di oltre 4000 istanze perturbate che coprono 40 dimensioni di perturbazione, valutiamo 4 VLM prominenti utilizzando paradigmi di punteggio a risposta singola, confronto a coppie e guida tramite riferimento. I nostri risultati rivelano che gli attuali valutatori VLM presentano punti ciechi sostanziali: spesso non riescono a rilevare output perturbati - in alcuni casi superando il 50%, faticano particolarmente con errori composizionali e spaziali granulari, e sono spesso insensibili a contenuti allucinati che contraddicono l'immagine di input. Il confronto a coppie si rivela più affidabile, sebbene persistano tassi di fallimento. Questi risultati evidenziano la natura inaffidabile degli attuali VLM valutatori e sollecitano cautela nel loro utilizzo per decisioni di benchmarking e sviluppo. Il codice e i dati sono stati resi pubblicamente disponibili.
I recenti progressi nella generazione di movimento umano basata su testo consentono ai modelli di sintetizzare sequenze di movimento realistiche a partire da descrizioni in linguaggio naturale. Tuttavia, la maggior parte degli approcci esistenti assume un movimento neutro rispetto all'identità e genera movimenti utilizzando una rappresentazione corporea canonica, ignorando la forte influenza della morfologia corporea sulla dinamica del movimento. Nella pratica, attributi come le proporzioni corporee, la distribuzione della massa e l'età influenzano significativamente il modo in cui le azioni vengono eseguite, e trascurare questo accoppiamento porta spesso a movimenti fisicamente inconsistenti. Proponiamo un framework di generazione del movimento consapevole dell'identità che modella esplicitamente la relazione tra morfologia corporea e dinamica del movimento. Invece di basarsi su misurazioni geometriche esplicite, l'identità è rappresentata utilizzando segnali multimodali, inclusi descrizioni in linguaggio naturale e segnali visivi. Introduciamo inoltre un paradigma di generazione congiunta movimento-forma che sintetizza simultaneamente sequenze di movimento e parametri della forma corporea, permettendo ai segnali di identità di modulare direttamente la dinamica del movimento. Esperimenti estensivi su dataset di motion capture e video in-the-wild su larga scala dimostrano un realismo del movimento e una coerenza movimento-identità migliorati, mantenendo al contempo un'elevata qualità del movimento. Pagina del progetto: https://vjwq.github.io/IAM
Gli agenti di intelligenza artificiale vengono sempre più impiegati in flussi di lavoro complessi e specifici per dominio: navigano applicazioni web aziendali che richiedono decine di click e compilazioni di moduli, orchestrano pipeline di ricerca multi-step che abbracciano ricerca, estrazione e sintesi, automatizzano la revisione del codice su repository non familiari e gestiscono escalation di clienti che richiedono una conoscenza di dominio sfumata. Ogni nuovo dominio di attività richiede una meticolosa ingegneria di controllo guidata da esperti: progettare i prompt, gli strumenti, la logica di orchestrazione e i criteri di valutazione che rendono efficace un modello di base. Presentiamo un framework a due livelli che automatizza questo processo. Al primo livello, l'*Harness Evolution Loop* ottimizza il sistema di controllo H di un agente lavoratore per un singolo compito: un Agente Lavoratore W_{H} esegue il compito, un Agente Valutatore V diagnostica in modo avversariale gli errori e assegna un punteggio alle prestazioni, e un Agente di Evoluzione E modifica il sistema di controllo basandosi sulla cronologia completa dei tentativi precedenti. Al secondo livello, il *Meta-Evolution Loop* ottimizza il protocollo di evoluzione Λ = (W_{H}, H^{(0)}, V, E) stesso su diversi compiti, apprendendo un protocollo Λ^{(best)} che consente una rapida convergenza del sistema di controllo su qualsiasi nuovo compito – in modo che l'adattamento di un agente a un dominio nuovo non richieda alcuna ingegneria di controllo umana. Formalizziamo la corrispondenza con il meta-apprendimento e presentiamo entrambi gli algoritmi. Il framework trasforma l'ingegneria di controllo manuale in ingegneria di controllo automatizzata e fa un ulteriore passo avanti: automatizza la progettazione dell'automazione stessa.
Gli agenti autonomi in grado di navigare le interfacce grafiche (GUI) possiedono il potenziale per rivoluzionare la produttività digitale. Tuttavia, il raggiungimento di una vera autonomia digitale va oltre la semplice corrispondenza reattiva degli elementi; richiede un modello mentale predittivo delle dinamiche dell'interfaccia e la capacità di prevedere lo "stato del mondo digitale" risultante dalle interazioni. Nonostante le capacità percettive dei moderni Modelli Visione-Linguaggio (VLM), i benchmark esistenti rimangono biforcati (concentrandosi sul completamento di task in ambiente black-box o su un grounding statico e superficiale), fallendo quindi nel valutare se gli agenti comprendano veramente la funzionalità implicita e la logica di transizione delle GUI. Per colmare questa lacuna, introduciamo AutoGUI-v2, un benchmark completo progettato per valutare la comprensione profonda della funzionalità delle GUI e la previsione degli esiti delle interazioni. Abbiamo costruito il benchmark utilizzando una nuova pipeline collaborativa VLM-umano che analizza ricorsivamente screenshot multi-piattaforma per generare regioni funzionali gerarchiche e creare task di valutazione diversificati. Fornendo 2.753 task su sei sistemi operativi, AutoGUI-v2 testa rigorosamente gli agenti sulla semantica a livello di regione ed elemento, sul grounding e sulla previsione degli stati dinamici. La nostra valutazione rivela una netta dicotomia nei VLM: mentre i modelli open-source addestrati su dati agentistici (ad es. Qwen3-VL) eccellono nel grounding funzionale, i modelli commerciali (ad es. Gemini-2.5-Pro-Thinking) dominano nella descrizione delle funzionalità. Crucialmente, tutti i modelli mostrano difficoltà con la logica d'interazione complessa di azioni non comuni, evidenziando che la comprensione funzionale profonda rimane un ostacolo significativo. Misurando sistematicamente queste capacità fondamentali, AutoGUI-v2 offre una nuova lente per far progredire la prossima generazione di agenti per GUI.
Il grounding degli elementi dell'interfaccia grafica (GUI) (ovvero la localizzazione precisa degli elementi negli screenshot basata su istruzioni in linguaggio naturale) è fondamentale per gli agenti che interagiscono con le GUI. Implementare questa capacità direttamente su dispositivi con risorse limitate, come i telefoni cellulari, è sempre più cruciale per gli agenti GUI che richiedono bassa latenza. Tuttavia, questo obiettivo affronta una sfida significativa, poiché i metodi attuali di visual grounding tipicamente impiegano grandi modelli visione-linguaggio (VLM) (con più di 2,5 miliardi di parametri), rendendoli impraticabili per l'esecuzione on-device a causa dei vincoli di memoria e computazionali. Per affrontare questo problema, questo articolo introduce GoClick, un VLM leggero per il grounding di elementi GUI con soli 230 milioni di parametri, che raggiunge un'eccellente accuratezza di visual grounding, persino pari a modelli significativamente più grandi. Ridurre semplicemente le dimensioni dei VLM esistenti basati solo su decoder è un modo diretto per progettare un modello leggero, ma i nostri esperimenti rivelano che questo approccio produce risultati subottimali. Invece, selezioniamo un'architettura encoder-decoder, che supera le alternative solo-decoder a piccole scale di parametri per i compiti di grounding GUI. Inoltre, la capacità limitata dei piccoli VLM ci ha spinto a sviluppare una pipeline di Raffinamento Progressivo dei Dati che utilizza la filtrazione per tipo di task e l'aggiustamento del rapporto dei dati per estrarre un core set di alta qualità da 3,8 milioni di campioni da un dataset grezzo di 10,8 milioni. Addestrare GoClick utilizzando questo core set apporta notevoli guadagni in accuratezza di grounding. I nostri esperimenti mostrano che GoClick eccelle su molteplici benchmark di grounding per elementi GUI, mantenendo al contempo dimensioni ridotte e un'elevata velocità di inferenza. GoClick migliora anche le prestazioni degli agenti GUI quando integrato in un framework di collaborazione device-cloud, dove GoClick aiuta i pianificatori di task basati su cloud a eseguire una localizzazione precisa degli elementi e a raggiungere tassi di successo più elevati. Speriamo che il nostro metodo serva come un'esplorazione significativa all'interno della comunità degli agenti GUI.
La valutazione dell'equità dei sistemi di raccomandazione è diventata sempre più importante, specialmente con la recente legislazione che enfatizza lo sviluppo di un'intelligenza artificiale equa e responsabile. Ciò ha portato all'emergere di varie misure di valutazione dell'equità, che quantificano l'equità basandosi su diverse definizioni. Tuttavia, molte di queste misure vengono semplicemente proposte e utilizzate senza un'analisi approfondita della loro robustezza. Di conseguenza, vi è una comprensione e una consapevolezza insufficienti delle limitazioni di tali misure. Tra le altre problematiche, non è noto quale tipo di output del modello produca il punteggio più (o meno) equo, come siano distribuiti empiricamente i punteggi delle misure, e se esistano casi in cui le misure non possano essere calcolate (ad esempio, a causa di una divisione per zero). Questi problemi causano difficoltà nell'interpretazione dei punteggi delle misure e confusione su quale misura o misure dovrebbero essere utilizzate per un caso specifico. Questa tesi presenta una serie di articoli che valutano e superano varie limitazioni teoriche, empiriche e concettuali delle misure di valutazione dell'equità esistenti per i sistemi di raccomandazione. Investigiamo un'ampia gamma di misure di valutazione offline per diverse nozioni di equità, suddivise in base ai soggetti della valutazione (utenti e elementi) e per diverse granularità di valutazione (gruppi di soggetti e singoli soggetti). In primo luogo, eseguiamo un'analisi teorica ed empirica delle misure, esponendo difetti che ne limitano l'interpretabilità, l'espressività o l'applicabilità. In secondo luogo, contribuiamo con nuovi approcci e misure di valutazione che superano queste limitazioni. Infine, considerando le limitazioni delle misure, raccomandiamo linee guida per l'uso appropriato delle stesse, consentendo così una selezione più precisa delle misure di valutazione dell'equità negli scenari pratici. Nel complesso, questa tesi contribuisce a far avanzare lo stato dell'arte della valutazione offline dell'equità nei sistemi di raccomandazione.