Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'apprendimento per rinforzo basato su politiche svolge attualmente un ruolo importante nel miglioramento dei modelli linguistici di grandi dimensioni (LLM) per i compiti di ragionamento matematico. Tuttavia, i metodi esistenti di apprendimento per rinforzo basati su rollout (GRPO, DAPO, GSPO, ecc.) non considerano esplicitamente la capacità di apprendimento degli LLM per campioni di diversi livelli di difficoltà, il che è in contrasto con il processo cognitivo umano dei compiti di ragionamento matematico che procede dal semplice al complesso. Intuitivamente, osserviamo che la varianza della ricompensa del gruppo di rollout in RLVR riflette in parte la difficoltà del campione corrente per gli LLM. I campioni troppo facili o troppo difficili hanno una varianza inferiore, mentre i campioni con difficoltà moderata presentano una varianza più elevata. Sulla base di ciò, proponiamo VCRL, un framework di apprendimento per rinforzo curriculare che controlla dinamicamente la difficoltà dei campioni di addestramento in base alla varianza delle ricompense di gruppo. Esperimenti condotti su cinque benchmark matematici e due modelli rivelano i vantaggi di VCRL rispetto alle attuali baseline di apprendimento per rinforzo per LLM.
I grandi modelli di ragionamento multimodale hanno compiuto rapidi progressi, ma il loro avanzamento è limitato da due principali criticità: l'assenza di dati aperti, su larga scala e di alta qualità con lunghe catene di pensiero (CoT), e l'instabilità degli algoritmi di apprendimento per rinforzo (RL) durante la fase di post-addestramento. L'ottimizzazione delle politiche relative al gruppo (GRPO), il framework standard per il fine-tuning RL, è soggetta alla scomparsa del gradiente quando la varianza della ricompensa è bassa, il che indebolisce i segnali di ottimizzazione e compromette la convergenza. Questo lavoro apporta tre contributi: (1) Proponiamo il campionamento consapevole della varianza (VAS), una strategia di selezione dei dati guidata dal punteggio di promozione della varianza (VPS) che combina la varianza dei risultati e la diversità delle traiettorie per promuovere la varianza della ricompensa e stabilizzare l'ottimizzazione delle politiche. (2) Rilasciamo risorse su larga scala, accuratamente curate, contenenti ~1,6 milioni di dati CoT lunghi a freddo e ~15 mila coppie QA RL, progettate per garantire qualità, difficoltà e diversità, insieme a un codice di addestramento end-to-end completamente riproducibile. (3) Rendiamo disponibili una famiglia di modelli di ragionamento multimodale in diverse scale, stabilendo baseline standardizzate per la comunità. Gli esperimenti su benchmark di ragionamento matematico dimostrano l'efficacia sia dei dati curati che del VAS proposto. Studi di ablazione e analisi complete forniscono ulteriori approfondimenti sui contributi di ciascun componente. Inoltre, dimostriamo teoricamente che la varianza della ricompensa limita inferiormente l'entità attesa del gradiente della politica, con il VAS che funge da meccanismo pratico per realizzare questa garanzia. Il nostro codice, i dati e i checkpoint sono disponibili su https://github.com/LengSicong/MMR1.
Presentiamo un modello fondamentale per il ragionamento scientifico che allinea il linguaggio naturale con rappresentazioni scientifiche eterogenee. Il modello è pre-addestrato su un corpus di 206 miliardi di token che comprende testi scientifici, sequenze pure e coppie sequenza-testo, poi allineato tramite SFT su 40 milioni di istruzioni, avviato con un bootstrap a freddo per elicitare catene di pensiero lunghe e rafforzato con apprendimento per rinforzo e modellazione di ricompense specifiche per il compito, il che favorisce un ragionamento scientifico deliberato. Supporta quattro famiglie di capacità, coprendo fino a 103 task in diversi flussi di lavoro: (i) traduzione fedele tra testo e formati scientifici, (ii) estrazione di testo/conoscenza, (iii) previsione di proprietà, (iv) classificazione di proprietà, (v) generazione e progettazione di sequenze incondizionate e condizionate. Rispetto ai sistemi specializzati, il nostro approccio amplia la copertura delle istruzioni, migliora la generalizzazione cross-dominio e aumenta la fedeltà. Descriviamo in dettaglio la curatela dei dati e l'addestramento, dimostrando che l'apprendimento interdisciplinare rafforza il trasferimento e l'affidabilità downstream. Il modello, i dataset per il fine-tuning delle istruzioni e il codice di valutazione sono open-source su https://huggingface.co/SciReason e https://github.com/open-sciencelab/SciReason.
I recenti progressi nell'apprendimento per rinforzo (RL) hanno significativamente migliorato le capacità agentive dei grandi modelli linguistici (LLMs). Nei compiti agentivi a lungo termine e multi-turn, gli approcci esistenti guidati esclusivamente da ricompense basate sui risultati spesso soffrono del problema della supervisione sparsa. Per affrontare questa sfida, proponiamo l'ottimizzazione relativa delle politiche basata su gruppi ad albero (Tree-GRPO), un metodo RL per agenti raggruppati basato sulla ricerca ad albero, in cui ogni nodo dell'albero rappresenta il passo completo di interazione dell'agente. Condividendo prefissi comuni, il campionamento della ricerca ad albero aumenta il numero di rollout ottenibili entro un budget fisso di token o chiamate a strumenti. Inoltre, scopriamo che la traiettoria strutturata ad albero permette naturalmente la costruzione di segnali di supervisione passo-passo anche utilizzando solo la ricompensa basata sul risultato. Sulla base di ciò, Tree-GRPO stima i vantaggi relativi raggruppati sia a livello intra-albero che inter-albero. Attraverso l'analisi teorica, dimostriamo che l'obiettivo dell'ottimizzazione relativa delle politiche a livello intra-albero è equivalente a quello dell'apprendimento diretto delle preferenze a livello di passo. Esperimenti su 11 dataset e 3 tipi di compiti di domanda-risposta dimostrano la superiorità del metodo RL basato su albero rispetto al metodo RL basato su catena.
Presentiamo Seedream 4.0, un sistema efficiente e ad alte prestazioni per la generazione multimodale di immagini, che unisce la sintesi da testo a immagine (T2I), l'editing di immagini e la composizione di più immagini all'interno di un unico framework. Abbiamo sviluppato un transformer di diffusione altamente efficiente, dotato di un potente VAE (Variational Autoencoder) che riduce significativamente il numero di token delle immagini. Ciò consente un addestramento efficiente del nostro modello e permette la generazione rapida di immagini native ad alta risoluzione (ad esempio, 1K-4K). Seedream 4.0 è preaddestrato su miliardi di coppie testo-immagine che coprono una vasta gamma di tassonomie e concetti centrati sulla conoscenza. Una raccolta dati completa in centinaia di scenari verticali, unita a strategie ottimizzate, garantisce un addestramento stabile e su larga scala, con una forte generalizzazione. Incorporando un modello VLM (Vision-Language Model) accuratamente ottimizzato, eseguiamo un post-addestramento multimodale per addestrare congiuntamente sia i task T2I che quelli di editing di immagini. Per l'accelerazione dell'inferenza, integriamo tecniche come la distillazione avversaria, il matching di distribuzione, la quantizzazione e il decoding speculativo. Il sistema raggiunge un tempo di inferenza fino a 1,8 secondi per generare un'immagine 2K (senza l'uso di un LLM/VLM come modello PE). Valutazioni complete dimostrano che Seedream 4.0 può ottenere risultati all'avanguardia sia nel T2I che nell'editing multimodale di immagini. In particolare, mostra capacità multimodali eccezionali in task complessi, come l'editing preciso di immagini e il ragionamento contestuale, e consente anche il riferimento a più immagini, generando più immagini in output. Questo estende i tradizionali sistemi T2I in uno strumento creativo più interattivo e multidimensionale, spingendo i confini dell'IA generativa sia per la creatività che per applicazioni professionali. Seedream 4.0 è ora accessibile su https://www.volcengine.com/experience/ark?launch=seedream.
I recenti progressi nei modelli generativi nativi 3D hanno accelerato la creazione di asset per giochi, film e design. Tuttavia, la maggior parte dei metodi si basa ancora principalmente sul condizionamento tramite immagini o testo e manca di controlli granulari e cross-modali, il che limita la controllabilità e l'adozione pratica. Per colmare questa lacuna, presentiamo Hunyuan3D-Omni, un framework unificato per la generazione di asset 3D granulari e controllabili, basato su Hunyuan3D 2.1. Oltre alle immagini, Hunyuan3D-Omni accetta nuvole di punti, voxel, bounding box e prior di pose scheletriche come segnali di condizionamento, consentendo un controllo preciso su geometria, topologia e pose. Invece di utilizzare testine separate per ogni modalità, il nostro modello unifica tutti i segnali in un'unica architettura cross-modale. Addestriamo il modello con una strategia di campionamento progressiva e consapevole della difficoltà, che seleziona una modalità di controllo per esempio e favorisce il campionamento verso segnali più complessi (ad esempio, pose scheletriche) mentre riduce il peso di quelli più semplici (ad esempio, nuvole di punti), promuovendo una fusione multi-modale robusta e una gestione elegante degli input mancanti. Gli esperimenti dimostrano che questi controlli aggiuntivi migliorano l'accuratezza della generazione, abilitano trasformazioni consapevoli della geometria e aumentano la robustezza per i flussi di lavoro di produzione.
AutoIntent è uno strumento di machine learning automatizzato per attività di classificazione testuale. A differenza delle soluzioni esistenti, AutoIntent offre un'automazione end-to-end con selezione del modello di embedding, ottimizzazione del classificatore e regolazione della soglia decisionale, il tutto all'interno di un'interfaccia modulare simile a sklearn. Il framework è progettato per supportare la classificazione multi-label e il rilevamento di casi fuori contesto. AutoIntent dimostra prestazioni superiori rispetto agli strumenti AutoML esistenti su dataset standard di classificazione delle intenzioni e consente agli utenti di bilanciare efficacia e consumo di risorse.
L'adozione di Large Language Models (LLM) come valutatori automatizzati (LLM-as-a-judge) ha rivelato inconsistenze critiche negli attuali framework di valutazione. Identifichiamo due tipi fondamentali di inconsistenze: (1) Inconsistenza nel Confronto dei Punteggi, dove risposte con punteggi più bassi superano quelle con punteggi più alti in confronti a coppie, e (2) Inconsistenza nella Transitività a Coppie, manifestata attraverso catene di preferenze circolari (A>B>C>A) e contraddizioni di equivalenza (A=B=C≠A). Sosteniamo che questi problemi derivano dalla perdita di informazioni nei sistemi di valutazione discreta e da giudizi ambigui di parità durante la valutazione a coppie. Proponiamo TrustJudge, un framework probabilistico che affronta queste limitazioni attraverso due innovazioni chiave: 1) un punteggio sensibile alla distribuzione che calcola aspettative continue dalle probabilità di valutazione discrete, preservando l'entropia dell'informazione per un punteggio più preciso, e 2) un'aggregazione consapevole della verosimiglianza che risolve le violazioni della transitività utilizzando probabilità di preferenza bidirezionali o perplessità. Formalizziamo inoltre i limiti teorici degli attuali framework LLM-as-a-judge e dimostriamo come i componenti di TrustJudge li superino. Quando valutato con Llama-3.1-70B-Instruct come giudice utilizzando il nostro dataset, TrustJudge riduce l'inconsistenza nel Confronto dei Punteggi dell'8.43% (da 23.32% a 14.89%) e l'inconsistenza nella Transitività a Coppie del 10.82% (da 15.22% a 4.40%), mantenendo una maggiore accuratezza di valutazione. Il nostro lavoro fornisce la prima analisi sistematica delle inconsistenze nei framework di valutazione nei paradigmi LLM-as-a-judge, offrendo sia intuizioni teoriche che soluzioni pratiche per una valutazione automatizzata affidabile. Il framework dimostra miglioramenti consistenti attraverso varie architetture e scale di modelli, consentendo una valutazione più affidabile degli LLM senza richiedere ulteriori addestramenti o annotazioni umane. I codici sono disponibili all'indirizzo https://github.com/TrustJudge/TrustJudge.
Questo articolo introduce un approccio semplice e scalabile per migliorare l'efficienza dei dati nel training di grandi modelli linguistici (LLM) arricchendo i dati testuali esistenti con traiettorie di pensiero. Il calcolo necessario per il pre-training degli LLM è cresciuto a un ritmo senza precedenti, mentre la disponibilità di dati di alta qualità rimane limitata. Di conseguenza, massimizzare l'utilità dei dati disponibili costituisce una sfida di ricerca significativa. Un ostacolo primario è che certi token di alta qualità sono difficili da apprendere data una capacità fissa del modello, poiché la logica sottostante a un singolo token può essere eccezionalmente complessa e profonda. Per affrontare questo problema, proponiamo il Thinking augmented Pre-Training (TPT), una metodologia universale che arricchisce il testo con traiettorie di pensiero generate automaticamente. Tale arricchimento aumenta efficacemente il volume dei dati di training e rende i token di alta qualità più apprendibili attraverso ragionamenti e scomposizioni passo-passo. Applichiamo TPT in diverse configurazioni di training fino a 100B di token, comprendendo pre-training sia con dati limitati che abbondanti, nonché mid-training a partire da checkpoint open-source robusti. I risultati sperimentali indicano che il nostro metodo migliora sostanzialmente le prestazioni degli LLM in varie dimensioni e famiglie di modelli. In particolare, TPT aumenta l'efficienza dei dati nel pre-training degli LLM di un fattore 3. Per un modello da 3B di parametri, migliora le prestazioni post-training di oltre il 10% su diversi benchmark di ragionamento complessi.
I recenti progressi nel comportamento clonato (BC) hanno permesso di sviluppare politiche di controllo visuomotorio impressionanti. Tuttavia, questi approcci sono limitati dalla qualità delle dimostrazioni umane, dallo sforzo manuale richiesto per la raccolta dei dati e dai rendimenti decrescenti derivanti dall'aumento dei dati offline. Al contrario, l'apprendimento per rinforzo (RL) addestra un agente attraverso l'interazione autonoma con l'ambiente e ha dimostrato un notevole successo in vari domini. Tuttavia, l'addestramento diretto di politiche RL su robot del mondo reale rimane impegnativo a causa dell'inefficienza campionaria, delle preoccupazioni legate alla sicurezza e della difficoltà di apprendere da ricompense sparse per compiti a lungo termine, specialmente per sistemi con un alto grado di libertà (DoF). Presentiamo una ricetta che combina i vantaggi di BC e RL attraverso un framework di apprendimento residuo. Il nostro approccio sfrutta le politiche BC come basi black-box e apprende correzioni residue leggere passo-passo tramite RL off-policy ad alta efficienza campionaria. Dimostriamo che il nostro metodo richiede solo segnali di ricompensa binari sparsi e può migliorare efficacemente le politiche di manipolazione su sistemi con alto grado di libertà (DoF) sia in simulazione che nel mondo reale. In particolare, dimostriamo, per quanto ne sappiamo, il primo addestramento RL di successo nel mondo reale su un robot umanoide con mani abili. I nostri risultati dimostrano prestazioni all'avanguardia in vari compiti basati sulla visione, indicando una via pratica per l'implementazione di RL nel mondo reale. Sito web del progetto: https://residual-offpolicy-rl.github.io
L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato un paradigma potente per ottimizzare i modelli linguistici di grandi dimensioni (Large Language Models, LLMs) nella gestione di compiti di ragionamento complessi. Una sfida centrale in questo processo risiede nella gestione dell'entropia della policy, che riflette l'equilibrio tra esplorazione e sfruttamento durante l'addestramento. I metodi esistenti, come l'ottimizzazione prossimale della policy (Proximal Policy Optimization, PPO) e le sue varianti, scartano segnali di gradiente preziosi provenienti da token a bassa probabilità a causa del meccanismo di clipping. Analizziamo sistematicamente le dinamiche dell'entropia e riveliamo che questi token tagliati svolgono un ruolo critico ma trascurato nella regolazione dell'evoluzione dell'entropia. Proponiamo Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), un nuovo algoritmo che reintroduce i gradienti dai token tagliati nel PPO nativo in modo delicato e limitato. Controllando l'ampiezza dei gradienti provenienti da token al di fuori dell'intervallo di clipping, CE-GPPO è in grado di raggiungere un compromesso tra esplorazione e sfruttamento. Forniamo una giustificazione teorica e prove empiriche che dimostrano come CE-GPPO mitighi efficacemente l'instabilità dell'entropia. Esperimenti estesi su benchmark di ragionamento matematico mostrano che CE-GPPO supera costantemente i baseline forti su diverse scale di modelli.
Negli ultimi anni, i modelli multimodali hanno compiuto progressi significativi, aprendo la strada a agenti intelligenti per l'uso del browser. Tuttavia, quando si tratta di risolvere compiti su pagine web reali in traiettorie multi-turn e a lungo termine, gli agenti attuali continuano a soffrire di sequenze di azioni disordinate e di un eccessivo ricorso a tentativi ed errori durante l'esecuzione. Questo articolo introduce Recon-Act, un framework multi-agente auto-evolvente basato sul paradigma comportamentale Ricognizione-Azione. Il sistema è composto da un Team di Ricognizione e un Team di Azione: il primo conduce analisi comparative e genera strumenti, mentre il secondo gestisce la scomposizione delle intenzioni, l'orchestrazione degli strumenti e l'esecuzione. Confrontando le traiettorie errate con quelle di successo, il Team di Ricognizione deduce rimedi e li astrae in una nozione unificata di strumenti generalizzati, espressi come suggerimenti o codici basati su regole, e li registra in tempo reale nell'archivio degli strumenti. Il Team di Azione rielabora il processo potenziato da questi strumenti mirati, stabilendo così una pipeline di addestramento a ciclo chiuso di dati-strumenti-azione-feedback. Seguendo la roadmap di implementazione a 6 livelli proposta in questo lavoro, abbiamo attualmente raggiunto il Livello 3 (con un intervento umano limitato in-the-loop). Sfruttando gli strumenti generalizzati ottenuti attraverso la ricognizione, Recon-Act migliora sostanzialmente l'adattabilità a siti web non visti e la risolvibilità di compiti a lungo termine, raggiungendo prestazioni all'avanguardia sul complesso dataset VisualWebArena.
Presentiamo CHARM, una rappresentazione parametrica innovativa e un framework generativo per la modellazione di acconciature anime. Mentre i metodi tradizionali di modellazione dei capelli si concentrano su capelli realistici utilizzando rappresentazioni basate su ciocche o volumetriche, le acconciature anime presentano una geometria altamente stilizzata e strutturata a tratti che mette alla prova le tecniche esistenti. I lavori esistenti spesso si basano su modellazione a mesh densa o curve spline create manualmente, rendendoli inefficienti per la modifica e inadatti per un apprendimento scalabile. CHARM introduce una parametrizzazione compatta e invertibile basata su punti di controllo, in cui una sequenza di punti di controllo rappresenta ogni ciocca di capelli, e ogni punto è codificato con solo cinque parametri geometrici. Questa rappresentazione efficiente e accurata supporta sia la progettazione artistica che la generazione basata sull'apprendimento. Basato su questa rappresentazione, CHARM introduce un framework generativo autoregressivo che genera efficacemente acconciature anime da immagini o nuvole di punti in input. Interpretando le acconciature anime come un "linguaggio dei capelli" sequenziale, il nostro trasformatore autoregressivo cattura sia la geometria locale che la topologia globale dell'acconciatura, ottenendo una creazione di acconciature anime ad alta fedeltà. Per facilitare sia l'addestramento che la valutazione della generazione di acconciature anime, abbiamo costruito AnimeHair, un dataset su larga scala di 37K acconciature anime di alta qualità con ciocche di capelli separate e dati mesh elaborati. Esperimenti estensivi dimostrano prestazioni all'avanguardia di CHARM sia in termini di accuratezza di ricostruzione che di qualità di generazione, offrendo una soluzione espressiva e scalabile per la modellazione di acconciature anime. Pagina del progetto: https://hyzcluster.github.io/charm/
La composizione di immagini mira a inserire in modo fluido un oggetto specificato dall'utente in una nuova scena, ma i modelli esistenti faticano a gestire illuminazioni complesse (ad esempio, ombre accurate, riflessi sull'acqua) e input diversificati ad alta risoluzione. I moderni modelli di diffusione da testo a immagine (ad esempio, SD3.5, FLUX) codificano già priorità fisiche e di risoluzione essenziali, ma mancano di un framework per sfruttarle senza ricorrere all'inversione latente, che spesso blocca le pose degli oggetti in orientamenti contestualmente inappropriati, o a interventi fragili sull'attenzione. Proponiamo SHINE, un framework senza addestramento per un Inserimento Senza Soluzione di Continuità e ad Alta Fedeltà con Errori Neutralizzati. SHINE introduce una perdita di ancoraggio guidata dalla varietà, sfruttando adattatori di personalizzazione pre-addestrati (ad esempio, IP-Adapter) per guidare i latenti verso una rappresentazione fedele del soggetto preservando l'integrità dello sfondo. Vengono proposti una guida alla soppressione del degrado e una fusione adattiva dello sfondo per eliminare ulteriormente output di bassa qualità e cuciture visibili. Per affrontare la mancanza di benchmark rigorosi, introduciamo ComplexCompo, che presenta risoluzioni diversificate e condizioni impegnative come illuminazione ridotta, illuminazione intensa, ombre intricate e superfici riflettenti. Gli esperimenti su ComplexCompo e DreamEditBench mostrano prestazioni all'avanguardia su metriche standard (ad esempio, DINOv2) e punteggi allineati all'umano (ad esempio, DreamSim, ImageReward, VisionReward). Codice e benchmark saranno pubblicamente disponibili alla pubblicazione.
Mentre i Large Reasoning Models (LRM) generano estese catene di ragionamento, manca un framework strutturato per comprendere come questi pensieri siano organizzati. In questo articolo, introduciamo un approccio innovativo applicando la Teoria degli Episodi di Schoenfeld, un classico framework cognitivo per la risoluzione di problemi matematici umani, per analizzare le tracce di ragionamento degli LRM. Abbiamo annotato migliaia di frasi e paragrafi provenienti da soluzioni generate da modelli per problemi matematici utilizzando sette etichette cognitive (ad esempio, Pianificare, Implementare, Verificare). Il risultato è il primo benchmark pubblicamente disponibile per l'analisi granulare del ragionamento automatico, comprendente un ampio corpus annotato e guide dettagliate per l'annotazione. La nostra analisi preliminare rivela modelli distinti nel ragionamento degli LRM, come le dinamiche di transizione tra stati cognitivi. Questo framework fornisce una metodologia teoricamente fondata per interpretare la cognizione degli LRM e consente futuri lavori su sistemi di ragionamento più controllabili e trasparenti.
L'apprendimento per rinforzo (RL) ha dimostrato potenziale nell'addestrare modelli agentici che vanno oltre i benchmark statici per impegnarsi in interazioni dinamiche e multi-turn. Tuttavia, il valore ultimo di tali agenti risiede nella loro capacità di assistere gli utenti, un contesto in cui la diversità e la dinamicità delle interazioni con l'utente pongono sfide. In questo lavoro, proponiamo UserRL, un framework unificato per l'addestramento e la valutazione delle abilità centrate sull'utente attraverso ambienti gym standardizzati accoppiati con utenti simulati. Variamo sistematicamente l'assegnazione delle ricompense a livello di turno e il calcolo dei punteggi a livello di traiettoria per analizzare come diverse formulazioni influenzano l'apprendimento con l'algoritmo GRPO. I nostri esperimenti sui modelli Qwen3 rivelano tre risultati chiave: (i) l'avvio a freddo con SFT è cruciale per sbloccare l'abilità iniziale di interazione e consentire miglioramenti sostenuti con RL; (ii) il punteggio deliberato delle traiettorie produce interazioni multi-turn più efficienti ed efficaci; e (iii) sebbene utenti simulati più forti (ad esempio, GPT-4o) facilitino l'addestramento, i simulatori open-source (ad esempio, Qwen3-32B) rimangono un'opzione conveniente e trasferibile. Insieme, questi risultati evidenziano che un'attenta progettazione della modellazione delle ricompense e della scelta della simulazione degli utenti è tanto cruciale quanto la scala del modello, e stabiliscono UserRL come un percorso pratico per sviluppare modelli agentici robusti e centrati sull'utente. Tutti i codici e i dati sono pubblici per future ricerche.
Presentiamo SD3.5-Flash, un framework efficiente di distillazione a pochi passi che porta la generazione di immagini di alta qualità su dispositivi consumer accessibili. Il nostro approccio distilla modelli di flusso rettificato computazionalmente proibitivi attraverso un obiettivo riformulato di corrispondenza delle distribuzioni, specificamente adattato per la generazione a pochi passi. Introduciamo due innovazioni chiave: la "condivisione del timestep" per ridurre il rumore del gradiente e il "fine-tuning a timestep divisi" per migliorare l'allineamento con i prompt. Combinato con ottimizzazioni complete della pipeline come la ristrutturazione del codificatore di testo e una quantizzazione specializzata, il nostro sistema consente sia una generazione rapida che un'implementazione efficiente in termini di memoria su diverse configurazioni hardware. Ciò democratizza l'accesso su tutta la gamma di dispositivi, dai telefoni cellulari ai computer desktop. Attraverso una valutazione estesa che include studi su larga scala con utenti, dimostriamo che SD3.5-Flash supera costantemente i metodi esistenti a pochi passi, rendendo l'IA generativa avanzata veramente accessibile per l'implementazione pratica.
I Large Reasoning Models (LRM) hanno dimostrato capacità impressionanti nella risoluzione di problemi complessi, spesso beneficiando di un addestramento su problemi matematici difficili che stimolano ragionamenti intricati. Recenti sforzi hanno esplorato la sintesi automatizzata di problemi matematici mediante il prompting di modelli proprietari o modelli open-source su larga scala, partendo da dati di base o concetti matematici intrinseci. Tuttavia, scalare questi metodi rimane una sfida a causa del loro elevato costo computazionale/API, della complessità del prompting e del livello di difficoltà limitato dei problemi generati. Per superare queste limitazioni, proponiamo ScaleDiff, una pipeline semplice ma efficace progettata per scalare la creazione di problemi difficili. Identifichiamo in modo efficiente problemi difficili da dataset esistenti con un solo passaggio in avanti utilizzando un modello di pensiero adattivo, che può percepire la difficoltà del problema e passare automaticamente tra modalità "Thinking" e "NoThinking". Successivamente, addestriamo un generatore specializzato di problemi difficili (DiffGen-8B) su questi dati filtrati, che può produrre nuovi problemi difficili su larga scala, eliminando la necessità di un prompting complesso per ogni istanza e i relativi costi API elevati. Il fine-tuning di Qwen2.5-Math-7B-Instruct sul dataset ScaleDiff-Math produce un aumento sostanziale delle prestazioni dell'11,3% rispetto al dataset originale e raggiunge una precisione media del 65,9% su AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 e MATH500, superando recenti LRM forti come OpenThinker3. È importante notare che queste prestazioni sono ottenute utilizzando il modello Qwen3-8B, economicamente efficiente, come insegnante, dimostrando che la nostra pipeline può trasferire efficacemente capacità di ragionamento avanzate senza fare affidamento su modelli insegnanti più grandi e costosi. Inoltre, osserviamo un chiaro fenomeno di scaling nelle prestazioni del modello su benchmark difficili all'aumentare della quantità di problemi difficili. Codice: https://github.com/QizhiPei/ScaleDiff.
I modelli linguistici di grandi dimensioni per il codice hanno dimostrato capacità notevoli nelle attività di programmazione, tuttavia i benchmark attuali si concentrano principalmente su una singola modalità piuttosto che sullo sviluppo di giochi visivi. La maggior parte dei benchmark esistenti relativi al codice valuta la correttezza sintattica e l'accuratezza di esecuzione, tralasciando metriche critiche specifiche per i giochi come la giocabilità, l'estetica visiva e l'engagement degli utenti, essenziali per il dispiegamento nel mondo reale. Per colmare il divario tra le attuali capacità dei modelli linguistici nella risoluzione di problemi algoritmici e nella programmazione competitiva rispetto ai requisiti completi dello sviluppo pratico di giochi, presentiamo V-GameGym, un benchmark completo che comprende 2.219 campioni di alta qualità suddivisi in 100 cluster tematici derivati da repository del mondo reale, adottando una metodologia di curatela basata sul clustering per garantire sia la diversità che la completezza strutturale. Inoltre, introduciamo un framework di valutazione multimodale con una pipeline automatizzata guidata da modelli linguistici per la sintesi visiva del codice utilizzando ambienti sandbox UI completi. La nostra analisi estensiva rivela che V-GameGym colma efficacemente il divario tra l'accuratezza nella generazione del codice e i flussi di lavoro pratici per lo sviluppo di giochi, fornendo metriche di qualità quantificabili per la programmazione visiva e la generazione di elementi interattivi.
Mentre le codifiche posizionali esplicite come RoPE rappresentano una fonte primaria di informazioni posizionali nei decoder Transformer, anche la maschera causale fornisce informazioni posizionali. In questo lavoro, dimostriamo che la maschera causale può indurre pattern dipendenti dalla posizione nei punteggi di attenzione, anche senza parametri o dipendenza causale nell'input. La nostra analisi teorica indica che il pattern di attenzione indotto tende a favorire coppie query-chiave vicine, rispecchiando il comportamento delle comuni codifiche posizionali. L'analisi empirica conferma che i modelli addestrati mostrano lo stesso comportamento, con i parametri appresi che amplificano ulteriormente questi pattern. In particolare, abbiamo scoperto che l'interazione tra la maschera causale e RoPE distorce i pattern relativi dei punteggi di attenzione di RoPE in pattern non relativi. Abbiamo osservato costantemente questo effetto nei moderni modelli linguistici di grandi dimensioni, suggerendo l'importanza di considerare la maschera causale come una fonte di informazioni posizionali insieme alle codifiche posizionali esplicite.
La sintesi di scene indoor è diventata sempre più importante con l'ascesa dell'Embodied AI, che richiede ambienti 3D non solo visivamente realistici, ma anche fisicamente plausibili e funzionalmente diversificati. Sebbene gli approcci recenti abbiano migliorato la fedeltà visiva, spesso rimangono limitati a categorie di scene fisse, mancano di dettagli sufficienti a livello di oggetti e di coerenza fisica, e faticano ad allinearsi con istruzioni complesse dell'utente. In questo lavoro, presentiamo SceneWeaver, un framework agentico riflessivo che unifica paradigmi diversi di sintesi di scene attraverso un affinamento iterativo basato su strumenti. Al suo core, SceneWeaver utilizza un pianificatore basato su modelli linguistici per selezionare da una suite di strumenti estensibili per la generazione di scene, che vanno da modelli generativi basati su dati a metodi visivi e basati su LLM, guidati da una autovalutazione della plausibilità fisica, del realismo visivo e dell'allineamento semantico con l'input dell'utente. Questo design a ciclo chiuso ragiona-agisci-riflette consente all'agente di identificare inconsistenze semantiche, invocare strumenti mirati e aggiornare l'ambiente attraverso iterazioni successive. Esperimenti estensivi su tipi di stanze comuni e a vocabolario aperto dimostrano che SceneWeaver non solo supera i metodi precedenti in termini di metriche fisiche, visive e semantiche, ma si generalizza efficacemente anche a scene complesse con istruzioni diversificate, segnando un passo verso la generazione di ambienti 3D a scopo generale. Sito web del progetto: https://scene-weaver.github.io/.
I modelli di ricostruzione 3D basati sull'apprendimento, rappresentati dai Visual Geometry Grounded Transformers (VGGT), hanno compiuto progressi significativi grazie all'uso di trasformatori su larga scala. Tuttavia, i loro proibitivi costi computazionali e di memoria ostacolano gravemente il dispiegamento nel mondo reale. La Quantizzazione Post-Addestramento (PTQ) è diventata una pratica comune per comprimere e accelerare i modelli. Tuttavia, osserviamo empiricamente che la PTQ affronta ostacoli unici quando si tratta di comprimere VGGT su scala miliardaria: i token speciali indipendenti dai dati inducono distribuzioni di attivazione a coda pesante, mentre la natura multi-vista dei dati 3D rende altamente instabile la selezione dei campioni di calibrazione. Questo articolo propone il primo framework di quantizzazione per VGGT, denominato QuantVGGT. Questo si basa principalmente su due contributi tecnici: in primo luogo, introduciamo la Quantizzazione Fine-Grained a Doppia Lisciatura, che integra la rotazione di Hadamard pre-globale e la lisciatura locale post-canale per mitigare robustamente le distribuzioni a coda pesante e la varianza inter-canale. In secondo luogo, progettiamo il Campionamento Diversificato Filtrato dal Rumore, che filtra gli outlier tramite statistiche di strati profondi e costruisce cluster di calibrazione diversificati e consapevoli del frame per garantire intervalli di quantizzazione stabili. Esperimenti completi dimostrano che QuantVGGT raggiunge risultati all'avanguardia su diversi benchmark e bit-width, superando di gran lunga il precedente metodo di quantizzazione generico all'avanguardia. Sottolineiamo che il nostro QuantVGGT a 4 bit può offrire una riduzione della memoria di 3,7 volte e un'accelerazione di 2,5 volte nell'inferenza su hardware reale, mantenendo un'accuratezza di ricostruzione superiore al 98% rispetto alla controparte a precisione completa. Ciò dimostra i vasti vantaggi e la praticità di QuantVGGT in scenari con risorse limitate. Il nostro codice è rilasciato su https://github.com/wlfeng0509/QuantVGGT.
I benchmark valutati da LLM sono sempre più utilizzati per valutare comportamenti complessi dei modelli, ma il loro design introduce modalità di fallimento assenti nei benchmark convenzionali basati su ground truth. Sosteniamo che, senza obiettivi rigorosi e costruzioni verificabili, le classifiche dei benchmark possono produrre ranking ad alta confidenza che in realtà sono prevalentemente rumore. Introduciamo due meccanismi per diagnosticare questi problemi. L'aderenza schematica quantifica quanto del verdetto complessivo di un giudice è spiegato dallo schema di valutazione esplicito, rivelando varianza inspiegata quando i giudici deviano dal proprio criterio. La validità psicometrica aggrega segnali di coerenza interna e validità discriminante per quantificare l'incertezza irriducibile in qualsiasi esecuzione di benchmarking. Applicando questi strumenti ad Arena-Hard Auto, troviamo una grave incoerenza dello schema e un collasso dei fattori tra i giudici più popolari: ad esempio, una varianza inspiegata superiore al 90% per DeepSeek-R1-32B e correlazioni dei fattori superiori a 0,93 per la maggior parte dei criteri. Mostriamo inoltre che l'aggregazione in stile ELO utilizzata da Arena-Hard Auto collassa e maschera la genuina incertezza del ranking. I nostri risultati evidenziano fallimenti di progettazione che minano la validità e offrono principi attuabili per costruire benchmark valutati da LLM con un ambito migliore e consapevoli dell'affidabilità. Rilasciamo il nostro codice all'indirizzo https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
I Large Language Model (LLM) affrontano significative sfide computazionali quando elaborano contesti lunghi a causa della complessità quadratica del meccanismo di self-attention. Sebbene i metodi di compressione soft del contesto, che mappano il testo di input in rappresentazioni latenti più piccole, abbiano mostrato potenziale, la loro adozione nel mondo reale è limitata. Le tecniche esistenti tipicamente comprimono il contesto come un’unica unità, il che comporta una complessità di compressione quadratica e l’impossibilità di riutilizzare i calcoli tra query con contesti sovrapposti. In questo lavoro, introduciamo CompLLM, una tecnica di compressione soft progettata per un impiego pratico. Invece di elaborare il contesto in modo olistico, CompLLM lo suddivide in segmenti e comprime ciascuno in modo indipendente. Questa scelta progettuale semplice produce tre proprietà critiche: efficienza, poiché il passo di compressione scala linearmente con la lunghezza del contesto; scalabilità, consentendo a modelli addestrati su sequenze brevi (ad esempio, 1k token) di generalizzare a contesti di 100k token; e riutilizzabilità, permettendo ai segmenti compressi di essere memorizzati nella cache e riutilizzati tra query diverse. I nostri esperimenti mostrano che, con un tasso di compressione di 2x, per contesti molto lunghi CompLLM accelera il Time To First Token (TTFT) fino a 4x e riduce la dimensione della cache KV del 50%. Inoltre, CompLLM raggiunge prestazioni comparabili a quelle ottenute con il contesto non compresso, e le supera persino su sequenze molto lunghe, dimostrando la sua efficacia e utilità pratica.
I modelli linguistici di grandi dimensioni (LLM) potenziati dalla ricerca hanno fatto progredire le attività di ricerca di informazioni integrando il recupero nella generazione, riducendo il carico cognitivo degli utenti rispetto ai tradizionali sistemi di ricerca. Tuttavia, rimangono insufficienti per soddisfare appieno le diverse esigenze degli utenti, che richiedono il riconoscimento di come la stessa query possa riflettere intenzioni diverse tra gli utenti e la consegna delle informazioni nelle forme preferite. Sebbene sistemi recenti come ChatGPT e Gemini tentino la personalizzazione sfruttando le cronologie degli utenti, una valutazione sistematica di tale personalizzazione è ancora poco esplorata. Per colmare questa lacuna, proponiamo BESPOKE, il benchmark realistico per valutare la personalizzazione nei LLM potenziati dalla ricerca. BESPOKE è progettato per essere sia realistico, raccogliendo cronologie di chat e ricerche autentiche direttamente dagli esseri umani, sia diagnostico, abbinando le risposte a punteggi di preferenza dettagliati e feedback. Il benchmark è costruito attraverso un'annotazione umana a lungo termine e profondamente coinvolta, in cui gli annotatori umani hanno contribuito con le proprie cronologie, hanno formulato query con esigenze informative dettagliate e hanno valutato le risposte con punteggi e feedback diagnostici. Utilizzando BESPOKE, conduciamo analisi sistematiche che rivelano i requisiti chiave per una personalizzazione efficace nelle attività di ricerca di informazioni, fornendo una base per una valutazione dettagliata dei LLM potenziati dalla ricerca personalizzati. Il nostro codice e i dati sono disponibili all'indirizzo https://augustinlib.github.io/BESPOKE/.
Nonostante i progressi costanti nella generazione di immagini da layout, i metodi attuali continuano a incontrare difficoltà con layout che presentano una sovrapposizione significativa tra le bounding box. Identifichiamo due principali sfide: (1) regioni di sovrapposizione ampie e (2) istanze sovrapposte con una distinzione semantica minima. Attraverso esempi qualitativi e analisi quantitative, dimostriamo come questi fattori degradino la qualità della generazione. Per valutare sistematicamente questo problema, introduciamo OverLayScore, una nuova metrica che quantifica la complessità delle bounding box sovrapposte. La nostra analisi rivela che i benchmark esistenti sono orientati verso casi più semplici con valori bassi di OverLayScore, limitando la loro efficacia nella valutazione delle prestazioni dei modelli in condizioni più impegnative. Per colmare questa lacuna, presentiamo OverLayBench, un nuovo benchmark che offre annotazioni di alta qualità e una distribuzione bilanciata tra diversi livelli di OverLayScore. Come primo passo verso il miglioramento delle prestazioni su sovrapposizioni complesse, proponiamo anche CreatiLayout-AM, un modello ottimizzato su un dataset curato di maschere amodali. Insieme, i nostri contributi gettano le basi per una generazione di immagini da layout più robusta in scenari realistici e impegnativi. Link del progetto: https://mlpc-ucsd.github.io/OverLayBench.
Il ragionamento video è emerso come una capacità cruciale per i modelli linguistici multimodali di grandi dimensioni (MLLM), richiedendo ai modelli di andare oltre la percezione statica verso una comprensione coerente delle dinamiche temporali in scene complesse. Tuttavia, gli MLLM esistenti spesso mostrano incoerenza nel processo, dove il ragionamento intermedio si discosta dalle dinamiche video anche quando la risposta finale è corretta, minando l'interpretabilità e la robustezza. Per affrontare questo problema, introduciamo MOSS-ChatV, un framework di apprendimento per rinforzo con una ricompensa basata sul Dynamic Time Warping (DTW). Questa ricompensa basata su regole allinea le tracce di ragionamento con riferimenti temporalmente ancorati, consentendo una supervisione efficiente del processo senza modelli di ricompensa ausiliari. Identifichiamo inoltre la previsione dinamica dello stato come una misura chiave del ragionamento video e costruiamo MOSS-Video, un benchmark con tracce di ragionamento annotate, dove la divisione di addestramento è utilizzata per affinare MOSS-ChatV e la divisione di valutazione è riservata per la valutazione. MOSS-ChatV raggiunge l'87,2\% su MOSS-Video (test) e migliora le prestazioni su benchmark video generali come MVBench e MMVU. Il framework produce guadagni consistenti su diverse architetture, tra cui Qwen2.5-VL e Phi-2, confermandone l'ampia applicabilità. Le valutazioni con GPT-4o come giudice mostrano inoltre che MOSS-ChatV produce tracce di ragionamento più coerenti e stabili.
I tradizionali sistemi di raccomandazione si basano su meccanismi di feedback passivi che limitano gli utenti a scelte semplici come "mi piace" e "non mi piace". Tuttavia, questi segnali a grana grossa non riescono a catturare le motivazioni e le intenzioni comportamentali sfumate degli utenti. Di conseguenza, i sistemi attuali non sono in grado di distinguere quali attributi specifici degli elementi determinano la soddisfazione o l'insoddisfazione dell'utente, portando a una modellazione imprecisa delle preferenze. Queste limitazioni fondamentali creano un divario persistente tra le intenzioni degli utenti e le interpretazioni del sistema, minando alla fine la soddisfazione degli utenti e compromettendo l'efficacia del sistema. Per affrontare queste limitazioni, introduciamo l'Interactive Recommendation Feed (IRF), un paradigma pionieristico che consente comandi in linguaggio naturale all'interno dei feed di raccomandazione mainstream. A differenza dei sistemi tradizionali che confinano gli utenti a un'influenza comportamentale implicita e passiva, l'IRF conferisce un controllo esplicito e attivo sulle politiche di raccomandazione attraverso comandi linguistici in tempo reale. Per supportare questo paradigma, sviluppiamo RecBot, un'architettura a doppio agente in cui un Parser Agent trasforma le espressioni linguistiche in preferenze strutturate e un Planner Agent orchestra dinamicamente catene di strumenti adattativi per l'aggiustamento immediato delle politiche. Per consentire un'implementazione pratica, utilizziamo la distillazione della conoscenza aumentata dalla simulazione per ottenere prestazioni efficienti mantenendo forti capacità di ragionamento. Attraverso esperimenti offline estesi e online a lungo termine, RecBot mostra miglioramenti significativi sia nella soddisfazione degli utenti che nei risultati aziendali.
Proponiamo un framework che consente ai modelli neurali di "pensare mentre ascoltano" suoni quotidiani, migliorando così le prestazioni nella classificazione audio. Ispirati dai recenti progressi nelle capacità di ragionamento dei grandi modelli linguistici, affrontiamo due questioni centrali: (i) come può essere incorporato il pensiero nelle pipeline esistenti di classificazione audio per abilitare il ragionamento nello spazio delle categorie e migliorare le prestazioni, e (ii) è possibile progettare una nuova architettura da zero che supporti sia il pensiero che lo scaling al momento del test? Dimostriamo che, in entrambi i contesti, i nostri modelli mostrano una maggiore accuratezza nella classificazione. Sfruttando lo scaling al momento del test, osserviamo miglioramenti costanti all'aumentare del numero di tracce campionate. Inoltre, valutiamo due modelli di ragionamento open-source, GPT-OSS-20B e Qwen3-14B, dimostrando che, sebbene tali modelli siano in grado di ragionamento zero-shot, un approccio leggero—riaddestrando solo la matrice di embedding di un modello più piccolo e congelato come GPT-2—può superare le prestazioni di modelli di ragionamento basati su testo con miliardi di parametri.
L'ottimizzazione percettiva è principalmente guidata dall'obiettivo di fedeltà, che impone sia la coerenza semantica che il realismo visivo complessivo, mentre l'obiettivo avversario fornisce un affinamento complementare migliorando la nitidezza percettiva e i dettagli fini. Nonostante il loro ruolo centrale, la correlazione tra la loro efficacia come obiettivi di ottimizzazione e la loro capacità come metriche di valutazione della qualità dell'immagine (IQA) rimane poco esplorata. In questo lavoro, conduciamo un'analisi sistematica e riveliamo un'asimmetria inaspettata tra ottimizzazione percettiva e valutazione: le metriche di fedeltà che eccellono nell'IQA non sono necessariamente efficaci per l'ottimizzazione percettiva, con questo disallineamento che emerge più distintamente durante l'addestramento avversario. Inoltre, sebbene i discriminatori sopprimano efficacemente gli artefatti durante l'ottimizzazione, le loro rappresentazioni apprese offrono solo benefici limitati quando riutilizzate come inizializzazioni del backbone per i modelli IQA. Oltre a questa asimmetria, i nostri risultati dimostrano ulteriormente che il design del discriminatore gioca un ruolo decisivo nel modellare l'ottimizzazione, con architetture a livello di patch e convoluzionali che forniscono una ricostruzione dei dettagli più fedele rispetto alle alternative vanilla o basate su Transformer. Queste intuizioni avanzano la comprensione del design delle funzioni di perdita e della sua connessione alla trasferibilità dell'IQA, aprendo la strada a approcci più principiati all'ottimizzazione percettiva.
Le soluzioni End-to-End (E2E) sono emerse come approccio predominante per i sistemi di guida autonoma, con i modelli Vision-Language-Action (VLA) che rappresentano un nuovo paradigma che sfrutta la conoscenza multimodale pre-addestrata dei modelli Vision-Language (VLM) per interpretare e interagire con ambienti reali complessi. Tuttavia, questi metodi rimangono limitati dalle restrizioni dell'apprendimento per imitazione, che fatica a codificare intrinsecamente le regole fisiche durante l'addestramento. Gli approcci esistenti spesso si basano su complesse rifiniture basate su regole, impiegano l'apprendimento per rinforzo che rimane largamente confinato alla simulazione, o utilizzano una guida basata su diffusione che richiede calcoli di gradiente computazionalmente costosi. Per affrontare queste sfide, introduciamo ReflectDrive, un nuovo framework basato sull'apprendimento che integra un meccanismo di riflessione per la generazione sicura di traiettorie tramite diffusione discreta. Inizialmente discretizziamo lo spazio di guida bidimensionale per costruire un codebook di azioni, consentendo l'uso di modelli di linguaggio a diffusione pre-addestrati per compiti di pianificazione attraverso il fine-tuning. Al centro del nostro approccio c'è un meccanismo di riflessione consapevole della sicurezza che esegue un'autocorrezione iterativa senza calcolo del gradiente. Il nostro metodo inizia con la generazione di traiettorie condizionate da un obiettivo per modellare comportamenti di guida multimodali. Su questa base, applichiamo metodi di ricerca locale per identificare token non sicuri e determinare soluzioni fattibili, che fungono poi da ancore sicure per una rigenerazione basata sull'inpainting. Valutato sul benchmark NAVSIM, ReflectDrive dimostra significativi vantaggi nella generazione di traiettorie critiche per la sicurezza, offrendo una soluzione scalabile e affidabile per i sistemi di guida autonoma.
L'efficacia dei Large Language Models (LLM) è fortemente influenzata dalle strategie di ragionamento, o stili di pensiero, impiegati nei loro prompt. Tuttavia, l'interazione tra questi stili di ragionamento, l'architettura del modello e il tipo di task rimane poco compresa. Per affrontare questo problema, introduciamo StyleBench, un benchmark completo per valutare sistematicamente gli stili di ragionamento su task e modelli diversi. Valutiamo cinque stili di ragionamento rappresentativi, tra cui Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) e Chain-of-Draft (CoD), su cinque task di ragionamento, utilizzando 15 modelli open-source delle principali famiglie (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi e DeepSeek) con un numero di parametri compreso tra 270M e 120B. La nostra analisi su larga scala rivela che nessuno stile è universalmente ottimale. Dimostriamo che l'efficacia della strategia dipende fortemente sia dalla scala del modello che dal tipo di task: i metodi basati sulla ricerca (AoT, ToT) eccellono nei problemi aperti ma richiedono modelli di grandi dimensioni, mentre gli stili concisi (SoT, CoD) ottengono guadagni radicali in termini di efficienza su task ben definiti. Inoltre, identifichiamo alcuni pattern comportamentali chiave: i modelli più piccoli spesso non riescono a seguire le istruzioni di output e ricorrono a congetture, mentre la robustezza del ragionamento emerge come una funzione della scala. Le nostre scoperte offrono una roadmap cruciale per selezionare le strategie di ragionamento ottimali in base a vincoli specifici. Il benchmark è disponibile open source all'indirizzo https://github.com/JamesJunyuGuo/Style_Bench.
Questo articolo introduce l'Hazard-Aware System Card (HASC), un nuovo framework progettato per migliorare la trasparenza e la responsabilità nello sviluppo e nell'implementazione di sistemi di intelligenza artificiale (AI). L'HASC si basa sui concetti esistenti di model card e system card, integrando un registro completo e dinamico dello stato di sicurezza e sicurezza di un sistema AI. Il framework propone un sistema standardizzato di identificatori, tra cui un nuovo AI Safety Hazard (ASH) ID, per integrare gli identificatori di sicurezza esistenti come i CVE, consentendo una comunicazione chiara e coerente delle vulnerabilità risolte. Fornendo un'unica fonte di verità accessibile, l'HASC consente agli sviluppatori e agli stakeholder di prendere decisioni più informate sulla sicurezza dei sistemi AI durante tutto il loro ciclo di vita. Infine, confrontiamo le nostre proposte di system card AI con lo standard ISO/IEC 42001:2023 e discutiamo come possano essere utilizzate per integrarsi reciprocamente, offrendo una maggiore trasparenza e responsabilità per i sistemi AI.
I grandi modelli audio-linguistici (LALM) dimostrano una forte capacità zero-shot nei compiti legati al parlato, suggerendo un potenziale promettente per il riconoscimento delle emozioni dal parlato (SER). Tuttavia, il SER nelle implementazioni del mondo reale spesso fallisce in caso di disallineamento di dominio, dove i dati di origine non sono disponibili e i potenti LALM sono accessibili solo tramite un'API. Ci chiediamo: dato solo audio non etichettato del dominio target e un LALM accessibile solo tramite API, è possibile adattare un modello studente per superare il LALM nel dominio target? A tal fine, proponiamo MI-Fuse, un framework di fusione delle etichette denoised che integra il LALM con un classificatore SER addestrato sul dominio di origine come insegnante ausiliario. Il framework estrae previsioni stocastiche multiple da entrambi gli insegnanti, pondera le loro distribuzioni medie in base all'incertezza basata sull'informazione reciproca e stabilizza l'addestramento con un insegnante a media mobile esponenziale. Esperimenti su tre dataset pubblici di emozioni e sei trasferimenti cross-domain mostrano guadagni consistenti, con lo studente che supera il LALM e supera il baseline più forte del 3,9%. Questo approccio rafforza i sistemi di riconoscimento delle emozioni dal parlato senza condividere i dati di origine, consentendo un adattamento realistico.
Rilevare contenuti d'odio è un problema complesso e di grande importanza. Strumenti automatizzati, come i modelli di machine learning, possono essere d'aiuto, ma richiedono un addestramento continuo per adattarsi al panorama in costante evoluzione dei social media. In questo lavoro, valutiamo la capacità di otto LLM open-source di rilevare contenuti antisemiti, sfruttando specificamente la definizione in contesto come linea guida politica. Esploriamo varie tecniche di prompting e progettiamo un nuovo prompt simile al CoT, chiamato Guided-CoT. Guided-CoT gestisce efficacemente la politica in contesto, migliorando le prestazioni di tutti i modelli valutati, indipendentemente dalla configurazione di decodifica, dalle dimensioni del modello o dalla capacità di ragionamento. In particolare, Llama 3.1 70B supera GPT-3.5 fine-tuned. Inoltre, esaminiamo gli errori degli LLM e introduciamo metriche per quantificare la divergenza semantica nelle razionalità generate dai modelli, rivelando differenze significative e comportamenti paradossali tra gli LLM. I nostri esperimenti evidenziano le differenze osservate nell'utilità, spiegabilità e affidabilità degli LLM.