Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il prompting a Catena di Pensiero (Chain-of-Thought, CoT) ha dimostrato di migliorare le prestazioni dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLM) in vari compiti. Con questo approccio, i LLM sembrano produrre passaggi di ragionamento simili a quelli umani prima di fornire risposte (noto anche come ragionamento CoT), il che spesso porta alla percezione che essi si impegnino in processi inferenziali deliberati. Tuttavia, alcuni risultati iniziali suggeriscono che il ragionamento CoT possa essere più superficiale di quanto appaia, motivandoci a esplorare ulteriormente. In questo articolo, studiamo il ragionamento CoT attraverso una lente di distribuzione dei dati e indaghiamo se il ragionamento CoT rifletta un bias induttivo strutturato appreso dai dati in-distribuzione, consentendo al modello di generare condizionalmente percorsi di ragionamento che approssimano quelli osservati durante l'addestramento. Pertanto, la sua efficacia è fondamentalmente limitata dal grado di discrepanza distributiva tra i dati di addestramento e le query di test. Con questa lente, analizziamo il ragionamento CoT attraverso tre dimensioni: compito, lunghezza e formato. Per indagare ciascuna dimensione, progettiamo DataAlchemy, un ambiente isolato e controllato per addestrare LLM da zero e sondarli sistematicamente in varie condizioni distributive. I nostri risultati rivelano che il ragionamento CoT è un'illusione fragile che svanisce quando viene spinto oltre le distribuzioni di addestramento. Questo lavoro offre una comprensione più profonda del perché e del quando il ragionamento CoT fallisce, sottolineando la sfida continua di raggiungere un ragionamento genuino e generalizzabile.
Studi recenti si sono concentrati sulla costruzione di agenti autonomi in grado di eseguire complesse attività informatiche basate su Interfacce Grafiche Utente (GUI), con il potenziale di rivoluzionare l'interazione uomo-computer. Nonostante i risultati incoraggianti, gli sforzi esistenti si concentrano principalmente su interazioni a breve termine e si affidano a verifiche basate esclusivamente sui risultati, limitando così la loro scalabilità in applicazioni GUI del mondo reale che richiedono la scomposizione e l'esecuzione di attività a lungo termine. In questo lavoro, introduciamo VeriGUI, un nuovo dataset verificabile a catena lunga progettato per facilitare lo sviluppo e la valutazione di agenti GUI generalisti che operano in ambienti informatici realistici. Il nostro dataset enfatizza due dimensioni critiche: (1) complessità a catena lunga, con attività scomposte in una sequenza di sottotask interdipendenti che si estendono per centinaia di passaggi, progettati esplicitamente per consentire a qualsiasi sottotask di fungere da punto di partenza valido; e (2) verificabilità a livello di sottotask, che consente strategie di esplorazione diverse all'interno di ciascun sottotask, garantendo al contempo che ogni obiettivo a livello di sottotask rimanga verificabile e coerente. Il dataset è composto da traiettorie di attività GUI su desktop e web, annotate da esperti umani. Esperimenti estesi su VeriGUI utilizzando vari agenti con diversi modelli di base rivelano significative lacune nelle prestazioni nella gestione di attività a lungo termine, evidenziando la necessità di capacità di pianificazione e decisione più robuste negli agenti GUI.
Presentiamo Agent Lightning, un framework flessibile ed estendibile che abilita l'addestramento basato su Reinforcement Learning (RL) di Large Language Models (LLMs) per qualsiasi agente AI. A differenza dei metodi esistenti che accoppiano strettamente l'addestramento RL con l'agente o si affidano alla concatenazione di sequenze con mascheramento, Agent Lightning raggiunge un completo disaccoppiamento tra esecuzione e addestramento dell'agente, consentendo un'integrazione senza soluzione di continuità con agenti esistenti sviluppati in modi diversi (ad esempio, utilizzando framework come LangChain, OpenAI Agents SDK, AutoGen, e costruendo da zero) con quasi ZERO modifiche al codice. Formulando l'esecuzione dell'agente come un processo decisionale di Markov, definiamo un'interfaccia dati unificata e proponiamo un algoritmo RL gerarchico, LightningRL, che contiene un modulo di assegnazione del credito, permettendoci di scomporre le traiettorie generate da QUALSIASI agente in transizioni di addestramento. Ciò consente all'RL di gestire logiche di interazione complesse, come scenari multi-agente e flussi di lavoro dinamici. Per il design del sistema, introduciamo un'architettura di Disaggregazione Training-Agent e portiamo i framework di osservabilità degli agenti nel runtime dell'agente, fornendo un'interfaccia standardizzata per il fine-tuning degli agenti. Esperimenti su task di text-to-SQL, generazione aumentata da retrieval e utilizzo di strumenti matematici dimostrano miglioramenti stabili e continui, mostrando il potenziale del framework per l'addestramento e il dispiegamento di agenti nel mondo reale.
Le straordinarie capacità degli agenti basati su Large Language Model (LLM) hanno permesso lo sviluppo di sistemi sofisticati in grado di affrontare compiti complessi e multi-step, ma i loro costi crescenti minacciano la scalabilità e l'accessibilità. Questo lavoro presenta il primo studio sistematico del compromesso tra efficienza ed efficacia nei moderni sistemi di agenti, affrontando la necessità critica di design economicamente vantaggiosi senza sacrificare le prestazioni. Esploriamo tre domande chiave: (1) Quanta complessità richiedono intrinsecamente i compiti agentici? (2) Quando i moduli aggiuntivi producono rendimenti decrescenti? (3) Quanta efficienza può essere ottenuta attraverso il design di framework di agenti efficienti? Attraverso un'analisi empirica sul benchmark GAIA, valutiamo l'impatto della selezione del backbone LLM, dei design dei framework di agenti e delle strategie di scalabilità in fase di test. Utilizzando la metrica cost-of-pass, quantifichiamo il compromesso tra efficienza e prestazioni in queste dimensioni. I nostri risultati informano lo sviluppo di Efficient Agents, un nuovo framework di agenti che presenta una complessità ottimale rispetto ai requisiti dei compiti. Efficient Agents mantiene il 96,7% delle prestazioni di OWL, uno dei principali framework di agenti open-source, riducendo i costi operativi da 0,398 a 0,228, con un miglioramento del 28,4% nel cost-of-pass. Il nostro lavoro fornisce indicazioni pratiche per progettare sistemi di agenti efficienti e ad alte prestazioni, promuovendo l'accessibilità e la sostenibilità delle soluzioni guidate dall'IA.
La ricerca sulle applicazioni del Reinforcement Learning (RL) ai Large Language Models (LLM) si è concentrata principalmente su problemi a turno singolo, come il ragionamento matematico o la generazione di codice in un'unica istanza. Sebbene questi problemi possano essere visti come MDP (Markov Decision Process) multi-turno a livello di token, questa visione corrisponde a un caso degenere di interazione multi-turno in cui l'ambiente non fornisce alcun feedback. Ciò contrasta con molti domini del mondo reale, come l'ingegneria del software (SWE), che richiedono interazioni multi-turno ricche con un ambiente dotato di stato che risponde a ogni azione con un'osservazione non banale. Per colmare questa lacuna, dimostriamo con successo l'applicazione del RL a questo regime generale. Utilizzando una versione modificata dell'algoritmo Decoupled Advantage Policy Optimization (DAPO), addestriamo un agente basato su Qwen2.5-72B-Instruct per risolvere compiti reali di ingegneria del software. Il nostro approccio aumenta il tasso di successo dell'agente sul benchmark SWE-bench Verified da una baseline del 20% con fine-tuning di rifiuto al 39%, senza fare affidamento su alcun modello insegnante. Su SWE-rebench, il nostro agente eguaglia o supera modelli open-weight leader come DeepSeek-V3-0324 e Qwen3-235B-A22B utilizzando un'impalcatura identica, offrendo un percorso praticabile verso la costruzione di agenti autonomi più capaci per problemi complessi del mondo reale basati su modelli open.
Il riutilizzo di grandi modelli visione-linguaggio (LVLMs) come agenti per l'uso del computer (CUAs) ha portato a progressi significativi, principalmente guidati da dati etichettati manualmente. Tuttavia, questi modelli spesso incontrano difficoltà con software nuovi e specializzati, specialmente in scenari privi di annotazioni umane. Per affrontare questa sfida, proponiamo SEAgent, un framework agentico auto-evolutivo che consente ai CUAs di evolversi autonomamente attraverso interazioni con software sconosciuti. Nello specifico, SEAgent permette agli agenti per l'uso del computer di padroneggiare autonomamente nuovi ambienti software attraverso l'apprendimento esperienziale, in cui gli agenti esplorano nuovi software, imparano tramite tentativi ed errori iterativi e affrontano progressivamente task auto-generati organizzati dal semplice al complesso. Per raggiungere questo obiettivo, progettiamo un World State Model per la valutazione passo-passo delle traiettorie, insieme a un Curriculum Generator che genera task sempre più diversificati e impegnativi. La politica dell'agente viene aggiornata attraverso l'apprendimento esperienziale, composto dall'imitazione avversaria delle azioni fallite e dall'ottimizzazione relativa delle politiche di gruppo (GRPO) su quelle riuscite. Inoltre, introduciamo una strategia di addestramento da specialista a generalista che integra le intuizioni esperienziali individuali degli agenti specialisti, facilitando lo sviluppo di un CUA generalista più forte in grado di evolversi autonomamente in modo continuo. Questo agente unificato alla fine raggiunge prestazioni superiori a quelle di ensemble di agenti specialisti individuali sui loro software specializzati. Validiamo l'efficacia di SEAgent in cinque nuovi ambienti software all'interno di OS-World. Il nostro approccio ottiene un miglioramento significativo del 23,2% nel tasso di successo, passando dall'11,3% al 34,5%, rispetto a un CUA open-source competitivo, ovvero UI-TARS.
Gli agenti multimodali interattivi devono convertire osservazioni visive grezze in sequenze coerenti di azioni condizionate dal linguaggio - una capacità che gli attuali modelli visione-linguaggio (VLMs) ancora non possiedono. I precedenti sforzi di apprendimento per rinforzo (RL) potrebbero, in linea di principio, dotare i VLMs di tali abilità, ma raramente hanno testato se i comportamenti appresi si generalizzano oltre i loro simulatori di addestramento, e dipendono sia da una regolazione iperparametrica fragile che da ambienti a ricompensa densa con bassa variabilità di stato. Introduciamo Vision-Language Decoupled Actor-Critic (VL-DAC), un algoritmo RL leggero e privo di iperparametri. VL-DAC applica aggiornamenti PPO ai token di azione mentre apprende il valore solo a livello di passo dell'ambiente: una disposizione, a nostra conoscenza, non precedentemente esplorata per grandi VLMs o LLMs. Questo semplice disaccoppiamento rimuove termini di ponderazione instabili e produce una convergenza più rapida e affidabile. Addestrare un singolo VLM con VL-DAC in un simulatore economico alla volta (MiniWorld, Gym-Cards, ALFWorld o WebShop) produce già politiche che si generalizzano ampiamente: +50\% relativo su BALROG (controllo agentico centrato sul gioco), +5\% relativo sulla parte più difficile di VSI-Bench (pianificazione spaziale) e +2\% su VisualWebBench (navigazione web), tutto senza degradare l'accuratezza generale della comprensione delle immagini. Questi risultati forniscono la prima evidenza che un semplice algoritmo RL può addestrare VLMs interamente in mondi sintetici economici, fornendo al contempo guadagni misurabili su benchmark agentici, di ragionamento spaziale e di navigazione web con immagini reali.
La conversione di progetti di pagine web in codice (design-to-code) svolge un ruolo cruciale nello sviluppo dell'interfaccia utente (UI) per i front-end developer, colmando il divario tra design visivo e implementazione funzionale. Sebbene i recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano dimostrato un potenziale significativo nei compiti di design-to-code, spesso non riescono a preservare accuratamente il layout durante la generazione del codice. A tal fine, traiamo ispirazione dal ragionamento a Catena di Pensiero (Chain-of-Thought, CoT) nella cognizione umana e proponiamo LaTCoder, un approccio innovativo che migliora la conservazione del layout nel design delle pagine web durante la generazione del codice con Layout-as-Thought (LaT). Nello specifico, introduciamo innanzitutto un algoritmo semplice ma efficiente per suddividere il design della pagina web in blocchi di immagini. Successivamente, utilizziamo un approccio basato su CoT per stimolare gli MLLMs a generare codice per ciascun blocco. Infine, applichiamo due strategie di assemblaggio—posizionamento assoluto e un metodo basato su MLLM—seguite da una selezione dinamica per determinare l'output ottimale. Valutiamo l'efficacia di LaTCoder utilizzando più MLLMs di base (ad esempio, DeepSeek-VL2, Gemini e GPT-4o) sia su un benchmark pubblico che su un nuovo benchmark più impegnativo (CC-HARD) che presenta layout complessi. I risultati sperimentali sulle metriche automatiche dimostrano miglioramenti significativi. In particolare, i punteggi TreeBLEU sono aumentati del 66,67% e l'MAE è diminuito del 38% quando si utilizza DeepSeek-VL2, rispetto al prompting diretto. Inoltre, i risultati della valutazione delle preferenze umane indicano che gli annotatori preferiscono le pagine web generate da LaTCoder in oltre il 60% dei casi, fornendo una forte evidenza dell'efficacia del nostro metodo.
L'intelligenza sociale è diventata una capacità cruciale per i grandi modelli linguistici (LLM), consentendo loro di impegnarsi efficacemente in compiti sociali del mondo reale come l'adattamento, la persuasione, la collaborazione e la negoziazione. L'apprendimento per rinforzo (RL) si presta naturalmente all'addestramento di agenti socialmente intelligenti, poiché permette ai modelli di apprendere strategie sofisticate direttamente attraverso interazioni sociali. Tuttavia, le interazioni sociali presentano due caratteristiche chiave che pongono ostacoli all'addestramento RL: (1) l'osservabilità parziale, in cui le espressioni hanno effetti indiretti e ritardati che complicano l'assegnazione del merito, e (2) la multidimensionalità, in cui comportamenti come la costruzione di un rapporto o la ricerca di conoscenza contribuiscono indirettamente al raggiungimento degli obiettivi. Queste caratteristiche rendono inefficiente e instabile l'RL basato su processi decisionali di Markov (MDP) con ricompense a livello di episodio monodimensionali. Per affrontare queste sfide, proponiamo Sotopia-RL, un framework innovativo che affina il feedback grezzo a livello di episodio in ricompense a livello di espressione, multidimensionali. L'assegnazione del merito a livello di espressione mitiga l'osservabilità parziale attribuendo i risultati a singole espressioni, mentre le ricompense multidimensionali catturano tutta la ricchezza delle interazioni sociali e riducono il fenomeno del "reward hacking". Esperimenti condotti in Sotopia, un ambiente di apprendimento sociale aperto, dimostrano che Sotopia-RL raggiunge punteggi di completamento degli obiettivi sociali all'avanguardia (7,17 su Sotopia-hard e 8,31 su Sotopia-full), superando significativamente gli approcci esistenti. Studi di ablazione confermano la necessità sia dell'assegnazione del merito a livello di espressione che del design delle ricompense multidimensionali per l'addestramento RL. La nostra implementazione è pubblicamente disponibile all'indirizzo: https://github.com/sotopia-lab/sotopia-rl.
La tossicità dei farmaci rimane una sfida significativa nello sviluppo farmaceutico. I recenti modelli di machine learning hanno migliorato la previsione in silico della tossicità, ma la loro dipendenza da dati annotati e la mancanza di interpretabilità ne limitano l'applicabilità. Ciò riduce la loro capacità di catturare tossicità specifiche per organo guidate da complessi meccanismi biologici. I grandi modelli linguistici (LLM) offrono un'alternativa promettente attraverso il ragionamento passo-passo e l'integrazione di dati testuali, ma gli approcci precedenti mancano di contesto biologico e di una logica trasparente. Per affrontare questo problema, proponiamo CoTox, un nuovo framework che integra gli LLM con il ragionamento a catena del pensiero (CoT) per la previsione multi-tossicità. CoTox combina dati sulla struttura chimica, pathway biologici e termini di ontologia genica (GO) per generare previsioni di tossicità interpretabili attraverso un ragionamento passo-passo. Utilizzando GPT-4o, dimostriamo che CoTox supera sia i tradizionali modelli di machine learning che quelli di deep learning. Esaminiamo inoltre le sue prestazioni su vari LLM per identificare dove CoTox è più efficace. Inoltre, scopriamo che rappresentare le strutture chimiche con nomi IUPAC, più facili da comprendere per gli LLM rispetto ai SMILES, migliora la capacità di ragionamento del modello e ne aumenta le prestazioni predittive. Per dimostrare la sua utilità pratica nello sviluppo di farmaci, simuliamo il trattamento di tipi cellulari rilevanti con un farmaco e incorporiamo il contesto biologico risultante nel framework CoTox. Questo approccio consente a CoTox di generare previsioni di tossicità allineate con le risposte fisiologiche, come mostrato in uno studio di caso. Questo risultato evidenzia il potenziale dei framework basati su LLM per migliorare l'interpretabilità e supportare la valutazione della sicurezza dei farmaci nelle fasi iniziali. Il codice e i prompt utilizzati in questo lavoro sono disponibili su https://github.com/dmis-lab/CoTox.
I modelli multimodali su larga scala hanno significativamente avanzato lo sviluppo degli agenti web, consentendo la percezione e l'interazione con ambienti digitali in modo simile alla cognizione umana. In questo articolo, sosteniamo che gli agenti web debbano prima acquisire una conoscenza sufficiente per impegnarsi efficacemente nel ragionamento cognitivo. Pertanto, scomponiamo le capacità di un agente web in due fasi essenziali: l'apprendimento del contenuto della conoscenza e i processi cognitivi. Per formalizzare ciò, proponiamo il Web-CogKnowledge Framework, che categorizza la conoscenza in Fattuale, Concettuale e Procedurale. In questo framework, l'apprendimento del contenuto della conoscenza corrisponde ai processi di Memorizzazione e Comprensione dell'agente, che si basano sui primi due tipi di conoscenza, rappresentando il "cosa" dell'apprendimento. Al contrario, i processi cognitivi corrispondono all'Esplorazione, radicata nella conoscenza Procedurale, che definisce il "come" del ragionamento e dell'azione. Per facilitare l'acquisizione della conoscenza, costruiamo il Web-CogDataset, una risorsa strutturata curata da 14 siti web reali, progettata per instillare sistematicamente la conoscenza di base necessaria per un agente web. Questo dataset serve come base concettuale dell'agente - i "sostantivi" su cui si costruisce la comprensione - nonché come base per imparare a ragionare e agire. Sulla base di questa fondazione, operazionalizziamo questi processi attraverso un nuovo framework di ragionamento a catena del pensiero (Chain-of-Thought, CoT) guidato dalla conoscenza, sviluppando e addestrando il nostro agente proposto, il Web-CogReasoner. Esperimenti estensivi rivelano la sua significativa superiorità rispetto ai modelli esistenti, specialmente nella generalizzazione a compiti non visti in cui la conoscenza strutturata è decisiva. Per consentire una valutazione rigorosa, introduciamo il Web-CogBench, una suite di valutazione completa progettata per valutare e confrontare le prestazioni degli agenti nei domini di conoscenza delineati e nelle capacità cognitive. Il nostro codice e i dati sono open source all'indirizzo https://github.com/Gnonymous/Web-CogReasoner.
La valutazione dei modelli di generazione da testo a immagine richiede un allineamento con la percezione umana, tuttavia le metriche esistenti centrate sull'uomo sono limitate da una copertura dati ristretta, un'estrazione di caratteristiche subottimale e funzioni di perdita inefficienti. Per affrontare queste sfide, introduciamo lo Human Preference Score v3 (HPSv3). (1) Rilasciamo HPDv3, il primo dataset di preferenze umane a spettro ampio che integra 1,08 milioni di coppie testo-immagine e 1,17 milioni di confronti a coppie annotati, provenienti da modelli generativi all'avanguardia e da immagini reali di qualità variabile da bassa a alta. (2) Introduciamo un modello di preferenze basato su VLM, addestrato utilizzando una funzione di perdita di ranking consapevole dell'incertezza per un ranking fine. Inoltre, proponiamo il Chain-of-Human-Preference (CoHP), un metodo iterativo di raffinamento delle immagini che migliora la qualità senza dati aggiuntivi, utilizzando HPSv3 per selezionare la migliore immagine ad ogni passo. Esperimenti estensivi dimostrano che HPSv3 funge da metrica robusta per la valutazione di immagini a spettro ampio, e che CoHP offre un approccio efficiente e allineato all'uomo per migliorare la qualità della generazione di immagini. Il codice e il dataset sono disponibili sulla HPSv3 Homepage.
In questo articolo, presentiamo un nuovo framework per la generazione video-to-4D che crea contenuti 3D dinamici di alta qualità a partire da input video singoli. La modellazione diretta della diffusione 4D è estremamente complessa a causa dei costi elevati nella costruzione dei dati e della natura ad alta dimensionalità della rappresentazione congiunta di forma 3D, aspetto e movimento. Affrontiamo queste sfide introducendo un VAE Direct 4DMesh-to-GS Variation Field che codifica direttamente i Gaussian Splats (GS) canonici e le loro variazioni temporali da dati di animazione 3D senza adattamento per istanza, e comprime animazioni ad alta dimensionalità in uno spazio latente compatto. Basandoci su questa rappresentazione efficiente, addestriamo un modello di diffusione Gaussian Variation Field con un Diffusion Transformer temporalmente consapevole condizionato da video di input e GS canonici. Addestrato su oggetti 3D animabili accuratamente selezionati dal dataset Objaverse, il nostro modello dimostra una qualità di generazione superiore rispetto ai metodi esistenti. Mostra inoltre una notevole generalizzazione su input video reali nonostante sia stato addestrato esclusivamente su dati sintetici, aprendo la strada alla generazione di contenuti 3D animati di alta qualità. Pagina del progetto: https://gvfdiffusion.github.io/.
I modelli linguistici di grandi dimensioni (LLM) subiscono un significativo degrado delle prestazioni quando elaborano contesti lunghi a causa dell'interferenza proattiva, dove informazioni irrilevanti nelle parti iniziali del contesto disturbano il ragionamento e il richiamo della memoria. Mentre la maggior parte della ricerca si concentra su sistemi di memoria esterna per potenziare le capacità degli LLM, noi proponiamo un approccio complementare: dotare gli LLM di strumenti di Gestione Attiva del Contesto (ACM) per modellare attivamente la loro memoria di lavoro interna. Introduciamo Sculptor, un framework che fornisce agli LLM tre categorie di strumenti: (1) frammentazione del contesto, (2) riepilogo, nascondi e ripristina, e (3) ricerca intelligente. Il nostro approccio consente agli LLM di gestire proattivamente la loro attenzione e memoria di lavoro, in modo analogo a come gli esseri umani si concentrano selettivamente su informazioni rilevanti filtrando le distrazioni. La valutazione sperimentale su benchmark a bassa densità informatica—PI-LLM (interferenza proattiva) e NeedleBench Multi-Needle Reasoning—dimostra che Sculptor migliora significativamente le prestazioni anche senza un addestramento specifico, sfruttando le capacità intrinseche di generalizzazione degli LLM nell'uso degli strumenti. Abilitando la Gestione Attiva del Contesto, Sculptor non solo mitiga l'interferenza proattiva, ma fornisce anche una base cognitiva per un ragionamento più affidabile in una varietà di task a contesto lungo—evidenziando che strategie esplicite di controllo del contesto, piuttosto che semplicemente finestre di token più ampie, sono chiave per la robustezza su larga scala.
La tecnologia di virtual try-on video (VVT) ha attirato un notevole interesse accademico grazie alle sue promettenti applicazioni nella pubblicità e-commerce e nell'intrattenimento. Tuttavia, la maggior parte dei metodi end-to-end esistenti si basa fortemente su dataset scarsi e accoppiati incentrati sui capi d'abbigliamento e non riesce a sfruttare efficacemente i priori dei modelli visivi avanzati e degli input al momento del test, rendendo difficile preservare accuratamente i dettagli fini dei capi e mantenere la coerenza temporale in scenari non vincolati. Per affrontare queste sfide, proponiamo DreamVVT, un framework a due stadi progettato con cura basato su Diffusion Transformers (DiTs), che è intrinsecamente in grado di sfruttare dati eterogenei e non accoppiati incentrati sull'uomo per migliorare l'adattabilità negli scenari reali. Per sfruttare ulteriormente la conoscenza a priori dei modelli pre-addestrati e degli input al momento del test, nella prima fase campioniamo frame rappresentativi dal video di input e utilizziamo un modello multi-frame try-on integrato con un modello vision-language (VLM), per sintetizzare immagini try-on di keyframe ad alta fedeltà e semanticamente coerenti. Queste immagini servono come guida complementare per l'aspetto nella successiva generazione video. Nella seconda fase, le mappe scheletriche insieme a descrizioni fini del movimento e dell'aspetto vengono estratte dal contenuto di input, e queste insieme alle immagini try-on dei keyframe vengono poi alimentate in un modello di generazione video pre-addestrato potenziato con adattatori LoRA. Ciò garantisce una coerenza temporale a lungo termine per le regioni non viste e consente movimenti dinamici altamente plausibili. Estesi esperimenti quantitativi e qualitativi dimostrano che DreamVVT supera i metodi esistenti nel preservare il contenuto dettagliato dei capi e la stabilità temporale in scenari reali. La nostra pagina del progetto è disponibile all'indirizzo https://virtu-lab.github.io/
Le conferenze sull'Intelligenza Artificiale (IA) sono fondamentali per avanzare la ricerca, condividere conoscenze e favorire la comunità accademica. Tuttavia, la loro rapida espansione ha reso il modello di conferenza centralizzato sempre più insostenibile. Questo articolo offre una diagnosi basata sui dati di una crisi strutturale che minaccia gli obiettivi fondamentali della disseminazione scientifica, dell'equità e del benessere della comunità. Identifichiamo quattro aree chiave di tensione: (1) scientificamente, con i tassi di pubblicazione per autore più che raddoppiati nell'ultimo decennio, superando i 4,5 articoli all'anno; (2) ambientalmente, con l'impronta di carbonio di una singola conferenza che supera le emissioni giornaliere della città ospitante; (3) psicologicamente, con il 71% del discorso della comunità online che riflette sentimenti negativi e il 35% che fa riferimento a preoccupazioni per la salute mentale; e (4) logisticamente, con la partecipazione a conferenze di punta come NeurIPS 2024 che inizia a superare la capacità dei luoghi ospitanti. Queste pressioni indicano un sistema disallineato rispetto alla sua missione principale. In risposta, proponiamo il modello di Conferenza Federata dalla Comunità (CFC), che separa la revisione tra pari, la presentazione e il networking in componenti coordinate globalmente ma organizzate localmente, offrendo un percorso più sostenibile, inclusivo e resiliente per la ricerca sull'IA.
I modelli linguistici di grandi dimensioni (LLM) abilitano compiti a contesto lungo ma affrontano sfide di efficienza a causa della crescente cache chiave-valore (KV). Proponiamo LeanK, un metodo basato sull'apprendimento che pota i canali della cache chiave (K) non importanti sfruttando la sparsità statica dei canali. Con un innovativo processo di addestramento in due fasi, LeanK apprende una maschera statica a livello di canale che può soddisfare specifici requisiti di rapporto di sparsità e allineamento hardware. LeanK riduce la memoria GPU e accelera la decodifica senza sacrificare l'accuratezza. Gli esperimenti dimostrano una riduzione fino al 70% della cache K e del 16%-18% della memoria della cache V. Un kernel di decodifica personalizzato consente un'accelerazione di 1,3x nel calcolo dell'attenzione. Forniamo inoltre approfondimenti sui canali del modello e sulle teste di attenzione durante l'inferenza a contesto lungo analizzando la distribuzione appresa dell'importanza. Il nostro codice è disponibile all'indirizzo https://aka.ms/LeanK.
Il riconoscimento di entità nominate (NER) è fondamentale per estrarre informazioni strutturate da oltre l'80% dei dati sanitari che risiedono in note cliniche non strutturate e nella letteratura biomedica. Nonostante i recenti progressi con i modelli linguistici di grandi dimensioni, raggiungere prestazioni all'avanguardia su diversi tipi di entità mantenendo l'efficienza computazionale rimane una sfida significativa. Presentiamo OpenMed NER, una suite di modelli transformer open-source adattati al dominio che combinano un pre-addestramento leggero adattato al dominio (DAPT) con l'adattamento efficiente in termini di parametri Low-Rank Adaptation (LoRA). Il nostro approccio esegue un DAPT economicamente vantaggioso su un corpus di 350k passaggi compilato da repository di ricerca pubblicamente disponibili e da note cliniche de-identificate (PubMed, arXiv e MIMIC-III) utilizzando architetture come DeBERTa-v3, PubMedBERT e BioELECTRA. Questo è seguito da un fine-tuning specifico per il compito con LoRA, che aggiorna meno dell'1,5% dei parametri del modello. Valutiamo i nostri modelli su 12 benchmark consolidati per il NER biomedico, che coprono sostanze chimiche, malattie, geni e specie. OpenMed NER raggiunge nuovi punteggi micro-F1 all'avanguardia su 10 di questi 12 dataset, con miglioramenti sostanziali su diversi tipi di entità. I nostri modelli avanzano lo stato dell'arte su benchmark fondamentali per malattie e sostanze chimiche (ad esempio, BC5CDR-Disease, +2,70 pp), mentre offrono miglioramenti ancora maggiori di oltre 5,3 e 9,7 punti percentuali su corpora più specializzati come quelli di geni e linee cellulari cliniche. Questo lavoro dimostra che modelli open-source adattati strategicamente possono superare soluzioni closed-source. Queste prestazioni sono raggiunte con un'efficienza notevole: l'addestramento si completa in meno di 12 ore su una singola GPU con una bassa impronta di carbonio (< 1,2 kg CO2e), producendo checkpoint open-source con licenza permissiva progettati per aiutare i professionisti a facilitare la conformità con le normative emergenti sulla protezione dei dati e sull'IA, come l'AI Act dell'UE.
L'autoformalizzazione mira a tradurre enunciati matematici in linguaggio naturale in un linguaggio formale. Sebbene i modelli linguistici di grandi dimensioni (LLM) abbiano accelerato i progressi in questo ambito, i metodi esistenti soffrono ancora di una bassa accuratezza. Identifichiamo due abilità chiave per un'autoformalizzazione efficace: una padronanza completa delle conoscenze del dominio del linguaggio formale e la capacità di ragionamento nella comprensione dei problemi in linguaggio naturale e nell'allineamento informale-formale. Senza la prima, un modello non può identificare gli oggetti formali corretti; senza la seconda, fatica a interpretare i contesti del mondo reale e a mapparli con precisione in espressioni formali. Per colmare queste lacune, introduciamo ThinkingF, una pipeline di sintesi dei dati e di addestramento che migliora entrambe le abilità. In primo luogo, costruiamo due dataset: uno distillando e selezionando esempi su larga scala ricchi di conoscenze formali, e un altro generando traiettorie di ragionamento da informale a formale guidate da modelli progettati da esperti. Applichiamo quindi SFT e RLVR con questi dataset per fondere e affinare ulteriormente le due abilità. I modelli risultanti da 7B e 32B mostrano sia una conoscenza formale completa che un forte ragionamento da informale a formale. In particolare, StepFun-Formalizer-32B raggiunge punteggi SOTA BEq@1 del 40,5% su FormalMATH-Lite e del 26,7% su ProverBench, superando tutti i modelli general-purpose e specializzati precedenti.
La segmentazione di istanze è fondamentale nell'imaging biomedico per distinguere accuratamente oggetti individuali come le cellule, che spesso si sovrappongono e variano in dimensioni. I recenti metodi basati su query, in cui le query di oggetti guidano la segmentazione, hanno dimostrato prestazioni eccellenti. Sebbene U-Net sia stata un'architettura di riferimento nella segmentazione di immagini mediche, il suo potenziale negli approcci basati su query rimane in gran parte inesplorato. In questo lavoro, presentiamo IAUNet, una nuova architettura U-Net basata su query. Il design principale presenta una completa architettura U-Net, potenziata da un nuovo Pixel decoder convoluzionale leggero, rendendo il modello più efficiente e riducendo il numero di parametri. Inoltre, proponiamo un decoder Transformer che affina le caratteristiche specifiche degli oggetti su più scale. Infine, introduciamo il 2025 Revvity Full Cell Segmentation Dataset, una risorsa unica con annotazioni dettagliate del citoplasma cellulare sovrapposto in immagini in campo chiaro, stabilendo un nuovo punto di riferimento per la segmentazione di istanze biomediche. Esperimenti su più dataset pubblici e sul nostro dimostrano che IAUNet supera la maggior parte dei modelli all'avanguardia completamente convoluzionali, basati su transformer e su query, nonché i modelli specifici per la segmentazione cellulare, stabilendo una solida baseline per i compiti di segmentazione di istanze cellulari. Il codice è disponibile all'indirizzo https://github.com/SlavkoPrytula/IAUNet.
Gli approcci attuali per i modelli linguistici audio di grandi dimensioni (LALM) si basano spesso su fonti di dati chiuse o modelli proprietari, limitandone la generalizzazione e l'accessibilità. Questo articolo introduce MiDashengLM, un nuovo modello audio-linguistico aperto progettato per una comprensione audio efficiente e completa attraverso l'uso di didascalie audio generali utilizzando il nostro nuovo dataset di addestramento ACAVCaps. MiDashengLM si affida esclusivamente a dataset di pre-addestramento e di fine-tuning supervisionato (SFT) pubblicamente disponibili, garantendo piena trasparenza e riproducibilità. Al suo interno, MiDashengLM integra Dasheng, un codificatore audio open-source, specificamente progettato per elaborare efficacemente informazioni uditive diverse. A differenza dei lavori precedenti principalmente focalizzati sull'allineamento audio-testo basato sul riconoscimento vocale automatico (ASR), la nostra strategia si concentra su didascalie audio generali, fondendo informazioni vocali, sonore e musicali in una rappresentazione testuale unica, consentendo una rappresentazione testuale olistica di scene audio complesse. Infine, MiDashengLM offre un'accelerazione fino a 4x in termini di tempo al primo token (TTFT) e una velocità di elaborazione fino a 20x superiore rispetto a modelli comparabili. I checkpoint sono disponibili online su https://huggingface.co/mispeech/midashenglm-7b e https://github.com/xiaomi-research/dasheng-lm.
I grandi modelli linguistici consentono agli agenti di eseguire autonomamente compiti in ambienti web aperti. Tuttavia, man mano che le minacce nascoste nel web si evolvono, gli agenti web si trovano ad affrontare la sfida di bilanciare le prestazioni dei compiti con i rischi emergenti durante operazioni a sequenza lunga. Sebbene questa sfida sia cruciale, la ricerca attuale si limita all'ottimizzazione a obiettivo singolo o a scenari a turno singolo, mancando della capacità di ottimizzazione collaborativa sia della sicurezza che dell'utilità negli ambienti web. Per colmare questa lacuna, proponiamo HarmonyGuard, un framework collaborativo multi-agente che sfrutta il miglioramento delle politiche e l'ottimizzazione degli obiettivi per migliorare congiuntamente sia l'utilità che la sicurezza. HarmonyGuard presenta un'architettura multi-agente caratterizzata da due capacità fondamentali: (1) Miglioramento Adattivo delle Politiche: Introduciamo l'Agente delle Politiche all'interno di HarmonyGuard, che estrae e mantiene automaticamente politiche di sicurezza strutturate da documenti esterni non strutturati, aggiornando continuamente le politiche in risposta alle minacce in evoluzione. (2) Ottimizzazione a Doppio Obiettivo: Basandosi sui doppi obiettivi di sicurezza e utilità, l'Agente di Utilità integrato in HarmonyGuard esegue il ragionamento in tempo reale markoviano per valutare gli obiettivi e utilizza capacità metacognitive per la loro ottimizzazione. Valutazioni estese su più benchmark mostrano che HarmonyGuard migliora la conformità alle politiche fino al 38% e il completamento dei compiti fino al 20% rispetto alle baseline esistenti, raggiungendo oltre il 90% di conformità alle politiche in tutti i compiti. Il nostro progetto è disponibile qui: https://github.com/YurunChen/HarmonyGuard.
Presentiamo DPoser-X, un modello basato su diffusione per la rappresentazione prioritaria di pose umane 3D complete. Costruire un modello versatile e robusto per la rappresentazione prioritaria di pose umane complete rimane una sfida a causa della complessità intrinseca delle pose articolate e della scarsità di dataset di alta qualità per pose complete. Per affrontare queste limitazioni, introduciamo un modello di diffusione come prior per le pose del corpo (DPoser) e lo estendiamo a DPoser-X per la modellazione espressiva di pose umane complete. Il nostro approccio unifica vari task centrati sulle pose come problemi inversi, risolvendoli attraverso il campionamento di diffusione variazionale. Per migliorare le prestazioni nelle applicazioni downstream, introduciamo un nuovo metodo di schedulazione dei tempi troncati, specificamente progettato per le caratteristiche dei dati di pose. Proponiamo inoltre un meccanismo di addestramento mascherato che combina efficacemente dataset completi e specifici per parti del corpo, consentendo al nostro modello di catturare le interdipendenze tra le parti del corpo evitando l'overfitting su azioni specifiche. Esperimenti estensivi dimostrano la robustezza e la versatilità di DPoser-X su molteplici benchmark per la modellazione di pose del corpo, delle mani, del viso e del corpo completo. Il nostro modello supera costantemente le alternative state-of-the-art, stabilendo un nuovo punto di riferimento per la modellazione prioritaria di pose umane complete.
Il Reinforcement Learning con Ricompensa Verificabile (RLVR) ha significativamente migliorato le capacità di ragionamento complesso dei Modelli Linguistici di Grande Scala (LLM). Tuttavia, fatica a superare i limiti intrinseci del modello LLM di base, a causa della sua strategia essenzialmente on-policy combinata con l'enorme spazio di azione e la ricompensa sparsa degli LLM. In modo critico, l'RLVR può portare al collasso del confine delle capacità, riducendo l'ambito di risoluzione dei problemi dell'LLM. Per affrontare questo problema, proponiamo RL-PLUS, un nuovo approccio di ottimizzazione ibrida per gli LLM che sinergizza lo sfruttamento interno con dati esterni per ottenere capacità di ragionamento più forti e superare i limiti dei modelli di base. RL-PLUS integra due componenti principali, ovvero il Campionamento Multiplo di Importanza per affrontare la mancata corrispondenza distributiva dei dati esterni, e la Funzione di Vantaggio Basata sull'Esplorazione per guidare il modello verso percorsi di ragionamento ad alto valore e inesplorati. Forniamo sia un'analisi teorica che esperimenti estesi per dimostrare la superiorità e la generalizzabilità del nostro approccio. Rispetto ai metodi RLVR esistenti, RL-PLUS raggiunge: 1) prestazioni all'avanguardia su sei benchmark di ragionamento matematico; 2) prestazioni superiori su sei compiti di ragionamento fuori distribuzione; 3) miglioramenti consistenti e significativi attraverso diverse famiglie di modelli, con miglioramenti relativi medi fino al 69,2%. Inoltre, l'analisi delle curve Pass@k indica che RL-PLUS risolve efficacemente il problema del collasso del confine delle capacità.
Le garanzie di sicurezza in fase di compilazione di Rust lo rendono ideale per sistemi critici per la sicurezza, creando una domanda per la traduzione di codebase legacy in C verso Rust. Sebbene siano emersi vari approcci per questo compito, essi affrontano compromessi intrinseci: le soluzioni basate su regole incontrano difficoltà nel soddisfare i requisiti di sicurezza del codice e di idiomaticità, mentre le soluzioni basate su LLM spesso non riescono a generare codice Rust semanticamente equivalente, a causa delle pesanti dipendenze tra i moduli nell'intera codebase. Studi recenti hanno rivelato che entrambe le soluzioni sono limitate a programmi di piccola scala. In questo articolo, proponiamo EvoC2Rust, un framework automatizzato per convertire interi progetti C in equivalenti progetti Rust. EvoC2Rust impiega una strategia di traduzione guidata da scheletri per la traduzione a livello di progetto. La pipeline è composta da tre fasi evolutive: 1) prima decompone il progetto C in moduli funzionali, utilizza un LLM potenziato dal mapping delle caratteristiche per trasformare definizioni e macro e genera stub di funzioni verificati a livello di tipo, che formano uno scheletro Rust compilabile; 2) poi traduce gradualmente la funzione, sostituendo il corrispondente segnaposto dello stub; 3) infine, ripara gli errori di compilazione integrando LLM e analisi statica. Attraverso l'aumento evolutivo, EvoC2Rust combina i vantaggi delle soluzioni basate su regole e su LLM. La nostra valutazione su benchmark open-source e sei progetti industriali dimostra la superiorità di EvoC2Rust nella traduzione a livello di progetto da C a Rust. In media, ottiene miglioramenti del 17,24% e del 14,32% rispettivamente nell'accuratezza sintattica e semantica rispetto agli approcci basati su LLM, insieme a un tasso di sicurezza del codice superiore del 96,79% rispetto agli strumenti basati su regole. A livello di modulo, EvoC2Rust raggiunge tassi di compilazione del 92,25% e di superamento dei test dell'89,53% su progetti industriali, anche per codebase complesse e funzioni lunghe.
Mentre i progressi nelle capacità di ragionamento dei LLM hanno significativamente migliorato le loro prestazioni nella risoluzione di problemi matematici, compiti di programmazione e puzzle generali, la loro efficacia nell'aderire accuratamente alle istruzioni rimane disomogenea, specialmente con direttive più complesse. La nostra indizione identifica il ragionamento pigro durante la fase di pensiero come il fattore principale che contribuisce a una scarsa aderenza alle istruzioni. Per mitigare questo problema, proponiamo un framework completo progettato per abilitare processi di ragionamento rigorosi che includono anteprima e autocontrollo, essenziali per soddisfare vincoli di istruzione rigorosi. Nello specifico, generiamo prima istruzioni con vincoli complessi e applichiamo un processo di filtraggio per ottenere prompt validi, risultando in tre distinti dataset di prompt categorizzati come difficili, facili e pass. Successivamente, utilizziamo il campionamento per rifiuto sui prompt pass per curare un dataset piccolo ma di alta qualità, consentendo un'inizializzazione a freddo del modello e facilitando il suo adattamento a modelli di ragionamento efficaci. In seguito, impieghiamo una strategia di fine-tuning supervisionato a conservazione di entropia (Entropy-SFT) accoppiata con un apprendimento per rinforzo adattivo all'entropia a livello di token (TEA-RL) guidato da ricompense dense basate su regole. Questo approccio incoraggia il modello a trasformare il suo meccanismo di ragionamento, promuovendo infine capacità di ragionamento generalizzabili che includono anteprima e autocontrollo. Esperimenti estensivi condotti su benchmark di aderenza alle istruzioni dimostrano miglioramenti di prestazione notevoli su varie scale di modelli. In particolare, il nostro modello Light-IF-32B supera sia modelli open-source più grandi come DeepSeek-R1 che modelli closed-source come Doubao-1.6.
Il visual grounding mira a identificare oggetti o regioni in una scena basandosi su descrizioni in linguaggio naturale, essenziale per una percezione spazialmente consapevole nella guida autonoma. Tuttavia, i compiti di visual grounding esistenti dipendono tipicamente da bounding box che spesso non riescono a catturare dettagli fini. Non tutti i voxel all'interno di una bounding box sono occupati, risultando in rappresentazioni imprecise degli oggetti. Per affrontare questo problema, introduciamo un benchmark per il 3D occupancy grounding in scene esterne complesse. Costruito sul dataset nuScenes, integra il linguaggio naturale con annotazioni di occupazione a livello di voxel, offrendo una percezione degli oggetti più precisa rispetto al tradizionale compito di grounding. Inoltre, proponiamo GroundingOcc, un modello end-to-end progettato per il 3D occupancy grounding attraverso l'apprendimento multimodale. Combina caratteristiche visive, testuali e di point cloud per prevedere la posizione degli oggetti e le informazioni di occupazione da un livello grossolano a uno fine. Nello specifico, GroundingOcc comprende un encoder multimodale per l'estrazione delle caratteristiche, una testa di occupazione per previsioni voxel-wise e una testa di grounding per affinare la localizzazione. Inoltre, un modulo di grounding 2D e un modulo di stima della profondità migliorano la comprensione geometrica, aumentando così le prestazioni del modello. Esperimenti estesi sul benchmark dimostrano che il nostro metodo supera i baseline esistenti nel 3D occupancy grounding. Il dataset è disponibile all'indirizzo https://github.com/RONINGOD/GroundingOcc.
Le registrazioni musicali spesso presentano problemi di qualità audio come eccessiva riverberazione, distorsione, clipping, squilibri tonali e un'immagine stereo ristretta, specialmente quando vengono create in contesti non professionali senza attrezzature specializzate o competenze specifiche. Questi problemi vengono tipicamente corretti utilizzando strumenti specializzati separati e aggiustamenti manuali. In questo articolo, introduciamo SonicMaster, il primo modello generativo unificato per il restauro e il mastering musicale che affronta un'ampia gamma di artefatti audio con controllo basato su testo. SonicMaster è condizionato da istruzioni in linguaggio naturale per applicare miglioramenti mirati, oppure può operare in modalità automatica per un restauro generale. Per addestrare questo modello, abbiamo costruito il dataset SonicMaster, un ampio dataset di tracce degradate e di alta qualità accoppiate, simulando tipi comuni di degrado con diciannove funzioni di degrado appartenenti a cinque gruppi di miglioramento: equalizzazione, dinamica, riverbero, ampiezza e stereo. Il nostro approccio sfrutta un paradigma di addestramento generativo basato su flow-matching per apprendere una trasformazione audio che mappa gli input degradati alle loro versioni ripulite e masterizzate guidate da prompt testuali. Le metriche oggettive di qualità audio dimostrano che SonicMaster migliora significativamente la qualità del suono in tutte le categorie di artefatti. Inoltre, test di ascolto soggettivi confermano che gli ascoltatori preferiscono le uscite migliorate di SonicMaster rispetto all'audio degradato originale, evidenziando l'efficacia del nostro approccio unificato.
La valutazione della veridicità su testi lunghi misura la capacità dei modelli di generare risposte accurate e complete a partire da brevi prompt. I benchmark esistenti spesso mancano di una verifica umana, portando a potenziali problemi di qualità. Per affrontare questa limitazione, introduciamo FACTORY, un ampio set di prompt verificati da esseri umani. Sviluppato utilizzando un approccio "model-in-the-loop" e raffinato da umani, FACTORY include prompt complessi che sono orientati alla ricerca di fatti, rispondibili e non ambigui. Abbiamo condotto valutazioni umane su 6 modelli linguistici all'avanguardia utilizzando FACTORY e dataset esistenti. I nostri risultati dimostrano che FACTORY è un benchmark impegnativo: circa il 40% delle affermazioni presenti nelle risposte dei modelli SOTA non è veritiero, rispetto a solo il 10% per altri dataset. La nostra analisi evidenzia i punti di forza di FACTORY rispetto ai benchmark precedenti, sottolineandone l'affidabilità e la necessità per i modelli di ragionare su fatti a coda lunga.
L'analisi delle cause profonde (Root Cause Analysis, RCA) nelle reti mobili rimane un compito impegnativo a causa della necessità di interpretabilità, competenza di dominio e ragionamento causale. In questo lavoro, proponiamo un framework leggero che sfrutta i Large Language Models (LLM) per la RCA. A tal fine, introduciamo TeleLogs, un dataset curato di problemi di risoluzione dei guasti annotati, progettato per valutare le capacità di RCA. La nostra valutazione rivela che gli LLM open-source esistenti faticano a risolvere questi problemi, evidenziando la necessità di un adattamento specifico al dominio. Per affrontare questa problematica, proponiamo una metodologia di addestramento in due fasi che combina il fine-tuning supervisionato con l'apprendimento per rinforzo, al fine di migliorare l'accuratezza e la qualità del ragionamento degli LLM. L'approccio proposto addestra una serie di modelli RCA per integrare la conoscenza di dominio e generare spiegazioni diagnostiche strutturate e multi-step, migliorando sia l'interpretabilità che l'efficacia. Esperimenti estesi su diverse dimensioni di LLM mostrano significativi miglioramenti delle prestazioni rispetto ai modelli all'avanguardia, sia di ragionamento che non, inclusa una forte generalizzazione a varianti di test randomizzate. Questi risultati dimostrano il potenziale degli LLM adattati al dominio e potenziati nel ragionamento per una RCA pratica e spiegabile nelle operazioni e nella gestione delle reti.
La generazione da testo a 3D (T23D) ha rivoluzionato la creazione di contenuti digitali, ma rimane limitata da processi di prompt basati su tentativi ed errori che producono risultati imprevedibili. Sebbene l'ingegneria dei prompt visivi abbia fatto progressi nei domini di testo-immagine, la sua applicazione alla generazione 3D presenta sfide uniche che richiedono la valutazione della coerenza multi-vista e la comprensione spaziale. Presentiamo Sel3DCraft, un sistema di ingegneria dei prompt visivi per T23D che trasforma l'esplorazione non strutturata in un processo visivo guidato. Il nostro approccio introduce tre innovazioni chiave: una struttura a doppio ramo che combina recupero e generazione per l'esplorazione di candidati diversificati; un approccio di valutazione ibrida multi-vista che sfrutta i MLLM con metriche innovative di alto livello per valutare i modelli 3D con coerenza da esperto umano; e una suite di analisi visiva guidata da prompt che consente l'identificazione e il perfezionamento intuitivo dei difetti. Test estensivi e studi sugli utenti dimostrano che Sel3DCraft supera altri sistemi T23D nel supportare la creatività dei designer.
La guida autonoma richiede una comprensione accurata della scena, inclusa la geometria stradale, gli agenti del traffico e le loro relazioni semantiche. Negli scenari di generazione online di mappe HD, le rappresentazioni basate su raster sono ben adattate ai modelli visivi ma mancano di precisione geometrica, mentre le rappresentazioni basate su grafi mantengono i dettagli strutturali ma diventano instabili senza mappe precise. Per sfruttare i punti di forza complementari di entrambe, proponiamo DiffSemanticFusion -- un framework di fusione per la previsione e la pianificazione multimodale delle traiettorie. Il nostro approccio ragiona su uno spazio BEV fuso semanticamente con raster, arricchito da un modulo di diffusione delle mappe che migliora sia la stabilità che l'espressività delle rappresentazioni online delle mappe HD. Validiamo il nostro framework su due task downstream: la previsione delle traiettorie e la guida autonoma end-to-end orientata alla pianificazione. Gli esperimenti sui benchmark di guida autonoma del mondo reale, nuScenes e NAVSIM, dimostrano un miglioramento delle prestazioni rispetto a diversi metodi all'avanguardia. Per il task di previsione su nuScenes, integriamo DiffSemanticFusion con QCNet informato dalla mappa HD online, ottenendo un miglioramento delle prestazioni del 5,1%. Per la guida autonoma end-to-end in NAVSIM, DiffSemanticFusion raggiunge risultati all'avanguardia, con un guadagno di prestazioni del 15% negli scenari NavHard. Inoltre, ampi studi di ablazione e sensibilità mostrano che il nostro modulo di diffusione delle mappe può essere integrato senza soluzione di continuità in altri approcci basati su vettori per migliorare le prestazioni. Tutti gli artefatti sono disponibili su https://github.com/SunZhigang7/DiffSemanticFusion.
Il rilevamento di anomalie 3D (AD) ha dimostrato un grande potenziale nell'individuazione di anomalie o difetti di prodotti industriali ad alta precisione. Tuttavia, i metodi esistenti sono tipicamente addestrati in modo specifico per classe e mancano della capacità di apprendere da nuove classi emergenti. In questo studio, abbiamo proposto un framework di apprendimento continuo denominato Continual 3D Anomaly Detection (C3D-AD), che non solo è in grado di apprendere rappresentazioni generalizzate per nuvole di punti multi-classe, ma anche di gestire nuove classi che emergono nel tempo. Nello specifico, nel modulo di estrazione delle caratteristiche, per estrarre efficacemente caratteristiche locali generalizzate da diversi tipi di prodotti di diverse attività, viene introdotto il Kernel Attention con random feature Layer (KAL), che normalizza lo spazio delle caratteristiche. Successivamente, per ricostruire i dati in modo corretto e continuo, viene proposto un meccanismo efficiente di Kernel Attention con Advisor apprendibile (KAA), che apprende le informazioni dalle nuove categorie mentre scarta le vecchie informazioni ridondanti sia nell'encoder che nel decoder. Infine, per mantenere la coerenza della rappresentazione tra i compiti, viene proposto un modulo di Ricostruzione con Perturbazione dei Parametri (RPP) progettando una funzione di perdita di rehearsal della rappresentazione, che assicura che il modello ricordi le informazioni delle categorie precedenti e restituisca una rappresentazione adattiva alla categoria. Esperimenti estensivi su tre dataset pubblici dimostrano l'efficacia del metodo proposto, raggiungendo una performance media del 66,4%, 83,1% e 63,4% AUROC rispettivamente su Real3D-AD, Anomaly-ShapeNet e MulSen-AD.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) migliora le capacità di seguire le istruzioni nei grandi modelli linguistici (LLM), ma soffre di inefficienza nell'addestramento a causa di una valutazione inadeguata della difficoltà. Inoltre, l'RLVR è soggetto a sovra-ottimizzazione, in cui i LLM sfruttano scorciatoie di verifica senza allinearsi all'intento effettivo delle istruzioni dell'utente. Introduciamo Instruction Following Decorator (IFDecorator), un framework che integra l'addestramento RLVR in una pipeline robusta ed efficiente in termini di campioni. Esso è composto da tre componenti: (1) un volano di dati cooperativo-avversario che co-evolve istruzioni e verifiche ibride, generando coppie istruzione-verifica progressivamente più impegnative; (2) IntentCheck, un modulo di bypass che impone l'allineamento all'intento; e (3) trip wire, un meccanismo diagnostico che rileva il reward hacking tramite istruzioni trappola, che attivano e catturano comportamenti di sfruttamento delle scorciatoie. Il nostro Qwen2.5-32B-Instruct-IFDecorator raggiunge un'accuratezza dell'87,43% su IFEval, superando modelli proprietari più grandi come GPT-4o. Inoltre, dimostriamo miglioramenti sostanziali su FollowBench mantenendo le capacità generali. I nostri trip wire mostrano riduzioni significative nei tassi di reward hacking. Rilasceremo modelli, codice e dati per future ricerche.
Allineamento e uniformità sono principi fondamentali nel dominio dell'apprendimento contrastivo. Nei sistemi di raccomandazione, lavori precedenti hanno stabilito che l'ottimizzazione della funzione di perdita Bayesian Personalized Ranking (BPR) contribuisce agli obiettivi di allineamento e uniformità. Nello specifico, l'allineamento mira ad avvicinare le rappresentazioni di utenti e oggetti che interagiscono, mentre l'uniformità impone una distribuzione uniforme degli embedding di utenti e oggetti su una ipersfera unitaria. Questo studio riprende le proprietà di allineamento e uniformità nel contesto dei sistemi di raccomandazione multimodale, rivelando una tendenza nei modelli esistenti a privilegiare l'uniformità a discapito dell'allineamento. La nostra ipotesi mette in discussione l'assunzione convenzionale di un trattamento equo degli oggetti attraverso una funzione di perdita per l'uniformità, proponendo un approccio più sfumato in cui oggetti con attributi multimodali simili convergono verso rappresentazioni prossime all'interno del manifold ipersferico. Nello specifico, sfruttiamo la somiglianza intrinseca tra i dati multimodali degli oggetti per calibrare la loro distribuzione di uniformità, inducendo così una forza repulsiva più marcata tra entità dissimili nello spazio di embedding. Un'analisi teorica chiarisce la relazione tra questa funzione di perdita per l'uniformità calibrata e la funzione di uniformità convenzionale. Inoltre, per migliorare la fusione delle caratteristiche multimodali, introduciamo un metodo Spherical Bézier progettato per integrare un numero arbitrario di modalità, garantendo che le caratteristiche fuse risultanti siano vincolate allo stesso manifold ipersferico. Valutazioni empiriche condotte su cinque dataset del mondo reale confermano la superiorità del nostro approccio rispetto ai baseline concorrenti. Dimostriamo inoltre che i metodi proposti possono ottenere un incremento fino al 5,4% nelle prestazioni di NDCG@20 attraverso l'integrazione di caratteristiche estratte da MLLM. Il codice sorgente è disponibile all'indirizzo: https://github.com/enoche/CM3.
I modelli di diffusione text-to-image hanno dimostrato capacità straordinarie nella generazione di contenuti artistici apprendendo da miliardi di immagini, incluse opere d'arte popolari. Tuttavia, la questione fondamentale di come questi modelli rappresentino internamente concetti, come contenuto e stile nei dipinti, rimane inesplorata. La visione artificiale tradizionale presuppone che contenuto e stile siano ortogonali, ma i modelli di diffusione non ricevono alcuna guida esplicita su questa distinzione durante l'addestramento. In questo lavoro, indaghiamo come i modelli di diffusione text-to-image basati su transformer codifichino i concetti di contenuto e stile durante la generazione di opere d'arte. Utilizziamo mappe di calore cross-attention per attribuire i pixel nelle immagini generate a specifici token del prompt, consentendoci di isolare le regioni dell'immagine influenzate da token che descrivono il contenuto rispetto a quelli che descrivono lo stile. Le nostre scoperte rivelano che i modelli di diffusione mostrano diversi gradi di separazione tra contenuto e stile a seconda del prompt artistico specifico e dello stile richiesto. In molti casi, i token di contenuto influenzano principalmente le regioni relative agli oggetti, mentre i token di stile influenzano lo sfondo e le aree di texture, suggerendo una comprensione emergente della distinzione tra contenuto e stile. Questi approfondimenti contribuiscono alla nostra comprensione di come i modelli generativi su larga scala rappresentino internamente concetti artistici complessi senza una supervisione esplicita. Condividiamo il codice e il dataset, insieme a uno strumento esplorativo per visualizzare le mappe di attenzione all'indirizzo https://github.com/umilISLab/artistic-prompt-interpretation.
In questo articolo, affrontiamo approcci per governare, valutare e quantificare sistematicamente i pregiudizi lungo l'intero ciclo di vita dei modelli di machine learning, dallo sviluppo e validazione iniziale al monitoraggio continuo in produzione e all'implementazione di meccanismi di salvaguardia. Basandoci sul nostro lavoro fondamentale sul Bias Evaluation and Assessment Test Suite (BEATS) per i Large Language Models (LLM), gli autori condividono le lacune prevalenti relative ai pregiudizi e all'equità nei LLM e discutono un framework di governance dei dati e dell'IA per affrontare i temi di Bias, Etica, Equità e Veridicità all'interno dei LLM. L'approccio di governance dei dati e dell'IA discusso in questo articolo è adatto per applicazioni pratiche nel mondo reale, consentendo un benchmarking rigoroso dei LLM prima della distribuzione in produzione, facilitando una valutazione continua in tempo reale e governando proattivamente le risposte generate dai LLM. Implementando la governance dei dati e dell'IA lungo l'intero ciclo di sviluppo dell'IA, le organizzazioni possono migliorare significativamente la sicurezza e la responsabilità dei loro sistemi GenAI, mitigando efficacemente i rischi di discriminazione e proteggendosi da potenziali danni reputazionali o legati al brand. In definitiva, attraverso questo articolo, miriamo a contribuire al progresso della creazione e distribuzione di applicazioni generative di intelligenza artificiale socialmente responsabili e allineate eticamente.
I modelli linguistici multimodali (MLM) mostrano un potenziale promettente per il supporto alle decisioni cliniche e il ragionamento diagnostico, aprendo la prospettiva di un'interpretazione automatizzata end-to-end delle immagini mediche. Tuttavia, i clinici sono estremamente selettivi nell'adozione di strumenti di intelligenza artificiale; un modello che commette errori in compiti percettivi apparentemente semplici, come determinare l'orientamento di un'immagine o identificare se una scansione TC è con mezzo di contrasto, è improbabile che venga adottato per compiti clinici. Presentiamo Medblink, un benchmark progettato per valutare queste capacità percettive nei modelli. Medblink copre otto compiti clinicamente significativi attraverso diverse modalità di imaging e regioni anatomiche, per un totale di 1.429 domande a scelta multipla su 1.605 immagini. Valutiamo 19 MLM all'avanguardia, inclusi modelli generici (GPT4o, Claude 3.5 Sonnet) e specifici per il dominio (Med Flamingo, LLaVA Med, RadFM). Mentre gli annotatori umani raggiungono un'accuratezza del 96,4%, il modello con le migliori prestazioni arriva solo al 65%. Questi risultati dimostrano che gli attuali MLM falliscono spesso nei controlli percettivi di routine, suggerendo la necessità di rafforzare il loro ancoraggio visivo per favorire l'adozione clinica. I dati sono disponibili sulla pagina del progetto.