Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) e nei sistemi multi-agente hanno dimostrato capacità straordinarie in compiti complessi di problem solving come la ricerca approfondita, il "vibe coding" e il ragionamento matematico. Tuttavia, la maggior parte dei sistemi multi-agente esistenti si basa su un'ingegnerizzazione manuale di prompt/flussi di lavoro con framework di agenti sofisticati, rendendoli computazionalmente inefficienti, meno capaci e incapaci di trarre vantaggio dall'apprendimento centrato sui dati. In questo lavoro, introduciamo Chain-of-Agents (CoA), un nuovo paradigma di ragionamento LLM che abilita il problem solving complesso end-to-end nativo nello stesso modo di un sistema multi-agente (cioè, risoluzione di problemi multi-turn con più strumenti e più agenti) all'interno di un unico modello. Nella risoluzione di problemi con chain-of-agents, il modello attiva dinamicamente diversi agenti strumentali e agenti di ruolo per simulare la collaborazione multi-agente in modo end-to-end. Per elicitare le capacità di problem solving end-to-end con chain-of-agents negli LLM, introduciamo un framework di distillazione multi-agente per distillare sistemi multi-agente all'avanguardia in traiettorie chain-of-agents per il fine-tuning supervisionato agentico. Utilizziamo poi l'apprendimento per rinforzo agentico su compiti agentici verificabili per migliorare ulteriormente le capacità dei modelli nella risoluzione di problemi con chain-of-agents. Chiamiamo i modelli risultanti Agent Foundation Models (AFM). I nostri studi empirici dimostrano che AFM stabilisce nuove prestazioni all'avanguardia su diversi benchmark sia in contesti di agenti web che di agenti di codice. Rendiamo l'intera ricerca, inclusi i pesi del modello, il codice per l'addestramento e la valutazione, e i dati di addestramento, completamente open-source, offrendo un solido punto di partenza per future ricerche sui modelli agentici e sull'apprendimento per rinforzo agentico.
LongSplat affronta le sfide critiche nella sintesi di nuove visualizzazioni (NVS) a partire da video lunghi acquisiti casualmente, caratterizzati da movimenti irregolari della telecamera, pose della telecamera sconosciute e scene ampie. I metodi attuali spesso soffrono di deriva delle pose, inizializzazione geometrica imprecisa e gravi limitazioni di memoria. Per risolvere questi problemi, introduciamo LongSplat, un robusto framework di 3D Gaussian Splatting senza pose che include: (1) Ottimizzazione Incrementale Congiunta che ottimizza simultaneamente le pose della telecamera e i Gaussian 3D per evitare minimi locali e garantire coerenza globale; (2) un Modulo di Stima delle Pose Robusto che sfrutta prior 3D appresi; e (3) un meccanismo efficiente di Formazione di Ancore Octree che converte nuvole di punti dense in ancore basate sulla densità spaziale. Esperimenti estesi su benchmark impegnativi dimostrano che LongSplat raggiunge risultati all'avanguardia, migliorando sostanzialmente la qualità del rendering, l'accuratezza delle pose e l'efficienza computazionale rispetto agli approcci precedenti. Pagina del progetto: https://linjohnss.github.io/longsplat/
I Large Language Model (LLM) richiedono prompt sofisticati, ma le pratiche attuali affrontano sfide relative a struttura, integrazione dei dati, sensibilità al formato e strumentazione. I metodi esistenti mancano di soluzioni complete per organizzare prompt complessi che coinvolgono diversi tipi di dati (documenti, tabelle, immagini) o per gestire sistematicamente le variazioni di presentazione. Per colmare queste lacune, introduciamo POML (Prompt Orchestration Markup Language). POML utilizza un markup basato su componenti per la struttura logica (ruoli, compiti, esempi), tag specializzati per un'integrazione fluida dei dati e un sistema di stile simile al CSS per separare il contenuto dalla presentazione, riducendo la sensibilità al formato. Include template per prompt dinamici e un toolkit completo per sviluppatori (supporto IDE, SDK) per migliorare il controllo delle versioni e la collaborazione. Validiamo POML attraverso due casi di studio che ne dimostrano l'impatto sull'integrazione di applicazioni complesse (PomLink) e sulle prestazioni di accuratezza (TableQA), oltre a uno studio utenti che ne valuta l'efficacia in scenari di sviluppo reali.
I designer visivi traggono naturalmente ispirazione da molteplici riferimenti visivi, combinando elementi diversi e principi estetici per creare opere d'arte. Tuttavia, gli attuali framework di generazione di immagini si basano principalmente su input provenienti da una singola fonte, siano essi prompt testuali o immagini di riferimento individuali. In questo articolo, ci concentriamo sul compito di generazione controllata di immagini utilizzando più riferimenti visivi. Introduciamo MultiRef-bench, un rigoroso framework di valutazione composto da 990 campioni sintetici e 1.000 campioni reali che richiedono l'incorporazione di contenuti visivi da più immagini di riferimento. I campioni sintetici sono generati sinteticamente attraverso il nostro motore di dati RefBlend, con 10 tipi di riferimento e 33 combinazioni di riferimento. Basandoci su RefBlend, abbiamo ulteriormente costruito un dataset chiamato MultiRef contenente 38k immagini di alta qualità per facilitare ulteriori ricerche. I nostri esperimenti su tre modelli interconnessi immagine-testo (ovvero OmniGen, ACE e Show-o) e sei framework agentici (ad esempio, ChatDiT e LLM + SD) rivelano che anche i sistemi più avanzati faticano a gestire il condizionamento multi-riferimento, con il miglior modello, OmniGen, che raggiunge solo il 66,6% nei campioni sintetici e il 79,0% nei casi reali in media rispetto alla risposta ideale. Questi risultati forniscono indicazioni preziose per lo sviluppo di strumenti creativi più flessibili e simili a quelli umani, in grado di integrare efficacemente più fonti di ispirazione visiva. Il dataset è disponibile pubblicamente all'indirizzo: https://multiref.github.io/.
Gli agenti AI con capacità avanzate di ragionamento e utilizzo di strumenti hanno dimostrato prestazioni impressionanti nella navigazione web per ricerche approfondite. Sebbene benchmark esistenti come BrowseComp valutino queste abilità di navigazione, si concentrano principalmente su informazioni testuali, trascurando la prevalenza di contenuti multimodali. Per colmare questa lacuna, introduciamo MM-BrowseComp, un nuovo benchmark composto da 224 domande complesse e accuratamente progettate per valutare le capacità di recupero e ragionamento multimodale degli agenti. Queste domande spesso incorporano immagini nei prompt, e informazioni cruciali incontrate durante il processo di ricerca e ragionamento possono essere incorporate anche in immagini o video presenti nelle pagine web. Di conseguenza, i metodi che si basano esclusivamente sul testo si rivelano insufficienti per il nostro benchmark. Inoltre, forniamo una checklist verificata per ogni domanda, consentendo un'analisi granulare delle dipendenze multimodali e dei percorsi di ragionamento. La nostra valutazione completa dei modelli all'avanguardia su MM-BrowseComp rivela che anche i modelli migliori come OpenAI o3 con strumenti raggiungono solo il 29,02% di accuratezza, evidenziando le capacità multimodali subottimali e la mancanza di ragionamento multimodale nativo nei modelli attuali.
La generalizzazione nell'IA incarnata è ostacolata dal "divario tra visione e azione", che deriva dalla scarsità di dati e dall'eterogeneità dell'incarnazione. Per affrontare questo problema, introduciamo il "puntamento" come rappresentazione intermedia unificata e indipendente dall'incarnazione, definendo quattro abilità fondamentali di puntamento incarnato che collegano la comprensione di alto livello tra visione e linguaggio con le primitive d'azione di basso livello. Presentiamo Embodied-R1, un modello visione-linguaggio (VLM) da 3B specificamente progettato per il ragionamento incarnato e il puntamento. Utilizziamo una vasta gamma di dataset di ragionamento visivo generale e incarnato come fonti per costruire un dataset su larga scala, Embodied-Points-200K, che supporta le capacità chiave di puntamento incarnato. Addestriamo quindi Embodied-R1 utilizzando un curriculum di fine-tuning rinforzato (RFT) in due fasi con un design di ricompensa multi-task specializzato. Embodied-R1 raggiunge prestazioni all'avanguardia su 11 benchmark spaziali e di puntamento incarnato. In modo critico, dimostra una robusta generalizzazione zero-shot ottenendo un tasso di successo del 56,2% in SIMPLEREnv e dell'87,5% su 8 task reali con XArm senza alcun fine-tuning specifico per il task, rappresentando un miglioramento del 62% rispetto ai baseline forti. Inoltre, il modello mostra un'elevata robustezza contro diverse perturbazioni visive. Il nostro lavoro dimostra che una rappresentazione centrata sul puntamento, combinata con un paradigma di addestramento RFT, offre un percorso efficace e generalizzabile per colmare il divario percezione-azione nella robotica.
La modifica guidata da testo dei colori in immagini e video è un problema fondamentale ma ancora irrisolto, che richiede una manipolazione fine degli attributi di colore, inclusi albedo, colore della sorgente luminosa e illuminazione ambientale, preservando al contempo la coerenza fisica nella geometria, nelle proprietà dei materiali e nelle interazioni luce-materia. I metodi esistenti che non richiedono addestramento offrono un'ampia applicabilità in vari compiti di modifica, ma faticano a ottenere un controllo preciso dei colori e spesso introducono incoerenze visive sia nelle regioni modificate che in quelle non modificate. In questo lavoro, presentiamo ColorCtrl, un metodo di modifica dei colori che non richiede addestramento e sfrutta i meccanismi di attenzione dei moderni Multi-Modal Diffusion Transformers (MM-DiT). Disaccoppiando struttura e colore attraverso una manipolazione mirata delle mappe di attenzione e dei token di valore, il nostro metodo consente una modifica accurata e coerente dei colori, insieme a un controllo a livello di parola dell'intensità degli attributi. Il nostro metodo modifica solo le regioni specificate dal prompt, lasciando inalterate le aree non interessate. Esperimenti estensivi su SD3 e FLUX.1-dev dimostrano che ColorCtrl supera gli approcci esistenti che non richiedono addestramento e raggiunge prestazioni all'avanguardia sia nella qualità che nella coerenza delle modifiche. Inoltre, il nostro metodo supera modelli commerciali robusti come FLUX.1 Kontext Max e GPT-4o Image Generation in termini di coerenza. Quando esteso a modelli video come CogVideoX, il nostro approccio mostra vantaggi ancora maggiori, in particolare nel mantenere la coerenza temporale e la stabilità delle modifiche. Infine, il nostro metodo si generalizza anche a modelli di diffusione basati su istruzioni come Step1X-Edit e FLUX.1 Kontext dev, dimostrando ulteriormente la sua versatilità.
Il Virtual Try-On (VTON) è un compito pratico e ampiamente applicato, per il quale la maggior parte dei lavori esistenti si concentra sugli abiti. Questo articolo presenta OmniTry, un framework unificato che estende il VTON oltre i capi di abbigliamento per includere qualsiasi oggetto indossabile, ad esempio gioielli e accessori, con un'impostazione senza maschera per un'applicazione più pratica. Quando si estende a vari tipi di oggetti, la cura dei dati è impegnativa per ottenere immagini accoppiate, ovvero l'immagine dell'oggetto e il risultato corrispondente del try-on. Per affrontare questo problema, proponiamo una pipeline in due fasi: nella prima fase, sfruttiamo immagini non accoppiate su larga scala, ovvero ritratti con qualsiasi oggetto indossabile, per addestrare il modello per la localizzazione senza maschera. Nello specifico, riutilizziamo il modello di inpainting per disegnare automaticamente gli oggetti in posizioni adeguate data una maschera vuota. Nella seconda fase, il modello viene ulteriormente perfezionato con immagini accoppiate per trasferire la coerenza dell'aspetto dell'oggetto. Abbiamo osservato che il modello dopo la prima fase mostra una rapida convergenza anche con pochi campioni accoppiati. OmniTry è valutato su un benchmark completo costituito da 12 classi comuni di oggetti indossabili, con immagini sia in negozio che in contesti reali. I risultati sperimentali suggeriscono che OmniTry mostra prestazioni migliori sia nella localizzazione degli oggetti che nella conservazione dell'ID rispetto ai metodi esistenti. Il codice, i pesi del modello e il benchmark di valutazione di OmniTry saranno resi pubblicamente disponibili su https://omnitry.github.io/.
La valutazione di raccomandazioni personalizzate rimane una sfida centrale, specialmente in domini audio di lunga durata come i podcast, dove le metriche offline tradizionali soffrono di bias di esposizione e i metodi online come i test A/B sono costosi e operativamente limitati. In questo articolo, proponiamo un nuovo framework che sfrutta i Large Language Models (LLM) come giudici offline per valutare la qualità delle raccomandazioni di podcast in modo scalabile e interpretabile. Il nostro approccio a due stadi, consapevole del profilo, costruisce prima profili utente in linguaggio naturale distillati da 90 giorni di cronologia di ascolto. Questi profili riassumono sia gli interessi tematici che i modelli comportamentali, fungendo da rappresentazioni compatte e interpretabili delle preferenze dell'utente. Invece di fornire al LLM dati grezzi, utilizziamo questi profili per fornire un contesto di alto livello e semanticamente ricco, consentendo al LLM di ragionare in modo più efficace sull'allineamento tra gli interessi dell'utente e gli episodi raccomandati. Ciò riduce la complessità dell'input e migliora l'interpretabilità. Il LLM viene quindi sollecitato a fornire giudizi puntuali e a coppie basati sulla corrispondenza profilo-episodio. In uno studio controllato con 47 partecipanti, il nostro giudice consapevole del profilo ha corrisposto ai giudizi umani con alta fedeltà e ha superato o eguagliato una variante che utilizzava cronologie di ascolto grezze. Il framework consente una valutazione efficiente e consapevole del profilo per test iterativi e selezione di modelli nei sistemi di raccomandazione.
Il campo della separazione del parlato, che affronta il "problema del cocktail party", ha registrato progressi rivoluzionari grazie alle reti neurali profonde (DNN). La separazione del parlato migliora la chiarezza in ambienti acustici complessi e funge da pre-elaborazione cruciale per il riconoscimento vocale e il riconoscimento del parlante. Tuttavia, la letteratura attuale si concentra in modo ristretto su architetture specifiche o approcci isolati, creando una comprensione frammentata. Questa rassegna colma questa lacuna fornendo un esame sistematico delle tecniche di separazione del parlato basate su DNN. Il nostro lavoro si distingue per: (I) Prospettiva completa: Esaminiamo sistematicamente i paradigmi di apprendimento, gli scenari di separazione con parlanti noti/sconosciuti, l'analisi comparativa di framework supervisionati/auto-supervisionati/non supervisionati e i componenti architetturali dagli encoder alle strategie di stima. (II) Tempestività: La copertura degli sviluppi all'avanguardia garantisce l'accesso alle innovazioni e ai benchmark più recenti. (III) Approfondimenti unici: Oltre alla sintesi, valutiamo le traiettorie tecnologiche, identifichiamo modelli emergenti e evidenziamo direzioni promettenti, tra cui framework robusti rispetto al dominio, architetture efficienti, integrazione multimodale e nuovi paradigmi auto-supervisionati. (IV) Valutazione equa: Forniamo valutazioni quantitative su dataset standard, rivelando le vere capacità e limitazioni dei diversi metodi. Questa rassegna completa funge da riferimento accessibile sia per ricercatori esperti che per i nuovi arrivati che navigano nel complesso panorama della separazione del parlato.
Questo studio indaga l'uso di Large Language Models (LLM) per prevedere punteggi di miseria percepita dall'uomo a partire da descrizioni in linguaggio naturale di scenari del mondo reale. Il compito è inquadrato come un problema di regressione, in cui il modello assegna un valore scalare da 0 a 100 a ciascuna dichiarazione in input. Valutiamo diverse strategie di prompting, tra cui zero-shot, few-shot a contesto fisso e prompting basato su retrieval utilizzando embeddings di frasi BERT. Gli approcci few-shot superano costantemente i baseline zero-shot, sottolineando il valore degli esempi contestuali nella previsione affettiva. Per andare oltre la valutazione statica, introduciamo il "Misery Game Show", un nuovo framework gamificato ispirato a un format televisivo. Esso mette alla prova i LLM attraverso round strutturati che coinvolgono confronto ordinale, classificazione binaria, stima scalare e ragionamento guidato dal feedback. Questa configurazione ci consente di valutare non solo l'accuratezza predittiva, ma anche la capacità del modello di adattarsi in base a feedback correttivi. La valutazione gamificata evidenzia il potenziale più ampio dei LLM in compiti di ragionamento emotivo dinamico che vanno oltre la regressione standard. Codice e dati disponibili al link: https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato prestazioni notevoli in una vasta gamma di compiti, mancano fondamentalmente di autoconsapevolezza e mostrano frequentemente un'eccessiva sicurezza, attribuendo punteggi di fiducia elevati a previsioni errate. Una stima accurata della confidenza è quindi cruciale per migliorare l'affidabilità e la credibilità degli output generati dagli LLM. Tuttavia, gli approcci esistenti soffrono di meccanismi di valutazione grossolani che non riescono a fornire stime di confidenza continue e granulari durante il processo di generazione. Per affrontare queste limitazioni, introduciamo FineCE, un nuovo metodo di stima della confidenza che fornisce punteggi di confidenza accurati e granulari durante la generazione del testo. Nello specifico, sviluppiamo prima una pipeline completa per la costruzione di dati di addestramento che catturano efficacemente la distribuzione probabilistica sottostante delle risposte degli LLM, e poi addestriamo un modello per prevedere i punteggi di confidenza per sequenze di testo arbitrarie in modo supervisionato. Inoltre, proponiamo una strategia di Integrazione della Confidenza all'Indietro (BCI) che sfrutta le informazioni dal testo successivo per migliorare la stima della confidenza per la sequenza corrente durante l'inferenza. Introduciamo anche tre strategie per identificare le posizioni ottimali in cui eseguire la stima della confidenza all'interno del processo di generazione. Esperimenti estesi su più dataset di benchmark dimostrano che FineCE supera costantemente i metodi classici di stima della confidenza esistenti. Il nostro codice e tutte le baseline utilizzate nel documento sono disponibili su GitHub.
I recenti progressi nell'auto-affinamento hanno dimostrato un potenziale significativo per migliorare gli output dei grandi modelli linguistici (LLM) attraverso un affinamento iterativo. Tuttavia, la maggior parte dei metodi esistenti di auto-affinamento si basa su un processo reattivo con un numero fisso di iterazioni, rendendo difficile determinare il momento ottimale e il contenuto dell'affinamento in base al contesto di generazione in evoluzione. Ispirati dal modo in cui gli esseri umani affinano dinamicamente i propri pensieri durante l'esecuzione, proponiamo ProActive Self-Refinement (PASR), un metodo innovativo che consente ai LLM di affinare i propri output durante il processo di generazione. A differenza dei metodi che rigenerano intere risposte, PASR decide proattivamente se, quando e come affinare in base allo stato interno del modello e al contesto in evoluzione. Abbiamo condotto esperimenti approfonditi su un insieme diversificato di 10 task per valutare l'efficacia di PASR. I risultati sperimentali mostrano che PASR migliora significativamente le prestazioni nella risoluzione dei problemi. In particolare, su Qwen3-8B, PASR riduce il consumo medio di token del 41,6% rispetto alla generazione standard, ottenendo anche un miglioramento dell'8,2% in termini di accuratezza. Il nostro codice e tutte le baseline utilizzate nel documento sono disponibili su GitHub.
I recenti modelli di flow matching per la generazione di immagini da testo hanno raggiunto una qualità notevole, ma la loro integrazione con l'apprendimento per rinforzo per l'allineamento alle preferenze umane rimane subottimale, ostacolando l'ottimizzazione basata su ricompense a grana fine. Osserviamo che il principale impedimento a un efficace addestramento GRPO dei modelli di flow è l'assunzione di uniformità temporale negli approcci esistenti: ricompense terminali sparse con assegnazione uniforme del credito non riescono a catturare la variabile criticità delle decisioni attraverso i passaggi temporali della generazione, risultando in un'esplorazione inefficiente e una convergenza subottimale. Per rimediare a questa carenza, introduciamo TempFlow-GRPO (Temporal Flow GRPO), un framework GRPO basato su principi che cattura e sfrutta la struttura temporale intrinseca nella generazione basata su flow. TempFlow-GRPO introduce due innovazioni chiave: (i) un meccanismo di ramificazione delle traiettorie che fornisce ricompense di processo concentrando la stocasticità in punti di ramificazione designati, consentendo un'assegnazione precisa del credito senza richiedere modelli di ricompensa intermedi specializzati; e (ii) uno schema di ponderazione consapevole del rumore che modula l'ottimizzazione della politica in base al potenziale intrinseco di esplorazione di ciascun passaggio temporale, dando priorità all'apprendimento durante le fasi iniziali ad alto impatto mentre garantisce un affinamento stabile nelle fasi successive. Queste innovazioni conferiscono al modello un'ottimizzazione temporalmente consapevole che rispetta le dinamiche generative sottostanti, portando a prestazioni all'avanguardia nell'allineamento alle preferenze umane e nei benchmark standard di generazione di immagini da testo.
La comprensione audio - inclusi discorsi, suoni non verbali e musica - è essenziale per raggiungere un'intelligenza di livello umano. Di conseguenza, gli agenti di IA devono dimostrare una comprensione audio olistica per qualificarsi come generalmente intelligenti. Tuttavia, valutare in modo completo l'intelligenza uditiva rimane una sfida. Per colmare questa lacuna, introduciamo MMAU-Pro, il benchmark più completo e rigorosamente curato per valutare l'intelligenza audio nei sistemi di IA. MMAU-Pro contiene 5.305 istanze, in cui ciascuna istanza ha uno o più audio abbinati a coppie domanda-risposta generate da esperti umani, che coprono discorsi, suoni, musica e loro combinazioni. A differenza dei benchmark esistenti, MMAU-Pro valuta l'intelligenza uditiva attraverso 49 abilità uniche e molteplici dimensioni complesse, tra cui la comprensione di audio di lunga durata, il ragionamento spaziale audio, la comprensione di più audio, tra gli altri. Tutte le domande sono meticolosamente progettate per richiedere un ragionamento multi-hop deliberato, includendo sia formati a scelta multipla che a risposta aperta. È importante sottolineare che i dati audio sono raccolti direttamente "dal mondo reale" piuttosto che da dataset esistenti con distribuzioni note. Valutiamo 22 modelli di IA multimodali open-source e proprietari leader, rivelando limitazioni significative: anche modelli all'avanguardia come Gemini 2.5 Flash e Audio Flamingo 3 raggiungono solo il 59,2% e il 51,7% di accuratezza, rispettivamente, avvicinandosi a prestazioni casuali in più categorie. La nostra analisi estesa evidenzia specifiche carenze e fornisce nuove intuizioni, offrendo prospettive attuabili per la comunità per migliorare il progresso futuro dei sistemi di IA verso l'intelligenza audio generale. Il benchmark e il codice sono disponibili all'indirizzo https://sonalkum.github.io/mmau-pro.
L'apprendimento per rinforzo multi-agente (MARL) è un paradigma potente per risolvere problemi decisionali cooperativi e competitivi. Sebbene siano stati proposti numerosi benchmark per il MARL, pochi combinano spazi di stato e azioni continui con compiti impegnativi di coordinamento e pianificazione. Introduciamo CAMAR, un nuovo benchmark MARL progettato specificamente per il pathfinding multi-agente in ambienti con azioni continue. CAMAR supporta interazioni sia cooperative che competitive tra agenti e funziona in modo efficiente fino a 100.000 passi di ambiente al secondo. Proponiamo inoltre un protocollo di valutazione a tre livelli per monitorare meglio i progressi algoritmici e consentire un'analisi più approfondita delle prestazioni. Inoltre, CAMAR consente l'integrazione di metodi di pianificazione classici come RRT e RRT* nelle pipeline MARL. Li utilizziamo come baseline autonomi e combiniamo RRT* con popolari algoritmi MARL per creare approcci ibridi. Forniamo una suite di scenari di test e strumenti di benchmarking per garantire riproducibilità e confronti equi. Gli esperimenti dimostrano che CAMAR rappresenta un banco di prova impegnativo e realistico per la comunità MARL.
Questo rapporto tecnico descrive un approccio innovativo per combinare il ragionamento e la generazione aumentata da recupero (RAG) all'interno di un'unica architettura di modello linguistico snella. Mentre i sistemi RAG esistenti si basano tipicamente su modelli su larga scala e API esterne, il nostro lavoro risponde alla crescente domanda di soluzioni performanti e rispettose della privacy, implementabili in ambienti con risorse limitate o sicuri. Basandoci sui recenti sviluppi nel ridimensionamento al momento del test e nei modelli di ragionamento su piccola scala, abbiamo sviluppato un agente conversazionale aumentato da recupero in grado di interpretare query complesse e specifiche del dominio utilizzando un modello leggero. Il nostro sistema integra un recuperatore denso con modelli Qwen2.5-Instruct ottimizzati, utilizzando la generazione sintetica di query e tracce di ragionamento derivate da modelli all'avanguardia (ad esempio, DeepSeek-R1) su un corpus curato, in questo caso le pagine delle condizioni A-to-Z del NHS. Esploriamo l'impatto della compressione dei documenti basata sulla sintesi, del design dei dati sintetici e dell'ottimizzazione consapevole del ragionamento sulle prestazioni del modello. La valutazione rispetto a modelli snelli non deduttivi e di uso generale dimostra che il nostro approccio di ottimizzazione specifica per il dominio produce guadagni sostanziali in termini di accuratezza e coerenza delle risposte, avvicinandosi alle prestazioni di livello all'avanguardia pur rimanendo fattibile per l'implementazione locale. Tutti i dettagli di implementazione e il codice sono resi pubblicamente disponibili per supportare la riproducibilità e l'adattamento tra i vari domini.
I sistemi di raccomandazione video esistenti si basano principalmente su metadati definiti dall'utente o su segnali visivi e acustici di basso livello estratti da encoder specializzati. Queste caratteristiche di basso livello descrivono ciò che appare sullo schermo, ma non catturano la semantica più profonda, come l'intenzione, l'umorismo e la conoscenza del mondo, che rendono i clip significativi per gli spettatori. Ad esempio, un clip di 30 secondi è semplicemente un cantante su un tetto o una parodia ironica girata tra i camini delle fate di Cappadocia, in Turchia? Queste distinzioni sono cruciali per le raccomandazioni personalizzate, ma rimangono invisibili alle pipeline di codifica tradizionali. In questo articolo, introduciamo un framework semplice e indipendente dal sistema di raccomandazione, senza necessità di fine-tuning, che inietta semantica di alto livello nella pipeline di raccomandazione utilizzando un modello linguistico multimodale (MLLM) preesistente per riassumere ogni clip in una descrizione ricca in linguaggio naturale (ad esempio, "una parodia di supereroi con combattimenti slapstick e stacchi orchestrali"), colmando il divario tra contenuto grezzo e intento dell'utente. Utilizziamo l'output dell'MLLM con un encoder di testo all'avanguardia e lo alimentiamo in raccomandatori standard collaborativi, basati sul contenuto e generativi. Sul dataset MicroLens-100K, che simula le interazioni degli utenti con video in stile TikTok, il nostro framework supera costantemente le caratteristiche video, audio e di metadati convenzionali in cinque modelli rappresentativi. I nostri risultati evidenziano il potenziale di sfruttare gli MLLM come estrattori di conoscenza in tempo reale per costruire raccomandatori video più consapevoli dell'intento.
I grandi modelli linguistici (LLM) dimostrano notevoli capacità di risoluzione dei problemi, ma incontrano difficoltà con compiti complessi a causa della conoscenza interna statica. La Generazione Aumentata dal Recupero (RAG) migliora l'accesso alle informazioni esterne, ma rimane limitata nel ragionamento multi-hop e nella ricerca strategica a causa di flussi di lavoro rigidi. I recenti progressi nella ricerca profonda agentica potenziano gli LLM a ragionare, cercare e sintetizzare informazioni in modo autonomo. Tuttavia, gli approcci attuali che si basano sull'apprendimento per rinforzo (RL) basato sui risultati affrontano problemi critici come gradienti conflittuali e scarsità di ricompense, limitando i guadagni di prestazioni e l'efficienza dell'addestramento. Per affrontare questi problemi, proponiamo innanzitutto Atomic Thought, un nuovo paradigma di pensiero per LLM che scompone il ragionamento in unità funzionali granulari. Queste unità sono supervisionate da Modelli di Ricompensa per il Ragionamento (RRM), che forniscono Ricompense Atomic Thought (ATR) per una guida granulare. Su questa base, proponiamo Atom-Searcher, un nuovo framework RL per la ricerca profonda agentica che integra Atomic Thought e ATR. Atom-Searcher utilizza un programma di ricompense ispirato al curriculum, dando priorità alle ATR a livello di processo all'inizio e passando alle ricompense basate sui risultati, accelerando la convergenza su percorsi di ragionamento efficaci. Esperimenti su sette benchmark mostrano miglioramenti consistenti rispetto allo stato dell'arte. I vantaggi chiave includono: (1) Atom-Searcher scala il calcolo al momento del test. (2) Atomic Thought fornisce ancore di supervisione per gli RRM, collegando compiti di ricerca profonda e RRM. (3) Atom-Searcher mostra modelli di ragionamento più interpretabili e simili a quelli umani.
La protezione del copyright per i grandi modelli linguistici è di fondamentale importanza, considerando i costi di sviluppo sostanziali, il valore proprietario e il potenziale di utilizzo improprio. Le indagini esistenti si sono concentrate prevalentemente sulle tecniche per tracciare i contenuti generati dai modelli linguistici, in particolare il watermarking del testo, mentre un'esplorazione sistematica dei metodi per proteggere i modelli stessi (ovvero, il watermarking del modello e il fingerprinting del modello) rimane assente. Inoltre, le relazioni e le distinzioni tra watermarking del testo, watermarking del modello e fingerprinting del modello non sono state chiarite in modo esaustivo. Questo lavoro presenta un'indagine completa sullo stato attuale delle tecnologie di protezione del copyright per i modelli linguistici, con un focus sul fingerprinting del modello, coprendo i seguenti aspetti: (1) chiarire la connessione concettuale dal watermarking del testo al watermarking del modello e al fingerprinting, adottando una terminologia unificata che incorpora il watermarking del modello nel più ampio framework di fingerprinting; (2) fornire una panoramica e un confronto delle diverse tecniche di watermarking del testo, evidenziando i casi in cui tali metodi possono funzionare come fingerprinting del modello; (3) categorizzare e confrontare sistematicamente gli approcci esistenti di fingerprinting del modello per la protezione del copyright dei modelli linguistici; (4) presentare, per la prima volta, tecniche per il trasferimento e la rimozione delle impronte digitali; (5) riassumere le metriche di valutazione per le impronte digitali del modello, inclusa efficacia, innocuità, robustezza, discrezione e affidabilità; e (6) discutere le sfide aperte e le direzioni future della ricerca. Questa indagine mira a offrire ai ricercatori una comprensione approfondita sia delle tecnologie di watermarking del testo che di fingerprinting del modello nell'era dei modelli linguistici, favorendo così ulteriori progressi nella protezione della loro proprietà intellettuale.
Questo lavoro affronta la sfida del trasferimento di animazioni tra personaggi le cui topologie scheletriche differiscono sostanzialmente. Sebbene molte tecniche abbiano fatto progredire i metodi di retargeting nel corso dei decenni, il trasferimento di movimenti tra topologie diverse rimane poco esplorato. L'ostacolo principale risiede nell'inconsistenza topologica intrinseca tra gli scheletri di origine e di destinazione, che limita l'instaurazione di corrispondenze osso-a-osso dirette. Inoltre, l'attuale mancanza di dataset di movimenti accoppiati su larga scala che coprono diverse strutture topologiche limita fortemente lo sviluppo di approcci basati sui dati. Per affrontare queste limitazioni, introduciamo Motion2Motion, un nuovo framework che non richiede addestramento. In modo semplice ma efficace, Motion2Motion funziona con uno o pochi movimenti di esempio sullo scheletro di destinazione, accedendo a un insieme sparso di corrispondenze ossee tra gli scheletri di origine e di destinazione. Attraverso valutazioni qualitative e quantitative complete, dimostriamo che Motion2Motion raggiunge prestazioni efficienti e affidabili sia in scenari di trasferimento tra scheletri simili che tra scheletri di specie diverse. L'utilità pratica del nostro approccio è ulteriormente evidenziata dalla sua integrazione riuscita in applicazioni downstream e interfacce utente, sottolineando il suo potenziale per applicazioni industriali. Codice e dati sono disponibili all'indirizzo https://lhchen.top/Motion2Motion.
I modelli generativi basati su Large Language Models (LLM) stanno emergendo come una soluzione unificata per alimentare sia i task di raccomandazione che di ricerca. Una scelta progettuale chiave in questi modelli è come rappresentare gli elementi, tradizionalmente attraverso identificatori univoci (ID) e più recentemente con Semantic ID composti da codici discreti, ottenuti da embedding. Sebbene i modelli di embedding specifici per task possano migliorare le prestazioni per singoli task, potrebbero non generalizzare bene in un contesto congiunto. In questo articolo, esploriamo come costruire Semantic ID che performino bene sia nella ricerca che nella raccomandazione quando si utilizza un modello unificato. Confrontiamo una gamma di strategie per costruire Semantic ID, esaminando approcci specifici per task e cross-task, e anche se ogni task dovrebbe avere i propri token di Semantic ID in un modello generativo congiunto di ricerca e raccomandazione. I nostri risultati mostrano che l'utilizzo di un modello bi-encoder fine-tunato su entrambi i task di ricerca e raccomandazione per ottenere embedding degli elementi, seguito dalla costruzione di uno spazio unificato di Semantic ID, fornisce un compromesso efficace, consentendo prestazioni solide in entrambi i task. Speriamo che questi risultati stimolino ulteriori lavori su schemi di ID generalizzabili e semanticamente fondati e informino la prossima ondata di architetture generative unificate per la raccomandazione.
Come i grandi modelli linguistici comprendono le dimensioni morali rispetto agli esseri umani? Questa prima valutazione bayesiana su larga scala dei modelli linguistici leader di mercato fornisce la risposta. A differenza dei lavori precedenti che utilizzavano una verità di base deterministica (regole di maggioranza o inclusione), modelliamo i disaccordi tra annotatori per catturare sia l'incertezza aleatoria (disaccordo umano intrinseco) che l'incertezza epistemica (sensibilità del modello al dominio). Valutiamo i migliori modelli linguistici (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) su oltre 250.000 annotazioni provenienti da circa 700 annotatori, relative a più di 100.000 testi tratti da social media, notizie e forum. Il nostro framework bayesiano ottimizzato per GPU ha elaborato oltre 1 milione di query del modello, rivelando che i modelli di IA si collocano tipicamente tra il 25% superiore degli annotatori umani, raggiungendo un'accuratezza bilanciata molto migliore della media. È importante sottolineare che abbiamo riscontrato che l'IA produce molti meno falsi negativi rispetto agli esseri umani, evidenziando le loro capacità di rilevamento morale più sensibili.
Lo sviluppo dei campi di radianza (RF, Radiance Fields), come il 3D Gaussian Splatting (3DGS) e i Neural Radiance Fields (NeRF), ha rivoluzionato la sintesi interattiva di viste fotorealistiche e presenta enormi opportunità per la ricerca e le applicazioni nel campo della realtà estesa (XR). Tuttavia, nonostante la crescita esponenziale della ricerca sui RF, i contributi legati ai RF per la comunità XR rimangono scarsi. Per comprendere meglio questo divario di ricerca, abbiamo condotto una revisione sistematica della letteratura attuale sui RF per analizzare (i) come i RF sono concepiti per le applicazioni XR, (ii) come sono già stati implementati e (iii) le lacune di ricerca rimanenti. Abbiamo raccolto 365 contributi sui RF relativi all'XR provenienti dalle comunità di visione artificiale, computer grafica, robotica, multimedia, interazione uomo-computer e XR, cercando di rispondere alle suddette domande di ricerca. Tra i 365 articoli, abbiamo analizzato 66 articoli che hanno già affrontato un aspetto dettagliato della ricerca sui RF per l'XR. Con questa revisione, abbiamo esteso e posizionato i temi di ricerca specifici per l'XR all'interno del più ampio campo di ricerca sui RF, fornendo una risorsa utile per la comunità XR per orientarsi nel rapido sviluppo della ricerca sui RF.
Gli Autoencoder Sparse (SAE) possono estrarre feature interpretabili da grandi modelli linguistici (LLM) senza supervisione. Tuttavia, la loro efficacia nei task di steering downstream è limitata dalla necessità di dataset contrastivi o di un ampio storage delle attivazioni. Per affrontare queste limitazioni, proponiamo CorrSteer, che seleziona le feature correlando la correttezza dei campioni con le attivazioni SAE dei token generati al momento dell'inferenza. Questo approccio utilizza solo le attivazioni al momento dell'inferenza per estrarre feature più rilevanti, evitando così correlazioni spurie. Inoltre, ottiene i coefficienti di steering dalle attivazioni medie, automatizzando l'intera pipeline. Il nostro metodo mostra un miglioramento delle prestazioni nei task di QA, mitigazione dei bias, prevenzione del jailbreaking e benchmark di ragionamento su Gemma 2 2B e LLaMA 3.1 8B, raggiungendo in particolare un miglioramento del +4,1% nelle prestazioni MMLU e del +22,9% in HarmBench con soli 4000 campioni. Le feature selezionate dimostrano pattern semanticamente significativi allineati con i requisiti di ciascun task, rivelando le capacità sottostanti che guidano le prestazioni. Il nostro lavoro stabilisce la selezione basata sulla correlazione come un approccio efficace e scalabile per lo steering automatizzato degli SAE nelle applicazioni dei modelli linguistici.
I modelli universali per la segmentazione di immagini mediche sono emersi come un paradigma promettente grazie alla loro forte generalizzabilità su una vasta gamma di compiti, dimostrando un grande potenziale per un'ampia varietà di applicazioni cliniche. Questo potenziale è stato in parte favorito dal successo di modelli visivi generici come il Segment Anything Model (SAM), che ha ispirato lo sviluppo di varie varianti ottimizzate per compiti di segmentazione medica. Tuttavia, varianti ottimizzate come MedSAM sono addestrate su dati di imaging medico relativamente limitati, che spesso presentano eterogeneità, annotazioni scarse e spostamenti distribuzionali. Queste sfide limitano la loro capacità di generalizzare su un'ampia gamma di compiti di segmentazione medica. A tal proposito, proponiamo MedSAMix, un metodo di fusione di modelli senza addestramento che integra i punti di forza sia dei modelli generalisti (ad esempio, SAM) che dei modelli specialistici (ad esempio, MedSAM) per la segmentazione di immagini mediche. A differenza degli approcci tradizionali di fusione di modelli che si basano su configurazioni manuali e spesso producono risultati subottimali, proponiamo un metodo di ottimizzazione di ordine zero per scoprire automaticamente soluzioni ottimali di fusione a livello di strato. Inoltre, per le applicazioni cliniche, sviluppiamo due regimi per soddisfare la necessità di specificità di dominio e generalizzabilità in diversi scenari, rispettivamente attraverso l'ottimizzazione a singolo compito e l'ottimizzazione multi-obiettivo. Valutazioni estese su 25 compiti di segmentazione medica dimostrano che MedSAMix mitiga efficacemente il bias del modello e migliora costantemente le prestazioni sia in termini di accuratezza specifica del dominio che di generalizzazione, ottenendo miglioramenti del 6,67% su compiti specialistici e del 4,37% su valutazioni multi-compito.
Le serie temporali dei sensori di movimento sono fondamentali per il riconoscimento delle attività umane (HAR), con applicazioni in ambito sanitario, sportivo e nei dispositivi intelligenti. Tuttavia, i metodi esistenti vengono addestrati su insiemi di attività fissi e richiedono un costoso riaddestramento quando compaiono nuovi comportamenti o configurazioni di sensori. I recenti tentativi di utilizzare modelli linguistici di grandi dimensioni (LLM) per l'HAR, tipicamente convertendo i segnali in testo o immagini, soffrono di una precisione limitata e mancano di interpretabilità verificabile. Proponiamo ZARA, il primo framework basato su agenti per l'HAR zero-shot e spiegabile direttamente dalle serie temporali grezze del movimento. ZARA integra una base di conoscenza di caratteristiche a coppie derivata automaticamente che cattura statistiche discriminative per ogni coppia di attività, un modulo di recupero multi-sensore che evidenzia prove rilevanti e una pipeline gerarchica di agenti che guida l'LLM a selezionare iterativamente le caratteristiche, attingere a queste prove e produrre sia previsioni sulle attività che spiegazioni in linguaggio naturale. ZARA consente un HAR flessibile e interpretabile senza alcuna messa a punto o classificatori specifici per il compito. Esperimenti estesi su 8 benchmark HAR dimostrano che ZARA raggiunge prestazioni zero-shot all'avanguardia, fornendo un ragionamento chiaro e superando i baseline più forti di 2,53x nel macro F1. Studi di ablazione confermano ulteriormente la necessità di ciascun modulo, segnando ZARA come un passo promettente verso un'analisi affidabile e plug-and-play delle serie temporali del movimento. I nostri codici sono disponibili su https://github.com/zechenli03/ZARA.
Affrontiamo la sfida di rilevare il parlato sintetizzato in presenza di cambiamenti di distribuzione – derivanti da metodi di sintesi, parlanti, lingue o condizioni audio non visti – rispetto ai dati di addestramento. I metodi di apprendimento few-shot rappresentano un approccio promettente per affrontare i cambiamenti di distribuzione, adattandosi rapidamente sulla base di pochi campioni in-distribuzione. Proponiamo una rete prototipale dotata di self-attention per consentire un adattamento few-shot più robusto. Per valutare il nostro approccio, confrontiamo sistematicamente le prestazioni dei tradizionali rilevatori zero-shot con i rilevatori few-shot proposti, controllando attentamente le condizioni di addestramento per introdurre cambiamenti di distribuzione al momento della valutazione. In condizioni in cui i cambiamenti di distribuzione compromettono le prestazioni zero-shot, la nostra tecnica di adattamento few-shot proposta può adattarsi rapidamente utilizzando anche solo 10 campioni in-distribuzione – ottenendo una riduzione relativa dell'EER fino al 32% sui deepfake in lingua giapponese e una riduzione relativa del 20% sul dataset ASVspoof 2021 Deepfake.