Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli di diffusione hanno notevolmente migliorato le capacità di generazione e modifica di video. Tuttavia, la modifica multi-granulare dei video, che comprende modifiche a livello di classe, istanza e parte, rimane una sfida formidabile. Le principali difficoltà nella modifica multi-granulare includono il disallineamento semantico del controllo testo-regione e l'accoppiamento delle caratteristiche all'interno del modello di diffusione. Per affrontare queste difficoltà, presentiamo VideoGrain, un approccio zero-shot che modula i meccanismi di attenzione spazio-temporale (cross- e self-) per ottenere un controllo fine-granulare sul contenuto video. Miglioriamo il controllo testo-regione amplificando l'attenzione di ciascun prompt locale alla sua corrispondente regione spazialmente disaccoppiata, riducendo al minimo le interazioni con aree irrilevanti nell'attenzione incrociata. Inoltre, miglioriamo la separazione delle caratteristiche aumentando la consapevolezza intra-regione e riducendo l'interferenza inter-regione nell'auto-attenzione. Esperimenti estesi dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia in scenari reali. Il nostro codice, dati e demo sono disponibili su https://knightyxp.github.io/VideoGrain_project_page/.
Il contesto lungo è un argomento importante nel campo dell'Elaborazione del Linguaggio Naturale (NLP), che attraversa lo sviluppo delle architetture NLP e offre immense opportunità per i Modelli Linguistici di Grande Scala (LLMs), conferendo loro un potenziale di apprendimento permanente simile a quello degli esseri umani. Purtroppo, la ricerca di un contesto lungo è accompagnata da numerosi ostacoli. Tuttavia, il contesto lungo rimane un vantaggio competitivo fondamentale per gli LLMs. Negli ultimi due anni, la lunghezza del contesto degli LLMs ha raggiunto un'estensione rivoluzionaria, arrivando a milioni di token. Inoltre, la ricerca sugli LLMs a contesto lungo si è ampliata, passando dall'estrapolazione della lunghezza a un focus completo su architettura, infrastruttura, addestramento e tecnologie di valutazione. Ispirati dal poema sinfonico "Così parlò Zarathustra", tracciamo un'analogia tra il viaggio di estensione del contesto degli LLMs e i tentativi degli esseri umani di trascendere la propria mortalità. In questo studio, illustreremo come gli LLMs lottino tra l'enorme necessità di un contesto più lungo e l'uguale necessità di accettare il fatto che esso sia, in definitiva, finito. Per raggiungere questo obiettivo, forniamo una visione globale del ciclo di vita degli LLMs a contesto lungo da quattro prospettive: architettura, infrastruttura, addestramento e valutazione, mostrando l'intero spettro delle tecnologie a contesto lungo. Alla fine di questo studio, presenteremo 10 domande irrisolte attualmente affrontate dagli LLMs a contesto lungo. Speriamo che questo studio possa servire come introduzione sistematica alla ricerca sugli LLMs a contesto lungo.
Introduciamo Slam, una metodologia per addestrare modelli linguistici vocali (SLM) di alta qualità su una singola GPU accademica in 24 ore. Questo risultato è stato ottenuto attraverso un'analisi empirica dell'inizializzazione e dell'architettura del modello, l'utilizzo di dati di addestramento sintetici, l'ottimizzazione delle preferenze con dati sintetici e l'ottimizzazione di tutti gli altri componenti. Dimostriamo empiricamente che questa metodologia di addestramento scala efficacemente con maggiori risorse computazionali, ottenendo risultati paragonabili ai migliori SLM con una frazione del costo computazionale. Speriamo che queste intuizioni rendano l'addestramento e la ricerca sugli SLM più accessibili. Nel contesto delle leggi di scala degli SLM, i nostri risultati superano di gran lunga le prestazioni ottimali previste in termini di risorse computazionali, offrendo una visione ottimistica sulla fattibilità degli SLM. Codice, dati, modelli e campioni sono disponibili su: https://pages.cs.huji.ac.il/adiyoss-lab/slamming.
Il nostro obiettivo principale è creare un modello di percezione generale e versatile in grado di affrontare molteplici attività, rispettando i limiti delle risorse computazionali e dei dati di addestramento. Per raggiungere questo scopo, ricorriamo a modelli di diffusione testo-immagine pre-addestrati su miliardi di immagini. Le nostre metriche di valutazione esaustive dimostrano che DICEPTION affronta efficacemente molteplici compiti di percezione, raggiungendo prestazioni paragonabili ai modelli all'avanguardia. Otteniamo risultati comparabili a SAM-vit-h utilizzando solo lo 0,06% dei loro dati (ad esempio, 600K rispetto a 1B di immagini annotate a livello di pixel). Ispirati da Wang et al., DICEPTION formula gli output di vari compiti di percezione utilizzando la codifica a colori; e dimostriamo che la strategia di assegnare colori casuali a diverse istanze è altamente efficace sia nella segmentazione di entità che nella segmentazione semantica. Unificare vari compiti di percezione come generazione condizionata di immagini ci permette di sfruttare appieno i modelli testo-immagine pre-addestrati. Pertanto, DICEPTION può essere addestrato in modo efficiente a un costo di ordini di grandezza inferiore rispetto ai modelli convenzionali addestrati da zero. Quando adattiamo il nostro modello ad altre attività, richiede solo un fine-tuning su un minimo di 50 immagini e l'1% dei suoi parametri. DICEPTION offre intuizioni preziose e una soluzione più promettente per i modelli visivi generalisti.
I recenti progressi nella tokenizzazione audio hanno significativamente migliorato l'integrazione delle capacità audio nei grandi modelli linguistici (LLM). Tuttavia, la comprensione e la generazione audio sono spesso trattate come compiti distinti, ostacolando lo sviluppo di modelli audio-linguistici veramente unificati. Sebbene l'instruction tuning abbia dimostrato un notevole successo nel migliorare la generalizzazione e l'apprendimento zero-shot nel testo e nella visione, la sua applicazione all'audio rimane ampiamente inesplorata. Un ostacolo principale è la mancanza di dataset completi che uniscano la comprensione e la generazione audio. Per affrontare questo problema, introduciamo Audio-FLAN, un dataset su larga scala per l'instruction tuning che copre 80 compiti diversi nei domini del parlato, della musica e del suono, con oltre 100 milioni di istanze. Audio-FLAN getta le basi per modelli audio-linguistici unificati in grado di gestire in modo fluido sia compiti di comprensione (ad esempio, trascrizione, comprensione) che di generazione (ad esempio, parlato, musica, suono) in un'ampia gamma di domini audio in modalità zero-shot. Il dataset Audio-FLAN è disponibile su HuggingFace e GitHub e sarà continuamente aggiornato.
Mentre l'Adattamento a Basso Rango (LoRA) consente una messa a punto efficiente dei parametri per i Modelli Linguistici di Grande Dimensione (LLM), le sue prestazioni spesso non raggiungono quelle della Messa a Punto Completa (Full FT). I metodi attuali ottimizzano LoRA inizializzando con sottoinsiemi statici di decomposizione a valori singolari (SVD), portando a uno sfruttamento subottimale della conoscenza pre-addestrata. Un'altra strada per migliorare LoRA è l'incorporazione di un'architettura a Miscela di Esperti (MoE). Tuttavia, il disallineamento dei pesi e le dinamiche complesse del gradiente rendono difficile adottare SVD prima dell'architettura LoRA MoE. Per mitigare questi problemi, proponiamo Great LoRA Mixture-of-Expert (GOAT), un framework che (1) integra in modo adattivo i prior rilevanti utilizzando un MoE strutturato con SVD, e (2) allinea l'ottimizzazione con il MoE messo a punto completo derivando un fattore di scala teorico. Dimostriamo che un'adeguata scalatura, senza modificare l'architettura o gli algoritmi di addestramento, migliora l'efficienza e le prestazioni di LoRA MoE. Esperimenti su 25 dataset, compresi la comprensione del linguaggio naturale, il ragionamento di senso comune, la classificazione delle immagini e la generazione del linguaggio naturale, dimostrano che GOAT raggiunge prestazioni all'avanguardia, riducendo il divario con Full FT.
I metodi di costanza del colore spesso faticano a generalizzare attraverso diversi sensori di fotocamera a causa delle variazioni nelle sensibilità spettrali. Presentiamo GCC, che sfrutta modelli di diffusione per ricostruire i cartelli colore nelle immagini per la stima dell'illuminazione. Le nostre principali innovazioni includono (1) un approccio di inferenza deterministico a singolo passo che ricostruisce i cartelli colore riflettendo l'illuminazione della scena, (2) una tecnica di decomposizione Laplaciana che preserva la struttura del cartello consentendo un adattamento del colore dipendente dall'illuminazione, e (3) una strategia di aumento dei dati basata su maschere per gestire annotazioni imprecise dei cartelli colore. GCC dimostra una robustezza superiore negli scenari cross-camera, raggiungendo tassi di errore peggiori del 25% all'avanguardia di 5,15° e 4,32° in valutazioni bidirezionali. Questi risultati evidenziano la stabilità e la capacità di generalizzazione del nostro metodo attraverso diverse caratteristiche delle fotocamere senza richiedere addestramenti specifici per il sensore, rendendolo una soluzione versatile per applicazioni nel mondo reale.
La capacità critica dei Large Language Models (LLMs) è essenziale per le abilità di ragionamento, in quanto può fornire suggerimenti necessari (ad esempio, analisi dettagliate e feedback costruttivi). Pertanto, come valutare la capacità critica dei LLMs ha attirato grande attenzione e sono stati proposti diversi benchmark di critica. Tuttavia, i benchmark di critica esistenti presentano solitamente le seguenti limitazioni: (1) Si concentrano su compiti di ragionamento diversificati in domini generali e hanno una valutazione insufficiente sui compiti di codice (ad esempio, coprendo solo il task di generazione di codice), dove la difficoltà delle query è relativamente bassa (ad esempio, le query di codice di CriticBench provengono da Humaneval e MBPP). (2) Mancano di una valutazione completa da diverse dimensioni. Per affrontare queste limitazioni, introduciamo un benchmark olistico di critica del codice per i LLMs chiamato CodeCriticBench. Nello specifico, il nostro CodeCriticBench include due task principali di codice (ovvero, generazione di codice e QA sul codice) con diverse difficoltà. Inoltre, i protocolli di valutazione includono una valutazione critica di base e una valutazione critica avanzata per diverse caratteristiche, dove checklist di valutazione granulari sono ben progettate per le impostazioni avanzate. Infine, conduciamo ampi risultati sperimentali sui LLMs esistenti, che dimostrano l'efficacia di CodeCriticBench.
Il potenziamento del calcolo durante il pre-training si è dimostrato efficace per raggiungere la multilinguità, ma lo stesso vale per il potenziamento al momento del test? In questo lavoro, introduciamo MCLM, un benchmark matematico multilingue che presenta problemi di livello competitivo in 55 lingue. Testiamo tre metodi di potenziamento al momento del test—Modellazione della Ricompensa per il Risultato (ORM), Modellazione della Ricompensa per il Processo (ORM) e Forzatura del Budget (BF)—sia su Qwen2.5-1.5B Math che su MR1-1.5B, un LLM multilingue che abbiamo addestrato per il ragionamento esteso. I nostri esperimenti mostrano che l'uso di Qwen2.5-1.5B Math con ORM raggiunge un punteggio di 35.8 su MCLM, mentre BF su MR1-1.5B ottiene 35.2. Sebbene i "LLM pensanti" abbiano recentemente attirato molta attenzione, scopriamo che le loro prestazioni sono comparabili ai metodi tradizionali di potenziamento come il best-of-N una volta vincolati a livelli simili di FLOP di inferenza. Inoltre, mentre BF produce un miglioramento di 20 punti su AIME in inglese, offre solo un guadagno medio di 1.94 punti nelle altre lingue—un modello coerente con gli altri metodi di potenziamento al momento del test studiati—evidenziando che il potenziamento al momento del test potrebbe non generalizzarsi altrettanto efficacemente ai compiti multilingue. Per favorire ulteriori ricerche, rilasciamo MCLM, MR1-1.5B e i risultati di valutazione.
I recenti progressi nella generazione video hanno consentito ai modelli di sintetizzare video di alta qualità della durata di un minuto. Tuttavia, generare video ancora più lunghi con coerenza temporale rimane una sfida significativa, e i metodi esistenti di estrapolazione della lunghezza portano a ripetizioni temporali o a un rallentamento del movimento. In questo lavoro, analizziamo sistematicamente il ruolo delle componenti di frequenza negli embedding posizionali e identifichiamo una frequenza intrinseca che governa principalmente il comportamento di estrapolazione. Basandoci su questa intuizione, proponiamo RIFLEx, un approccio minimale ma efficace che riduce la frequenza intrinseca per sopprimere le ripetizioni preservando al contempo la coerenza del movimento, senza richiedere alcuna modifica aggiuntiva. RIFLEx offre un vero "free lunch", raggiungendo un'estrapolazione di alta qualità di 2 volte sui migliori trasformatori di diffusione video in modo completamente privo di addestramento. Inoltre, migliora la qualità e consente un'estrapolazione di 3 volte con un fine-tuning minimo, senza la necessità di video lunghi. Pagina del progetto e codici: https://riflex-video.github.io/{https://riflex-video.github.io/.}
Questo articolo valuta in modo esaustivo diversi ottimizzatori recentemente proposti per l'addestramento a 4 bit, rivelando che la precisione a basso bit amplifica la sensibilità ai tassi di apprendimento e spesso causa instabilità nelle norme dei gradienti, portando a divergenze a tassi di apprendimento più elevati. Tra questi, SPAM, un recente ottimizzatore che include il reset del momento e il clipping dei gradienti consapevole dei picchi, ottiene le migliori prestazioni a vari livelli di bit, ma fatica a stabilizzare le norme dei gradienti, richiedendo un'attenta regolazione del tasso di apprendimento. Per affrontare queste limitazioni, proponiamo Stable-SPAM, che incorpora tecniche avanzate di normalizzazione e clipping dei gradienti. In particolare, Stable-SPAM (1) aggiorna in modo adattivo la soglia di clipping per i gradienti con picchi monitorando i loro massimi storici; (2) normalizza l'intera matrice dei gradienti basandosi sulle statistiche storiche della norma l_2; e (3) eredita il reset del momento da SPAM per resettare periodicamente i primi e secondi momenti di Adam, mitigando l'accumulo di gradienti con picchi. Esperimenti estesi dimostrano che Stable-SPAM stabilizza efficacemente le norme dei gradienti nell'addestramento di LLM a 4 bit, offrendo prestazioni superiori rispetto ad Adam e SPAM. In particolare, il nostro modello LLaMA-1B a 4 bit addestrato con Stable-SPAM supera il LLaMA-1B BF16 addestrato con Adam fino a 2 punti di perplessità. Inoltre, quando entrambi i modelli sono addestrati a 4 bit, Stable-SPAM raggiunge la stessa perdita di Adam richiedendo solo circa la metà dei passi di addestramento. Il codice è disponibile all'indirizzo https://github.com/TianjinYellow/StableSPAM.git.
I modelli linguistici multimodali di grandi dimensioni (MLLM) esistenti sono prevalentemente addestrati e testati su input visivo-testuali coerenti, lasciando aperta la questione se siano in grado di gestire incoerenze in contenuti reali ricchi di layout. Per colmare questa lacuna, proponiamo il benchmark Multimodal Inconsistency Reasoning (MMIR) per valutare la capacità degli MLLM di rilevare e ragionare su disallineamenti semantici in artefatti come pagine web, slide di presentazione e poster. MMIR comprende 534 campioni complessi, ciascuno contenente errori iniettati sinteticamente in cinque categorie ad alto contenuto di ragionamento: Contraddizione Fattuale, Attribuzione Errata di Identità, Disallineamento Contestuale, Discrepanza Quantitativa e Incoerenza Temporale/Spaziale. Valutiamo sei MLLM all'avanguardia, dimostrando che modelli con capacità di ragionamento multimodale dedicate, come o1, superano significativamente i loro omologhi, mentre i modelli open source rimangono particolarmente vulnerabili agli errori di incoerenza. Analisi dettagliate degli errori mostrano inoltre che i modelli eccellono nel rilevare incoerenze confinate a una singola modalità, in particolare nel testo, ma faticano con conflitti cross-modali e layout complessi. Esperimenti di probing rivelano che il prompting a singola modalità, inclusi i metodi Chain-of-Thought (CoT) e Set-of-Mark (SoM), produce guadagni marginali, evidenziando un collo di bottiglia chiave nel ragionamento cross-modale. I nostri risultati sottolineano la necessità di un ragionamento multimodale avanzato e indicano future ricerche sull'incoerenza multimodale.
Le decisioni di rilascio dell'IA generativa determinano se i componenti del sistema vengono resi disponibili, ma il rilascio non affronta molti altri elementi che influenzano il modo in cui utenti e stakeholder possono interagire con un sistema. Oltre al rilascio, l'accesso ai componenti del sistema informa sui potenziali rischi e benefici. L'accesso si riferisce alle esigenze pratiche, infrastrutturali, tecniche e sociali necessarie per utilizzare i componenti disponibili in qualche modo. Scomponiamo l'accesso lungo tre assi: risorse, usabilità tecnica e utilità. All'interno di ciascuna categoria, un insieme di variabili per ogni componente del sistema chiarisce i compromessi. Ad esempio, le risorse richiedono l'accesso a un'infrastruttura computazionale per servire i pesi del modello. Confrontiamo inoltre l'accessibilità di quattro modelli linguistici ad alte prestazioni, due a pesi aperti e due a pesi chiusi, mostrando considerazioni simili per tutti basate invece sulle variabili di accesso. Le variabili di accesso pongono le basi per poter scalare o aumentare l'accesso agli utenti; esaminiamo la scala dell'accesso e come la scala influenzi la capacità di gestire e intervenire sui rischi. Questo quadro comprende meglio il panorama e i compromessi rischio-beneficio dei rilasci di sistema per informare le decisioni di rilascio, la ricerca e le politiche.
Presentiamo X-Dancer, una nuova pipeline di animazione di immagini guidata dalla musica in modalità zero-shot che crea video di danza umana realistici, diversificati e di lunga durata a partire da una singola immagine statica. Al suo cuore, introduciamo un framework unificato transformer-diffusion, caratterizzato da un modello transformer autoregressivo che sintetizza sequenze estese e sincronizzate con la musica di token per le pose 2D del corpo, della testa e delle mani, che poi guidano un modello diffusion nella produzione di frame di video di danza coerenti e realistici. A differenza dei metodi tradizionali che generano principalmente il movimento umano in 3D, X-Dancer affronta le limitazioni dei dati e migliora la scalabilità modellando un ampio spettro di movimenti di danza 2D, catturando la loro sfumatura allineamento con i battiti musicali attraverso video monoculari facilmente disponibili. Per raggiungere questo obiettivo, costruiamo prima una rappresentazione token spazialmente compositiva a partire dalle etichette delle pose umane 2D associate alle confidenze dei punti chiave, codificando sia i movimenti articolati del corpo su larga scala (ad esempio, parte superiore e inferiore del corpo) sia i movimenti di dettaglio (ad esempio, testa e mani). Progettiamo quindi un modello transformer da musica a movimento che genera autoregressivamente sequenze di token di pose di danza allineate alla musica, incorporando un'attenzione globale sia allo stile musicale che al contesto di movimento precedente. Infine, sfruttiamo un backbone diffusion per animare l'immagine di riferimento con questi token di pose sintetizzati attraverso AdaIN, formando un framework end-to-end completamente differenziabile. I risultati sperimentali dimostrano che X-Dancer è in grado di produrre video di danza sia diversificati che caratterizzati, superando sostanzialmente i metodi all'avanguardia in termini di diversità, espressività e realismo. Codice e modello saranno disponibili per scopi di ricerca.
Il rapido aumento dell'utilizzo dei dispositivi mobili richiede un miglioramento dell'automazione per una gestione fluida delle attività. Tuttavia, molti framework basati sull'intelligenza artificiale incontrano difficoltà a causa di una conoscenza operativa insufficiente. La conoscenza scritta manualmente è utile, ma richiede molto lavoro ed è inefficiente. Per affrontare queste sfide, introduciamo Mobile-Agent-V, un framework che sfrutta la guida video per fornire una conoscenza operativa ricca ed economica per l'automazione mobile. Mobile-Agent-V migliora le capacità di esecuzione delle attività utilizzando input video senza richiedere campionamenti specializzati o pre-elaborazioni. Mobile-Agent-V integra una strategia di finestra scorrevole e incorpora un agente video e un agente di riflessione profonda per garantire che le azioni siano allineate con le istruzioni dell'utente. Attraverso questo approccio innovativo, gli utenti possono registrare i processi delle attività con guida, consentendo al sistema di apprendere ed eseguire le attività in modo autonomo ed efficiente. I risultati sperimentali mostrano che Mobile-Agent-V raggiunge un miglioramento delle prestazioni del 30% rispetto ai framework esistenti.
Risolvere complessi problemi di manipolazione robotica a lungo termine richiede sofisticate capacità di pianificazione di alto livello, la capacità di ragionare sul mondo fisico e di scegliere reattivamente le abilità motorie appropriate. I modelli visione-linguaggio (VLMs) pre-addestrati su dati di Internet potrebbero in linea di principio offrire un framework per affrontare tali problemi. Tuttavia, nella loro forma attuale, i VLMs mancano sia della comprensione sfumata della fisica intricata necessaria per la manipolazione robotica, sia della capacità di ragionare su orizzonti temporali lunghi per affrontare problemi di accumulo di errori. In questo articolo, introduciamo un innovativo framework di calcolo al momento del test che potenzia le capacità di ragionamento fisico dei VLMs per compiti di manipolazione multi-stadio. Al centro del nostro approccio c'è un meccanismo di "riflessione" che migliora iterativamente un VLM pre-addestrato: utilizza un modello generativo per immaginare stati futuri del mondo, sfrutta queste previsioni per guidare la selezione delle azioni e riflette criticamente su potenziali sub-ottimalità per affinare il proprio ragionamento. I risultati sperimentali dimostrano che il nostro metodo supera significativamente diversi VLMs commerciali all'avanguardia, nonché altri approcci post-addestramento come il Monte Carlo Tree Search (MCTS). I video sono disponibili su https://reflect-vlm.github.io.
Questo articolo sviluppa un framework agentico che utilizza modelli linguistici di grandi dimensioni (LLM) per automatizzare la generazione di contenuti di marketing persuasivi e fondati, utilizzando le descrizioni degli annunci immobiliari come dominio applicativo di riferimento. Il nostro metodo è progettato per allineare i contenuti generati con le preferenze degli utenti, evidenziando al contempo attributi fattuali utili. Questo agente è composto da tre moduli chiave: (1) Modulo di Fondamento, che imita il comportamento umano esperto per prevedere caratteristiche commercializzabili; (2) Modulo di Personalizzazione, che allinea i contenuti con le preferenze degli utenti; (3) Modulo di Marketing, che garantisce l'accuratezza fattuale e l'inclusione di caratteristiche localizzate. Abbiamo condotto esperimenti sistematici con soggetti umani nel campo del marketing immobiliare, coinvolgendo un gruppo di potenziali acquirenti di case. I risultati dimostrano che le descrizioni di marketing generate dal nostro approccio sono preferite rispetto a quelle scritte da esperti umani con un margine significativo. I nostri risultati suggeriscono un promettente framework agentico basato su LLM per automatizzare il marketing su larga scala e mirato, garantendo al contempo una generazione responsabile basata esclusivamente su fatti.
Mentre il panorama dei modelli AI open-weight continua a proliferare, con lo sviluppo di nuovi modelli, investimenti significativi e un crescente interesse da parte degli utenti, diventa sempre più importante prevedere quali modelli guideranno l'innovazione e plasmeranno gli ecosistemi dell'IA. Basandoci su analogie con le dinamiche delle citazioni nella letteratura scientifica, proponiamo un framework per quantificare come evolve l'influenza di un modello open-weight. Nello specifico, adattiamo il modello introdotto da Wang et al. per le citazioni scientifiche, utilizzando tre parametri chiave—immediatezza, longevità e fitness relativa—per tracciare il numero cumulativo di modelli fine-tuned derivati da un modello open-weight. I nostri risultati rivelano che questo approccio basato sulle citazioni può catturare efficacemente le diverse traiettorie di adozione dei modelli open-weight, con la maggior parte dei modelli che si adattano bene e gli outlier che indicano pattern unici o improvvisi picchi nell'utilizzo.
L'organizzazione gerarchica è fondamentale per i sistemi biologici e le società umane, tuttavia i sistemi di intelligenza artificiale spesso si basano su architetture monolitiche che limitano l'adattabilità e la scalabilità. Gli approcci attuali di apprendimento per rinforzo gerarchico (HRL) tipicamente limitano le gerarchie a due livelli o richiedono un addestramento centralizzato, il che ne limita l'applicabilità pratica. Introduciamo il TAME Agent Framework (TAG), un framework per la costruzione di sistemi multi-agente gerarchici completamente decentralizzati. TAG abilita gerarchie di profondità arbitraria attraverso un nuovo concetto chiamato LevelEnv, che astrae ogni livello della gerarchia come l'ambiente per gli agenti al livello superiore. Questo approccio standardizza il flusso di informazioni tra i livelli mantenendo un accoppiamento lasco, consentendo l'integrazione senza soluzione di continuità di diversi tipi di agenti. Dimostriamo l'efficacia di TAG implementando architetture gerarchiche che combinano diversi agenti di RL su più livelli, ottenendo prestazioni migliorate rispetto ai baseline classici di RL multi-agente su benchmark standard. I nostri risultati mostrano che l'organizzazione gerarchica decentralizzata migliora sia la velocità di apprendimento che le prestazioni finali, posizionando TAG come una direzione promettente per sistemi multi-agente scalabili.
Il ragionamento temporale è fondamentale per la cognizione umana ed è cruciale per varie applicazioni nel mondo reale. Sebbene i recenti progressi nei Modelli Linguistici di Grandi Dimensioni (LLM) abbiano dimostrato capacità promettenti nel ragionamento temporale, i benchmark esistenti si basano principalmente su una costruzione basata su regole, mancano di profondità contestuale e coinvolgono una gamma limitata di entità temporali. Per affrontare queste limitazioni, introduciamo Chinese Time Reasoning (CTM), un benchmark progettato per valutare gli LLM sul ragionamento temporale nell'ambito esteso della cronologia dinastica cinese. CTM enfatizza le relazioni tra entità, l'allineamento temporale a coppie e un ragionamento contestualizzato e radicato culturalmente, fornendo una valutazione completa. I risultati sperimentali estesi rivelano le sfide poste da CTM e evidenziano potenziali vie di miglioramento.
I grandi modelli linguistici (LLM) hanno mostrato miglioramenti significativi nel ragionamento e molti benchmark esistenti sono stati affrontati, completamente o parzialmente, da modelli come o1 e o3. Tuttavia, la maggior parte di questi benchmark si concentra sul ragionamento deduttivo, includendo compiti matematici e di programmazione in cui regole come assiomi matematici o sintassi di programmazione sono chiaramente definite, sulla base delle quali i LLM possono pianificare e applicare queste regole per arrivare a una soluzione. Al contrario, il ragionamento induttivo, in cui si deducono le regole sottostanti dai dati osservati, rimane meno esplorato. Tali processi induttivi sono al centro della scoperta scientifica, poiché consentono ai ricercatori di estrarre principi generali da osservazioni empiriche. Per valutare se i LLM possiedono questa capacità, introduciamo InductionBench, un nuovo benchmark progettato per valutare la capacità di ragionamento induttivo dei LLM. I nostri risultati sperimentali rivelano che anche i modelli più avanzati disponibili faticano a padroneggiare le classi di complessità più semplici all'interno della gerarchia subregolare delle funzioni, evidenziando una carenza significativa nelle capacità di ragionamento induttivo degli attuali LLM. Il codice e i dati sono disponibili all'indirizzo https://github.com/Wenyueh/inductive_reasoning_benchmark.
I Large Language Models (LLMs) si sono affermati come strumenti potenti per affrontare le sfide moderne e abilitare applicazioni pratiche. Tuttavia, il loro costo computazionale rimane una barriera significativa per un'adozione diffusa. La quantizzazione è emersa come una tecnica promettente per democratizzare l'accesso e consentire il dispiegamento su dispositivi con risorse limitate. Nonostante questi progressi, la sicurezza e l'affidabilità dei modelli quantizzati rimangono poco esplorate, poiché studi precedenti spesso trascurano architetture contemporanee e si basano su benchmark e valutazioni eccessivamente semplificati. Per colmare questa lacuna, introduciamo OpenSafetyMini, un nuovo dataset aperto sulla sicurezza progettato per distinguere meglio tra i modelli. Valutiamo 4 tecniche di quantizzazione all'avanguardia su modelli LLaMA e Mistral utilizzando 4 benchmark, inclusa la valutazione umana. I nostri risultati rivelano che il metodo di quantizzazione ottimale varia per la precisione a 4 bit, mentre le tecniche di quantizzazione vettoriale offrono le migliori prestazioni in termini di sicurezza e affidabilità a 2 bit, fornendo una base per future ricerche.
Questo rapporto presenta un framework completo per la generazione di forme 3D e texture di alta qualità a partire da input eterogenei, tra cui immagini singole, immagini multi-vista e descrizioni testuali. Il framework si compone di due parti principali: generazione di forme 3D e generazione di texture. (1) La pipeline di generazione delle forme 3D utilizza un Variational Autoencoder (VAE) per codificare geometrie 3D implicite in uno spazio latente e una rete di diffusione per generare latenti condizionati sugli input, con modifiche per migliorare la capacità del modello. Viene inoltre esplorato un approccio alternativo basato su mesh create da artisti (AM), che produce risultati promettenti per geometrie più semplici. (2) La generazione delle texture prevede un processo multi-stadio che inizia con la generazione di immagini frontali, seguita dalla generazione di immagini multi-vista, la conversione da texture RGB a PBR e il perfezionamento ad alta risoluzione delle texture multi-vista. Uno scheduler di coerenza è integrato in ogni fase per garantire la coerenza pixel-per-pixel tra le texture multi-vista durante l'inferenza, assicurando un'integrazione senza soluzione di continuità. La pipeline dimostra una gestione efficace di formati di input diversificati, sfruttando architetture neurali avanzate e metodologie innovative per produrre contenuti 3D di alta qualità. Questo rapporto descrive in dettaglio l'architettura del sistema, i risultati sperimentali e le potenziali direzioni future per migliorare ed espandere il framework. Il codice sorgente e i pesi pre-addestrati sono rilasciati al seguente indirizzo: https://github.com/Tencent/Tencent-XR-3DGen.
Due strategie comunemente impiegate per contrastare la diffusione della disinformazione sui social media sono (i) il fact-checking da parte di organizzazioni professionali e (ii) la moderazione comunitaria da parte degli utenti della piattaforma. I cambiamenti di politica attuati da Twitter/X e, più recentemente, da Meta, indicano un allontanamento dalle partnership con organizzazioni di fact-checking e una maggiore dipendenza dalle note comunitarie crowdsourced. Tuttavia, l'estensione e la natura delle dipendenze tra il fact-checking e le note comunitarie utili rimangono poco chiare. Per affrontare queste questioni, utilizziamo modelli linguistici per annotare un ampio corpus di note comunitarie di Twitter/X con attributi come argomento, fonti citate e se confutano affermazioni legate a narrative più ampie di disinformazione. La nostra analisi rivela che le note comunitarie citano fonti di fact-checking fino a cinque volte più di quanto riportato in precedenza. Il fact-checking è particolarmente cruciale per le note relative a post collegati a narrative più ampie, che hanno il doppio delle probabilità di fare riferimento a fonti di fact-checking rispetto ad altre fonti. In conclusione, i nostri risultati dimostrano che una moderazione comunitaria di successo dipende fortemente dal fact-checking professionale.
Quando un essere umano richiede a un LLM di completare un compito di codifica utilizzando funzionalità da un ampio repository di codice, come possiamo fornire contesto dal repository al LLM? Un approccio è aggiungere l'intero repository alla finestra di contesto del LLM. Tuttavia, la maggior parte dei compiti coinvolge solo una frazione dei simboli di un repository, contesti più lunghi sono dannosi per le capacità di ragionamento del LLM e le finestre di contesto non sono illimitate. In alternativa, potremmo emulare la capacità umana di navigare in un ampio repository, individuare la funzionalità corretta e formulare un piano per risolvere il compito. Proponiamo MutaGReP (Ricerca di Piani Basata su Mutazioni Guidate), un approccio per cercare piani che decompongono una richiesta dell'utente in passaggi in linguaggio naturale ancorati alla base di codice. MutaGReP esegue una ricerca neurale ad albero nello spazio dei piani, esplorando tramite mutazioni dei piani e utilizzando un recuperatore di simboli per l'ancoraggio. Nel difficile benchmark LongCodeArena, i nostri piani utilizzano meno del 5% della finestra di contesto di 128K per GPT-4o ma eguagliano le prestazioni di codifica di GPT-4o con una finestra di contesto riempita con il repository. I piani prodotti da MutaGReP consentono a Qwen 2.5 Coder 32B e 72B di eguagliare le prestazioni di GPT-4o con contesto completo del repository e consentono progressi sui compiti più difficili di LongCodeArena. Pagina del progetto: zaidkhan.me/MutaGReP
Man mano che i chatbot basati su intelligenza artificiale diventano onnipresenti, l'interazione vocale si presenta come un modo convincente per abilitare una comunicazione rapida e ad alta larghezza di banda, sia per i segnali semantici che per quelli sociali. Ciò ha spinto la ricerca sui Large Audio Models (LAM) per alimentare esperienze native vocali. Tuttavia, allineare lo sviluppo dei LAM con gli obiettivi degli utenti richiede una chiara comprensione delle loro esigenze e preferenze per stabilire metriche di progresso affidabili. Questo studio affronta queste sfide introducendo un approccio interattivo per valutare i LAM e raccogliendo 7.500 interazioni con LAM da 484 partecipanti. Attraverso il topic modeling delle query degli utenti, identifichiamo i principali casi d'uso per le interfacce audio. Analizziamo poi le classifiche di preferenza degli utenti e i feedback qualitativi per determinare quali modelli si allineano meglio alle loro esigenze. Infine, valutiamo come i benchmark statici predicono le prestazioni interattive: la nostra analisi rivela che nessun benchmark individuale è fortemente correlato con i risultati interattivi (tau ≤ 0.33 per tutti i benchmark). Sebbene la combinazione di più caratteristiche a grana grossa offra un potere predittivo modesto (R^2=0.30), solo due su venti dataset relativi alla risposta a domande vocali e alla previsione dell'età mostrano correlazioni significativamente positive. Ciò suggerisce una chiara necessità di sviluppare valutazioni dei LAM che siano meglio correlate con le preferenze degli utenti.
La stima della qualità è onnipresente nella traduzione automatica, sia per la valutazione che per la generazione. Purtroppo, i modelli di stima della qualità sono spesso opachi e computazionalmente costosi, rendendoli impraticabili per essere integrati in pipeline su larga scala. In questo lavoro, affrontiamo due sfide connesse: (1) ridurre il costo della stima della qualità su larga scala e (2) sviluppare un metodo economico per la stima dell'incertezza nella valutazione della qualità. Per affrontare quest'ultima, introduciamo Instant Confidence COMET, un modello di stima della qualità consapevole dell'incertezza che eguaglia le prestazioni degli approcci precedenti a una frazione del loro costo. Estendiamo questo a Early-Exit COMET, un modello di stima della qualità che può calcolare i punteggi di qualità e le relative confidenze già nei primi strati del modello, consentendoci di uscire precocemente dai calcoli e ridurre i costi di valutazione. Applichiamo inoltre il nostro modello al reranking della traduzione automatica. Combiniamo Early-Exit COMET con un algoritmo bandit basato sull'upper confidence bound per trovare il miglior candidato da un ampio pool senza dover eseguire il modello di valutazione completo su tutti i candidati. In entrambi i casi (valutazione e reranking), i nostri metodi riducono il calcolo richiesto del 50% con un degrado minimo delle prestazioni.
Il recupero di immagini provenienti dalla stessa posizione di una query data è un componente fondamentale di numerose attività di computer vision, come il riconoscimento visivo di luoghi (Visual Place Recognition), il recupero di punti di riferimento (Landmark Retrieval), la localizzazione visiva (Visual Localization), la ricostruzione 3D e la SLAM. Tuttavia, le soluzioni esistenti sono progettate per funzionare specificamente per una di queste attività e sono note per fallire quando i requisiti cambiano leggermente o quando si confrontano con dati fuori distribuzione. In questo articolo combiniamo una varietà di metodi esistenti, tecniche di addestramento e dataset per addestrare un modello di recupero, chiamato MegaLoc, che è performante su più attività. Scopriamo che MegaLoc (1) raggiunge lo stato dell'arte su un gran numero di dataset di riconoscimento visivo di luoghi, (2) ottiene risultati impressionanti su comuni dataset di recupero di punti di riferimento e (3) stabilisce un nuovo stato dell'arte per la localizzazione visiva sui dataset LaMAR, dove abbiamo modificato solo il metodo di recupero all'interno della pipeline di localizzazione esistente. Il codice di MegaLoc è disponibile all'indirizzo https://github.com/gmberton/MegaLoc.
Rispondere a domande complesse e con contesto lungo rimane una sfida significativa per i grandi modelli linguistici (LLM), poiché richiede una chiara comprensione della domanda e un efficace recupero del contesto. Proponiamo Agentic Long-Context Understanding (AgenticLU), un framework progettato per migliorare la comprensione di tali query da parte di un LLM integrando l'auto-chiarificazione mirata con l'ancoraggio contestuale all'interno di un flusso di lavoro agentico. Al centro di AgenticLU si trova la Catena di Chiarificazioni (CoC), in cui i modelli affinano la loro comprensione attraverso domande di chiarificazione auto-generate e corrispondenti ancoraggi contestuali. Scalando l'inferenza come una ricerca ad albero, dove ogni nodo rappresenta un passo della CoC, otteniamo un richiamo delle risposte del 97,8% su NarrativeQA con una profondità di ricerca fino a tre e un fattore di ramificazione di otto. Per ammortizzare l'elevato costo di questo processo di ricerca durante l'addestramento, sfruttiamo le coppie di preferenze ottenute per ogni passo dal flusso di lavoro CoC e eseguiamo una fine-tuning del modello in due fasi: (1) fine-tuning supervisionato per apprendere strategie efficaci di scomposizione, e (2) ottimizzazione diretta delle preferenze per migliorare la qualità del ragionamento. Ciò consente ai modelli AgenticLU di generare chiarificazioni e recuperare contesti rilevanti in modo efficace ed efficiente in un singolo passaggio di inferenza. Esperimenti estesi su sette task con contesto lungo dimostrano che AgenticLU supera significativamente i metodi di prompting all'avanguardia e gli LLM specializzati per contesti lunghi, raggiungendo un ragionamento multi-hop robusto mantenendo prestazioni consistenti all'aumentare della lunghezza del contesto.
Presentiamo MONSTER - il MONash Scalable Time Series Evaluation Repository - una raccolta di grandi dataset per la classificazione di serie temporali. Il campo della classificazione di serie temporali ha tratto beneficio dai benchmark comuni stabiliti dai repository di classificazione di serie temporali UCR e UEA. Tuttavia, i dataset in questi benchmark sono di piccole dimensioni, con dimensioni mediane rispettivamente di 217 e 255 esempi. Di conseguenza, favoriscono un sottospazio ristretto di modelli ottimizzati per ottenere un basso errore di classificazione su una vasta gamma di dataset più piccoli, ovvero modelli che minimizzano la varianza e danno poca importanza a questioni computazionali come la scalabilità. La nostra speranza è di diversificare il campo introducendo benchmark che utilizzano dataset più grandi. Crediamo che ci sia un enorme potenziale per nuovi progressi nel campo affrontando le sfide teoriche e pratiche dell'apprendimento efficace da quantità maggiori di dati.
La pandemia di COVID-19 ha messo a dura prova le risorse sanitarie e ha stimolato il dibattito su come il machine learning possa alleviare il carico di lavoro dei medici e contribuire alla diagnosi. Le radiografie del torace (CXR) sono utilizzate per la diagnosi del COVID-19, ma pochi studi prevedono la gravità delle condizioni del paziente a partire dalle CXR. In questo studio, produciamo un ampio dataset sulla gravità del COVID unendo tre fonti e investigiamo l'efficacia del transfer learning utilizzando modelli pre-addestrati su ImageNet e CXR e transformer per la visione (ViT) sia in compiti di regressione che di classificazione della gravità. Un modello DenseNet161 pre-addestrato ha ottenuto i migliori risultati nel problema di previsione della gravità a tre classi, raggiungendo un'accuratezza complessiva dell'80% e rispettivamente il 77,3%, l'83,9% e il 70% sui casi lievi, moderati e gravi. Il ViT ha ottenuto i migliori risultati nella regressione, con un errore assoluto medio di 0,5676 rispetto ai punteggi di gravità previsti dai radiologi. Il codice sorgente del progetto è disponibile pubblicamente.
Il rapido avanzamento dei modelli di immagini generate da intelligenza artificiale (AGI) ha introdotto significativi sfide nell'valutare la loro qualità, che richiede di considerare molteplici dimensioni come la qualità percettiva, la corrispondenza tempestiva e l'autenticità. Per affrontare queste sfide, proponiamo M3-AGIQA, un framework completo per la valutazione della qualità di AGI che è Multimodale, Multi-Round e Multi-Aspect. Il nostro approccio sfrutta le capacità dei Grandi Modelli Linguistici Multimodali (MLLM) come codificatori congiunti di testo e immagine e distilla le avanzate capacità di didascalia dai MLLM online in un modello locale tramite un fine-tuning di Adattamento a Rango Basso (LoRA). Il framework include un meccanismo strutturato di valutazione multi-round, in cui vengono generate descrizioni di immagini intermedie per fornire approfondimenti sulla qualità, corrispondenza e autenticità. Per allineare le previsioni con i giudizi percettivi umani, un predittore costruito da un xLSTM e una testa di regressione è incorporato per elaborare logit sequenziali e prevedere i Punteggi Medi di Opinione (MOS). Estesi esperimenti condotti su più set di dati di riferimento dimostrano che M3-AGIQA raggiunge prestazioni all'avanguardia, catturando efficacemente aspetti sfumati della qualità di AGI. Inoltre, la validazione cross-dataset conferma la sua forte generalizzabilità. Il codice è disponibile su https://github.com/strawhatboy/M3-AGIQA.
La sfera browniana è uno spazio metrico casuale, omeomorfo alla sfera bidimensionale, che emerge come limite scalare universale di molti tipi di mappe planari casuali. La costruzione diretta della sfera browniana avviene attraverso un analogo continuo della biezione di Cori-Vauquelin-Schaeffer (CVS). La biezione CVS mappa alberi etichettati su mappe planari, e la versione continua mappa l'albero casuale continuo di Aldous con etichette browniane (il serpente browniano) sulla sfera browniana. In questo lavoro, descriviamo l'inverso della biezione CVS continua, costruendo il serpente browniano come una funzione misurabile della sfera browniana. È necessario prestare particolare attenzione per lavorare con l'orientamento della sfera browniana.