Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli di ragionamento su larga scala (LRM) dimostrano che comportamenti sofisticati come il ragionamento a più passi e l'autoriflessione possono emergere attraverso l'apprendimento per rinforzo (RL) con ricompense basate su regole semplici. Tuttavia, gli approcci zero-RL esistenti sono intrinsecamente "on-policy", limitando l'apprendimento alle sole uscite del modello e impedendo l'acquisizione di capacità di ragionamento oltre le sue capacità iniziali. Introduciamo LUFFY (Learning to reason Under oFF-policY guidance), un framework che potenzia lo zero-RL con tracce di ragionamento off-policy. LUFFY bilancia dinamicamente imitazione ed esplorazione combinando dimostrazioni off-policy con rollout on-policy durante l'addestramento. In particolare, proponiamo il modellamento della policy tramite campionamento di importanza regolarizzato per evitare imitazioni superficiali e rigide durante l'addestramento con policy mista. Notevolmente, LUFFY ottiene un guadagno medio superiore a +7,0 su sei benchmark matematici e un vantaggio di oltre +6,2 punti in compiti fuori distribuzione. Supera inoltre sostanzialmente il fine-tuning supervisionato basato sull'imitazione (SFT), specialmente nella generalizzazione. L'analisi mostra che LUFFY non solo imita efficacemente, ma esplora anche oltre le dimostrazioni, offrendo un percorso scalabile per addestrare modelli di ragionamento generalizzabili con guida off-policy.
Presentiamo Eagle 2.5, una famiglia di modelli all'avanguardia per l'apprendimento multimodale a lungo contesto (VLMs). Il nostro lavoro affronta le sfide nella comprensione di video lunghi e nell'interpretazione di immagini ad alta risoluzione, introducendo un framework generalista per entrambe le attività. Il framework di training proposto incorpora il Campionamento Automatico del Degrado e la Preservazione dell'Area dell'Immagine, due tecniche che mantengono l'integrità contestuale e i dettagli visivi. Il framework include inoltre numerose ottimizzazioni di efficienza nella pipeline per il training di dati a lungo contesto. Infine, proponiamo Eagle-Video-110K, un nuovo dataset che integra annotazioni sia a livello di storia che di clip, facilitando la comprensione di video lunghi. Eagle 2.5 dimostra miglioramenti significativi nei benchmark multimodali a lungo contesto, fornendo una soluzione robusta ai limiti degli attuali VLMs. In particolare, il nostro miglior modello, Eagle 2.5-8B, raggiunge il 72,4% su Video-MME con 512 frame in input, eguagliando i risultati di modelli commerciali di primo livello come GPT-4o e modelli open-source su larga scala come Qwen2.5-VL-72B e InternVL2.5-78B.
Questo articolo propone un meta-agente a livello di query denominato FlowReasoner per automatizzare la progettazione di sistemi multi-agente a livello di query, ovvero un sistema per ogni query dell'utente. La nostra idea centrale è incentivare un meta-agente basato sul ragionamento attraverso feedback esterni di esecuzione. Nello specifico, distillando DeepSeek R1, dotiamo inizialmente FlowReasoner della capacità di ragionamento di base riguardo alla generazione di sistemi multi-agente. Successivamente, lo potenziamo ulteriormente attraverso l'apprendimento per rinforzo (RL) con feedback esterni di esecuzione. Una ricompensa multi-scopo è progettata per guidare l'addestramento RL considerando aspetti di prestazione, complessità ed efficienza. In questo modo, FlowReasoner è in grado di generare un sistema multi-agente personalizzato per ogni query dell'utente attraverso un ragionamento deliberativo. Gli esperimenti condotti su benchmark di codice ingegneristico e competitivo dimostrano la superiorità di FlowReasoner. In particolare, supera o1-mini con un'accuratezza del 10,52% su tre benchmark. Il codice è disponibile all'indirizzo https://github.com/sail-sg/FlowReasoner.
Gli attuali Modelli Linguistici di Grande Dimensione (LLM) spesso vengono sottoposti a fine-tuning supervisionato (SFT) per acquisire capacità di utilizzo di strumenti. Tuttavia, l'SFT fatica a generalizzare in scenari di utilizzo di strumenti non familiari o complessi. I recenti progressi nell'apprendimento per rinforzo (RL), in particolare con modelli simili a R1, hanno dimostrato promettenti capacità di ragionamento e generalizzazione. Tuttavia, la progettazione delle ricompense per l'uso di strumenti presenta sfide uniche: più strumenti possono essere invocati con parametri diversi, e segnali di ricompensa grossolani, come la corrispondenza delle risposte, non offrono il feedback fine necessario per un apprendimento efficace. In questo lavoro, presentiamo il primo studio completo sulla progettazione delle ricompense per compiti di selezione e applicazione di strumenti all'interno del paradigma RL. Esploriamo sistematicamente una vasta gamma di strategie di ricompensa, analizzandone tipi, scale, granularità e dinamiche temporali. Basandoci su queste intuizioni, proponiamo una progettazione delle ricompense basata su principi specifici per compiti di utilizzo di strumenti e la applichiamo per addestrare LLM utilizzando l'Ottimizzazione Relativa delle Politiche di Gruppo (GRPO). Le valutazioni empiriche su diversi benchmark dimostrano che il nostro approccio produce un addestramento robusto, scalabile e stabile, ottenendo un miglioramento del 17% rispetto ai modelli base e un guadagno del 15% rispetto ai modelli SFT. Questi risultati evidenziano il ruolo cruciale di una progettazione attenta delle ricompense nel migliorare le capacità di utilizzo di strumenti e le prestazioni di generalizzazione degli LLM. Tutti i codici sono rilasciati per facilitare la ricerca futura.
Le interazioni multi-turno con i modelli linguistici (LM) presentano rischi critici per la sicurezza, poiché intenti dannosi possono essere strategicamente distribuiti tra più scambi. Tuttavia, la stragrande maggioranza del lavoro precedente si è concentrata sulla sicurezza a singolo turno, mentre l'adattabilità e la diversità rimangono tra le principali sfide del red-teaming multi-turno. Per affrontare queste sfide, presentiamo X-Teaming, un framework scalabile che esplora sistematicamente come interazioni apparentemente innocue possano degenerare in esiti dannosi e genera scenari di attacco corrispondenti. X-Teaming utilizza agenti collaborativi per la pianificazione, l'ottimizzazione degli attacchi e la verifica, raggiungendo un'efficacia e una diversità all'avanguardia nel jailbreak multi-turno, con tassi di successo fino al 98,1% su modelli rappresentativi open-weight e closed-source. In particolare, X-Teaming ottiene un tasso di successo del 96,2% contro l'ultimo modello Claude 3.7 Sonnet, considerato quasi immune agli attacchi a singolo turno. Basandoci su X-Teaming, introduciamo XGuard-Train, un dataset open-source per l'addestramento alla sicurezza multi-turno, 20 volte più grande della migliore risorsa precedente, composto da 30K jailbreak interattivi, progettato per consentire un allineamento robusto alla sicurezza multi-turno per i LM. Il nostro lavoro offre strumenti e approfondimenti essenziali per mitigare attacchi conversazionali sofisticati, avanzando la sicurezza multi-turno dei LM.
Il ragionamento integrato con strumenti (Tool-integrated Reasoning, TIR) potenzia i grandi modelli linguistici (Large Language Models, LLMs) con la capacità di invocare strumenti esterni, come motori di ricerca e interpreti di codice, per risolvere compiti che vanno oltre le capacità del ragionamento basato esclusivamente sul linguaggio. Sebbene l'apprendimento per rinforzo (Reinforcement Learning, RL) abbia dimostrato potenzialità nel migliorare il TIR ottimizzando la correttezza delle risposte finali, gli approcci esistenti spesso trascurano l'efficienza e i costi associati all'uso degli strumenti. Ciò può portare a comportamenti subottimali, come un eccessivo numero di chiamate agli strumenti che aumenta l'overhead computazionale e finanziario, o un uso insufficiente degli strumenti che compromette la qualità delle risposte. In questo lavoro, proponiamo l'Optimal Tool Call-controlled Policy Optimization (OTC-PO), un framework basato su RL semplice ma efficace che incoraggia i modelli a produrre risposte accurate con un numero minimo di chiamate agli strumenti. Il nostro metodo introduce una ricompensa integrata con gli strumenti che considera congiuntamente la correttezza e l'efficienza nell'uso degli strumenti, promuovendo un'elevata produttività degli strumenti stessi. Istanziamo questo framework sia all'interno del Proximal Policy Optimization (PPO) che del Group Relative Preference Optimization (GRPO), ottenendo rispettivamente OTC-PPO e OTC-GRPO. Esperimenti condotti con Qwen-2.5 e Qwen-Math su diversi benchmark di domande e risposte mostrano che il nostro approccio riduce le chiamate agli strumenti fino al 73,1% e migliora la produttività degli strumenti fino al 229,4%, mantenendo una precisione delle risposte comparabile. Per quanto ne sappiamo, questo è il primo framework basato su RL che ottimizza esplicitamente l'efficienza nell'uso degli strumenti nel TIR.
I recenti Computer-Using Agents (CUAs), alimentati da modelli linguistici multimodali di grandi dimensioni (LLMs), offrono una direzione promettente per l'automazione di flussi di lavoro complessi sui desktop attraverso il linguaggio naturale. Tuttavia, la maggior parte degli attuali CUAs rimane prototipi concettuali, ostacolati da un'integrazione superficiale con il sistema operativo, interazioni fragili basate su screenshot ed esecuzioni disruptive. Presentiamo UFO2, un AgentOS multiagente per desktop Windows che eleva i CUAs a un livello pratico di automazione a livello di sistema. UFO2 include un HostAgent centralizzato per la scomposizione e il coordinamento dei task, insieme a una raccolta di AppAgent specializzati per applicazioni, dotati di API native, conoscenza specifica del dominio e un livello unificato di azioni GUI--API. Questa architettura consente un'esecuzione robusta dei task preservando modularità e estensibilità. Una pipeline ibrida di rilevamento del controllo combina Windows UI Automation (UIA) con il parsing basato sulla visione per supportare diversi stili di interfaccia. L'efficienza in fase di esecuzione è ulteriormente migliorata attraverso una pianificazione speculativa multi-azione, riducendo l'overhead per passo degli LLM. Infine, un'interfaccia Picture-in-Picture (PiP) abilita l'automazione all'interno di un desktop virtuale isolato, consentendo agli agenti e agli utenti di operare contemporaneamente senza interferenze. Valutiamo UFO2 su oltre 20 applicazioni Windows del mondo reale, dimostrando miglioramenti sostanziali nella robustezza e nell'accuratezza di esecuzione rispetto ai precedenti CUAs. I nostri risultati mostrano che un'integrazione profonda con il sistema operativo apre una strada scalabile verso un'automazione desktop affidabile e allineata alle esigenze degli utenti.
La crescente domanda di applicazioni AR/VR ha evidenziato la necessità di contenuti panoramici a 360 gradi di alta qualità. Tuttavia, generare immagini e video panoramici a 360 gradi di alta qualità rimane un compito impegnativo a causa delle gravi distorsioni introdotte dalla proiezione equirettangolare (ERP). Gli approcci esistenti o adattano modelli di diffusione pre-addestrati su dataset ERP limitati o tentano metodi senza adattamento che si basano comunque su rappresentazioni latenti ERP, portando a discontinuità vicino ai poli. In questo articolo, introduciamo SphereDiff, un nuovo approccio per la generazione senza soluzione di continuità di immagini e video panoramici a 360 gradi utilizzando modelli di diffusione all'avanguardia senza ulteriori adattamenti. Definiamo una rappresentazione latente sferica che garantisce una distribuzione uniforme in tutte le prospettive, mitigando le distorsioni intrinseche dell'ERP. Estendiamo MultiDiffusion allo spazio latente sferico e proponiamo un metodo di campionamento latente sferico per consentire l'uso diretto di modelli di diffusione pre-addestrati. Inoltre, introduciamo una media ponderata consapevole delle distorsioni per migliorare ulteriormente la qualità della generazione nel processo di proiezione. Il nostro metodo supera gli approcci esistenti nella generazione di contenuti panoramici a 360 gradi mantenendo un'elevata fedeltà, rendendolo una soluzione robusta per applicazioni AR/VR immersive. Il codice è disponibile qui. https://github.com/pmh9960/SphereDiff
La comprensione multi-vista, ovvero la capacità di conciliare informazioni visive da diverse prospettive per una navigazione, manipolazione e comprensione delle scene 3D efficaci, rappresenta una sfida fondamentale per i Modelli Linguistici Multimodali di Grande Scala (MLLMs) destinati a essere utilizzati come agenti incarnati. Sebbene i recenti MLLMs abbiano dimostrato progressi impressionanti nel ragionamento e nella pianificazione di alto livello, spesso si rivelano carenti quando devono affrontare la coerenza geometrica multi-vista e la corrispondenza tra viste. Per valutare in modo completo le sfide degli MLLMs nel ragionamento sulle scene multi-vista, proponiamo All-Angles Bench, un benchmark composto da oltre 2.100 coppie domanda-risposta multi-vista annotate accuratamente da esseri umani, relative a 90 scene reali diverse. Le nostre sei attività (conteggio, identificazione degli attributi, distanza relativa, direzione relativa, manipolazione degli oggetti e stima della posa della telecamera) testano specificamente la corrispondenza geometrica del modello e la capacità di allineare le informazioni in modo coerente tra le diverse viste. I nostri esperimenti estesi, che mettono a confronto 27 MLLMs rappresentativi, tra cui Gemini-2.0-Flash, Claude-3.7-Sonnet e GPT-4o, con valutatori umani, rivelano un divario di prestazioni significativo, indicando che gli attuali MLLMs sono ancora lontani dal raggiungere la competenza umana. Attraverso un'analisi approfondita, dimostriamo che gli MLLMs sono particolarmente carenti in due aspetti: (1) la corrispondenza tra viste per prospettive parzialmente occluse e (2) l'identificazione delle pose approssimative della telecamera. Questi risultati evidenziano la necessità di affinamenti specifici per il dominio o di moduli che incorporino una maggiore consapevolezza multi-vista. Crediamo che il nostro All-Angles Bench offra intuizioni preziose e contribuisca a colmare il divario tra gli MLLMs e la comprensione multi-vista a livello umano. Il progetto e il benchmark sono disponibili pubblicamente all'indirizzo https://danielchyeh.github.io/All-Angles-Bench/.
I modelli di ragionamento hanno dimostrato prestazioni impressionanti in compiti complessi in cui i tradizionali modelli linguistici faticano. Tuttavia, molti sono afflitti dal problema del "sovrapensiero" - generando grandi quantità di token non necessari che non migliorano l'accuratezza nella risposta a una domanda. Introduciamo misure approssimate della difficoltà a livello di problema e dimostriamo che esiste una chiara relazione tra la difficoltà del problema e il numero ottimale di token da utilizzare, valutando quanto bene una varietà di modelli di ragionamento sia calibrata in termini di allocazione efficiente del conteggio ottimale di token. Troviamo che, in generale, i modelli di ragionamento sono scarsamente calibrati, specialmente su problemi facili. Per valutare la calibrazione su domande semplici, introduciamo DUMB500, un dataset di problemi estremamente facili di matematica, ragionamento, codice e compiti, e valutiamo congiuntamente i modelli di ragionamento su questi esempi semplici e su esempi estremamente difficili tratti da benchmark di frontiera esistenti nello stesso dominio di compito. Infine, introduciamo THOUGHTTERMINATOR, una tecnica di decodifica black box senza addestramento che migliora significativamente la calibrazione dei modelli di ragionamento.
Il 3D Gaussian Splatting (3DGS) eccelle nella ricostruzione fotorealistica di scene, ma incontra difficoltà negli scenari stilizzati (ad esempio, cartoni animati, giochi) a causa di texture frammentate, disallineamento semantico e limitata adattabilità a estetiche astratte. Proponiamo StyleMe3D, un framework olistico per il trasferimento di stile nel 3D GS che integra il condizionamento multi-modale dello stile, l'allineamento semantico multi-livello e il miglioramento della qualità percettiva. Le nostre intuizioni chiave includono: (1) ottimizzare solo gli attributi RGB preserva l'integrità geometrica durante la stilizzazione; (2) separare la semantica a basso, medio e alto livello è cruciale per un trasferimento di stile coerente; (3) la scalabilità su oggetti isolati e scene complesse è essenziale per un impiego pratico. StyleMe3D introduce quattro componenti innovativi: Dynamic Style Score Distillation (DSSD), che sfrutta lo spazio latente di Stable Diffusion per l'allineamento semantico; Contrastive Style Descriptor (CSD) per il trasferimento di texture localizzato e consapevole del contenuto; Simultaneously Optimized Scale (SOS) per disaccoppiare i dettagli dello stile e la coerenza strutturale; e 3D Gaussian Quality Assessment (3DG-QA), un precedente estetico differenziabile addestrato su dati valutati da esseri umani per sopprimere artefatti e migliorare l'armonia visiva. Valutato sui dataset sintetici NeRF (oggetti) e tandt db (scene), StyleMe3D supera i metodi all'avanguardia nel preservare i dettagli geometrici (ad esempio, incisioni su sculture) e garantire la coerenza stilistica tra le scene (ad esempio, illuminazione coerente nei paesaggi), mantenendo il rendering in tempo reale. Questo lavoro colma il divario tra il 3D GS fotorealistico e la stilizzazione artistica, aprendo applicazioni nei giochi, nei mondi virtuali e nell'arte digitale.
In questo articolo, presentiamo EasyEdit2, un framework progettato per abilitare la regolazione plug-and-play del comportamento dei Large Language Model (LLM). EasyEdit2 supporta un'ampia gamma di interventi in fase di test, tra cui sicurezza, sentiment, personalità, schemi di ragionamento, veridicità e caratteristiche linguistiche. A differenza del suo predecessore, EasyEdit2 presenta una nuova architettura specificamente progettata per il controllo fluido del modello. Comprende moduli chiave come il generatore di vettori di controllo e l'applicatore di vettori di controllo, che consentono la generazione e l'applicazione automatica di vettori di controllo per influenzare il comportamento del modello senza modificarne i parametri. Uno dei principali vantaggi di EasyEdit2 è la sua facilità d'uso: gli utenti non necessitano di conoscenze tecniche approfondite. Con un solo esempio, possono guidare e regolare efficacemente le risposte del modello, rendendo il controllo preciso sia accessibile che efficiente. Empiricamente, riportiamo le prestazioni di controllo del modello su diversi LLM, dimostrando l'efficacia di queste tecniche. Abbiamo rilasciato il codice sorgente su GitHub all'indirizzo https://github.com/zjunlp/EasyEdit insieme a un notebook dimostrativo. Inoltre, forniamo un video dimostrativo all'indirizzo https://zjunlp.github.io/project/EasyEdit2/video per una rapida introduzione.
Il controllo della telecamera e del movimento umano è stato ampiamente studiato per la generazione di video, ma gli approcci esistenti tipicamente li affrontano separatamente, soffrendo di dati limitati con annotazioni di alta qualità per entrambi gli aspetti. Per superare questo limite, presentiamo Uni3C, un framework unificato potenziato in 3D per il controllo preciso sia della telecamera che del movimento umano nella generazione di video. Uni3C include due contributi chiave. In primo luogo, proponiamo un modulo di controllo plug-and-play addestrato con un backbone generativo di video congelato, PCDController, che utilizza nuvole di punti non proiettate dalla profondità monoculare per ottenere un controllo accurato della telecamera. Sfruttando i forti prior 3D delle nuvole di punti e le potenti capacità dei modelli di base per i video, PCDController mostra un'impressionante generalizzazione, performando bene indipendentemente dal fatto che il backbone di inferenza sia congelato o fine-tuned. Questa flessibilità consente ai diversi moduli di Uni3C di essere addestrati in domini specifici, ovvero il controllo della telecamera o il controllo del movimento umano, riducendo la dipendenza da dati annotati congiuntamente. In secondo luogo, proponiamo una guida 3D allineata congiuntamente per la fase di inferenza che integra in modo fluido sia le nuvole di punti sceniche che i personaggi SMPL-X per unificare i segnali di controllo rispettivamente per la telecamera e il movimento umano. Esperimenti estensivi confermano che PCDController gode di una forte robustezza nel guidare il movimento della telecamera per backbone fine-tuned di generazione video. Uni3C supera sostanzialmente i concorrenti sia nella controllabilità della telecamera che nella qualità del movimento umano. Inoltre, abbiamo raccolto set di validazione personalizzati che presentano movimenti della telecamera e azioni umane impegnative per validare l'efficacia del nostro metodo.
Presentiamo LeetCodeDataset, un benchmark di alta qualità per valutare e addestrare modelli di generazione di codice, affrontando due sfide chiave nella ricerca sui LLM: la mancanza di benchmark di codifica focalizzati sul ragionamento e di ambienti di addestramento autonomi. Curando problemi Python di LeetCode con metadati ricchi, ampia copertura, oltre 100 casi di test per problema e suddivisioni temporali (pre/post luglio 2024), il nostro dataset consente valutazioni prive di contaminazione e un efficiente fine-tuning supervisionato (SFT). Gli esperimenti mostrano che i modelli di ragionamento superano significativamente le controparti non orientate al ragionamento, mentre l'SFT con soli 2,6K soluzioni generate dal modello raggiunge prestazioni comparabili a quelle di controparti con 110K campioni. Il dataset e il framework di valutazione sono disponibili su Hugging Face e Github.
I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno alimentato gli Agenti per Interfacce Grafiche (GUI), dimostrando potenziale nell'automatizzazione di attività su dispositivi informatici. Recenti lavori hanno iniziato a esplorare il ragionamento nei compiti GUI con risultati incoraggianti. Tuttavia, molti approcci attuali si basano su modelli di ragionamento progettati manualmente, il che può portare a un ragionamento non sufficientemente robusto e adattivo per ambienti GUI complessi. Nel frattempo, alcuni agenti esistenti continuano a operare come Attori Reattivi, affidandosi principalmente a un ragionamento implicito che potrebbe non essere sufficientemente approfondito per compiti GUI che richiedono pianificazione e recupero dagli errori. Sosteniamo che il progresso di questi agenti richieda un passaggio dall'agire reattivo all'agire basato su un ragionamento deliberato. Per facilitare questa trasformazione, introduciamo InfiGUI-R1, un agente GUI basato su MLLM sviluppato attraverso il nostro framework Actor2Reasoner, un approccio di formazione in due fasi incentrato sul ragionamento, progettato per far evolvere progressivamente gli agenti da Attori Reattivi a Ragionatori Deliberativi. La prima fase, Iniezione del Ragionamento, si concentra sull'istituzione di un ragionatore di base. Utilizziamo la Distillazione del Ragionamento Spaziale per trasferire capacità di ragionamento spaziale cross-modale da modelli insegnanti a MLLM attraverso traiettorie con passaggi di ragionamento espliciti, consentendo ai modelli di integrare informazioni visivo-spaziali GUI con il ragionamento logico prima della generazione delle azioni. La seconda fase, Miglioramento della Deliberazione, affina il ragionatore di base in uno deliberativo utilizzando l'Apprendimento per Rinforzo. Questa fase introduce due approcci: Guida ai Sotto-obiettivi, che premia i modelli per la generazione di sotto-obiettivi intermedi accurati, e Costruzione di Scenari di Recupero dagli Errori, che crea scenari di formazione di fallimento-e-recupero da passaggi identificati come propensi agli errori. I risultati sperimentali mostrano che InfiGUI-R1 raggiunge prestazioni solide nei compiti di ancoraggio GUI e nelle traiettorie. Risorse disponibili su https://github.com/Reallm-Labs/InfiGUI-R1.
Gli agenti GUI mobili mostrano un potenziale promettente nell'automatizzazione di compiti, ma affrontano sfide di generalizzazione in scenari reali diversificati. Gli approcci tradizionali che utilizzano pre-addestramento o fine-tuning con enormi dataset faticano a gestire la diversità delle applicazioni mobili e dei compiti specifici per l'utente. Proponiamo di potenziare le capacità degli agenti GUI mobili attraverso dimostrazioni umane, concentrandoci sul miglioramento delle prestazioni in scenari non visti piuttosto che perseguire una generalizzazione universale tramite dataset più ampi. Per realizzare questo paradigma, introduciamo LearnGUI, il primo dataset completo specificamente progettato per studiare l'apprendimento basato su dimostrazioni negli agenti GUI mobili, comprendente 2.252 compiti offline e 101 compiti online con dimostrazioni umane di alta qualità. Sviluppiamo inoltre LearnAct, un sofisticato framework multi-agente che estrae automaticamente conoscenza dalle dimostrazioni per migliorare il completamento dei compiti. Questo framework integra tre agenti specializzati: DemoParser per l'estrazione della conoscenza, KnowSeeker per il recupero della conoscenza rilevante e ActExecutor per l'esecuzione dei compiti potenziata dalle dimostrazioni. I nostri risultati sperimentali mostrano significativi miglioramenti nelle prestazioni sia nelle valutazioni offline che online. Nelle valutazioni offline, una singola dimostrazione migliora le prestazioni del modello, aumentando l'accuratezza di Gemini-1.5-Pro dal 19,3% al 51,7%. Nelle valutazioni online, il nostro framework aumenta il tasso di successo dei compiti di UI-TARS-7B-SFT dal 18,1% al 32,8%. Il framework LearnAct e il benchmark LearnGUI stabiliscono l'apprendimento basato su dimostrazioni come una direzione promettente per agenti GUI mobili più adattabili, personalizzati e implementabili.
Presentiamo Distributional RewArds for Generative OptimizatioN (DRAGON), un framework versatile per il fine-tuning di modelli di generazione di media verso un risultato desiderato. Rispetto ai tradizionali approcci di reinforcement learning con feedback umano (RLHF) o alle metodologie basate su preferenze a coppie come l'ottimizzazione diretta delle preferenze (DPO), DRAGON è più flessibile. Può ottimizzare funzioni di ricompensa che valutano sia singoli esempi che distribuzioni di essi, rendendolo compatibile con un ampio spettro di ricompense a livello di istanza, istanza-distribuzione e distribuzione-distribuzione. Sfruttando questa versatilità, costruiamo nuove funzioni di ricompensa selezionando un encoder e un insieme di esempi di riferimento per creare una distribuzione esemplare. Quando vengono utilizzati encoder cross-modalità come CLAP, gli esempi di riferimento possono appartenere a una modalità diversa (ad esempio, testo rispetto ad audio). Successivamente, DRAGON raccoglie generazioni online e on-policy, le valuta per costruire un insieme di dimostrazioni positive e uno negativo, e sfrutta il contrasto tra i due insiemi per massimizzare la ricompensa. Per la valutazione, abbiamo eseguito il fine-tuning di un modello di diffusione testo-musica nel dominio audio con 20 diverse funzioni di ricompensa, tra cui un modello personalizzato di estetica musicale, punteggio CLAP, diversità Vendi e distanza audio di Fréchet (FAD). Abbiamo inoltre confrontato impostazioni FAD a livello di istanza (per canzone) e su interi dataset, mentre eseguivamo l'ablation di più encoder FAD e insiemi di riferimento. Su tutte le 20 ricompense target, DRAGON raggiunge una percentuale media di vittoria dell'81,45%. Inoltre, le funzioni di ricompensa basate su insiemi esemplari migliorano effettivamente le generazioni e sono comparabili alle ricompense basate su modelli. Con un insieme esemplare appropriato, DRAGON raggiunge una percentuale di vittoria nella qualità musicale votata dagli esseri umani del 60,95% senza addestramento su annotazioni di preferenze umane. In questo modo, DRAGON rappresenta un nuovo approccio alla progettazione e ottimizzazione delle funzioni di ricompensa per migliorare la qualità percepita dagli esseri umani. Esempi audio disponibili su https://ml-dragon.github.io/web.
I Large Language Model (LLM) hanno dimostrato forti capacità di ragionamento, in particolare quando potenziati attraverso il Reinforcement Learning (RL). Mentre lavori precedenti hanno applicato con successo il RL al ragionamento matematico -- dove le regole e la correttezza sono ben definite -- generalizzare questi metodi a domini di ragionamento più ampi rimane una sfida a causa della limitata disponibilità di dati, della mancanza di strutture di ricompensa verificabili e dei requisiti variabili dei compiti. In questo lavoro, proponiamo NEMOTRON-CROSSTHINK, un framework che incorpora sistematicamente corpora multi-dominio, inclusi sia coppie domanda-risposta sintetiche che del mondo reale, nell'addestramento RL per migliorare la generalizzazione su compiti di ragionamento diversi. NEMOTRON-CROSSTHINK affronta le principali sfide (1) incorporando dati da fonti varie che spaziano dalle STEM alle scienze umane e sociali; (2) applicando modelli strutturati (ad esempio, a scelta multipla e a risposta aperta) per controllare la complessità dello spazio delle risposte; (3) filtrando le risposte verificabili; e (4) ottimizzando le strategie di miscelazione dei dati che utilizzano efficacemente dati provenienti da più fonti. Il nostro approccio consente una modellizzazione scalabile e verificabile delle ricompense oltre la matematica e dimostra miglioramenti in termini di accuratezza sia nei benchmark di ragionamento matematico (MATH-500: +30,1%, AMC23: +27,5%) che non matematici (MMLU-PRO: +12,8%, GPQA-DIAMOND: +11,3%, AGIEVAL: +15,1%, SUPERGPQA: +3,8%). Inoltre, NEMOTRON-CROSSTHINK mostra una significativa efficienza nelle risposte -- utilizzando il 28% in meno di token per risposte corrette -- evidenziando un ragionamento più focalizzato ed efficace. Attraverso NEMOTRON-CROSSTHINK, dimostriamo che l'integrazione di dati multi-dominio e multi-formato nel RL porta a LLM più accurati, efficienti e generalizzabili.
I Large Multimodal Models (LMM) percepiscono uniformemente i fotogrammi video, creando inefficienze computazionali per video con densità di informazioni temporali intrinsecamente variabile. Questo articolo presenta Quicksviewer, un LMM con un nuovo paradigma di percezione che suddivide un video a densità non uniforme in cubi variabili utilizzando Gumbel Softmax, seguita da un ricampionamento unificato per ciascun cubo per ottenere una comprensione video efficiente. Questo approccio semplice e intuitivo comprime dinamicamente il video online in base alla sua densità temporale, riducendo significativamente la ridondanza spaziotemporale (tasso di compressione complessivo di 45 volte), consentendo al contempo un addestramento efficiente con un ampio campo recettivo. Addestriamo il modello da un backbone linguistico attraverso tre fasi progressive, ciascuna delle quali incorpora video lunghi in media di 420s/1fps grazie all'efficienza di percezione. Con solo 0,8 milioni di campioni video-testo totali per l'addestramento, il nostro modello supera il baseline diretto che utilizza una strategia di partizionamento fissa di un massimo di 8,72 in accuratezza, dimostrando l'efficacia delle prestazioni. Su Video-MME, Quicksviewer raggiunge lo stato dell'arte (SOTA) con lunghezze di sequenza modeste utilizzando solo fino al 5% dei token per fotogramma richiesti dai baseline. Con questo paradigma, aumentare il numero di fotogrammi in ingresso rivela una chiara legge di potenza delle capacità del modello. È inoltre verificato empiricamente che i segmenti generati dalla rete di cubatura possono aiutare nell'analisi di eventi continui nei video.
Presentiamo TAPIP3D, un approccio innovativo per il tracciamento a lungo termine di punti 3D in video monoculari RGB e RGB-D. TAPIP3D rappresenta i video come nuvole spazio-temporali di feature stabilizzate rispetto alla telecamera, sfruttando le informazioni sulla profondità e sul movimento della telecamera per proiettare le feature 2D del video in uno spazio 3D in cui il movimento della telecamera è efficacemente annullato. TAPIP3D raffina iterativamente le stime del movimento 3D su più frame all'interno di questa rappresentazione stabilizzata, consentendo un tracciamento robusto per periodi prolungati. Per gestire le irregolarità intrinseche delle distribuzioni di punti 3D, proponiamo un meccanismo di Local Pair Attention. Questa strategia di contestualizzazione 3D sfrutta efficacemente le relazioni spaziali in 3D, formando vicinanze di feature informative per una stima precisa delle traiettorie 3D. Il nostro approccio centrato sul 3D supera significativamente i metodi esistenti per il tracciamento di punti 3D e migliora persino l'accuratezza del tracciamento 2D rispetto ai tradizionali tracker di pixel 2D quando è disponibile una profondità accurata. Supporta l'inferenza sia nelle coordinate della telecamera (cioè non stabilizzate) che in quelle del mondo, e i nostri risultati dimostrano che la compensazione del movimento della telecamera migliora le prestazioni del tracciamento. Il nostro approccio sostituisce le convenzionali vicinanze di correlazione quadrata 2D utilizzate nei precedenti tracker 2D e 3D, portando a risultati più robusti e accurati su vari benchmark di tracciamento di punti 3D. Pagina del progetto: https://tapip3d.github.io
L'anamorfosi si riferisce a una categoria di immagini che vengono intenzionalmente distorte, rendendole irriconoscibili se osservate direttamente. La loro vera forma si rivela solo quando vengono viste da un punto di vista specifico, che può essere ottenuto attraverso un dispositivo catadiottrico come uno specchio o una lente. Sebbene la costruzione di questi dispositivi matematici risalga già al XVII secolo, essi sono interpretabili solo se osservati da una prospettiva particolare e tendono a perdere significato se visti normalmente. In questo articolo, riprendiamo queste famose illusioni ottiche con un tocco generativo. Con l'aiuto di modelli di flusso rettificato latente, proponiamo un metodo per creare immagini anamorfiche che mantengono comunque un'interpretazione valida se osservate direttamente. A tal fine, introduciamo il Laplacian Pyramid Warping, una tecnica di deformazione delle immagini consapevole della frequenza, fondamentale per generare visuali di alta qualità. Il nostro lavoro estende gli Anagrammi Visivi (arXiv:2311.17919) ai modelli di spazio latente e a una gamma più ampia di trasformazioni spaziali, consentendo la creazione di nuove illusioni percettive generative.
Questo studio conduce un confronto dettagliato tra il modello base di rilevamento oggetti RF-DETR e le configurazioni del modello di rilevamento oggetti YOLOv12 per il rilevamento di frutti verdi in un ambiente complesso di frutteto caratterizzato da ambiguità delle etichette, occlusioni e fusione con lo sfondo. È stato sviluppato un dataset personalizzato con annotazioni sia a classe singola (frutto verde) che multi-classe (frutti verdi occlusi e non occlusi) per valutare le prestazioni dei modelli in condizioni dinamiche del mondo reale. Il modello di rilevamento oggetti RF-DETR, che utilizza un backbone DINOv2 e un'attenzione deformabile, si è distinto nella modellazione del contesto globale, identificando efficacemente frutti verdi parzialmente occlusi o ambigui. Al contrario, YOLOv12 ha sfruttato un'attenzione basata su CNN per un'estrazione migliorata delle caratteristiche locali, ottimizzandolo per l'efficienza computazionale e il dispiegamento su dispositivi edge. RF-DETR ha raggiunto il più alto valore di Precisione Media (mAP50) di 0,9464 nel rilevamento a classe singola, dimostrando la sua superiore capacità di localizzare frutti verdi in scene affollate. Sebbene YOLOv12N abbia registrato il più alto mAP@50:95 di 0,7620, RF-DETR ha costantemente superato gli altri in scenari spaziali complessi. Per il rilevamento multi-classe, RF-DETR ha guidato con un mAP@50 di 0,8298, mostrando la sua capacità di distinguere tra frutti occlusi e non occlusi, mentre YOLOv12L ha ottenuto il punteggio più alto in mAP@50:95 con 0,6622, indicando una migliore classificazione in contesti di occlusione dettagliati. L'analisi delle dinamiche di addestramento ha evidenziato la rapida convergenza di RF-DETR, in particolare nelle impostazioni a classe singola dove ha raggiunto un plateau entro 10 epoche, dimostrando l'efficienza delle architetture basate su transformer nell'adattarsi a dati visivi dinamici. Questi risultati convalidano l'efficacia di RF-DETR per applicazioni agricole di precisione, con YOLOv12 adatto a scenari che richiedono risposte rapide. >Termini di indice: Rilevamento oggetti RF-DETR, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNN.
I Large Language Models (LLMs) dimostrano capacità notevoli ma sono suscettibili a prompt avversari che sfruttano vulnerabilità per produrre output non sicuri o distorti. I metodi esistenti di red-teaming spesso affrontano sfide di scalabilità, requisiti ad alta intensità di risorse o una diversità limitata nelle strategie di attacco. Proponiamo RainbowPlus, un nuovo framework di red-teaming basato su calcolo evolutivo, che migliora la generazione di prompt avversari attraverso una ricerca adattiva di qualità-diversità (QD) che estende algoritmi evolutivi classici come MAP-Elites con innovazioni specifiche per i modelli linguistici. Utilizzando un archivio multi-elemento per memorizzare prompt di alta qualità e diversificati e una funzione di fitness completa per valutare più prompt contemporaneamente, RainbowPlus supera i limiti degli archivi a singolo prompt e dei confronti a coppie nei metodi QD precedenti come Rainbow Teaming. Esperimenti che confrontano RainbowPlus con metodi QD su sei dataset di benchmark e quattro LLM open-source dimostrano un tasso di successo degli attacchi (ASR) e una diversità (Diverse-Score circa 0,84) superiori, generando fino a 100 volte più prompt unici (ad esempio, 10.418 contro 100 per Ministral-8B-Instruct-2410). Contro nove metodi all'avanguardia sul dataset HarmBench con dodici LLM (dieci open-source, due closed-source), RainbowPlus raggiunge un ASR medio dell'81,1%, superando AutoDAN-Turbo del 3,9%, ed è 9 volte più veloce (1,45 contro 13,50 ore). La nostra implementazione open-source favorisce ulteriori progressi nella sicurezza degli LLM, offrendo uno strumento scalabile per la valutazione delle vulnerabilità. Codice e risorse sono pubblicamente disponibili su https://github.com/knoveleng/rainbowplus, supportando la riproducibilità e la ricerca futura nel red-teaming degli LLM.
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più implementati in pipeline di elaborazione dati specializzate in vari ambiti, come finanza, marketing e e-commerce. Tuttavia, quando vengono eseguiti in produzione su molti input, spesso non seguono le istruzioni o non soddisfano le aspettative degli sviluppatori. Per migliorare l'affidabilità in queste applicazioni, è essenziale creare asserzioni o barriere di sicurezza per gli output degli LLM da eseguire insieme alle pipeline. Tuttavia, determinare il giusto insieme di asserzioni che catturino i requisiti degli sviluppatori per un determinato compito è una sfida. In questo articolo, presentiamo PROMPTEVALS, un dataset di 2087 prompt per pipeline LLM con 12623 criteri di asserzione corrispondenti, raccolti da sviluppatori che utilizzano i nostri strumenti open-source per pipeline LLM. Questo dataset è 5 volte più grande delle raccolte precedenti. Utilizzando una suddivisione di test di PROMPTEVALS come benchmark, abbiamo valutato modelli closed-source e open-source nella generazione di asserzioni rilevanti. In particolare, i nostri modelli Mistral e Llama 3 ottimizzati superano GPT-4o in media del 20,93%, offrendo sia una latenza ridotta che prestazioni migliorate. Crediamo che il nostro dataset possa stimolare ulteriori ricerche sull'affidabilità, allineamento e ingegneria dei prompt degli LLM.
Progettiamo una suite di compiti algoritmici minimali che rappresentano un'astrazione approssimativa di attività reali aperte. Ciò ci permette di quantificare in modo chiaro e controllabile i limiti creativi degli attuali modelli linguistici. Similmente a compiti reali che richiedono un salto di pensiero creativo e lungimirante, i nostri compiti necessitano di un passaggio implicito e aperto di pianificazione stocastica che (a) scopre nuove connessioni in un grafo di conoscenza astratto (come nel gioco di parole, nel tracciare analogie o nella ricerca) o (b) costruisce nuovi schemi (come nel progettare problemi matematici o nuove proteine). In questi compiti, sosteniamo empiricamente e concettualmente come l'apprendimento basato sul token successivo sia miope e memorizzi eccessivamente; al contrario, approcci multi-token, in particolare l'addestramento senza insegnante e i modelli di diffusione, eccellono nel produrre output diversificato e originale. In secondo luogo, nei nostri compiti, scopriamo che per elicitare casualità dal Transformer senza compromettere la coerenza, è preferibile iniettare rumore direttamente a livello di input (attraverso un metodo che chiamiamo hash-conditioning) piuttosto che affidarsi al campionamento basato sulla temperatura a livello di output. Pertanto, il nostro lavoro offre un banco di prova minimo e principiato per analizzare le abilità creative aperte e fornisce nuovi argomenti per andare oltre l'apprendimento basato sul token successivo e il campionamento basato su softmax. Rendiamo disponibile parte del codice su https://github.com/chenwu98/algorithmic-creativity.
I modelli di base per la visione (Vision Foundation Models, VFM) come DINOv2 e CLIP hanno ottenuto risultati impressionanti in vari task downstream, ma la loro limitata risoluzione delle feature ostacola le prestazioni nelle applicazioni che richiedono una comprensione a livello di pixel. L'upsampling delle feature rappresenta una direzione promettente per affrontare questa sfida. In questo lavoro, identifichiamo due fattori critici per migliorare l'upsampling delle feature: l'architettura dell'upsampler e l'obiettivo di training. Per l'architettura dell'upsampler, introduciamo un trasformatore basato su cross-attention con coordinate che integra le immagini ad alta risoluzione con le coordinate e le feature a bassa risoluzione dei VFM per generare feature nitide e di alta qualità. Per l'obiettivo di training, proponiamo la costruzione di feature pseudo-groundtruth ad alta risoluzione sfruttando maschere class-agnostic e la self-distillation. Il nostro approccio cattura efficacemente dettagli fini e si adatta in modo flessibile a varie risoluzioni di input e feature. Attraverso esperimenti, dimostriamo che il nostro approccio supera significativamente le tecniche esistenti di upsampling delle feature in vari task downstream. Il nostro codice è disponibile all'indirizzo https://github.com/andrehuang/loftup.
Introduciamo un approccio per il rilevamento e il monitoraggio di pose 3D dettagliate di più persone da un singolo flusso video monoculare. Il nostro sistema mantiene previsioni temporalmente coerenti in scene affollate caratterizzate da pose complesse e occlusioni. Il nostro modello esegue sia un rilevamento robusto per ogni fotogramma sia un aggiornamento appreso della pose per tracciare le persone da un fotogramma all'altro. Invece di associare i rilevamenti nel tempo, le pose vengono aggiornate direttamente da una nuova immagine in ingresso, consentendo il monitoraggio in tempo reale anche in presenza di occlusioni. Addestriamo il modello su numerosi dataset di immagini e video sfruttando annotazioni pseudo-etichettate, producendo un sistema che eguaglia le prestazioni dei migliori sistemi di stato dell'arte in termini di accuratezza nella stima delle pose 3D, risultando al contempo più veloce e preciso nel tracciamento di più persone nel tempo. Codice e pesi sono disponibili all'indirizzo https://github.com/apple/ml-comotion.
I modelli di linguaggio visivo medico hanno dimostrato un grande potenziale in varie applicazioni sanitarie, tra cui la descrizione di immagini mediche e l'assistenza diagnostica. Tuttavia, la maggior parte dei modelli esistenti si basa su istruzioni basate su testo, limitando la loro usabilità in ambienti clinici reali, specialmente in scenari come la chirurgia, dove l'interazione basata su testo è spesso impraticabile per i medici. Inoltre, gli attuali modelli di analisi delle immagini mediche tipicamente mancano di un ragionamento completo dietro le loro previsioni, il che riduce la loro affidabilità per il processo decisionale clinico. Considerando che gli errori di diagnosi medica possono avere conseguenze che cambiano la vita, c'è un bisogno critico di assistenza medica interpretabile e razionale. Per affrontare queste sfide, introduciamo un modello di linguaggio visivo medico guidato dalla voce end-to-end, SilVar-Med, un assistente per immagini mediche multimodale che integra l'interazione vocale con i modelli di linguaggio visivo, aprendo la strada al compito della comunicazione basata sulla voce per l'analisi delle immagini mediche. Inoltre, ci concentriamo sull'interpretazione del ragionamento dietro ogni previsione di anomalie mediche con un dataset di ragionamento proposto. Attraverso esperimenti estesi, dimostriamo uno studio proof-of-concept per l'interpretazione delle immagini mediche guidata dal ragionamento con interazione vocale end-to-end. Crediamo che questo lavoro farà avanzare il campo dell'IA medica promuovendo sistemi di supporto diagnostico più trasparenti, interattivi e clinicamente praticabili. Il nostro codice e dataset sono pubblicamente disponibili su SiVar-Med.