Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo l'Apprendimento per Rinforzo Collaborativo tra Agenti Eterogenei (HACRL), un nuovo paradigma di apprendimento che affronta le inefficienze dell'ottimizzazione on-policy isolata. HACRL abilita un'ottimizzazione collaborativa con esecuzione indipendente: agenti eterogenei condividono rollout verificati durante l'addestramento per migliorarsi reciprocamente, pur operando in modo indipendente al momento dell'inferenza. A differenza dell'apprendimento per rinforzo multi-agente (MARL) basato su LLM, HACRL non richiede un deployment coordinato e, a differenza della distillazione on-/off-policy, permette un apprendimento reciproco bidirezionale tra agenti eterogenei invece di un trasferimento unidirezionale insegnante-studente. Basandoci su questo paradigma, proponiamo HACPO, un algoritmo di RL collaborativo che consente una condivisione rigorosa dei rollout per massimizzare l'utilizzo dei campioni e il trasferimento di conoscenze tra agenti. Per mitigare le discrepanze di capacità e gli spostamenti della distribuzione delle politiche, HACPO introduce quattro meccanismi specifici con garanzie teoriche sulla stima non distorta del vantaggio e sulla correttezza dell'ottimizzazione. Esperimenti estesi su diverse combinazioni di modelli eterogenei e benchmark di ragionamento mostrano che HACPO migliora costantemente tutti gli agenti partecipanti, superando GSPO in media del 3,3% utilizzando solo la metà del costo dei rollout.
Presentiamo Helios, il primo modello di generazione video da 14B che opera a 19,5 FPS su una singola GPU NVIDIA H100, supporta generazioni su scala di minuti e mantiene una qualità equivalente a un solido baseline. Raggiungiamo progressi fondamentali lungo tre dimensioni chiave: (1) robustezza contro la deriva nei video lunghi senza ricorrere a euristiche anti-deriva comunemente utilizzate come self-forcing, error-banks o campionamento di keyframe; (2) generazione in tempo reale senza tecniche standard di accelerazione come KV-cache, attenzione sparsa/lineare o quantizzazione; e (3) addestramento senza framework di parallelismo o sharding, consentendo batch size paragonabili alla diffusione di immagini e ospitando fino a quattro modelli da 14B entro 80 GB di memoria GPU. Nello specifico, Helios è un modello di diffusione autoregressivo da 14B con una rappresentazione di input unificata che supporta nativamente i task T2V, I2V e V2V. Per mitigare la deriva nella generazione di video lunghi, caratterizziamo le tipiche modalità di fallimento e proponiamo strategie di addestramento semplici ma efficaci che simulano esplicitamente la deriva durante il training, eliminando alla fonte il moto ripetitivo. Per l'efficienza, comprimiamo fortemente il contesto storico e rumoroso e riduciamo il numero di passi di campionamento, ottenendo costi computabili paragonabili – o inferiori – a quelli di modelli generativi video da 1,3B. Inoltre, introduciamo ottimizzazioni a livello infrastrutturale che accelerano sia l'inferenza che l'addestramento riducendo il consumo di memoria. Esperimenti estensivi dimostrano che Helios supera costantemente i metodi precedenti sia nella generazione di video brevi che lunghi. Pianifichiamo di rilasciare il codice, il modello base e il modello distillato per supportare l'ulteriore sviluppo da parte della comunità.
Riflettete su come l'essere umano affronta compiti di lettura complessi: segnando i punti chiave, inferendo le loro relazioni e strutturando le informazioni per guidare la comprensione e le risposte. Allo stesso modo, un modello linguistico di grandi dimensioni può trarre vantaggio dalla struttura del testo per migliorare le prestazioni di elaborazione? Per esplorarlo, in questo lavoro introduciamo prima Structure of Thought (SoT), una tecnica di prompting che guida esplicitamente i modelli a costruire strutture testuali intermedie, migliorando costantemente le prestazioni in otto compiti e tre famiglie di modelli. Sulla base di questa intuizione, presentiamo T2S-Bench, il primo benchmark progettato per valutare e migliorare le capacità di conversione da testo a struttura dei modelli. T2S-Bench include 1.800 campioni coprenti 6 domini scientifici e 32 tipi strutturali, costruiti rigorosamente per garantire accuratezza, equità e qualità. La valutazione su 45 modelli mainstream rivela un margine di miglioramento sostanziale: l'accuratezza media nel compito di ragionamento multi-step è solo del 52,1%, e persino il modello più avanzato raggiunge un'accuratezza dei nodi del 58,1% nell'estrazione end-to-end. Inoltre, su Qwen2.5-7B-Instruct, la sola SoT produce un miglioramento medio del +5,7% su otto diverse attività di elaborazione del testo, e il fine-tuning su T2S-Bench aumenta ulteriormente questo guadagno al +8,6%. Questi risultati evidenziano il valore della strutturazione esplicita del testo e i contributi complementari di SoT e T2S-Bench. Il dataset e il codice di valutazione sono stati rilasciati su https://t2s-bench.github.io/T2S-Bench-Page/.
Esperienze interattive proattive e in tempo reale sono essenziali per i compagni di intelligenza artificiale simili a esseri umani, ma affrontano tre sfide principali: (1) ottenere inferenze a bassa latenza con input in streaming continuo, (2) decidere autonomamente quando rispondere e (3) controllare sia la qualità che la quantità dei contenuti generati per soddisfare i vincoli di tempo reale. In questo lavoro, istanziamo i compagni di IA attraverso due scenari di gioco, commentatore e guida, selezionati per la loro idoneità alla valutazione automatica. Introduciamo il Live Gaming Benchmark, un dataset su larga scala con tre scenari rappresentativi: commento solista, co-commento e guida utente, e presentiamo Proact-VL, un framework generale che modella i modelli linguistici multimodali in agenti interattivi proattivi e in tempo reale, capaci di percezione e interazione ambientale simil-umana. Esperimenti estensivi dimostrano che Proact-VL raggiunge una latenza di risposta e una qualità superiori, mantenendo al contempo solide capacità di comprensione video, dimostrandone la praticità per applicazioni interattive in tempo reale.
Man mano che i Large Language Model (LLM) vengono sempre più impiegati per compiti di lunga durata, mantenere una memoria a lungo termine efficace è diventata una sfida cruciale. I metodi attuali spesso devono affrontare un compromesso tra costo e accuratezza. I semplici metodi di archiviazione spesso non riescono a recuperare le informazioni rilevanti, mentre i metodi di indicizzazione complessi (come i grafi di memoria) richiedono un calcolo intensivo e possono causare perdita di informazioni. Inoltre, affidarsi all'LLM principale per elaborare tutti i ricordi è computazionalmente costoso e lento. Per affrontare queste limitazioni, proponiamo MemSifter, un nuovo framework che delega il processo di recupero della memoria a un modello proxy di piccole dimensioni. Invece di aumentare il carico sull'LLM di lavoro principale, MemSifter utilizza un modello più piccolo per ragionare sul compito prima di recuperare le informazioni necessarie. Questo approccio non richiede calcoli pesanti durante la fase di indicizzazione e aggiunge un sovraccarico minimo durante l'inferenza. Per ottimizzare il modello proxy, introduciamo un paradigma di addestramento con Reinforcement Learning (RL) specifico per la memoria. Progettiamo una ricompensa orientata al risultato del compito, basata sulle prestazioni effettive dell'LLM principale nel portare a termine il compito. La ricompensa misura il contributo effettivo dei ricordi recuperati attraverso molteplici interazioni con l'LLM principale e discrimina le classificazioni dei risultati recuperati in base a contributi decrescenti a gradini. Inoltre, impieghiamo tecniche di addestramento come l'Apprendimento Curriculare (Curriculum Learning) e la Fusione di Modelli (Model Merging) per migliorare le prestazioni. Abbiamo valutato MemSifter su otto benchmark di memoria per LLM, inclusi compiti di Deep Research. I risultati dimostrano che il nostro metodo eguaglia o supera le prestazioni degli approcci allo stato dell'arte esistenti sia in accuratezza di recupero che nel completamento finale del compito. MemSifter offre una soluzione efficiente e scalabile per la memoria a lungo termine degli LLM. Abbiamo reso open-source i pesi del modello, il codice e i dati di addestramento per supportare ulteriori ricerche.
La sintesi di interazioni fisicamente plausibili tra esseri umani e oggetti articolati (HOI) senza supervisione 3D/4D rimane una sfida fondamentale. Sebbene i recenti approcci zero-shot sfruttino modelli di diffusione video per sintetizzare interazioni uomo-oggetto, questi sono prevalentemente confinati alla manipolazione di oggetti rigidi e mancano di un ragionamento geometrico 4D esplicito. Per colmare questa lacuna, formuliamo la sintesi di HOI articolati come un problema di ricostruzione 4D a partire da prior video monoculari: dato solo un video generato da un modello di diffusione, ricostruiamo una scena articolata 4D completa senza alcuna supervisione 3D. Questo approccio basato sulla ricostruzione tratta il video 2D generato come supervisione per un problema di inverse rendering, recuperando scene 4D geometricamente consistenti e fisicamente plausibili che rispettano naturalmente il contatto, l'articolazione e la coerenza temporale. Introduciamo ArtHOI, il primo framework zero-shot per la sintesi di interazioni umano-oggetto articolate tramite ricostruzione 4D da prior video. Le nostre scelte progettuali chiave sono: 1) Segmentazione delle parti basata sul flusso ottico: sfruttiamo il flusso ottico come indizio geometrico per separare le regioni dinamiche da quelle statiche in un video monoculare; 2) Pipeline di ricostruzione disaccoppiata: l'ottimizzazione congiunta del movimento umano e dell'articolazione dell'oggetto è instabile a causa dell'ambiguità monoculare, quindi recuperiamo prima l'articolazione dell'oggetto, per poi sintetizzare il movimento umano condizionato dagli stati dell'oggetto ricostruiti. ArtHOI colma il divario tra generazione basata su video e ricostruzione consapevole della geometria, producendo interazioni sia semanticamente allineate che fisicamente fondate. In diverse scene articolate (ad esempio, aprire frigoriferi, armadi, microonde), ArtHOI supera significativamente i metodi precedenti in accuratezza del contatto, riduzione delle penetrazioni e fedeltà dell'articolazione, estendendo la sintesi zero-shot delle interazioni oltre la manipolazione rigida attraverso una sintesi informata dalla ricostruzione.
Presentiamo Phi-4-reasoning-vision-15B, un modello di ragionamento multimodale compatto e open-weight, e condividiamo le motivazioni, le scelte progettuali, gli esperimenti e gli insegnamenti che hanno guidato il suo sviluppo. Il nostro obiettivo è fornire alla comunità di ricerca spunti pratici sulla costruzione di modelli di ragionamento multimodale più piccoli ed efficienti, e condividere il risultato di questi insegnamenti come un modello open-weight che eccelle in compiti comuni di visione e linguaggio, in particolare nel ragionamento scientifico e matematico e nella comprensione delle interfacce utente. I nostri contributi includono la dimostrazione che scelte architetturali accurate e una rigorosa cura dei dati consentono a modelli multimodali open-weight più piccoli di raggiungere prestazioni competitive con un consumo computazionale e un numero di token significativamente inferiori durante l'addestramento e l'inferenza. I miglioramenti più sostanziali derivano da un filtraggio sistematico, dalla correzione degli errori e dall'aumento sintetico dei dati, rafforzando il principio che la qualità dei dati rimane la leva primaria per le prestazioni del modello. Ablazioni sistematiche mostrano che encoder ad alta risoluzione e a risoluzione dinamica apportano miglioramenti consistenti, poiché una percezione accurata è un prerequisito per un ragionamento di alta qualità. Infine, un mix ibrido di dati di ragionamento e non-ragionamento, con token di modalità espliciti, consente a un singolo modello di fornire risposte dirette e rapide per compiti semplici e un ragionamento a catena di pensiero (chain-of-thought) per problemi complessi.
I modelli linguistici di grandi dimensioni (LLM) agenti sono fondamentalmente limitati dalle finestre di contesto finite nelle attività a lungo termine. Man mano che le traiettorie si allungano, diventa rapidamente impossibile mantenere in-context gli output degli strumenti e i ragionamenti intermedi: il contesto di lavoro diventa proibitivamente lungo, supera infine il budget di contesto e rende più difficile utilizzare evidenze lontane anche quando sono ancora presenti. Le soluzioni esistenti tipicamente accorciano il contesto tramite troncamento o riepiloghi in corso, ma questi metodi sono intrinsecamente lossy perché comprimono o scartano l'evidenza passata stessa. Introduciamo Memex, un meccanismo di memoria esperienziale indicizzata che, invece, comprime il contesto senza scartare evidenze. Memex mantiene un contesto di lavoro compatto costituito da riepiloghi strutturati concisi e indici stabili, mentre archivia le interazioni sottostanti a piena fedeltà in un database esperienziale esterno sotto tali indici. L'agente può quindi decidere quando dereferenziare un indice e recuperare l'esatta evidenza passata necessaria per il sottobiettivo corrente. Ottimizziamo sia i comportamenti di scrittura che di lettura con il nostro framework di apprendimento per rinforzo MemexRL, utilizzando una modellazione della ricompensa tailorizzata all'uso della memoria indicizzata sotto un budget di contesto, in modo che l'agente impari cosa riassumere, cosa archiviare, come indicizzarlo e quando recuperarlo. Ciò produce una forma di memoria a lungo termine sostanzialmente meno lossy rispetto agli approcci basati solo sui riepiloghi. Forniamo inoltre un'analisi teorica che mostra il potenziale del ciclo Memex di preservare la qualità decisionale con dereferenziazione limitata, mantenendo al contempo il calcolo in-context efficace limitato man mano che la cronologia cresce. Empiricamente, su compiti impegnativi a lungo termine, l'agente Memex addestrato con MemexRL migliora il successo del compito utilizzando un contesto di lavoro significativamente più piccolo.
Il ridimensionamento al momento del test per compiti di ragionamento complesso dimostra che sfruttare la potenza di calcolo durante l'inferenza, mediante metodi come il campionamento indipendente e l'aggregazione di più soluzioni, produce risultati significativamente migliori. Tuttavia, un collo di bottiglia critico è la verifica: il campionamento è efficace solo se le soluzioni corrette possono essere identificate in modo affidabile tra i candidati. Mentre gli approcci esistenti valutano tipicamente i candidati in modo indipendente tramite punteggi scalari, noi dimostriamo che i modelli sono notevolmente più abili nell'autoverifica a coppie. Sfruttando questa intuizione, introduciamo V_1, un framework che unifica generazione e verifica attraverso un efficiente ranking a coppie. V_1 comprende due componenti: V_1-Infer, un algoritmo guidato dall'incertezza che utilizza un ranking di tipo torneo per allocare dinamicamente le risorse computazionali di autoverifica alle coppie di candidati la cui correttezza relativa è più incerta; e V_1-PairRL, un framework di apprendimento per rinforzo che addestra congiuntamente un unico modello sia come generatore che come autoverificatore a coppie, garantendo che il verificatore si adatti alla distribuzione in evoluzione del generatore. Su benchmark di generazione di codice (LiveCodeBench, CodeContests, SWE-Bench) e di ragionamento matematico (AIME, HMMT), V_1-Infer migliora la Pass@1 fino al 10% rispetto alla verifica puntuale e supera i recenti metodi di ridimensionamento al test, risultando al contempo significativamente più efficiente. Inoltre, V_1-PairRL ottiene guadagni di ridimensionamento al test del 7-9% rispetto all'RL standard e all'addestramento congiunto puntuale, e migliora la Pass@1 base fino all'8,7% rispetto all'RL standard in un contesto di generazione di codice.
La generazione di video panoramici 360° di alta qualità a partire da input prospettici rappresenta una delle applicazioni cruciali per la realtà virtuale (VR), dove video ad alta risoluzione sono particolarmente importanti per l'esperienza immersiva. I metodi esistenti sono limitati dalle restrizioni computazionali dei modelli diffusion vanilla, supportando solo la generazione nativa a risoluzione ≤ 1K e basandosi su tecniche subottimali di super-risoluzione postuma per aumentare la risoluzione. Introduciamo CubeComposer, un innovativo modello diffusion autoregressivo spaziotemporale che genera nativamente video 360° a risoluzione 4K. Scomponendo i video in rappresentazioni a cubemap con sei facce, CubeComposer sintetizza il contenuto in modo autoregressivo secondo un ordinamento spaziotemporale ben pianificato, riducendo le richieste di memoria mentre abilita output ad alta risoluzione. Nello specifico, per affrontare le sfide dell'autoregressione multidimensionale, proponiamo: (1) una strategia autoregressiva spaziotemporale che orchestra la generazione del video 360° attraverso le facce del cubo e le finestre temporali per una sintesi coerente; (2) un meccanismo di gestione del contesto delle facce del cubo, dotato di un design di attenzione contextuale sparsa per migliorare l'efficienza; e (3) tecniche continuity-aware, inclusi positional encoding, padding e blending cube-aware per eliminare le discontinuità ai bordi. Esperimenti estensivi su dataset di benchmark dimostrano che CubeComposer supera i metodi state-of-the-art in termini di risoluzione nativa e qualità visiva, supportando scenari applicativi pratici per la VR. Pagina del progetto: https://lg-li.github.io/project/cubecomposer
La classificazione di concetti visivi a grana fine in contesti open-world, ovvero senza un insieme di etichette predefinito, richiede modelli che siano sia accurati che specifici. I recenti Large Multimodal Model (LMM) di ragionamento mostrano una forte capacità di comprensione visiva, ma tendono a produrre previsioni eccessivamente generiche quando eseguono classificazioni di immagini a grana fine. La nostra analisi preliminare rivela che i modelli possiedono effettivamente la conoscenza intrinseca del dominio a grana fine. Tuttavia, promuovere previsioni più specifiche (specificità) senza compromettere quelle corrette (correttezza) rimane una sfida non banale e poco studiata. In questo lavoro, indaghiamo come indirizzare gli LMM di ragionamento verso previsioni che siano sia corrette che specifiche. Proponiamo una nuova framework di reinforcement learning sensibile alla specificità, SpeciaRL, per effettuare il fine-tuning di LMM di ragionamento sulla classificazione di immagini a grana fine in contesto open-world. SpeciaRL introduce un segnale di reward dinamico, basato su un verificatore e ancorato alle migliori previsioni all'interno di rollout online, promuovendo la specificità rispettando al contempo le capacità del modello per prevenire previsioni errate. I nostri esperimenti out-of-domain mostrano che SpeciaRL offre il miglior compromesso tra correttezza e specificità su un'ampia serie di benchmark a grana fine, superando i metodi esistenti e facendo avanzare la classificazione di immagini a grana fine in contesto open-world. Il codice e il modello sono pubblicamente disponibili all'indirizzo https://github.com/s-angheben/SpeciaRL.
I grandi modelli visione-linguaggio (LVLM) hanno adottato strategie di potatura dei token visivi per mitigare il sostanziale sovraccarico computazionale derivante da sequenze estese di token visivi. Sebbene i lavori precedenti si concentrino principalmente su metodi di potatura basati sull'attenzione o sulla diversità, un'analisi approfondita delle caratteristiche e dei limiti di questi approcci rimane in gran parte inesplorata. In questo lavoro, conduciamo un'accurata analisi empirica utilizzando il rango efficace (erank) come misura della diversità delle feature e l'entropia del punteggio di attenzione per investigare i meccanismi di elaborazione dei token visivi e analizzare i punti di forza e di debolezza di ciascun approccio. La nostra analisi rivela due intuizioni: (1) La nostra analisi quantitativa basata su erank mostra che molti metodi di potatura orientati alla diversità preservano sostanzialmente meno diversità di feature del previsto; inoltre, l'analisi utilizzando il dataset CHAIR rivela che la diversità che effettivamente conservano è strettamente legata a una maggiore frequenza di allucinazioni rispetto alla potatura basata sull'attenzione. (2) Osserviamo inoltre che gli approcci basati sull'attenzione sono più efficaci su immagini semplici dove l'evidenza visiva è concentrata, mentre i metodi basati sulla diversità gestiscono meglio immagini complesse con feature distribuite. Basandoci su queste intuizioni empiriche, dimostriamo che l'incorporazione di aggiustamenti consapevoli del contenuto immagine nelle strategie ibride di potatura esistenti ne migliora costantemente le prestazioni. Forniamo anche un'istanza minima dei nostri risultati empirici attraverso un semplice meccanismo di potatura adattiva, che raggiunge prestazioni solide e affidabili su benchmark standard così come su valutazioni specifiche per le allucinazioni. La nostra pagina progetto è disponibile all'indirizzo https://cvsp-lab.github.io/AgilePruner.
La generazione di video narrativi di lunga durata con narrazioni visive coerenti rimane una sfida significativa nella sintesi video. Presentiamo un framework innovativo, un dataset e un modello che affrontano tre limitazioni critiche: la coerenza dello sfondo tra le inquadrature, le transizioni fluide da un'inquadratura all'altra con più soggetti e la scalabilità per narrazioni della durata di ore. Il nostro approccio introduce una pipeline di generazione con sfondo coerente che mantiene la coerenza visiva tra le scene preservando l'identità dei personaggi e le relazioni spaziali. Proponiamo inoltre un modulo di sintesi video con consapevolezza delle transizioni che genera transizioni fluide tra inquadrature per scenari complessi che coinvolgono più soggetti che entrano o escono dal frame, superando le limitazioni dei lavori precedenti incentrati su un singolo soggetto. A supporto, contribuiamo con un dataset sintetico di 10.000 sequenze di transizione multi-soggetto che coprono composizioni di scene dinamiche sottorappresentate. Su VBench, InfinityStory raggiunge il punteggio più alto in Coerenza dello Sfondo (88.94), il più alto in Coerenza del Soggetto (82.11) e la migliore posizione media complessiva (2.80), dimostrando una stabilità migliorata, transizioni più fluide e una migliore coerenza temporale.
Il rapido progresso dei modelli linguistici multimodali di grandi dimensioni ha dimostrato capacità impressionanti, ma quasi tutti operano in un paradigma offline, ostacolando l'interattività in tempo reale. Per colmare questa lacuna, introduciamo il Real-tIme Video intERaction Bench (RIVER Bench), progettato per valutare la comprensione video online. RIVER Bench introduce un nuovo framework composto da compiti di Memoria Retrospettiva, Percezione Live e Anticipazione Proattiva, che imita da vicino dialoghi interattivi piuttosto che rispondere a interi video in una sola volta. Abbiamo condotto annotazioni dettagliate utilizzando video provenienti da fonti diverse e di lunghezze variabili, definendo precisamente il formato interattivo in tempo reale. Le valutazioni su varie categorie di modelli rivelano che, sebbene i modelli offline performino bene in compiti singoli di domanda-risposta, faticano nell'elaborazione in tempo reale. Per affrontare le limitazioni dei modelli esistenti nell'interazione video online, in particolare le loro carenze nella memoria a lungo termine e nella percezione futura, abbiamo proposto un metodo di miglioramento generale che consente ai modelli di interagire con gli utenti in modo più flessibile in tempo reale. Riteniamo che questo lavoro avanzerà significativamente lo sviluppo di modelli di comprensione video interattivi in tempo reale e ispirerà future ricerche in questo campo emergente. Dataset e codice sono pubblicamente disponibili su https://github.com/OpenGVLab/RIVER.
Gli Agenti Conversazionali Incorporati (ECA) mirano a emulare l'interazione umana faccia a faccia attraverso la parola, i gesti e le espressioni facciali. Gli attuali agenti conversazionali basati su grandi modelli linguistici (LLM) mancano di incorporazione e dei gesti espressivi essenziali per un'interazione naturale. Le soluzioni esistenti per gli ECA spesso producono movimenti rigidi e a bassa diversità, inadatti per un'interazione simile a quella umana. In alternativa, i metodi generativi per la sintesi dei gesti co-verbali producono gesti corporei naturali ma dipendono dal contesto vocale futuro e richiedono tempi di esecuzione lunghi. Per colmare questa lacuna, presentiamo MIBURI, il primo framework causale e online per generare gesti espressivi a corpo intero ed espressioni facciali sincronizzati con il dialogo parlato in tempo reale. Utilizziamo codec gestuali consapevoli delle parti del corpo che codificano dettagli motori gerarchici in token discreti multilivello. Questi token vengono poi generati autoregressivamente da un framework causale bidimensionale condizionato su embedding testo-vocali basati su LLM, modellando sia le dinamiche temporali che la gerarchia motoria a livello di parti in tempo reale. Inoltre, introduciamo obiettivi ausiliari per incentivare gesti espressivi e diversificati, prevenendo al contempo la convergenza verso pose statiche. Valutazioni comparative dimostrano che il nostro approccio causale e in tempo reale produce gesti naturali e contestualmente allineati rispetto ai recenti baseline. Esortiamo il lettore a esplorare i video dimostrativi su https://vcai.mpi-inf.mpg.de/projects/MIBURI/.
Gli agenti basati su Large Language Model (LLM) hanno dimostrato notevoli capacità nell'automatizzare compiti di ingegneria del software come la correzione statica di bug, come evidenziato da benchmark come SWE-bench. Tuttavia, nel mondo reale, lo sviluppo di software maturo si basa tipicamente su complessi cambiamenti dei requisiti e iterazioni funzionali di lungo termine – un processo che i paradigmi di riparazione statici e one-shot non riescono a cogliere. Per colmare questa lacuna, proponiamo SWE-CI, il primo benchmark a livello di repository costruito sul ciclo di Continuous Integration, con l'obiettivo di spostare il paradigma di valutazione per la generazione di codice dalla correttezza funzionale statica e a breve termine verso la manutenibilità dinamica e di lungo periodo. Il benchmark comprende 100 task, ciascuno corrispondente in media a una cronologia evolutiva di 233 giorni e 71 commit consecutivi in un repository di codice reale. SWE-CI richiede agli agenti di risolvere sistematicamente questi task attraverso decine di cicli di analisi e iterazioni di codifica. SWE-CI fornisce preziose indicazioni su quanto bene gli agenti possano mantenere la qualità del codice durante l'evoluzione di lungo termine.
La valutazione della sicurezza e il red-teaming dei grandi modelli linguistici rimangono prevalentemente incentrati sul testo, e i framework esistenti mancano dell'infrastruttura necessaria per testare sistematicamente se l'allineamento si generalizza a input audio, immagini e video. Presentiamo MUSE (Multimodal Unified Safety Evaluation), una piattaforma open-source e run-centrica che integra in un unico sistema basato su browser: generazione automatica cross-modale di payload, tre algoritmi di attacco multi-turn (Crescendo, PAIR, Violent Durian), instradamento del modello agnostico rispetto al fornitore e un giudice LLM con una tassonomia di sicurezza a cinque livelli. Un framework a doppia metrica distingue l'Attack Success Rate "hard" (solo Conformità Completa) dall'ASR "soft" (che include la Conformità Parziale), catturando la fuoriuscita parziale di informazioni che le metriche binarie tralasciano. Per investigare se l'allineamento si generalizza attraverso i confini di modalità, introduciamo l'Inter-Turn Modality Switching (ITMS), che potenzia gli attacchi multi-turn con una rotazione della modalità a ogni turno. Esperimenti su sei modelli LLM multimodali di quattro fornitori mostrano che le strategie multi-turn possono raggiungere fino al 90-100% di ASR contro modelli con un rifiuto quasi perfetto in contesto single-turn. L'ITMS non aumenta uniformemente l'ASR finale su baseline già saturate, ma accelera la convergenza destabilizzando le difese nei turni iniziali, e un'ablazione rivela che la direzione degli effetti di modalità è specifica della famiglia di modelli piuttosto che universale, sottolineando la necessità di test di sicurezza cross-modale consapevoli del fornitore.
Comprendere immediatamente una scena 3D durante la sua esplorazione è essenziale per i task embodied, in cui un agente deve costruire e comprendere la scena 3D in modo online e quasi in tempo reale. In questo studio, proponiamo EmbodiedSplat, un sistema 3DGS feed-forward online per la comprensione di scene a vocabolario aperto che consente la ricostruzione 3D online simultanea e la comprensione semantica 3D a partire da immagini in streaming. A differenza dei metodi 3DGS a vocabolario aperto esistenti, tipicamente limitati a impostazioni di ottimizzazione offline o per singola scena, i nostri obiettivi sono duplici: 1) Ricostruire il 3DGS con incorporamento semantico dell'intera scena da oltre 300 immagini in streaming in modalità online. 2) Essere altamente generalizzabile su scene nuove grazie al design feed-forward e supportare una ricostruzione semantica 3D quasi in tempo reale se combinato con modelli 2D real-time. Per raggiungere questi obiettivi, proponiamo un Campo di Coefficienti Sparsi Online con un Codebook Globale CLIP, che vincola gli embedding CLIP 2D a ogni Gaussiana 3D minimizzando il consumo di memoria e preservando la piena generalizzabilità semantica di CLIP. Inoltre, generiamo feature CLIP consapevoli della geometria 3D aggregando la nuvola di punti parziale del 3DGS tramite una U-Net 3D per compensare la mancanza di priors geometrici 3D negli embedding linguistici orientati al 2D. Esperimenti estensivi su diversi dataset di ambienti interni, tra cui ScanNet, ScanNet++ e Replica, dimostrano sia l'efficacia che l'efficienza del nostro metodo. Visita la nostra pagina del progetto all'indirizzo https://0nandon.github.io/EmbodiedSplat/.
L’apprendimento per rinforzo con ricompense verificabili e rigorose può insegnare a un modello linguistico compatto a ragionare sulla fisica, o apprende principalmente a riconoscere pattern per produrre risposte corrette? Studiamo questa questione addestrando un modello di ragionamento da 1,5 miliardi di parametri sulla statica delle travi, un classico problema ingegneristico, utilizzando RLVR efficiente in parametri con ricompense binarie di correttezza provenienti da risolutori simbolici, senza tracce di ragionamento generate da un insegnante. Il checkpoint migliore di BeamPERL raggiunge un miglioramento del 66,7% in Pass@1 rispetto al modello base. Tuttavia, la competenza appresa è anisotropa: il modello generalizza in modo composizionale (più carichi) ma fallisce in caso di variazioni topologiche (appoggi spostati) che richiedono le stesse equazioni di equilibrio. I checkpoint intermedi producono il ragionamento più solido, mentre l'ottimizzazione prolungata riduce la robustezza pur mantenendo la ricompensa. Questi risultati rivelano una limitazione fondamentale dell'allineamento a livello di risultato: l'apprendimento per rinforzo con ricompense fisiche esatte induce modelli procedurali di soluzione piuttosto che l'interiorizzazione delle equazioni governative. La precisione del segnale di ricompensa - anche quando analiticamente esatta - di per sé non garantisce un ragionamento fisico trasferibile. I nostri risultati suggeriscono che le ricompense verificabili potrebbero dover essere abbinate a un'impalcatura di ragionamento strutturato per andare oltre il riconoscimento di modelli verso un ragionamento scientifico robusto.
Nonostante il crescente interesse per la rilevazione di oggetti a vocabolario aperto negli ultimi anni, la maggior parte dei metodi esistenti dipende fortemente da dataset di addestramento manualmente curati, con annotazioni granulari, nonché da un'estrazione di feature cross-modale strato per strato ad alta intensità di risorse. In questo articolo proponiamo HDINO, un rilevatore di oggetti a vocabolario aperto conciso ma efficiente che elimina la dipendenza da questi componenti. Nello specifico, proponiamo una strategia di addestramento in due fasi costruita sul modello DINO basato su transformer. Nella prima fase, i campioni rumorosi vengono trattati come istanze oggetto positive aggiuntive per costruire un Meccanismo di Allineamento Semantico Uno-a-Molti (O2M) tra le modalità visiva e testuale, facilitando così l'allineamento semantico. Una Loss di Classificazione Pesata per Difficoltà (DWCL) è inoltre progettata sulla base della difficoltà di rilevazione iniziale per individuare esempi complessi e migliorare ulteriormente le prestazioni del modello. Nella seconda fase, un modulo di fusione delle feature leggero viene applicato alle rappresentazioni allineate per aumentare la sensibilità alla semantica linguistica. Nella configurazione Swin Transformer-T, HDINO-T raggiunge 49.2 mAP su COCO utilizzando 2.2 milioni di immagini di addestramento provenienti da due dataset di rilevazione pubblicamente disponibili, senza alcuna curatela manuale dei dati e senza l'uso di dati di grounding, superando Grounding DINO-T e T-Rex2 di 0.8 mAP e 2.8 mAP rispettivamente, i quali sono addestrati su 5.4 milioni e 6.5 milioni di immagini. Dopo un fine-tuning su COCO, HDINO-T e HDINO-L raggiungono ulteriormente 56.4 mAP e 59.2 mAP, evidenziando l'efficacia e la scalabilità del nostro approccio. Il codice e i modelli sono disponibili su https://github.com/HaoZ416/HDINO.
Il Detection Transformer (DETR) e le sue varianti dimostrano prestazioni elevate nell'object detection, un compito fondamentale per i sistemi autonomi. Tuttavia, una limitazione critica di questi modelli è che i loro punteggi di confidenza riflettono solo l'incertezza semantica, non riuscendo a catturare l'incertezza spaziale, altrettanto importante. Ciò si traduce in una valutazione incompleta dell'affidabilità del rilevamento. D'altra parte, i Deep Ensemble possono affrontare questo problema fornendo stime di alta qualità dell'incertezza spaziale. Tuttavia, il loro enorme consumo di memoria li rende impraticabili per applicazioni nel mondo reale. Un'alternativa più economica, il Monte Carlo (MC) Dropout, soffre di un'elevata latenza a causa della necessità di molteplici passaggi in avanti durante l'inferenza per stimare l'incertezza. Per affrontare queste limitazioni, introduciamo GroupEnsemble, un metodo efficiente ed efficace per la stima dell'incertezza per modelli simili a DETR. GroupEnsemble prevede simultaneamente molteplici insiemi di rilevamento individuali alimentando il decoder del transformer durante l'inferenza con gruppi aggiuntivi e diversificati di object query. Ogni gruppo di query viene trasformato in isolamento dal decoder condiviso e predice un insieme di rilevamento completo per lo stesso input. Una maschera di attenzione viene applicata al decoder per prevenire interazioni tra le query di gruppi diversi, garantendo che ogni gruppo rilevi in modo indipendente per ottenere una stima dell'incertezza affidabile basata sull'ensemble. Sfruttando il parallelismo intrinseco del decoder, GroupEnsemble stima efficientemente l'incertezza in un unico passaggio in avanti, senza ripetizioni sequenziali. Abbiamo convalidato il nostro metodo in scenari di guida autonoma e scenari quotidiani comuni utilizzando rispettivamente i dataset Cityscapes e COCO. I risultati mostrano che un approccio ibrido che combina MC-Dropout e GroupEnsemble supera i Deep Ensemble su diverse metriche a una frazione del costo. Il codice è disponibile all'indirizzo https://github.com/yutongy98/GroupEnsemble.