Articoli di ricerca IA selezionati quotidianamente con traduzioni
Ispirati dal successo di DeepSeek-R1 nell'evocare capacità di ragionamento attraverso l'apprendimento per rinforzo basato su regole (RL), introduciamo Video-R1 come il primo tentativo di esplorare sistematicamente il paradigma R1 per stimolare il ragionamento video all'interno di modelli linguistici multimodali di grandi dimensioni (MLLMs). Tuttavia, l'applicazione diretta dell'addestramento RL con l'algoritmo GRPO al ragionamento video presenta due principali sfide: (i) la mancanza di modellazione temporale per il ragionamento video, e (ii) la scarsità di dati di alta qualità per il ragionamento video. Per affrontare questi problemi, proponiamo innanzitutto l'algoritmo T-GRPO, che incoraggia i modelli a utilizzare le informazioni temporali nei video per il ragionamento. Inoltre, invece di affidarsi esclusivamente ai dati video, integriamo dati di alta qualità per il ragionamento basato su immagini nel processo di addestramento. Abbiamo costruito due dataset: Video-R1-COT-165k per l'avvio a freddo SFT e Video-R1-260k per l'addestramento RL, entrambi composti da dati di immagini e video. I risultati sperimentali dimostrano che Video-R1 ottiene miglioramenti significativi su benchmark di ragionamento video come VideoMMMU e VSI-Bench, nonché su benchmark video generali tra cui MVBench e TempCompass, ecc. In particolare, Video-R1-7B raggiunge un'accuratezza del 35,8% sul benchmark di ragionamento spaziale video VSI-bench, superando il modello proprietario commerciale GPT-4o. Tutti i codici, i modelli e i dati sono stati rilasciati.
L'era degli agenti intelligenti è ormai arrivata, trainata dai progressi rivoluzionari nei modelli linguistici di grandi dimensioni. Gli agenti basati su Large Language Model (LLM), con comportamenti orientati agli obiettivi e capacità di adattamento dinamico, rappresentano potenzialmente una via critica verso l'intelligenza artificiale generale. Questo studio analizza sistematicamente i sistemi di agenti LLM attraverso una tassonomia centrata sulla metodologia, collegando le basi architetturali, i meccanismi di collaborazione e i percorsi evolutivi. Unifichiamo i filoni di ricerca frammentati rivelando le connessioni fondamentali tra i principi di progettazione degli agenti e i loro comportamenti emergenti in ambienti complessi. Il nostro lavoro fornisce una prospettiva architetturale unificata, esaminando come gli agenti sono costruiti, come collaborano e come si evolvono nel tempo, affrontando anche metodologie di valutazione, applicazioni di strumenti, sfide pratiche e diversi domini applicativi. Esaminando gli ultimi sviluppi in questo campo in rapida evoluzione, offriamo ai ricercatori una tassonomia strutturata per comprendere gli agenti LLM e identifichiamo direzioni promettenti per la ricerca futura. La raccolta è disponibile all'indirizzo https://github.com/luo-junyu/Awesome-Agent-Papers.
Il recente DeepSeek-R1 ha dimostrato l'emergere di capacità di ragionamento nei modelli linguistici di grandi dimensioni (LLM) attraverso l'apprendimento per rinforzo (RL) con ricompense basate su regole. Basandoci su questa idea, siamo i primi a esplorare come l'RL basato su regole possa potenziare le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) per i compiti di previsione delle azioni su interfacce grafiche utente (GUI). A tal fine, abbiamo curato un piccolo ma di alta qualità dataset di 136 compiti impegnativi, che coprono cinque tipi di azioni comuni sui dispositivi mobili. Introduciamo inoltre una ricompensa unificata basata su regole per le azioni, che consente l'ottimizzazione del modello tramite algoritmi basati su politiche come il Group Relative Policy Optimization (GRPO). I risultati sperimentali dimostrano che il nostro modello proposto, efficiente in termini di dati, UI-R1-3B, ottiene miglioramenti sostanziali sia sui compiti in dominio (ID) che fuori dominio (OOD). In particolare, sul benchmark ID AndroidControl, l'accuratezza del tipo di azione migliora del 15%, mentre l'accuratezza di grounding aumenta del 10,3%, rispetto al modello di base (ovvero Qwen2.5-VL-3B). Sul benchmark OOD di grounding GUI ScreenSpot-Pro, il nostro modello supera il modello di base del 6,0% e raggiunge prestazioni competitive con modelli più grandi (ad esempio, OS-Atlas-7B), che sono addestrati tramite fine-tuning supervisionato (SFT) su 76K dati. Questi risultati sottolineano il potenziale dell'apprendimento per rinforzo basato su regole per avanzare la comprensione e il controllo delle GUI, aprendo la strada a future ricerche in questo dominio.
Negli ultimi anni, il rapido sviluppo di modelli di ragionamento su larga scala ha portato alla saturazione dei benchmark esistenti per la valutazione del ragionamento matematico, evidenziando l'urgente necessità di framework di valutazione più impegnativi e rigorosi. Per colmare questa lacuna, introduciamo OlymMATH, un nuovo benchmark matematico di livello olimpico, progettato per testare rigorosamente le capacità di ragionamento complesso dei modelli linguistici di grandi dimensioni (LLM). OlymMATH presenta 200 problemi accuratamente selezionati, ciascuno verificato manualmente e disponibile in versioni parallele in inglese e cinese. I problemi sono organizzati sistematicamente in due livelli di difficoltà distinti: (1) problemi di livello AIME (facili) che stabiliscono una linea di base per la valutazione del ragionamento matematico, e (2) problemi significativamente più impegnativi (difficili) progettati per spingere i limiti dei modelli all'avanguardia attuali. Nel nostro benchmark, questi problemi coprono quattro campi matematici fondamentali, ciascuno includendo una soluzione numerica verificabile per consentire una valutazione oggettiva e basata su regole. I risultati empirici sottolineano la significativa sfida rappresentata da OlymMATH, con modelli all'avanguardia come DeepSeek-R1 e OpenAI's o3-mini che dimostrano un'accuratezza notevolmente limitata sul sottoinsieme difficile. Inoltre, il benchmark facilita una valutazione bilingue completa delle capacità di ragionamento matematico, una dimensione critica che rimane largamente non affrontata nei benchmark mainstream di ragionamento matematico. Rilasciamo il benchmark OlymMATH nel progetto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
La generazione di video ha compiuto progressi significativi, evolvendosi dalla produzione di output irrealistici alla creazione di video visivamente convincenti e temporalmente coerenti. Per valutare questi modelli generativi di video, sono stati sviluppati benchmark come VBench, progettati per valutarne la fedeltà, misurando fattori come l'estetica per fotogramma, la coerenza temporale e l'aderenza di base al prompt. Tuttavia, questi aspetti rappresentano principalmente una fedeltà superficiale, che si concentra sul fatto che il video appaia visivamente convincente piuttosto che sul fatto che rispetti i principi del mondo reale. Sebbene i modelli recenti ottengano risultati sempre migliori su queste metriche, continuano a faticare nel generare video che non siano solo visibilmente plausibili, ma fondamentalmente realistici. Per raggiungere veri e propri "modelli del mondo" attraverso la generazione di video, la prossima frontiera risiede nella fedeltà intrinseca, per garantire che i video generati rispettino le leggi fisiche, il ragionamento di buon senso, la correttezza anatomica e l'integrità compositiva. Raggiungere questo livello di realismo è essenziale per applicazioni come la produzione cinematografica assistita dall'IA e la modellazione di mondi simulati. Per colmare questa lacuna, introduciamo VBench-2.0, un benchmark di nuova generazione progettato per valutare automaticamente i modelli generativi di video in termini di fedeltà intrinseca. VBench-2.0 valuta cinque dimensioni chiave: Fedeltà Umana, Controllabilità, Creatività, Fisica e Buon Senso, ciascuna ulteriormente suddivisa in capacità più dettagliate. Personalizzato per le singole dimensioni, il nostro framework di valutazione integra generalisti come i migliori VLMs e LLMs, e specialisti, inclusi metodi di rilevamento delle anomalie proposti per la generazione di video. Effettuiamo annotazioni estese per garantire l'allineamento con il giudizio umano. Spingendosi oltre la fedeltà superficiale verso quella intrinseca, VBench-2.0 mira a stabilire un nuovo standard per la prossima generazione di modelli generativi di video, perseguendo la fedeltà intrinseca.
I Large Reasoning Models (LRM) dimostrano notevoli capacità di ragionamento ma si basano principalmente su conoscenze parametriche, limitando l'accuratezza fattuale. Sebbene lavori recenti abbiano dotato gli LRM basati su apprendimento per rinforzo (RL) di capacità di recupero, questi soffrono di sovrapensiero e mancanza di robustezza nel ragionamento, riducendo la loro efficacia nei compiti di question answering (QA). Per affrontare questo problema, proponiamo ReaRAG, un modello di ragionamento potenziato per la fattualità che esplora query diversificate senza eccessive iterazioni. La nostra soluzione include un nuovo framework di costruzione dei dati con un limite superiore alla lunghezza della catena di ragionamento. Nello specifico, sfruttiamo prima un LRM per generare un pensiero deliberato, quindi selezioniamo un'azione da uno spazio di azioni predefinito (Cerca e Termina). Per l'azione Cerca, una query viene eseguita contro il motore RAG, dove il risultato viene restituito come osservazione per guidare i passi di ragionamento successivi. Questo processo si ripete fino a quando non viene scelta un'azione Termina. Grazie alle forti capacità di ragionamento di ReaRAG, il nostro approccio supera i baseline esistenti nel QA multi-hop. Un'ulteriore analisi evidenzia la sua forte capacità riflessiva di riconoscere errori e affinare la traiettoria di ragionamento. Il nostro studio migliora la fattualità degli LRM integrando efficacemente un ragionamento robusto per la Generazione Aumentata dal Recupero (RAG).
Presentiamo LeX-Art, una suite completa per la sintesi di alta qualità tra testo e immagine che colma sistematicamente il divario tra l'espressività dei prompt e la fedeltà del rendering del testo. Il nostro approccio segue un paradigma incentrato sui dati, costruendo una pipeline di sintesi dati di alta qualità basata su Deepseek-R1 per curare LeX-10K, un dataset di 10.000 immagini ad alta risoluzione e raffinate esteticamente in formato 1024x1024. Oltre alla costruzione del dataset, sviluppiamo LeX-Enhancer, un modello robusto per l'arricchimento dei prompt, e addestriamo due modelli text-to-image, LeX-FLUX e LeX-Lumina, raggiungendo prestazioni all'avanguardia nel rendering del testo. Per valutare sistematicamente la generazione visiva del testo, introduciamo LeX-Bench, un benchmark che valuta fedeltà, estetica e allineamento, integrato dalla Pairwise Normalized Edit Distance (PNED), una nuova metrica per la valutazione robusta dell'accuratezza del testo. Gli esperimenti dimostrano miglioramenti significativi, con LeX-Lumina che raggiunge un guadagno del 79,81% in PNED su CreateBench, e LeX-FLUX che supera i baseline in accuratezza del colore (+3,18%), posizionale (+4,45%) e del font (+3,81%). I nostri codici, modelli, dataset e demo sono pubblicamente disponibili.
I ritratti video-chat interattivi in tempo reale sono stati sempre più riconosciuti come la tendenza futura, in particolare grazie ai notevoli progressi compiuti nelle tecnologie di chat testuali e vocali. Tuttavia, i metodi esistenti si concentrano principalmente sulla generazione in tempo reale dei movimenti della testa, ma faticano a produrre movimenti del corpo sincronizzati che corrispondano a queste azioni della testa. Inoltre, ottenere un controllo fine sullo stile di parlato e sulle sfumature delle espressioni facciali rimane una sfida. Per affrontare queste limitazioni, introduciamo un nuovo framework per la generazione di video ritratti stilizzati in tempo reale, che consente una video chat espressiva e flessibile, estendendosi dalla testa parlante all'interazione con la parte superiore del corpo. Il nostro approccio si compone delle seguenti due fasi. La prima fase prevede modelli di diffusione del movimento gerarchici ed efficienti, che tengono conto sia di rappresentazioni esplicite che implicite del movimento basate sugli input audio, in grado di generare una vasta gamma di espressioni facciali con controllo stilistico e sincronizzazione tra i movimenti della testa e del corpo. La seconda fase mira a generare video ritratti che includano movimenti della parte superiore del corpo, compresi i gesti delle mani. Iniettiamo segnali di controllo espliciti delle mani nel generatore per produrre movimenti delle mani più dettagliati, e ulteriormente eseguiamo un affinamento del volto per migliorare il realismo complessivo e l'espressività del video ritratto. Inoltre, il nostro approccio supporta una generazione efficiente e continua di video ritratti della parte superiore del corpo con una risoluzione massima di 512 * 768 a fino a 30fps su GPU 4090, supportando video-chat interattivi in tempo reale. I risultati sperimentali dimostrano la capacità del nostro approccio di produrre video ritratti con una ricca espressività e movimenti naturali della parte superiore del corpo.
Presentiamo Lumina-Image 2.0, un framework avanzato per la generazione di immagini da testo che segna un progresso significativo rispetto al lavoro precedente, Lumina-Next. Lumina-Image 2.0 si basa su due principi chiave: (1) Unificazione - adotta un'architettura unificata (Unified Next-DiT) che tratta i token di testo e immagine come una sequenza congiunta, consentendo interazioni cross-modali naturali e un'espansione senza soluzione di continuità delle attività. Inoltre, poiché i sistemi di captioning di alta qualità possono fornire coppie testo-immagine semanticamente allineate, introduciamo un sistema di captioning unificato, Unified Captioner (UniCap), progettato specificamente per i task di generazione da testo a immagine (T2I). UniCap eccelle nella generazione di descrizioni complete e accurate, accelerando la convergenza e migliorando l'aderenza ai prompt. (2) Efficienza - per migliorare l'efficienza del nostro modello, sviluppiamo strategie di training progressivo multi-stadio e introduciamo tecniche di accelerazione dell'inferenza senza compromettere la qualità delle immagini. Valutazioni estese su benchmark accademici e arene pubbliche di generazione da testo a immagine dimostrano che Lumina-Image 2.0 offre prestazioni robuste anche con soli 2,6 miliardi di parametri, evidenziando la sua scalabilità ed efficienza progettuale. Abbiamo reso disponibili i dettagli del training, il codice e i modelli su https://github.com/Alpha-VLLM/Lumina-Image-2.0.
I recenti progressi nei modelli di pensiero profondo hanno dimostrato capacità di ragionamento notevoli in compiti matematici e di programmazione. Tuttavia, la loro efficacia in domini incarnati, che richiedono un'interazione continua con l'ambiente attraverso traiettorie intervallate da immagini e azioni, rimane in gran parte inesplorata. Presentiamo Embodied Reasoner, un modello che estende il ragionamento in stile o1 a compiti di ricerca interattivi incarnati. A differenza del ragionamento matematico, che si basa principalmente sulla deduzione logica, gli scenari incarnati richiedono comprensione spaziale, ragionamento temporale e un'autoriflessione continua basata sulla storia delle interazioni. Per affrontare queste sfide, sintetizziamo 9,3k traiettorie coerenti Osservazione-Pensiero-Azione contenenti 64k immagini interattive e 90k processi di pensiero diversificati (analisi, ragionamento spaziale, riflessione, pianificazione e verifica). Sviluppiamo una pipeline di addestramento in tre fasi che migliora progressivamente le capacità del modello attraverso l'apprendimento per imitazione, l'autoesplorazione tramite campionamento per rifiuto e l'autocorrezione tramite ottimizzazione della riflessione. La valutazione mostra che il nostro modello supera significativamente i modelli avanzati di ragionamento visivo, ad esempio supera OpenAI o1, o3-mini e Claude-3.7 rispettivamente del +9%, 24% e +13%. L'analisi rivela che il nostro modello presenta meno ricerche ripetute e inconsistenze logiche, con vantaggi particolari in compiti complessi a lungo termine. Anche negli ambienti del mondo reale si dimostra la nostra superiorità, con meno casi di ricerche ripetute e inconsistenze logiche.
I grandi modelli linguistici (LLM) hanno dimostrato potenziale nell'assistere la ricerca scientifica, ma la loro capacità di scoprire ipotesi di ricerca di alta qualità rimane inesplorata a causa della mancanza di un benchmark dedicato. Per colmare questa lacuna, introduciamo il primo benchmark su larga scala per valutare gli LLM con un insieme quasi sufficiente di sotto-attività della scoperta scientifica: recupero di ispirazioni, composizione di ipotesi e classificazione di ipotesi. Sviluppiamo un framework automatizzato che estrae componenti critici - domande di ricerca, revisioni della letteratura, ispirazioni e ipotesi - da articoli scientifici in 12 discipline, con una validazione esperta che ne conferma l'accuratezza. Per prevenire la contaminazione dei dati, ci concentriamo esclusivamente su articoli pubblicati nel 2024, garantendo una sovrapposizione minima con i dati di pre-addestramento degli LLM. La nostra valutazione rivela che gli LLM performano bene nel recupero di ispirazioni, un compito fuori distribuzione, suggerendo la loro capacità di far emergere nuove associazioni di conoscenza. Ciò posiziona gli LLM come "miniere di ipotesi di ricerca", in grado di facilitare la scoperta scientifica automatizzata generando ipotesi innovative su larga scala con un intervento umano minimo.
I modelli linguistici di grandi dimensioni per l'audio (AudioLLMs) hanno ricevuto un'attenzione diffusa e hanno migliorato significativamente le prestazioni in compiti audio come la conversazione, la comprensione audio e il riconoscimento automatico del parlato (ASR). Nonostante questi progressi, manca un benchmark per valutare gli AudioLLM in scenari finanziari, dove i dati audio, come le conferenze sugli utili e i discorsi dei CEO, sono risorse cruciali per l'analisi finanziaria e le decisioni di investimento. In questo articolo, introduciamo FinAudio, il primo benchmark progettato per valutare le capacità degli AudioLLM nel dominio finanziario. Definiamo innanzitutto tre compiti basati sulle caratteristiche uniche del settore finanziario: 1) ASR per audio finanziari brevi, 2) ASR per audio finanziari lunghi e 3) riassunto di audio finanziari lunghi. Successivamente, curiamo due dataset di audio brevi e due di audio lunghi, rispettivamente, e sviluppiamo un nuovo dataset per il riassunto di audio finanziari, che costituisce il benchmark FinAudio. Valutiamo quindi sette AudioLLM diffusi su FinAudio. La nostra valutazione rivela i limiti degli AudioLLM esistenti nel dominio finanziario e offre spunti per il loro miglioramento. Tutti i dataset e i codici saranno rilasciati.
Indaghiamo come migliorare la fedeltà fisica dei modelli di generazione video sfruttando video sintetici derivati da pipeline di computer grafica. Questi video renderizzati rispettano la fisica del mondo reale, come il mantenimento della coerenza 3D, e rappresentano una risorsa preziosa che può potenzialmente migliorare i modelli di generazione video. Per sfruttare questo potenziale, proponiamo una soluzione che cura e integra dati sintetici, introducendo un metodo per trasferire il loro realismo fisico al modello, riducendo significativamente gli artefatti indesiderati. Attraverso esperimenti su tre task rappresentativi che enfatizzano la coerenza fisica, dimostriamo l'efficacia di questo approccio nel migliorare la fedeltà fisica. Sebbene il nostro modello non possieda ancora una comprensione profonda della fisica, il nostro lavoro offre una delle prime dimostrazioni empiriche che i video sintetici migliorano la fedeltà fisica nella sintesi video. Sito web: https://kevinz8866.github.io/simulation/
I modelli di diffusione raggiungono una qualità di generazione notevole, ma soffrono di un campionamento computazionalmente intensivo a causa di una discretizzazione dei passi subottimale. Mentre i lavori esistenti si concentrano sull'ottimizzazione delle direzioni di denoising, noi affrontiamo la progettazione principiata delle pianificazioni dei passi. Questo articolo propone l'Optimal Stepsize Distillation, un framework di programmazione dinamica che estrae pianificazioni teoricamente ottimali distillando conoscenza da traiettorie di riferimento. Riformulando l'ottimizzazione dei passi come una minimizzazione ricorsiva dell'errore, il nostro metodo garantisce limiti globali di discretizzazione attraverso lo sfruttamento della sottostruttura ottimale. In modo cruciale, le pianificazioni distillate dimostrano una forte robustezza tra architetture, risolutori di ODE e pianificazioni del rumore. Gli esperimenti mostrano una generazione testo-immagine accelerata di 10 volte, preservando il 99,4% delle prestazioni su GenEval. Il nostro codice è disponibile all'indirizzo https://github.com/bebebe666/OptimalSteps.
I recenti progressi nella generazione video hanno registrato avanzamenti significativi, in particolare con il rapido sviluppo dei modelli di diffusione. Nonostante ciò, le loro carenze nella cognizione fisica hanno gradualmente ricevuto un'attenzione diffusa: i contenuti generati spesso violano le leggi fondamentali della fisica, cadendo nel dilemma del "realismo visivo ma assurdità fisica". I ricercatori hanno iniziato a riconoscere sempre più l'importanza della fedeltà fisica nella generazione video e hanno tentato di integrare cognizioni fisiche euristiche, come rappresentazioni del movimento e conoscenze fisiche, nei sistemi generativi per simulare scenari dinamici del mondo reale. Considerando la mancanza di una panoramica sistematica in questo campo, questa rassegna mira a fornire una sintesi completa dei progetti architetturali e delle loro applicazioni per colmare questa lacuna. Nello specifico, discutiamo e organizziamo il processo evolutivo della cognizione fisica nella generazione video da una prospettiva di scienza cognitiva, proponendo una tassonomia a tre livelli: 1) percezione dello schema di base per la generazione, 2) cognizione passiva delle conoscenze fisiche per la generazione e 3) cognizione attiva per la simulazione del mondo, includendo metodi all'avanguardia, paradigmi classici e benchmark. Successivamente, sottolineiamo le sfide chiave intrinseche in questo dominio e delineiamo potenziali percorsi per la ricerca futura, contribuendo ad avanzare le frontiere della discussione sia in ambito accademico che industriale. Attraverso una revisione strutturata e un'analisi interdisciplinare, questa rassegna mira a fornire una guida direzionale per lo sviluppo di paradigmi di generazione video interpretabili, controllabili e fisicamente coerenti, spingendo così i modelli generativi dalla fase di "mimesi visiva" verso una nuova fase di "comprensione fisica simile a quella umana".
I modelli di segmentazione semantica a vocabolario aperto associano visione e testo per etichettare i pixel da un insieme non definito di classi utilizzando query testuali, offrendo prestazioni versatili su nuovi dataset. Tuttavia, grandi discrepanze tra i domini di addestramento e test ne compromettono le prestazioni, rendendo necessario il fine-tuning per applicazioni efficaci nel mondo reale. Introduciamo Semantic Library Adaptation (SemLA), un nuovo framework per l'adattamento al dominio in fase di test senza ulteriore addestramento. SemLA sfrutta una libreria di adattatori basati su LoRA indicizzati con embedding CLIP, fondendo dinamicamente gli adattatori più rilevanti in base alla prossimità al dominio target nello spazio di embedding. Questo approccio costruisce un modello ad hoc personalizzato per ogni input specifico senza ulteriore addestramento. Il nostro metodo scala in modo efficiente, migliora l'interpretabilità tracciando i contributi degli adattatori e protegge intrinsecamente la privacy dei dati, rendendolo ideale per applicazioni sensibili. Esperimenti completi su un benchmark di 20 domini costruito su 10 dataset standard dimostrano la superiore adattabilità e prestazioni di SemLA in contesti diversificati, stabilendo un nuovo standard nell'adattamento al dominio per la segmentazione semantica a vocabolario aperto.
I modelli generativi multimodali in grado di comprendere e generare contenuti attraverso più modalità sono dominati da approcci autoregressivi (AR), che elaborano i token in sequenza da sinistra a destra o dall'alto verso il basso. Questi modelli gestiscono congiuntamente immagini, testo, video e audio per varie attività come la descrizione di immagini, il question answering e la generazione di immagini. In questo lavoro, esploriamo i modelli di diffusione discreta come una formulazione generativa unificata nel dominio congiunto di testo e immagini, basandoci sul loro recente successo nella generazione di testo. I modelli di diffusione discreta offrono diversi vantaggi rispetto ai modelli AR, tra cui un migliore controllo sulla qualità rispetto alla diversità dei campioni generati, la capacità di eseguire inpainting multimodale congiunto (sia nel dominio del testo che delle immagini) e una maggiore controllabilità nella generazione attraverso la guida. Sfruttando questi vantaggi, presentiamo il primo modello Unified Multimodal Discrete Diffusion (UniDisc) in grado di comprendere e generare congiuntamente testo e immagini per una varietà di task downstream. Confrontiamo UniDisc con i modelli AR multimodali, eseguendo un'analisi di scalabilità e dimostrando che UniDisc li supera in termini di prestazioni, calcolo al momento dell'inferenza, controllabilità migliorata, editabilità, inpainting e flessibilità nel compromesso tra tempo di inferenza e qualità della generazione. Il codice e ulteriori visualizzazioni sono disponibili all'indirizzo https://unidisc.github.io.
Questo articolo presenta la proposta del team ZJUKLAB per il Task 4 di SemEval-2025: Rimozione di Contenuti Sensibili dai Modelli Linguistici di Grande Dimensione. Questo task mira a cancellare selettivamente conoscenze sensibili dai modelli linguistici di grande dimensione, evitando sia problemi di sovra-rimozione che di sotto-rimozione. Proponiamo un sistema di rimozione che sfrutta il Model Merging (in particolare TIES-Merging), combinando due modelli specializzati in un modello bilanciato e privo di contenuti sensibili. Il nostro sistema ottiene risultati competitivi, classificandosi al secondo posto tra 26 team, con un punteggio online di 0.944 per il Task Aggregate e 0.487 per l’Aggregate complessivo. In questo articolo, conduciamo anche esperimenti locali e un'analisi completa del processo di rimozione, esaminando le traiettorie delle prestazioni, le dinamiche della perdita e le prospettive sui pesi, insieme a diversi esperimenti supplementari, per comprendere l'efficacia del nostro metodo. Inoltre, analizziamo i limiti del nostro metodo e delle metriche di valutazione, sottolineando che i punteggi MIA e le metriche basate su ROUGE da sole non sono sufficienti per valutare completamente il successo della rimozione. Infine, evidenziamo la necessità di metodologie di valutazione più complete e di una rielaborazione degli obiettivi della rimozione nella ricerca futura. Il codice è disponibile all'indirizzo https://github.com/zjunlp/unlearn/tree/main/semeval25.
I recenti progressi nei modelli 2D e multimodali hanno ottenuto un successo notevole sfruttando l'addestramento su larga scala su estesi dataset. Tuttavia, estendere questi risultati per abilitare interazioni libere e operazioni semantiche di alto livello con scene 3D/4D complesse rimane una sfida. Questa difficoltà deriva dalla limitata disponibilità di dataset 3D/4D o multi-vista su larga scala e annotati, che sono cruciali per compiti di visione e linguaggio generalizzabili come la segmentazione open-vocabulary e basata su prompt, l'editing guidato dal linguaggio e il visual question answering (VQA). In questo articolo, introduciamo Feature4X, un framework universale progettato per estendere qualsiasi funzionalità da un modello di visione 2D al regno 4D, utilizzando solo input video monoculare, ampiamente disponibile da contenuti generati dagli utenti. La "X" in Feature4X rappresenta la sua versatilità, abilitando qualsiasi compito attraverso una distillazione adattabile di campi di feature 4D condizionati dal modello. Al centro del nostro framework c'è una strategia di ottimizzazione dinamica che unifica molteplici capacità del modello in una singola rappresentazione. Inoltre, per quanto ne sappiamo, Feature4X è il primo metodo a distillare e sollevare le feature dei modelli di video foundation (ad esempio SAM2, InternVideo2) in un campo di feature 4D esplicito utilizzando Gaussian Splatting. I nostri esperimenti mostrano la segmentazione di qualsiasi cosa in nuove viste, l'editing geometrico e di aspetto della scena, e il VQA libero attraverso tutti i passaggi temporali, potenziati da LLM in cicli di feedback. Questi progressi ampliano lo spettro delle applicazioni AI agentiche fornendo una base per sistemi scalabili, consapevoli del contesto e dello spazio-tempo, capaci di interazioni immersive con scene dinamiche 4D.
Gli input che inducono errori svolgono un ruolo cruciale nella diagnosi e nell'analisi dei bug software. I report di bug contengono tipicamente questi input, che gli sviluppatori estraggono per facilitare il debugging. Poiché i report di bug sono scritti in linguaggio naturale, ricerche precedenti hanno sfruttato varie tecniche di elaborazione del linguaggio naturale (NLP) per l'estrazione automatizzata degli input. Con l'avvento dei modelli linguistici di grandi dimensioni (LLM), sorge un'importante domanda di ricerca: quanto efficacemente i LLM generativi possono estrarre input che inducono errori dai report di bug? In questo articolo, proponiamo LLPut, una tecnica per valutare empiricamente le prestazioni di tre LLM generativi open-source — LLaMA, Qwen e Qwen-Coder — nell'estrazione di input rilevanti dai report di bug. Condurremo una valutazione sperimentale su un dataset di 206 report di bug per valutare l'accuratezza e l'efficacia di questi modelli. I nostri risultati forniscono approfondimenti sulle capacità e i limiti dei LLM generativi nella diagnosi automatizzata dei bug.
La coerenza temporale è fondamentale nella previsione video per garantire che gli output siano coerenti e privi di artefatti. I metodi tradizionali, come l'attenzione temporale e la convoluzione 3D, possono avere difficoltà con movimenti significativi degli oggetti e potrebbero non catturare dipendenze temporali a lungo raggio in scene dinamiche. Per colmare questa lacuna, proponiamo il Tracktention Layer, un componente architetturale innovativo che integra esplicitamente le informazioni di movimento utilizzando tracce di punti, ovvero sequenze di punti corrispondenti tra i fotogrammi. Incorporando questi segnali di movimento, il Tracktention Layer migliora l'allineamento temporale e gestisce efficacemente i movimenti complessi degli oggetti, mantenendo rappresentazioni di feature coerenti nel tempo. Il nostro approccio è computazionalmente efficiente e può essere integrato senza soluzione di continuità in modelli esistenti, come i Vision Transformers, con modifiche minime. Può essere utilizzato per aggiornare modelli progettati solo per immagini a modelli video all'avanguardia, superando talvolta modelli progettati nativamente per la previsione video. Dimostriamo ciò nella previsione della profondità video e nella colorizzazione video, dove i modelli potenziati con il Tracktention Layer mostrano una coerenza temporale significativamente migliorata rispetto ai modelli di riferimento.
L'editing di immagini guidato da testo mira a modificare specifiche regioni di un'immagine in base a istruzioni in linguaggio naturale, mantenendo la struttura generale e la fedeltà dello sfondo. I metodi esistenti utilizzano maschere derivate da mappe di cross-attention generate da modelli di diffusione per identificare le regioni target da modificare. Tuttavia, poiché i meccanismi di cross-attention si concentrano sulla rilevanza semantica, faticano a mantenere l'integrità dell'immagine. Di conseguenza, questi metodi spesso mancano di coerenza spaziale, portando ad artefatti e distorsioni durante l'editing. In questo lavoro, affrontiamo queste limitazioni e introduciamo LOCATEdit, che migliora le mappe di cross-attention attraverso un approccio basato su grafi che utilizza le relazioni tra patch derivate dalla self-attention per mantenere un'attenzione fluida e coerente tra le regioni dell'immagine, garantendo che le alterazioni siano limitate agli elementi designati preservando la struttura circostante. \method supera costantemente e significativamente i baseline esistenti su PIE-Bench, dimostrando le sue prestazioni all'avanguardia e l'efficacia in varie attività di editing. Il codice è disponibile su https://github.com/LOCATEdit/LOCATEdit/