Articoli di ricerca IA selezionati quotidianamente con traduzioni
I livelli di normalizzazione sono onnipresenti nelle reti neurali moderne e sono stati a lungo considerati essenziali. Questo lavoro dimostra che i Transformer senza normalizzazione possono raggiungere le stesse prestazioni o migliori utilizzando una tecnica straordinariamente semplice. Introduciamo la Dynamic Tanh (DyT), un'operazione elemento per elemento DyT(x) = tanh(alpha x), come sostituto diretto dei livelli di normalizzazione nei Transformer. La DyT è ispirata dall'osservazione che la normalizzazione a livello nei Transformer produce spesso mappature input-output a forma di S simili alla tanh. Incorporando la DyT, i Transformer senza normalizzazione possono eguagliare o superare le prestazioni delle loro controparti normalizzate, spesso senza bisogno di regolazione degli iperparametri. Validiamo l'efficacia dei Transformer con DyT in contesti diversi, che vanno dal riconoscimento alla generazione, dall'apprendimento supervisionato a quello auto-supervisionato, e dai modelli di visione artificiale a quelli linguistici. Questi risultati mettono in discussione la comprensione convenzionale che i livelli di normalizzazione siano indispensabili nelle reti neurali moderne e offrono nuove intuizioni sul loro ruolo nelle reti profonde.
Con la disponibilità di milioni di reti neurali pubbliche, la ricerca e l'analisi di grandi repository di modelli sta diventando sempre più importante. Navigare tra così tanti modelli richiede un atlante, ma poiché la maggior parte dei modelli è scarsamente documentata, mappare un tale atlante è una sfida. Per esplorare il potenziale nascosto dei repository di modelli, abbiamo creato un atlante preliminare che rappresenta la frazione documentata di Hugging Face. Questo atlante offre visualizzazioni sorprendenti del panorama e dell'evoluzione dei modelli. Dimostriamo diverse applicazioni di questo atlante, tra cui la previsione di attributi dei modelli (ad esempio, l'accuratezza) e l'analisi delle tendenze nei modelli di visione artificiale. Tuttavia, poiché l'attuale atlante rimane incompleto, proponiamo un metodo per mappare le regioni non documentate. In particolare, identifichiamo prior strutturali ad alta confidenza basate sulle pratiche dominanti di addestramento dei modelli nel mondo reale. Sfruttando queste prior, il nostro approccio consente una mappatura accurata delle aree precedentemente non documentate dell'atlante. Rilasciamo pubblicamente i nostri dataset, il codice e l'atlante interattivo.
I modelli text-to-image come Stable Diffusion e DALLE-3 continuano a incontrare difficoltà nell'editing di immagini multi-turn. Scomponiamo tale compito come un flusso di lavoro agentico (percorso) di utilizzo di strumenti che affronta una sequenza di sottocompiti attraverso strumenti di intelligenza artificiale di costi variabili. Gli algoritmi di ricerca convenzionali richiedono un'esplorazione costosa per trovare percorsi di strumenti. Sebbene i grandi modelli linguistici (LLM) possiedano una conoscenza a priori della pianificazione dei sottocompiti, potrebbero mancare di stime accurate delle capacità e dei costi degli strumenti per determinare quali applicare in ciascun sottocompito. Possiamo combinare i punti di forza sia degli LLM che della ricerca su grafo per trovare percorsi di strumenti efficienti in termini di costo? Proponiamo un approccio in tre fasi chiamato "CoSTA*" che sfrutta gli LLM per creare un albero di sottocompiti, il quale aiuta a potare un grafo di strumenti di IA per il compito dato, e poi conduce una ricerca A* sul sottografo ridotto per trovare un percorso di strumenti. Per bilanciare meglio il costo totale e la qualità, CoSTA* combina entrambe le metriche di ciascuno strumento su ogni sottocompito per guidare la ricerca A*. L'output di ciascun sottocompito viene poi valutato da un modello visione-linguaggio (VLM), dove un fallimento attiverà un aggiornamento del costo e della qualità dello strumento sul sottocompito. Pertanto, la ricerca A* può riprendersi rapidamente dai fallimenti per esplorare altri percorsi. Inoltre, CoSTA* può passare automaticamente tra modalità attraverso i sottocompiti per un migliore compromesso costo-qualità. Costruiamo un nuovo benchmark di editing di immagini multi-turn impegnativo, su cui CoSTA* supera i modelli o agenti di editing di immagini all'avanguardia sia in termini di costo che di qualità, e offre compromessi versatili in base alle preferenze dell'utente.
I recenti progressi nei grandi modelli visione-linguaggio (LVLM) hanno mostrato promettenti risultati per la pianificazione di compiti embodied, ma continuano a incontrare sfide fondamentali come i vincoli di dipendenza e l'efficienza. Gli approcci esistenti si concentrano esclusivamente sull'ottimizzazione della selezione delle azioni o sfruttano modelli del mondo durante l'inferenza, trascurando i vantaggi dell'apprendimento per modellare il mondo come mezzo per migliorare le capacità di pianificazione. Proponiamo Dual Preference Optimization (D^2PO), un nuovo framework di apprendimento che ottimizza congiuntamente la previsione dello stato e la selezione delle azioni attraverso l'apprendimento delle preferenze, consentendo ai LVLM di comprendere le dinamiche dell'ambiente per una migliore pianificazione. Per raccogliere automaticamente traiettorie e dati di preferenza passo-passo senza annotazioni umane, introduciamo un meccanismo di ricerca ad albero per un'esplorazione estensiva tramite tentativi ed errori. Esperimenti estesi su VoTa-Bench dimostrano che il nostro metodo basato su D^2PO supera significativamente i metodi esistenti e GPT-4o quando applicato a Qwen2-VL (7B), LLaVA-1.6 (7B) e LLaMA-3.2 (11B), raggiungendo tassi di successo superiori nei compiti con percorsi di esecuzione più efficienti.
I metodi attuali di generazione e modifica delle immagini elaborano principalmente i prompt testuali come input diretti senza ragionare sulla composizione visiva e sulle operazioni esplicite. Presentiamo Generation Chain-of-Thought (GoT), un nuovo paradigma che abilita la generazione e la modifica attraverso un processo esplicito di ragionamento linguistico prima di produrre le immagini. Questo approccio trasforma la generazione e la modifica convenzionale da testo a immagine in un framework guidato dal ragionamento che analizza le relazioni semantiche e gli arrangiamenti spaziali. Definiamo la formulazione di GoT e costruiamo dataset GoT su larga scala contenenti oltre 9 milioni di campioni con catene di ragionamento dettagliate che catturano le relazioni semantico-spaziali. Per sfruttare i vantaggi di GoT, implementiamo un framework unificato che integra Qwen2.5-VL per la generazione di catene di ragionamento con un modello di diffusione end-to-end potenziato dal nostro nuovo Modulo di Guida Semantico-Spaziale. Gli esperimenti dimostrano che il nostro framework GoT raggiunge prestazioni eccellenti sia nei compiti di generazione che di modifica, con miglioramenti significativi rispetto ai baseline. Inoltre, il nostro approccio abilita la generazione visiva interattiva, consentendo agli utenti di modificare esplicitamente i passaggi di ragionamento per aggiustamenti precisi delle immagini. GoT apre una nuova direzione per la generazione e la modifica visiva guidata dal ragionamento, producendo immagini che si allineano meglio con l'intento umano. Per facilitare la ricerca futura, rendiamo pubblicamente disponibili i nostri dataset, codice e modelli preaddestrati all'indirizzo https://github.com/rongyaofang/GoT.
Questo articolo presenta SANA-Sprint, un modello di diffusione efficiente per la generazione ultra-veloce di immagini da testo (T2I). SANA-Sprint è costruito su un modello di base pre-addestrato e potenziato con una distillazione ibrida, riducendo drasticamente i passaggi di inferenza da 20 a 1-4. Introduciamo tre innovazioni chiave: (1) Proponiamo un approccio senza addestramento che trasforma un modello pre-addestrato di flow-matching per la distillazione di consistenza in tempo continuo (sCM), eliminando il costoso addestramento da zero e ottenendo un'elevata efficienza di addestramento. La nostra strategia di distillazione ibrida combina sCM con la distillazione avversaria latente (LADD): sCM garantisce l'allineamento con il modello insegnante, mentre LADD migliora la fedeltà della generazione in un singolo passaggio. (2) SANA-Sprint è un modello unificato adattivo ai passaggi che raggiunge una generazione di alta qualità in 1-4 passaggi, eliminando l'addestramento specifico per ogni passaggio e migliorando l'efficienza. (3) Integriamo ControlNet con SANA-Sprint per la generazione di immagini interattiva in tempo reale, consentendo un feedback visivo immediato per l'interazione dell'utente. SANA-Sprint stabilisce una nuova frontiera di Pareto nei compromessi velocità-qualità, raggiungendo prestazioni all'avanguardia con 7.59 FID e 0.74 GenEval in un solo passaggio - superando FLUX-schnell (7.94 FID / 0.71 GenEval) mentre è 10 volte più veloce (0.1s vs 1.1s su H100). Raggiunge anche una latenza di 0.1s (T2I) e 0.25s (ControlNet) per immagini 1024 x 1024 su H100, e 0.31s (T2I) su una RTX 4090, dimostrando la sua eccezionale efficienza e il potenziale per applicazioni consumer alimentate da IA (AIPC). Il codice e i modelli pre-addestrati saranno open-source.
Introduciamo VisualPRM, un avanzato modello Process Reward Model (PRM) multimodale con 8 miliardi di parametri, che migliora le capacità di ragionamento degli esistenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) attraverso diverse scale e famiglie di modelli, utilizzando strategie di valutazione Best-of-N (BoN). Nello specifico, il nostro modello migliora le prestazioni di ragionamento di tre tipologie di MLLMs e quattro diverse scale di modelli. Anche quando applicato al già altamente performante InternVL2.5-78B, si osserva un miglioramento di 5,9 punti su sette benchmark di ragionamento multimodale. I risultati sperimentali dimostrano che il nostro modello supera i modelli Outcome Reward Models e Self-Consistency durante la valutazione BoN. Per facilitare l'addestramento dei PRM multimodali, abbiamo costruito un dataset di supervisione del processo multimodale, VisualPRM400K, utilizzando una pipeline di dati automatizzata. Per la valutazione dei PRM multimodali, proponiamo VisualProcessBench, un benchmark con etichette di correttezza passo-passo annotate manualmente, per misurare la capacità dei PRM di rilevare errori nei passaggi dei compiti di ragionamento multimodale. Speriamo che il nostro lavoro possa ispirare ulteriori ricerche future e contribuire allo sviluppo degli MLLMs. Il nostro modello, i dati e il benchmark sono disponibili su https://internvl.github.io/blog/2025-03-13-VisualPRM/.
I modelli di diffusione text-to-image hanno ottenuto un successo straordinario nella generazione di contenuti di alta qualità a partire da prompt testuali. Tuttavia, la loro dipendenza da dati pubblicamente disponibili e la crescente tendenza alla condivisione di dati per il fine-tuning rendono questi modelli particolarmente vulnerabili ad attacchi di avvelenamento dei dati. In questo lavoro, introduciamo il Silent Branding Attack, un nuovo metodo di avvelenamento dei dati che manipola i modelli di diffusione text-to-image per generare immagini contenenti loghi o simboli di marchi specifici senza alcun trigger testuale. Abbiamo osservato che quando determinati pattern visivi sono ripetutamente presenti nei dati di training, il modello impara a riprodurli naturalmente nei suoi output, anche senza menzioni esplicite nei prompt. Sfruttando questo fenomeno, sviluppiamo un algoritmo automatizzato di avvelenamento dei dati che inserisce in modo non invasivo loghi nelle immagini originali, assicurandosi che si integrino naturalmente e rimangano non rilevati. I modelli addestrati su questo dataset avvelenato generano immagini contenenti loghi senza degradare la qualità dell'immagine o l'allineamento con il testo. Validiamo sperimentalmente il nostro attacco di silent branding in due contesti realistici su dataset di immagini di alta qualità su larga scala e dataset di personalizzazione dello stile, ottenendo alti tassi di successo anche senza un trigger testuale specifico. La valutazione umana e le metriche quantitative, inclusa la rilevazione dei loghi, dimostrano che il nostro metodo può incorporare loghi in modo subdolo.
Rendere i modelli generativi testo-immagine (T2I) sia veloci che di alta qualità rappresenta una direzione di ricerca promettente. Studi precedenti si sono tipicamente concentrati sul migliorare la qualità visiva delle immagini sintetizzate a scapito dell'efficienza di campionamento, oppure sull'accelerare drasticamente il campionamento senza migliorare la capacità generativa del modello di base. Inoltre, quasi tutti i metodi di inferenza non sono stati in grado di garantire prestazioni stabili simultaneamente sia sui modelli di diffusione (DMs) che sui modelli autoregressivi visivi (ARMs). In questo articolo, introduciamo un nuovo paradigma di inferenza plug-and-play, CoRe^2, che comprende tre sottoprocessi: Collect, Reflect e Refine. CoRe^2 raccoglie inizialmente le traiettorie di guida senza classificatore (CFG), per poi utilizzare i dati raccolti per addestrare un modello debole che riflette i contenuti facili da apprendere, riducendo al contempo il numero di valutazioni di funzione durante l'inferenza della metà. Successivamente, CoRe^2 impiega una guida da debole a forte per affinare l'output condizionale, migliorando così la capacità del modello di generare contenuti ad alta frequenza e realistici, difficili da catturare per il modello di base. Per quanto ne sappiamo, CoRe^2 è il primo a dimostrare sia efficienza che efficacia su un'ampia gamma di DMs, inclusi SDXL, SD3.5 e FLUX, nonché su ARMs come LlamaGen. Ha mostrato significativi miglioramenti delle prestazioni su HPD v2, Pick-of-Pic, Drawbench, GenEval e T2I-Compbench. Inoltre, CoRe^2 può essere integrato senza soluzione di continuità con lo stato dell'arte Z-Sampling, superandolo di 0.3 e 0.16 su PickScore e AES, mentre risparmia 5.64s di tempo utilizzando SD3.5. Il codice è rilasciato su https://github.com/xie-lab-ml/CoRe/tree/main.
L'apprendimento di campi linguistici 4D per abilitare query linguistiche aperte e sensibili al tempo in scene dinamiche è essenziale per molte applicazioni del mondo reale. Sebbene LangSplat abbia con successo ancorato le caratteristiche CLIP in rappresentazioni 3D Gaussiane, raggiungendo precisione ed efficienza in scene statiche 3D, manca della capacità di gestire campi dinamici 4D poiché CLIP, progettato per compiti statici immagine-testo, non può catturare le dinamiche temporali nei video. Gli ambienti del mondo reale sono intrinsecamente dinamici, con la semantica degli oggetti che evolve nel tempo. Costruire un campo linguistico 4D preciso richiede l'ottenimento di caratteristiche video allineate a livello di pixel e specifiche per oggetto, cosa che i modelli di visione attuali faticano a raggiungere. Per affrontare queste sfide, proponiamo 4D LangSplat, che apprende campi linguistici 4D per gestire in modo efficiente query aperte e agnostiche o sensibili al tempo in scene dinamiche. 4D LangSplat evita di apprendere il campo linguistico dalle caratteristiche visive e invece apprende direttamente dal testo generato da didascalie video specifiche per oggetto tramite Modelli Linguistici Multimodali di Grande Dimensione (MLLMs). Nello specifico, proponiamo un metodo di prompting video multimodale specifico per oggetto, composto da prompt visivi e testuali che guidano gli MLLMs a generare didascalie dettagliate, temporalmente coerenti e di alta qualità per gli oggetti lungo un video. Queste didascalie vengono codificate utilizzando un Modello Linguistico di Grande Dimensione in incorporamenti di frasi di alta qualità, che poi servono come supervisione delle caratteristiche specifiche per oggetto e allineate a livello di pixel, facilitando query testuali aperte attraverso spazi di incorporamento condivisi. Riconoscendo che gli oggetti in scene 4D mostrano transizioni fluide tra stati, proponiamo ulteriormente una rete deformabile di stato per modellare efficacemente questi cambiamenti continui nel tempo. I nostri risultati su più benchmark dimostrano che 4D LangSplat raggiunge risultati precisi ed efficienti sia per query aperte sensibili al tempo che agnostiche al tempo.
Questo articolo presenta il nostro lavoro sulla serie Light-R1, con modelli, dati e codice tutti rilasciati pubblicamente. Iniziamo concentrandoci sull'addestramento di modelli COT lunghi da zero, partendo specificamente da modelli che inizialmente non possiedono capacità COT lunghe. Utilizzando una ricetta di addestramento basata su un curriculum composto da SFT in due fasi e DPO semi-on-policy, addestriamo il nostro modello Light-R1-32B a partire da Qwen2.5-32B-Instruct, ottenendo prestazioni matematiche superiori rispetto a DeepSeek-R1-Distill-Qwen-32B. Nonostante sia stato addestrato esclusivamente su dati matematici, Light-R1-32B dimostra una forte generalizzazione in altri domini. Nella fase successiva di questo lavoro, evidenziamo il significativo vantaggio del dataset da 3k costruito per la seconda fase di SFT nel miglioramento di altri modelli. Ottimizzando i modelli DeepSeek-R1-Distilled utilizzando questo dataset, otteniamo nuovi modelli SOTA in 7B e 14B, mentre il modello 32B, Light-R1-32B-DS, ha performato in modo comparabile a QwQ-32B e DeepSeek-R1. Inoltre, estendiamo il nostro lavoro applicando l'apprendimento per rinforzo, in particolare GRPO, su modelli COT lunghi per migliorare ulteriormente le prestazioni di ragionamento. Addestriamo con successo il nostro modello finale Light-R1-14B-DS con RL, raggiungendo prestazioni SOTA tra i modelli con 14B parametri in matematica. Con punteggi AIME24 e 25 rispettivamente di 74.0 e 60.2, Light-R1-14B-DS supera persino molti modelli 32B e DeepSeek-R1-Distill-Llama-70B. Il suo addestramento RL mostra anche un comportamento atteso, con un aumento simultaneo della lunghezza della risposta e del punteggio di ricompensa. La serie di lavori Light-R1 valida l'addestramento di modelli COT lunghi da zero, dimostra l'arte nei dati SFT e rilascia modelli SOTA ottenuti con RL.
I modelli generativi basati su diffusione hanno rivoluzionato l'editing di immagini orientato agli oggetti, ma il loro impiego nella rimozione e inserimento realistico di oggetti rimane ostacolato da sfide come l'intricata interazione di effetti fisici e la carenza di dati di training accoppiati. In questo lavoro, introduciamo OmniPaint, un framework unificato che ridefinisce la rimozione e l'inserimento di oggetti come processi interdipendenti piuttosto che come compiti isolati. Sfruttando un modello di diffusione pre-addestrato insieme a una pipeline di training progressiva che comprende un'ottimizzazione iniziale su campioni accoppiati e un successivo affinamento su larga scala tramite CycleFlow, OmniPaint ottiene un'eliminazione precisa del primo piano e un'inserimento di oggetti senza soluzione di continuità, preservando fedelmente la geometria della scena e le proprietà intrinseche. Inoltre, la nostra nuova metrica CFD offre una valutazione robusta e senza riferimento della coerenza contestuale e dell'allucinazione di oggetti, stabilendo un nuovo punto di riferimento per l'editing di immagini ad alta fedeltà. Pagina del progetto: https://yeates.github.io/OmniPaint-Page/
I recenti progressi nei Modelli di Ragionamento su Grande Scala (Large Reasoning Models, LRMs), in particolare quelli che sfruttano il ragionamento a Catena di Pensiero (Chain-of-Thought, CoT), hanno aperto nuove possibilità per la Traduzione Automatica (Machine Translation, MT). Questo position paper sostiene che gli LRM hanno sostanzialmente trasformato i paradigmi tradizionali della traduzione neurale e quelli basati su Modelli Linguistici di Grande Scala (LLMs), ridefinendo la traduzione come un compito di ragionamento dinamico che richiede comprensione e ragionamento contestuale, culturale e linguistico. Identifichiamo tre cambiamenti fondamentali: 1) coerenza contestuale, dove gli LRM risolvono ambiguità e preservano la struttura del discorso attraverso un ragionamento esplicito su contesti complessi o addirittura assenti; 2) intenzionalità culturale, che consente ai modelli di adattare gli output inferendo l'intento del parlante, le aspettative del pubblico e le norme socio-linguistiche; 3) auto-riflessione, in cui gli LRM possono correggere potenziali errori di traduzione, specialmente in casi estremamente rumorosi, dimostrando una maggiore robustezza rispetto alla semplice mappatura X->Y. Esploriamo vari scenari di traduzione, inclusa la traduzione stilizzata, la traduzione a livello di documento e la traduzione multimodale, mostrando esempi empirici che dimostrano la superiorità degli LRM nella traduzione. Identifichiamo inoltre diversi fenomeni interessanti degli LRM per la MT, come la traduzione auto-pivot, e le sfide critiche, come l'eccessiva localizzazione nella traduzione e l'efficienza nell'inferenza. In conclusione, riteniamo che gli LRM ridefiniscano i sistemi di traduzione non semplicemente come convertitori di testo, ma come agenti cognitivi multilingue capaci di ragionare sul significato oltre il testo. Questo cambio di paradigma ci invita a considerare i problemi della traduzione in un contesto molto più ampio con gli LRM, pensando a ciò che possiamo ottenere oltre i tradizionali scenari di traduzione.
I modelli visione-linguaggio hanno compiuto progressi significativi in molti compiti focalizzati sulla percezione, tuttavia i loro progressi nei compiti orientati al ragionamento sembrano essere limitati a causa della mancanza di dati di addestramento di alta qualità e diversificati. In questo lavoro, ci proponiamo di affrontare il problema della scarsità di dataset multimodali focalizzati sul ragionamento. Proponiamo VisualWebInstruct, un approccio innovativo che sfrutta i motori di ricerca per creare un dataset diversificato e di alta qualità che abbraccia molteplici discipline come matematica, fisica, finanza, chimica, ecc. Partendo da 30.000 immagini selezionate con cura, utilizziamo la ricerca immagini di Google per identificare siti web contenenti immagini simili. Raccogliamo e processiamo gli HTML da oltre 700.000 fonti URL uniche. Attraverso una pipeline di estrazione del contenuto, filtraggio e sintesi, costruiamo un dataset di circa 900.000 coppie domanda-risposta, con il 40% costituito da coppie di domande-risposte visive e il resto da coppie di domande-risposte testuali. I modelli addestrati su VisualWebInstruct dimostrano miglioramenti significativi delle prestazioni: (1) l'addestramento a partire da Llava-OV-mid mostra guadagni assoluti del 10-20% su vari benchmark, (2) l'addestramento a partire da MAmmoTH-VL mostra un guadagno assoluto del 5%. Il nostro miglior modello, MAmmoTH-VL2, mostra prestazioni all'avanguardia nella classe dei 10 miliardi di parametri su MMMU-Pro-std (40,7%), MathVerse (42,6%) e DynaMath (55,7%). Questi risultati notevoli evidenziano l'efficacia del nostro dataset nel potenziare le capacità di ragionamento dei modelli visione-linguaggio per compiti multimodali complessi.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) con contesto lungo si sono concentrati principalmente sull'elaborazione di contesti di input estesi, portando a significativi passi avanti nella comprensione di contesti lunghi. Tuttavia, l'aspetto altrettanto cruciale della generazione di output di lunga durata ha ricevuto un'attenzione comparativamente minore. Questo articolo propone un cambiamento di paradigma nella ricerca NLP verso la risoluzione delle sfide legate alla generazione di output lunghi. Compiti come la scrittura di romanzi, la pianificazione a lungo termine e il ragionamento complesso richiedono ai modelli di comprendere contesti estesi e produrre testi estesi coerenti, ricchi di contesto e logicamente consistenti. Queste esigenze evidenziano un divario critico nelle capacità attuali degli LLM. Sottolineiamo l'importanza di questo dominio poco esplorato e sollecitiamo sforzi mirati per sviluppare LLM fondamentali progettati per generare output di lunga durata di alta qualità, che hanno un enorme potenziale per applicazioni nel mondo reale.
I modelli di generazione video hanno compiuto progressi straordinari nell'ultimo anno. La qualità dei video generati dall'IA continua a migliorare, ma al costo di dimensioni maggiori del modello, una maggiore quantità di dati e una maggiore richiesta di risorse computazionali per l'addestramento. In questo rapporto, presentiamo Open-Sora 2.0, un modello di generazione video di livello commerciale addestrato con soli 200.000 dollari. Con questo modello, dimostriamo che il costo di addestramento di un modello di generazione video di alto livello è altamente controllabile. Descriviamo tutte le tecniche che hanno contribuito a questa svolta in termini di efficienza, includendo la cura dei dati, l'architettura del modello, la strategia di addestramento e l'ottimizzazione del sistema. Secondo i risultati delle valutazioni umane e i punteggi VBench, Open-Sora 2.0 è paragonabile ai principali modelli di generazione video a livello globale, tra cui il modello open-source HunyuanVideo e il modello closed-source Runway Gen-3 Alpha. Rendendo Open-Sora 2.0 completamente open-source, miriamo a democratizzare l'accesso alla tecnologia avanzata di generazione video, promuovendo un'innovazione e una creatività più ampia nella creazione di contenuti. Tutte le risorse sono disponibili pubblicamente all'indirizzo: https://github.com/hpcaitech/Open-Sora.
In questo lavoro, studiamo empiricamente i Diffusion Transformers (DiT) per la generazione di immagini da testo, concentrandoci sulle scelte architetturali, le strategie di condizionamento testuale e i protocolli di addestramento. Valutiamo una gamma di architetture basate su DiT—inclusi varianti in stile PixArt e MMDiT—e le confrontiamo con una variante standard di DiT che elabora direttamente input concatenati di testo e rumore. Sorprendentemente, i nostri risultati rivelano che le prestazioni del DiT standard sono comparabili a quelle dei modelli specializzati, dimostrando al contempo una superiore efficienza parametrica, specialmente quando scalati. Sfruttando la strategia di condivisione parametrica strato per strato, otteniamo un'ulteriore riduzione del 66% nelle dimensioni del modello rispetto a un'architettura MMDiT, con un impatto minimo sulle prestazioni. Basandoci su un'analisi approfondita di componenti critici come gli encoder di testo e i Variational Auto-Encoders (VAE), introduciamo DiT-Air e DiT-Air-Lite. Con un fine-tuning supervisionato e basato su ricompensa, DiT-Air raggiunge prestazioni all'avanguardia su GenEval e T2I CompBench, mentre DiT-Air-Lite rimane altamente competitivo, superando la maggior parte dei modelli esistenti nonostante le sue dimensioni compatte.
Il pixel grounding, che comprende attività come la Segmentazione delle Espressioni Referenziali (RES), ha attirato notevole attenzione grazie al suo enorme potenziale nel colmare il divario tra le modalità visiva e linguistica. Tuttavia, i progressi in questo ambito sono attualmente limitati dalle carenze intrinseche dei dataset esistenti, tra cui un numero ristretto di categorie di oggetti, una diversità testuale insufficiente e una scarsità di annotazioni di alta qualità. Per mitigare queste limitazioni, introduciamo GroundingSuite, che comprende: (1) un framework di annotazione automatica dei dati che sfrutta più agenti di Modelli Visione-Linguaggio (VLM); (2) un dataset di addestramento su larga scala che include 9,56 milioni di espressioni referenziali diverse e le relative segmentazioni; e (3) un benchmark di valutazione accuratamente curato composto da 3.800 immagini. Il dataset di addestramento di GroundingSuite facilita miglioramenti significativi delle prestazioni, consentendo ai modelli addestrati su di esso di raggiungere risultati all'avanguardia. Nello specifico, un cIoU di 68,9 su gRefCOCO e un gIoU di 55,3 su RefCOCOm. Inoltre, il framework di annotazione di GroundingSuite dimostra un'efficienza superiore rispetto al metodo di annotazione dei dati attualmente leader, ovvero 4,5 volte più veloce del GLaMM.
I modelli linguistici di grandi dimensioni hanno dimostrato una notevole capacità di ragionamento in compiti testuali complessi. Tuttavia, il ragionamento multimodale, che richiede l'integrazione di informazioni visive e testuali, rimane una sfida significativa. I modelli visivo-linguistici esistenti spesso faticano ad analizzare e ragionare efficacemente sul contenuto visivo, portando a prestazioni subottimali in compiti di ragionamento complessi. Inoltre, l'assenza di benchmark completi ostacola una valutazione accurata delle capacità di ragionamento multimodale. In questo articolo, introduciamo R1-Onevision, un modello di ragionamento multimodale progettato per colmare il divario tra percezione visiva e ragionamento profondo. Per raggiungere questo obiettivo, proponiamo una pipeline di ragionamento cross-modale che trasforma le immagini in rappresentazioni testuali formali, consentendo un ragionamento preciso basato sul linguaggio. Sfruttando questa pipeline, costruiamo il dataset R1-Onevision, che fornisce annotazioni dettagliate e passo-passo di ragionamento multimodale in diversi domini. Sviluppiamo ulteriormente il modello R1-Onevision attraverso fine-tuning supervisionato e apprendimento per rinforzo per coltivare capacità avanzate di ragionamento e generalizzazione robusta. Per valutare in modo completo le prestazioni di ragionamento multimodale attraverso diversi livelli, introduciamo R1-Onevision-Bench, un benchmark allineato con le fasi educative umane, che copre esami dalla scuola media all'università e oltre. I risultati sperimentali mostrano che R1-Onevision raggiunge prestazioni all'avanguardia, superando modelli come GPT-4o e Qwen2.5-VL su più benchmark impegnativi di ragionamento multimodale.
I modelli di diffusione distillati soffrono di una limitazione critica: una ridotta diversità dei campioni rispetto alle loro controparti di base. In questo lavoro, scopriamo che nonostante questa perdita di diversità, i modelli distillati conservano le rappresentazioni concettuali fondamentali dei modelli di base. Dimostriamo il controllo della distillazione - dove meccanismi di controllo come Concept Sliders e LoRA addestrati su modelli di base possono essere trasferiti senza soluzione di continuità ai modelli distillati e viceversa, distillando efficacemente il controllo senza alcun riaddestramento. Questa preservazione della struttura rappresentativa ha stimolato la nostra indagine sui meccanismi del collasso della diversità durante la distillazione. Per comprendere come la distillazione influisca sulla diversità, introduciamo la Visualizzazione del Target di Diffusione (DT), uno strumento di analisi e debug che rivela come i modelli prevedono gli output finali in passaggi intermedi. Attraverso la DT-Visualization, identifichiamo artefatti di generazione, incongruenze e dimostriamo che i primi passaggi temporali della diffusione determinano in modo sproporzionato la diversità dell'output, mentre i passaggi successivi perfezionano principalmente i dettagli. Sulla base di queste intuizioni, introduciamo la distillazione della diversità - un approccio ibrido di inferenza che impiega strategicamente il modello di base solo per il primo passaggio temporale critico prima di passare al modello distillato efficiente. I nostri esperimenti dimostrano che questa semplice modifica non solo ripristina le capacità di diversità dai modelli di base a quelli distillati, ma sorprendentemente le supera, mantenendo quasi l'efficienza computazionale dell'inferenza distillata, tutto senza richiedere ulteriori addestramenti o modifiche del modello. Il nostro codice e i dati sono disponibili all'indirizzo https://distillation.baulab.info.
I recenti progressi nella generazione di video consentono di produrre video realistici e della durata di un minuto in un'unica ripresa utilizzando trasformatori di diffusione scalabili. Tuttavia, i video narrativi del mondo reale richiedono scene multi-ripresa con coerenza visiva e dinamica tra le diverse riprese. In questo lavoro, introduciamo il Long Context Tuning (LCT), un paradigma di addestramento che espande la finestra contestuale di modelli di diffusione video pre-addestrati per singola ripresa, consentendo di apprendere direttamente dai dati la coerenza a livello di scena. Il nostro metodo estende i meccanismi di attenzione completa dalle singole riprese a tutte le riprese all'interno di una scena, incorporando un'incorporazione posizionale 3D intervallata e una strategia di rumore asincrono, permettendo sia la generazione congiunta che auto-regressiva delle riprese senza parametri aggiuntivi. I modelli con attenzione bidirezionale dopo LCT possono essere ulteriormente perfezionati con attenzione contestuale-causale, facilitando la generazione auto-regressiva con un efficiente KV-cache. Gli esperimenti dimostrano che i modelli per singola ripresa dopo LCT possono produrre scene multi-ripresa coerenti e mostrare capacità emergenti, tra cui la generazione composizionale e l'estensione interattiva delle riprese, aprendo la strada a una creazione di contenuti visivi più pratica. Per maggiori dettagli, consultare https://guoyww.github.io/projects/long-context-video/.
Man mano che ci spingiamo verso modelli di machine learning sempre più massicci, le frequenti esigenze di sincronizzazione intrinseche negli approcci data-parallel creano significativi rallentamenti, rappresentando una sfida cruciale per un ulteriore scalabilità. Recenti lavori hanno sviluppato un approccio (DiLoCo) che riduce le esigenze di sincronizzazione senza compromettere la qualità del modello. Tuttavia, questi studi non analizzano attentamente come il comportamento di DiLoCo cambi con le dimensioni del modello. In questo lavoro, studiamo il comportamento delle leggi di scalabilità di DiLoCo durante l'addestramento di LLM con un budget computazionale fisso. Ci concentriamo su come fattori algoritmici, tra cui il numero di repliche del modello, gli iperparametri e il budget di token, influenzino l'addestramento in modi che possono essere accuratamente previsti attraverso le leggi di scalabilità. Scopriamo che DiLoCo scala in modo sia prevedibile che robusto con le dimensioni del modello. Quando ben ottimizzato, DiLoCo scala meglio dell'addestramento data-parallel con l'aumentare delle dimensioni del modello e può superare l'addestramento data-parallel anche con modelli di piccole dimensioni. I nostri risultati dimostrano un insieme di vantaggi di DiLoCo più ampio di quanto precedentemente documentato, tra cui dimensioni di batch ottimali maggiori, una migliore generalizzazione downstream con la scala e una riduzione della perdita di valutazione per un budget di token fisso.
La generazione di video ha registrato progressi significativi con l'avvento dei modelli generativi profondi, in particolare i modelli di diffusione. Sebbene i metodi esistenti eccellano nella generazione di video di alta qualità a partire da prompt testuali o singole immagini, la generazione personalizzata di video con più soggetti rimane una sfida largamente inesplorata. Questo compito implica la sintesi di video che incorporano più soggetti distinti, ciascuno definito da immagini di riferimento separate, garantendo al contempo coerenza temporale e spaziale. Gli approcci attuali si basano principalmente sulla mappatura delle immagini dei soggetti a parole chiave nei prompt testuali, il che introduce ambiguità e limita la loro capacità di modellare efficacemente le relazioni tra i soggetti. In questo articolo, proponiamo CINEMA, un nuovo framework per la generazione coerente di video con più soggetti, sfruttando un Modello Linguistico Multimodale di Grande Scala (MLLM). Il nostro approccio elimina la necessità di corrispondenze esplicite tra immagini dei soggetti ed entità testuali, mitigando l'ambiguità e riducendo lo sforzo di annotazione. Sfruttando l'MLLM per interpretare le relazioni tra i soggetti, il nostro metodo facilita la scalabilità, consentendo l'uso di dataset ampi e diversificati per l'addestramento. Inoltre, il nostro framework può essere condizionato su un numero variabile di soggetti, offrendo una maggiore flessibilità nella creazione di contenuti personalizzati. Attraverso valutazioni estensive, dimostriamo che il nostro approccio migliora significativamente la coerenza dei soggetti e la coerenza complessiva del video, aprendo la strada a applicazioni avanzate nella narrazione, nei media interattivi e nella generazione personalizzata di video.
Questo articolo esplora la fattibilità dell'utilizzo di modelli text-to-image in un contesto zero-shot per generare immagini relative a concetti tassonomici. Mentre i metodi basati sul testo per l'arricchimento della tassonomia sono ben consolidati, il potenziale della dimensione visiva rimane inesplorato. Per affrontare questa lacuna, proponiamo un benchmark completo per la Generazione di Immagini Tassonomiche che valuta la capacità dei modelli di comprendere i concetti tassonomici e generare immagini pertinenti e di alta qualità. Il benchmark include concetti di senso comune e campionati casualmente da WordNet, insieme alle previsioni generate da modelli linguistici di grandi dimensioni (LLM). I 12 modelli vengono valutati utilizzando 9 nuove metriche text-to-image relative alla tassonomia e feedback umano. Inoltre, siamo i primi a utilizzare una valutazione a coppie con feedback GPT-4 per la generazione di immagini. I risultati sperimentali mostrano che la classifica dei modelli differisce significativamente rispetto ai compiti T2I standard. Playground-v2 e FLUX si distinguono costantemente in tutte le metriche e sottoinsiemi, mentre l'approccio basato sul recupero delle informazioni si rivela poco efficace. Questi risultati evidenziano il potenziale per l'automazione della cura di risorse di dati strutturati.
I modelli Vision Language (VLMs) hanno dimostrato un potenziale significativo in vari task downstream, tra cui Generazione di Immagini/Video, Risposta a Domande Visive, Chatbot Multimodali e Comprensione Video. Tuttavia, questi modelli spesso incontrano difficoltà con trasformazioni di base delle immagini. Questo articolo indaga la comprensione a livello di immagine dei VLMs, in particolare CLIP di OpenAI e SigLIP di Google. Le nostre scoperte rivelano che questi modelli mancano di comprensione rispetto a molteplici trasformazioni a livello di immagine. Per facilitare questo studio, abbiamo creato una versione aumentata del dataset Flickr8k, associando ogni immagine a una descrizione dettagliata della trasformazione applicata. Esploriamo ulteriormente come questa carenza influisca sui task downstream, in particolare nell'editing di immagini, e valutiamo le prestazioni dei modelli Image2Image all'avanguardia su trasformazioni semplici.
Il trasferimento di stile consiste nel trasferire lo stile da un'immagine di riferimento al contenuto di un'immagine target. I recenti progressi nei metodi basati su LoRA (Low-Rank Adaptation) hanno mostrato promettenti risultati nella capacità di catturare efficacemente lo stile di una singola immagine. Tuttavia, questi approcci continuano a confrontarsi con sfide significative, come l'inconsistenza del contenuto, il disallineamento dello stile e la fuoriuscita di contenuto. In questo articolo, analizziamo in modo esaustivo i limiti della parametrizzazione standard della diffusione, che apprende a predire il rumore, nel contesto del trasferimento di stile. Per affrontare questi problemi, introduciamo ConsisLoRA, un metodo basato su LoRA che migliora sia la consistenza del contenuto che dello stile ottimizzando i pesi LoRA per predire l'immagine originale anziché il rumore. Proponiamo inoltre una strategia di addestramento in due fasi che disaccoppia l'apprendimento del contenuto e dello stile dall'immagine di riferimento. Per catturare efficacemente sia la struttura globale che i dettagli locali dell'immagine contenuto, introduciamo una strategia di transizione graduale della loss. In aggiunta, presentiamo un metodo di guida durante l'inferenza che consente un controllo continuo sulla forza del contenuto e dello stile durante l'inferenza. Attraverso valutazioni sia qualitative che quantitative, il nostro metodo dimostra significativi miglioramenti nella consistenza del contenuto e dello stile, riducendo efficacemente la fuoriuscita di contenuto.
Presentiamo ARPG, un innovativo modello visivo autoregressivo che abilita la generazione parallela randomizzata, affrontando le limitazioni intrinseche degli approcci convenzionali basati sull'ordine raster, che compromettono l'efficienza dell'inferenza e la generalizzazione zero-shot a causa del loro ordine sequenziale e predefinito di generazione dei token. La nostra intuizione chiave è che una modellizzazione efficace in ordine casuale richiede una guida esplicita per determinare la posizione del prossimo token previsto. A tal fine, proponiamo un nuovo framework di decodifica guidata che disaccoppia la guida posizionale dalla rappresentazione del contenuto, codificandole separatamente come query e coppie chiave-valore. Incorporando direttamente questa guida nel meccanismo di attenzione causale, il nostro approccio consente un addestramento e una generazione completamente in ordine casuale, eliminando la necessità di attenzione bidirezionale. Di conseguenza, ARPG si generalizza facilmente a task zero-shot come l'inpainting, l'outpainting e l'espansione della risoluzione delle immagini. Inoltre, supporta l'inferenza parallela elaborando contemporaneamente più query utilizzando una cache KV condivisa. Sul benchmark ImageNet-1K 256, il nostro approccio raggiunge un FID di 1,94 con soli 64 passaggi di campionamento, ottenendo un aumento di oltre 20 volte nella velocità di elaborazione e riducendo il consumo di memoria di oltre il 75% rispetto ai recenti modelli autoregressivi rappresentativi di scala simile.
I modelli generativi avanzati eccellono nella sintesi di immagini, ma spesso si basano su condizionamenti basati sul testo. Tuttavia, i designer visivi spesso lavorano al di là del linguaggio, traendo ispirazione direttamente da elementi visivi esistenti. In molti casi, questi elementi rappresentano solo frammenti di un potenziale concetto—come un'ala dalla struttura unica o un'acconciatura specifica—che servono come ispirazione per l'artista per esplorare come possano unirsi creativamente in un insieme coerente. Riconoscendo questa necessità, introduciamo un framework generativo che integra senza soluzione di continuità un insieme parziale di componenti visivi forniti dall'utente in una composizione coerente, campionando contemporaneamente le parti mancanti necessarie per generare un concetto plausibile e completo. Il nostro approccio si basa su uno spazio di rappresentazione forte e poco esplorato, estratto da IP-Adapter+, sul quale addestriamo IP-Prior, un modello leggero di flow-matching che sintetizza composizioni coerenti basate su prior specifici del dominio, consentendo generazioni diversificate e consapevoli del contesto. Inoltre, presentiamo una strategia di fine-tuning basata su LoRA che migliora significativamente l'aderenza ai prompt in IP-Adapter+ per un determinato compito, affrontando il comune compromesso tra qualità di ricostruzione e aderenza ai prompt.
I modelli Vision Transformer dimostrano un potere immenso ma rimangono opachi alla comprensione umana, ponendo sfide e rischi per le applicazioni pratiche. Sebbene ricerche precedenti abbiano tentato di demistificare questi modelli attraverso l'attribuzione degli input e l'analisi del ruolo dei neuroni, si è osservata una lacuna significativa nel considerare le informazioni a livello di strato e il percorso olistico del flusso di informazioni attraverso gli strati. In questo articolo, indaghiamo l'importanza dei percorsi di neuroni influenti all'interno dei Vision Transformer, ovvero un percorso di neuroni dall'input del modello all'output che influisce in modo più significativo sull'inferenza del modello. Proponiamo innanzitutto una misura di influenza congiunta per valutare il contributo di un insieme di neuroni al risultato del modello. Inoltre, forniamo un approccio di localizzazione progressiva dei neuroni per strato che seleziona in modo efficiente il neurone più influente in ciascuno strato, cercando di scoprire il percorso cruciale dei neuroni dall'input all'output all'interno del modello target. I nostri esperimenti dimostrano la superiorità del nostro metodo nel trovare il percorso di neuroni più influente lungo il quale fluiscono le informazioni, rispetto alle soluzioni baseline esistenti. Inoltre, i percorsi di neuroni hanno illustrato che i Vision Transformer presentano un meccanismo interno specifico per elaborare le informazioni visive all'interno della stessa categoria di immagini. Analizziamo ulteriormente gli effetti chiave di questi neuroni sul compito di classificazione delle immagini, dimostrando che i percorsi di neuroni trovati hanno già preservato la capacità del modello sui compiti downstream, il che potrebbe anche gettare luce su applicazioni reali come il pruning del modello. Il sito web del progetto, incluso il codice di implementazione, è disponibile all'indirizzo https://foundation-model-research.github.io/NeuronPath/.
In questo articolo, proponiamo un framework generale per la navigazione universale zero-shot orientata agli obiettivi. I metodi zero-shot esistenti costruiscono un framework di inferenza basato su modelli linguistici di grandi dimensioni (LLM) per compiti specifici, che differiscono notevolmente nella pipeline complessiva e non riescono a generalizzare su diversi tipi di obiettivi. Verso l'obiettivo della navigazione universale zero-shot, proponiamo una rappresentazione grafica uniforme per unificare diversi obiettivi, inclusi categorie di oggetti, immagini di istanze e descrizioni testuali. Convertiamo inoltre l'osservazione dell'agente in un grafo della scena mantenuto online. Con questa rappresentazione coerente della scena e dell'obiettivo, preserviamo la maggior parte delle informazioni strutturali rispetto al puro testo e siamo in grado di sfruttare l'LLM per un ragionamento esplicito basato su grafi. Nello specifico, eseguiamo il matching tra il grafo della scena e il grafo dell'obiettivo in ogni istante di tempo e proponiamo diverse strategie per generare un obiettivo a lungo termine di esplorazione in base ai diversi stati di matching. L'agente cerca iterativamente un sottografo dell'obiettivo quando non c'è alcun matching. Con un matching parziale, l'agente utilizza quindi la proiezione delle coordinate e l'allineamento delle coppie di ancoraggio per inferire la posizione dell'obiettivo. Infine, la correzione del grafo della scena e la verifica dell'obiettivo vengono applicati per ottenere un matching perfetto. Presentiamo inoltre un meccanismo di blacklist per consentire un passaggio robusto tra le fasi. Esperimenti estesi su diversi benchmark dimostrano che il nostro UniGoal raggiunge prestazioni zero-shot all'avanguardia su tre compiti di navigazione studiati con un singolo modello, superando persino i metodi zero-shot specifici per compito e i metodi universali supervisionati.
I modelli di riconoscimento vocale automatico (ASR) hanno acquisito rilevanza per applicazioni come la sottotitolazione, la traduzione vocale e la trascrizione in tempo reale. Questo articolo studia Whisper e due varianti del modello: una ottimizzata per lo streaming vocale in tempo reale e un'altra per la trascrizione offline. È stato osservato che questi modelli generano contenuti allucinati, riducendo l'affidabilità della trascrizione. Inoltre, le varianti di modelli più grandi presentano una latenza aumentata e pongono sfide per il deployment su dispositivi con risorse limitate. Questo studio analizza le somiglianze e le differenze tra tre modelli Whisper, esaminando qualitativamente le loro capacità distinte. Successivamente, lo studio quantifica l'impatto della quantizzazione del modello sulla latenza e ne valuta la fattibilità per il deployment su dispositivi edge. Utilizzando il dataset open source LibriSpeech, questo articolo valuta il tasso di errore sulle parole (WER) insieme all'analisi della latenza di whispercpp utilizzando tre metodi di quantizzazione (INT4, INT5, INT8). I risultati mostrano che la quantizzazione riduce la latenza del 19\% e le dimensioni del modello del 45\%, preservando l'accuratezza della trascrizione. Questi risultati forniscono indicazioni sui casi d'uso ottimali dei diversi modelli Whisper e sulle possibilità di deployment su dispositivi edge. Tutto il codice, i dataset e i dettagli di implementazione sono disponibili in un repository GitHub pubblico: https://github.com/allisonandreyev/WhisperQuantization.git.
I Modelli Linguistici di Grandi Dimensioni (LLM) stanno rapidamente entrando nella vita dei bambini - attraverso l'adozione guidata dai genitori, le scuole e le reti di pari - eppure l'attuale ricerca sull'etica e la sicurezza dell'IA non affronta adeguatamente i rischi legati ai contenuti specifici per i minori. In questo articolo, evidenziamo queste lacune con uno studio di caso reale di un chatbot basato su LLM implementato in una scuola media, rivelando come gli studenti abbiano utilizzato e talvolta abusato del sistema. Sulla base di questi risultati, proponiamo una nuova tassonomia dei rischi basati sui contenuti per i minori e introduciamo MinorBench, un benchmark open-source progettato per valutare gli LLM sulla loro capacità di rifiutare query non sicure o inappropriate da parte dei bambini. Valutiamo sei importanti LLM con diversi prompt di sistema, dimostrando una variabilità sostanziale nella loro conformità alla sicurezza per i bambini. I nostri risultati informano passi pratici per meccanismi di sicurezza più robusti e focalizzati sui bambini e sottolineano l'urgenza di adattare i sistemi di IA per proteggere i giovani utenti.
Nonostante le prestazioni promettenti dei modelli linguistico-visivi open-source di grandi dimensioni (LVLM), gli attacchi mirati basati sul trasferimento spesso falliscono contro i LVLM commerciali black-box. L'analisi delle perturbazioni avversarie fallite rivela che le perturbazioni apprese tipicamente originano da una distribuzione uniforme e mancano di dettagli semantici chiari, portando a risposte non intenzionali. Questa assenza critica di informazioni semantiche induce i LVLM commerciali a ignorare completamente la perturbazione o a interpretare erroneamente la semantica incorporata, causando così il fallimento dell'attacco. Per superare questi problemi, notiamo che l'identificazione di oggetti semantici core è un obiettivo chiave per i modelli addestrati con vari dataset e metodologie. Questa intuizione motiva il nostro approccio, che affina la chiarezza semantica codificando dettagli semantici espliciti all'interno di regioni locali, garantendo così l'interoperabilità e catturando caratteristiche più granulari, e concentrando le modifiche su aree semanticamente ricche piuttosto che applicandole uniformemente. Per raggiungere questo obiettivo, proponiamo una soluzione semplice ma altamente efficace: a ogni passo di ottimizzazione, l'immagine avversaria viene ritagliata casualmente con un rapporto d'aspetto e una scala controllati, ridimensionata e poi allineata con l'immagine target nello spazio di embedding. I risultati sperimentali confermano la nostra ipotesi. I nostri esempi avversari creati con perturbazioni aggregate localmente focalizzate su regioni cruciali mostrano una trasferibilità sorprendentemente buona ai LVLM commerciali, inclusi GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet e persino modelli di ragionamento come o1, Claude-3.7-thinking e Gemini-2.0-flash-thinking. Il nostro approccio raggiunge tassi di successo superiori al 90% su GPT-4.5, 4o e o1, superando significativamente tutti i precedenti metodi di attacco all'avanguardia. I nostri esempi avversari ottimizzati in diverse configurazioni e il codice di addestramento sono disponibili su https://github.com/VILA-Lab/M-Attack.
L'allucinazione di oggetti (OH) è stata riconosciuta come una delle principali sfide di affidabilità nei Modelli Linguistico-Visuali di Grande Scala (LVLM). I recenti progressi nei Modelli Linguistici di Grande Scala (LLM) indicano che gli stati interni, come gli stati nascosti, codificano la "veridicità complessiva" delle risposte generate. Tuttavia, rimane poco esplorato come funzionino gli stati interni nei LVLM e se possano servire come indicatori di allucinazione "per token", essenziali per mitigare l'OH. In questo articolo, conduciamo prima un'esplorazione approfondita degli stati interni dei LVLM in relazione ai problemi di OH e scopriamo che (1) gli stati interni dei LVLM sono indicatori per token ad alta specificità dei comportamenti di allucinazione. Inoltre, (2) diversi LVLM codificano modelli universali di allucinazione in sottospazi latenti comuni, indicando che esistono "direzioni veritiere generiche" condivise da vari LVLM. Sulla base di queste scoperte, proponiamo la Pre-Intervento Guidata dalla Verità (TruthPrInt) che prima apprende la direzione veritiera della decodifica del LVLM e poi applica un intervento guidato dalla verità durante la decodifica del LVLM. Proponiamo inoltre ComnHallu per migliorare la trasferibilità del rilevamento delle allucinazioni sia tra LVLM che tra dati, costruendo e allineando sottospazi latenti di allucinazione. Valutiamo TruthPrInt in ampie configurazioni sperimentali, inclusi scenari in dominio e fuori dominio, su LVLM popolari e benchmark OH. I risultati sperimentali indicano che TruthPrInt supera significativamente i metodi all'avanguardia. I codici saranno disponibili su https://github.com/jinhaoduan/TruthPrInt.
La tossicità nelle discussioni sui report di bug rappresenta una sfida significativa per le dinamiche collaborative dello sviluppo di software open-source. I report di bug sono cruciali per identificare e risolvere i difetti, ma la loro natura intrinsecamente focalizzata sui problemi e il contesto emotivamente carico li rendono suscettibili a interazioni tossiche. Questo studio esplora la tossicità nei report di bug su GitHub attraverso un'analisi qualitativa di 203 thread di bug, inclusi 81 tossici. I nostri risultati rivelano che la tossicità emerge frequentemente da percezioni disallineate sulla gravità e priorità dei bug, frustrazioni irrisolte con gli strumenti e mancanze nella comunicazione professionale. Queste interazioni tossiche non solo deviano le discussioni produttive, ma riducono anche la probabilità di ottenere risultati concreti, come il collegamento delle issue con le pull request. Le nostre scoperte preliminari offrono raccomandazioni pratiche per migliorare la risoluzione dei bug mitigando la tossicità.
L'accoppiamento del trasporto ottimale su minibatch raddrizza i percorsi nel flusso di corrispondenza incondizionato. Ciò porta a un'inferenza computazionalmente meno impegnativa, poiché è possibile utilizzare meno passi di integrazione e risolutori numerici meno complessi quando si risolve numericamente un'equazione differenziale ordinaria al momento del test. Tuttavia, nel contesto condizionato, il trasporto ottimale su minibatch non è sufficiente. Questo perché la mappatura predefinita del trasporto ottimale ignora le condizioni, risultando in una distribuzione a priori condizionata distorta durante l'addestramento. Al contrario, al momento del test, non abbiamo accesso alla distribuzione a priori distorta, ma campioniamo dalla distribuzione a priori completa e imparziale. Questo divario tra addestramento e test porta a una performance inferiore. Per colmare questo divario, proponiamo il trasporto ottimale condizionato C^2OT, che aggiunge un termine di ponderazione condizionata nella matrice dei costi quando si calcola l'assegnazione del trasporto ottimale. Gli esperimenti dimostrano che questa semplice correzione funziona sia con condizioni discrete che continue in 8gaussians-to-moons, CIFAR-10, ImageNet-32x32 e ImageNet-256x256. Il nostro metodo performa complessivamente meglio rispetto alle baseline esistenti attraverso diversi budget di valutazione delle funzioni. Il codice è disponibile all'indirizzo https://hkchengrex.github.io/C2OT.
Presentiamo PerCoV2, un sistema innovativo e aperto per la compressione percettiva di immagini a bit-rate ultra-basso, progettato per applicazioni con vincoli di larghezza di banda e archiviazione. Basandosi sul lavoro precedente di Careil et al., PerCoV2 estende la formulazione originale all'ecosistema di Stable Diffusion 3 e migliora l'efficienza della codifica entropica modellando esplicitamente la distribuzione discreta degli iper-latenti delle immagini. A tal fine, conduciamo un confronto completo dei recenti metodi autoregressivi (VAR e MaskGIT) per la modellazione entropica e valutiamo il nostro approccio sul benchmark su larga scala MSCOCO-30k. Rispetto ai lavori precedenti, PerCoV2 (i) raggiunge una fedeltà dell'immagine più elevata a bit-rate ancora più bassi, mantenendo una qualità percettiva competitiva, (ii) include una modalità di generazione ibrida per ulteriori risparmi di bit-rate, e (iii) è costruito esclusivamente su componenti pubblici. Il codice e i modelli addestrati saranno rilasciati su https://github.com/Nikolai10/PerCoV2.
Questo articolo presenta PoseLess, un nuovo framework per il controllo della mano robotica che elimina la necessità di una stima esplicita della posa mappando direttamente immagini 2D agli angoli delle giunture utilizzando rappresentazioni proiettate. Il nostro approccio sfrutta dati di addestramento sintetici generati attraverso configurazioni casuali delle giunture, consentendo una generalizzazione zero-shot a scenari del mondo reale e un trasferimento cross-morfologia da mani robotiche a mani umane. Proiettando gli input visivi e impiegando un decoder basato su transformer, PoseLess raggiunge un controllo robusto e a bassa latenza, affrontando sfide come l'ambiguità di profondità e la scarsità di dati. I risultati sperimentali dimostrano prestazioni competitive in termini di accuratezza nella previsione degli angoli delle giunture senza fare affidamento su alcun dataset etichettato manualmente.
La guida senza classificatore è diventata un elemento fondamentale per la generazione condizionale con modelli di diffusione di denoising. Tuttavia, una comprensione completa della guida senza classificatore è ancora mancante. In questo lavoro, conduciamo uno studio empirico per offrire una nuova prospettiva sulla guida senza classificatore. Nello specifico, invece di concentrarci esclusivamente sulla guida senza classificatore, risaliamo alla radice, ovvero alla guida con classificatore, individuiamo l'assunzione chiave per la derivazione e conduciamo uno studio sistematico per comprendere il ruolo del classificatore. Scopriamo che sia la guida con classificatore che quella senza classificatore raggiungono la generazione condizionale spingendo le traiettorie di diffusione di denoising lontano dai confini decisionali, ovvero aree in cui le informazioni condizionali sono solitamente intrecciate e difficili da apprendere. Basandoci su questa comprensione centrata sul classificatore, proponiamo un passaggio di post-elaborazione generico basato sul flow-matching per ridurre il divario tra la distribuzione appresa da un modello di diffusione di denoising pre-addestrato e la distribuzione reale dei dati, principalmente intorno ai confini decisionali. Esperimenti su vari dataset verificano l'efficacia dell'approccio proposto.