Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli di diffusione video hanno mostrato capacità eccezionali nella simulazione delle dinamiche del mondo reale e nel mantenimento della consistenza in 3D. Questo progresso ci ispira a investigare il potenziale di questi modelli per garantire una coerenza dinamica tra vari punti di vista, una caratteristica molto desiderabile per applicazioni come le riprese virtuali. A differenza dei metodi esistenti focalizzati sulla generazione multi-vista di singoli oggetti per la ricostruzione in 4D, il nostro interesse è nella generazione di video open-world da punti di vista arbitrari, incorporando pose di telecamera a 6 gradi di libertà. Per raggiungere questo obiettivo, proponiamo un modulo plug-and-play che potenzia un modello di testo-a-video pre-addestrato per la generazione di video multi-camera, garantendo coerenza di contenuto tra diversi punti di vista. In particolare, introduciamo un modulo di sincronizzazione multi-vista per mantenere la consistenza dell'aspetto e della geometria tra questi punti di vista. Date le limitate quantità di dati di addestramento di alta qualità, progettiamo un regime di addestramento ibrido che sfrutta immagini multi-camera e video monoculari per integrare video multi-camera renderizzati con Unreal Engine. Inoltre, il nostro metodo consente interessanti estensioni, come il ri-rendering di un video da nuovi punti di vista. Rilasciamo anche un dataset video sincronizzato multi-vista, chiamato SynCamVideo-Dataset. Pagina del progetto: https://jianhongbai.github.io/SynCamMaster/.
I recenti progressi nella generazione testo-immagine (T2I) hanno mostrato un notevole successo nella produzione di immagini di alta qualità da testo. Tuttavia, i modelli T2I esistenti mostrano una performance decaduta nella generazione di immagini compositive che coinvolgono oggetti multipli e relazioni intricate. Attribuiamo questo problema alle limitazioni nei dataset esistenti di coppie immagine-testo, che mancano di annotazioni precise sulle relazioni tra gli oggetti con soli prompt. Per affrontare questo problema, abbiamo costruito LAION-SG, un dataset su larga scala con annotazioni strutturali di grafi di scena (SG), che descrivono precisamente attributi e relazioni di oggetti multipli, rappresentando efficacemente la struttura semantica in scene complesse. Basandoci su LAION-SG, abbiamo addestrato un nuovo modello fondamentale SDXL-SG per incorporare informazioni di annotazione strutturale nel processo di generazione. Estesi esperimenti mostrano che i modelli avanzati addestrati sul nostro LAION-SG vantano significativi miglioramenti delle performance nella generazione di scene complesse rispetto ai modelli su dataset esistenti. Introduciamo inoltre CompSG-Bench, un benchmark che valuta i modelli nella generazione di immagini compositive, stabilendo uno nuovo standard per questo ambito.
I modelli visione-linguaggio hanno compiuto progressi significativi di recente, dimostrando prestazioni superiori in una serie di compiti, come il riconoscimento ottico dei caratteri e l'analisi di diagrammi complessi. Costruendo su questa tendenza, presentiamo un nuovo modello visione-linguaggio, POINTS1.5, progettato per eccellere in varie applicazioni del mondo reale. POINTS1.5 è un potenziamento di POINTS1.0 e incorpora diverse innovazioni chiave: i) Sostituiamo il codificatore di visione CLIP originale, che aveva una risoluzione immagine fissa, con un codificatore di visione in stile NaViT che supporta una risoluzione dinamica nativa elevata. Ciò consente a POINTS1.5 di elaborare immagini di qualsiasi risoluzione senza doverle suddividere in piastrelle. ii) Aggiungiamo il supporto bilingue a POINTS1.5, potenziando significativamente la sua capacità in cinese. A causa della scarsità di set di dati cinesi open-source per i modelli visione-linguaggio, raccogliamo numerose immagini da Internet e le annotiamo utilizzando una combinazione di metodi manuali e automatici. iii) Proponiamo un insieme di metodi rigorosi di filtraggio per i set di dati di sintonizzazione delle istruzioni visive. Valutiamo in modo esaustivo tutti questi metodi di filtraggio e scegliamo quelli più efficaci per ottenere il set finale di sintonizzazione delle istruzioni visive. Grazie a queste innovazioni, POINTS1.5 supera significativamente POINTS1.0 e dimostra prestazioni solide in una serie di applicazioni del mondo reale. In particolare, POINTS1.5-7B è addestrato su meno di 4 miliardi di token e si posiziona al primo posto nella classifica di OpenCompass tra i modelli con meno di 10 miliardi di parametri.
La generazione controllabile di immagini di persone mira a generare un'immagine di persona condizionata a immagini di riferimento, consentendo un controllo preciso sull'aspetto o sulla posa della persona. Tuttavia, i metodi precedenti spesso distorcono dettagli testuali dettagliati dell'immagine di riferimento, nonostante raggiungano un'alta qualità complessiva dell'immagine. Attribuiamo tali distorsioni a una scarsa attenzione alle regioni corrispondenti nell'immagine di riferimento. Per affrontare questo problema, proponiamo pertanto di apprendere campi di flusso nell'attenzione (Leffa), che guidano esplicitamente la query di destinazione a prestare attenzione alla corretta chiave di riferimento nello strato di attenzione durante l'addestramento. In particolare, ciò è realizzato tramite una perdita di regolarizzazione in cima alla mappa di attenzione all'interno di un modello di base basato sulla diffusione. I nostri ampi esperimenti mostrano che Leffa raggiunge prestazioni all'avanguardia nel controllo dell'aspetto (prova virtuale) e della posa (trasferimento di posa), riducendo significativamente la distorsione dei dettagli dettagliati mentre mantiene un'alta qualità dell'immagine. Inoltre, dimostriamo che la nostra perdita è indipendente dal modello e può essere utilizzata per migliorare le prestazioni di altri modelli di diffusione.
L'ecosistema BrowserGym affronta la crescente necessità di valutare in modo efficiente e fare benchmark degli agenti web, in particolare di coloro che sfruttano l'automazione e i Grandi Modelli Linguistici (LLM) per compiti di interazione web. Molti benchmark esistenti soffrono di frammentazione e metodologie di valutazione inconsistenti, rendendo difficile ottenere confronti affidabili e risultati riproducibili. BrowserGym mira a risolvere questo problema fornendo un ambiente unificato simile a una palestra con spazi di osservazione e azione ben definiti, facilitando la valutazione standardizzata tra diversi benchmark. Combinato con AgentLab, un framework complementare che aiuta nella creazione, test e analisi degli agenti, BrowserGym offre flessibilità per integrare nuovi benchmark garantendo nel contempo una valutazione coerente e una gestione completa degli esperimenti. Questo approccio standardizzato mira a ridurre il tempo e la complessità nello sviluppo degli agenti web, supportando confronti più affidabili e agevolando un'analisi approfondita dei comportamenti degli agenti, potenzialmente portando a agenti più adattabili e capaci, accelerando così l'innovazione nell'automazione basata sui LLM. Come prova a supporto, conduciamo il primo esperimento su larga scala con agenti web multi-benchmark e confrontiamo le prestazioni di 6 LLM all'avanguardia su tutti i benchmark attualmente disponibili in BrowserGym. Tra le altre scoperte, i nostri risultati evidenziano una grande discrepanza tra i modelli più recenti di OpenAI e Anthropic, con Claude-3.5-Sonnet in testa su quasi tutti i benchmark, tranne che nei compiti legati alla visione dove GPT-4o è superiore. Nonostante questi progressi, i nostri risultati sottolineano che costruire agenti web robusti ed efficienti rimane una sfida significativa, a causa della complessità intrinseca degli ambienti web reali e dei limiti dei modelli attuali.
Il controllo dello stile è stato popolare nei modelli di generazione video. I metodi esistenti spesso generano video lontani dallo stile fornito, causano perdite di contenuto e faticano nel trasferire un video allo stile desiderato. La nostra prima osservazione è che l'importanza della fase di estrazione dello stile, mentre i metodi esistenti enfatizzano lo stile globale ma ignorano le texture locali. Per portare le caratteristiche delle texture evitando perdite di contenuto, filtriamo le patch correlate al contenuto mantenendo quelle dello stile in base alla similarità tra le patch; per l'estrazione dello stile globale, generiamo un dataset di stile accoppiato attraverso l'illusione del modello per facilitare l'apprendimento contrastivo, che migliora notevolmente la coerenza assoluta dello stile. Inoltre, per colmare il divario tra immagine e video, addestriamo un adattatore di movimento leggero su video fermi, che potenzia implicitamente l'estensione della stilizzazione e consente al nostro modello addestrato sull'immagine di essere applicato in modo fluido ai video. Grazie a questi sforzi, il nostro approccio, StyleMaster, non solo ottiene un miglioramento significativo sia nella somiglianza dello stile che nella coerenza temporale, ma può anche generalizzare facilmente al trasferimento di stile video con un ControlNet grigio. Estesi esperimenti e visualizzazioni dimostrano che StyleMaster supera significativamente i concorrenti, generando efficacemente video stilizzati di alta qualità che si allineano al contenuto testuale e assomigliano da vicino allo stile delle immagini di riferimento. La nostra pagina del progetto si trova su https://zixuan-ye.github.io/stylemaster.
Mentre i generatori video fondamentali recenti producono output visivamente ricchi, faticano ancora con lo spostamento dell'aspetto, dove gli oggetti degradano gradualmente o cambiano in modo inconsistente tra i frame, rompendo la coerenza visiva. Ipotizziamo che ciò sia dovuto alla mancanza di supervisione esplicita in termini di tracciamento spaziale a livello di caratteristica. Proponiamo Track4Gen, un generatore video consapevole dello spazio che combina la perdita di diffusione video con il tracciamento dei punti tra i frame, fornendo una supervisione spaziale migliorata sulle caratteristiche di diffusione. Track4Gen fonde la generazione video e i compiti di tracciamento dei punti in una singola rete apportando modifiche minime alle architetture esistenti di generazione video. Utilizzando la Diffusione Video Stabile come base, Track4Gen dimostra che è possibile unificare la generazione video e il tracciamento dei punti, che vengono tipicamente gestiti come compiti separati. Le nostre valutazioni approfondite mostrano che Track4Gen riduce efficacemente lo spostamento dell'aspetto, producendo una generazione video temporalmente stabile e visivamente coerente. Pagina del progetto: hyeonho99.github.io/track4gen
I modelli Gaussiani feed-forward generalizzati hanno ottenuto significativi progressi nella ricostruzione 3D a vista scarsa, sfruttando le conoscenze pregresse da ampi dataset multi-vista. Tuttavia, questi modelli spesso faticano a rappresentare dettagli ad alta frequenza a causa del numero limitato di Gaussiane. Mentre la strategia di densificazione utilizzata nell'ottimizzazione 3D-Gaussian splatting (3D-GS) per scena può essere adattata ai modelli feed-forward, potrebbe non essere idealmente adatta per scenari generalizzati. In questo articolo, proponiamo la Densificazione Generativa, un metodo efficiente e generalizzabile per densificare le Gaussiane generate dai modelli feed-forward. A differenza della strategia di densificazione 3D-GS, che suddivide e clona iterativamente i parametri Gaussiani grezzi, il nostro metodo campiona le rappresentazioni delle caratteristiche dai modelli feed-forward e genera le loro corrispondenti Gaussiane dettagliate in un singolo passaggio in avanti, sfruttando le conoscenze pregresse incorporate per una generalizzazione migliorata. I risultati sperimentali su compiti di ricostruzione a livello di oggetto e di scena dimostrano che il nostro metodo supera gli approcci all'avanguardia con dimensioni del modello comparabili o inferiori, ottenendo miglioramenti notevoli nella rappresentazione dei dettagli fini.
Questo articolo presenta StreamChat, un nuovo approccio che potenzia le capacità di interazione dei Grandi Modelli Multimodali (LMM) con contenuti video in streaming. Nei contesti di interazione in streaming, i metodi esistenti si basano esclusivamente sulle informazioni visive disponibili al momento in cui viene posta una domanda, con conseguenti ritardi significativi poiché il modello rimane inconsapevole dei cambiamenti successivi nel video in streaming. StreamChat affronta questa limitazione aggiornando in modo innovativo il contesto visivo ad ogni passaggio di decodifica, garantendo che il modello utilizzi contenuti video aggiornati durante l'intero processo di decodifica. Inoltre, introduciamo un'architettura flessibile ed efficiente basata su cross-attention per elaborare input dinamici in streaming mantenendo al contempo l'efficienza inferenziale per le interazioni in streaming. Inoltre, costruiamo un nuovo dataset di istruzioni denso per agevolare l'addestramento dei modelli di interazione in streaming, completato da un meccanismo parallelo 3D-RoPE che codifica le informazioni temporali relative dei token visivi e testuali. I risultati sperimentali dimostrano che StreamChat raggiunge prestazioni competitive su benchmark consolidati di immagini e video e mostra capacità superiori nei contesti di interazione in streaming rispetto ai migliori LMM video attuali.
Modificare immagini reali utilizzando un modello di diffusione/flusso testo-immagine (T2I) pre-addestrato spesso comporta l'inversione dell'immagine nella relativa mappa di rumore corrispondente. Tuttavia, l'inversione di per sé è tipicamente insufficiente per ottenere risultati soddisfacenti, pertanto molti metodi intervengono ulteriormente nel processo di campionamento. Tali metodi raggiungono risultati migliorati ma non sono facilmente trasferibili tra architetture di modelli. Qui presentiamo FlowEdit, un metodo di modifica basato su testo per modelli di flusso T2I pre-addestrati, che è privo di inversione, ottimizzazione e indipendente dal modello. Il nostro metodo costruisce un ODE che mappa direttamente tra le distribuzioni di origine e di destinazione (corrispondenti alle istruzioni di testo di origine e di destinazione) e raggiunge un costo di trasporto inferiore rispetto all'approccio di inversione. Ciò porta a risultati all'avanguardia, come illustrato con Stable Diffusion 3 e FLUX. Il codice e gli esempi sono disponibili sulla pagina web del progetto.
Il ragionamento spaziale in 3D è la capacità di analizzare e interpretare le posizioni, orientamenti e relazioni spaziali degli oggetti all'interno dello spazio tridimensionale. Questo consente ai modelli di sviluppare una comprensione completa della scena in 3D, consentendo la loro applicabilità a una gamma più ampia di settori, come la navigazione autonoma, la robotica e la RA/RV. Sebbene i grandi modelli multimodali (LMMs) abbiano ottenuto progressi notevoli in una vasta gamma di compiti di comprensione di immagini e video, le loro capacità di eseguire il ragionamento spaziale in 3D su diverse immagini naturali sono meno studiate. In questo lavoro presentiamo il primo benchmark completo di ragionamento spaziale in 3D, 3DSRBench, con 2.772 coppie di domande-risposte visive annotate manualmente su 12 tipi di domande. Conduciamo una valutazione robusta e approfondita delle capacità di ragionamento spaziale in 3D bilanciando la distribuzione dei dati e adottando una nuova strategia di valutazione (FlipEval). Per studiare ulteriormente la robustezza del ragionamento spaziale in 3D rispetto ai punti di vista in 3D della fotocamera, il nostro 3DSRBench include due sottoinsiemi con domande di ragionamento spaziale in 3D su immagini accoppiate con punti di vista comuni e non comuni. Valutiamo una vasta gamma di LMMs open-source e proprietari, mettendo in luce i loro limiti in vari aspetti della consapevolezza in 3D, come altezza, orientamento, posizione e ragionamento multi-oggetto, nonché la loro performance degradata su immagini con punti di vista della fotocamera non comuni. Il nostro 3DSRBench fornisce risultati e approfondimenti preziosi sul futuro sviluppo di LMMs con forti capacità di ragionamento in 3D. La nostra pagina del progetto e il dataset sono disponibili su https://3dsrbench.github.io.
Nel campo della generazione testo-movimento, i modelli mascherati di tipo Bert (MoMask, MMM) attualmente producono output di qualità superiore rispetto ai modelli autoregressivi di tipo GPT (T2M-GPT). Tuttavia, questi modelli di tipo Bert spesso mancano della capacità di output in streaming richiesta per le applicazioni in videogiochi e ambienti multimediali, una caratteristica intrinseca ai modelli di tipo GPT. Inoltre, essi mostrano una performance più debole nella generazione al di fuori della distribuzione. Per superare la qualità dei modelli di tipo BERT sfruttando una struttura di tipo GPT, senza aggiungere modelli di raffinamento aggiuntivi che complicano la scalabilità dei dati, proponiamo un'architettura innovativa, Mogo (Motion Only Generate Once), che genera movimenti umani 3D realistici di alta qualità addestrando un singolo modello transformer. Mogo è composto solo da due componenti principali: 1) RVQ-VAE, un autoencoder variazionale a quantizzazione vettoriale residua gerarchica, che discretizza sequenze di movimento continue con alta precisione; 2) Hierarchical Causal Transformer, responsabile della generazione delle sequenze di movimento di base in modo autoregressivo mentre contemporaneamente inferisce i residui attraverso diversi livelli. I risultati sperimentali dimostrano che Mogo può generare sequenze di movimento continue e cicliche fino a 260 fotogrammi (13 secondi), superando il limite di lunghezza di 196 fotogrammi (10 secondi) dei dataset esistenti come HumanML3D. Sul set di test di HumanML3D, Mogo raggiunge uno score FID di 0.079, superando sia il modello di tipo GPT T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) che il modello di tipo BERT MMM (FID = 0.080). Inoltre, il nostro modello raggiunge la migliore performance quantitativa nella generazione al di fuori della distribuzione.
Esploriamo una nuova esperienza di creazione di video, chiamata Creazione di Video per Dimostrazione. Data un video di dimostrazione e un'immagine di contesto da una scena diversa, generiamo un video fisicamente plausibile che prosegue naturalmente dall'immagine di contesto e mette in atto i concetti d'azione della dimostrazione. Per abilitare questa capacità, presentiamo delta-Diffusion, un approccio di addestramento auto-supervisionato che apprende da video non etichettati attraverso la previsione condizionale di frame futuri. A differenza della maggior parte dei controlli di generazione video esistenti che si basano su segnali espliciti, adottiamo la forma di controllo latente implicito per massima flessibilità ed espressività richiesta dai video in generale. Sfruttando un modello di fondazione video con un design di bottleneck di aspetto in cima, estraiamo latenti d'azione dai video di dimostrazione per condizionare il processo di generazione con minima perdita di aspetto. Empiricamente, delta-Diffusion supera i baselines correlati sia in termini di preferenza umana che di valutazioni su larga scala da parte di macchine, e dimostra potenzialità verso la simulazione interattiva del mondo. Risultati di generazione video campionati sono disponibili su https://delta-diffusion.github.io/.
I Large Language Models sono noti per catturare conoscenze del mondo reale, consentendo loro di eccellere in molte attività derivate. Nonostante i recenti progressi, questi modelli sono ancora inclini a ciò che sono comunemente conosciuti come allucinazioni, che li portano a emettere testi indesiderati e factualmente scorretti. In questo lavoro, proponiamo un nuovo metodo di calibrazione che può essere utilizzato per contrastare le allucinazioni. Aggiungiamo un token speciale [IDK] ("Non lo so") al vocabolario del modello e introduciamo una funzione obiettivo che sposta la massa di probabilità al token [IDK] per le previsioni errate. Questo approccio consente al modello di esprimere esplicitamente l'incertezza nel suo output. Valutiamo il nostro metodo proposto su diverse architetture di modelli e attività factuali derivate. Scopriamo che i modelli addestrati con il nostro metodo sono in grado di esprimere incertezza nei casi in cui in precedenza commettevano errori, subendo solo una piccola perdita di conoscenza codificata. Inoltre, conduciamo ampie analisi di ablazione su varie varianti del nostro approccio e forniamo un'analisi dettagliata del compromesso precisione-richiamo del nostro metodo.
Le dimensioni crescenti dei grandi modelli di linguaggio (LLM) comportano un notevole sovraccarico computazionale e utilizzo della memoria quando si adattano tali modelli a compiti o domini specifici. Diversi metodi efficienti dei parametri per il fine-tuning (PEFT) sono stati ideati per attenuare tali sfide, addestrando un piccolo insieme di parametri per gli aggiornamenti specifici del compito dei pesi del modello. Tra i metodi PEFT, LoRA si distingue per la sua semplicità ed efficienza, ispirando lo sviluppo di una serie di varianti. Tuttavia, LoRA e i suoi successori ignorano le conoscenze rumorose o non rilevanti per il compito mirato, danneggiando in modo significativo le prestazioni del modello e portando a sub-ottimalità. Per affrontare questa limitazione, presentiamo Knowledge-aware Singular-value Adaptation (KaSA), un metodo PEFT che sfrutta la decomposizione ai valori singolari (SVD) con valori singolari consapevoli della conoscenza per attivare dinamicamente la conoscenza in base alla sua rilevanza per il compito in questione. Conduciamo ampi esperimenti su una serie di LLM su compiti che spaziano dalla comprensione del linguaggio naturale (NLU), alla generazione (NLG), al seguire le istruzioni e al ragionamento del senso comune. I risultati sperimentali dimostrano che KaSA supera costantemente FFT e 14 baselines PEFT popolari su 16 benchmark e 4 set di dati sintetici, sottolineando l'efficacia e l'adattabilità del nostro metodo. Il codice sorgente del nostro metodo è disponibile su https://github.com/juyongjiang/KaSA.
Il trasferimento di stile guidato dal testo mira a fondere lo stile di un'immagine di riferimento con il contenuto descritto da un prompt di testo. Gli avanzamenti recenti nei modelli di testo-immagine hanno migliorato la sottigliezza delle trasformazioni di stile, tuttavia rimangono sfide significative, in particolare con l'adattamento eccessivo agli stili di riferimento, limitando il controllo stilistico e disallineandosi con il contenuto testuale. In questo articolo, proponiamo tre strategie complementari per affrontare questi problemi. In primo luogo, introduciamo un meccanismo di Normalizzazione dell'Istanza Adattiva (AdaIN) cross-modale per una migliore integrazione di stile e caratteristiche del testo, migliorando l'allineamento. In secondo luogo, sviluppiamo un approccio Guida basata sullo Stile senza Classificatore (SCFG) che consente un controllo selettivo sugli elementi stilistici, riducendo influenze non rilevanti. Infine, incorporiamo un modello di insegnante durante le fasi iniziali di generazione per stabilizzare i layout spaziali e mitigare artefatti. Le nostre valutazioni approfondite dimostrano miglioramenti significativi nella qualità del trasferimento di stile e nell'allineamento con i prompt testuali. Inoltre, il nostro approccio può essere integrato nei framework di trasferimento di stile esistenti senza sintonizzazione fine.
Creare dati di alta qualità per addestrare agenti linguistici robusti è una sfida duratura nell'ambito dell'IA incorporata. In questo articolo, presentiamo un Ciclo di Feedback di Dati Auto-Perfezionante (SRDF) che genera coppie di istruzioni di navigazione-traiettoria di alta qualità e su larga scala attraverso il raffinamento iterativo del pool di dati tramite la collaborazione tra due modelli, il generatore di istruzioni e il navigatore, senza alcuna annotazione umana nel processo. In particolare, SRDF inizia utilizzando un generatore di base per creare un pool di dati iniziale per addestrare un navigatore di base, seguito dall'applicazione del navigatore addestrato per filtrare il pool di dati. Ciò porta a dati di maggiore fedeltà per addestrare un generatore migliore, che a sua volta può produrre dati di alta qualità per addestrare il navigatore del round successivo. Tale meccanismo crea un processo di auto-raffinamento dei dati, generando un dataset continuamente migliorato ed altamente efficace per l'apprendimento della navigazione guidata dal linguaggio su larga scala. I nostri esperimenti dimostrano che dopo diversi cicli del meccanismo, il navigatore aumenta il limite di prestazioni dal 70% al 78% SPL sul classico set di test R2R, superando per la prima volta le prestazioni umane (76%). Nel frattempo, questo processo porta a un generatore superiore, evidenziato da un aumento di SPICE da 23,5 a 26,2, migliore di tutti i metodi precedenti di generazione di istruzioni VLN. Infine, dimostriamo la scalabilità del nostro metodo attraverso l'aumento dell'ambiente e della diversità delle istruzioni, e la capacità di generalizzazione del nostro navigatore pre-addestrato su vari compiti di navigazione successivi, superando di gran lunga i metodi all'avanguardia in tutti i casi.
La Traduzione di Immagini (IT) possiede un enorme potenziale in diversi ambiti, consentendo la traduzione dei contenuti testuali all'interno delle immagini in varie lingue. Tuttavia, i dataset esistenti spesso presentano limitazioni in termini di scala, diversità e qualità, ostacolando lo sviluppo e la valutazione dei modelli di IT. Per affrontare questo problema, presentiamo MIT-10M, un corpus parallelo su larga scala di traduzione di immagini multilingue con oltre 10 milioni di coppie immagine-testo derivate da dati del mondo reale, che sono stati sottoposti a un'ampia pulizia dei dati e validazione della traduzione multilingue. Esso contiene 840.000 immagini in tre dimensioni, 28 categorie, compiti con tre livelli di difficoltà e 14 coppie immagine-testo in diverse lingue, rappresentando un notevole miglioramento rispetto ai dataset esistenti. Conduciamo ampi esperimenti per valutare e addestrare i modelli su MIT-10M. I risultati sperimentali indicano chiaramente che il nostro dataset ha una maggiore adattabilità nella valutazione delle prestazioni dei modelli nel affrontare compiti di traduzione di immagini impegnativi e complessi nel mondo reale. Inoltre, le prestazioni del modello ottimizzato con MIT-10M sono triplicate rispetto al modello di base, confermandone ulteriormente la superiorità.