Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo rapporto, presentiamo Qwen2.5, una serie completa di grandi modelli linguistici (LLM) progettati per soddisfare esigenze diverse. Rispetto alle iterazioni precedenti, Qwen 2.5 è stato significativamente migliorato sia durante la fase di pre-training che di post-training. Per quanto riguarda il pre-training, abbiamo ampliato i dataset di pre-training di alta qualità dai precedenti 7 trilioni di token a 18 trilioni di token. Questo fornisce una solida base per il buon senso, la conoscenza esperta e le capacità di ragionamento. Per quanto riguarda il post-training, implementiamo un raffinamento supervisionato intricato con oltre 1 milione di campioni, nonché apprendimento per rinforzo multistadio. Le tecniche di post-training migliorano le preferenze umane e migliorano notevolmente la generazione di testi lunghi, l'analisi dei dati strutturali e il seguire le istruzioni. Per gestire casi d'uso diversi e variati in modo efficace, presentiamo la serie di modelli LLM Qwen2.5 in varie dimensioni. Le offerte open-weight includono modelli di base e modelli ottimizzati per le istruzioni, con versioni quantizzate disponibili. Inoltre, per le soluzioni ospitate, attualmente i modelli proprietari includono due varianti di mixture-of-experts (MoE): Qwen2.5-Turbo e Qwen2.5-Plus, entrambi disponibili da Alibaba Cloud Model Studio. Qwen2.5 ha dimostrato prestazioni di alto livello su una vasta gamma di benchmark che valutano la comprensione del linguaggio, il ragionamento, la matematica, la codifica, l'allineamento delle preferenze umane, ecc. In particolare, il modello open-weight di punta Qwen2.5-72B-Instruct supera diversi modelli open e proprietari e dimostra prestazioni competitive rispetto al modello open-weight all'avanguardia, Llama-3-405B-Instruct, che è circa 5 volte più grande. Qwen2.5-Turbo e Qwen2.5-Plus offrono un'eccellente convenienza economica pur mantenendo prestazioni competitive rispetto a GPT-4o-mini e GPT-4o rispettivamente. Inoltre, come fondamento, i modelli Qwen2.5 sono stati fondamentali per addestrare modelli specializzati come Qwen2.5-Math, Qwen2.5-Coder, QwQ e modelli multimodali.
Le attività di ragionamento multimodale a più passaggi pongono significativi sfide per i modelli di linguaggio multimodali su larga scala (MLLMs), e trovare modi efficaci per migliorare le loro prestazioni in tali scenari rimane una questione irrisolta. In questo articolo, proponiamo AR-MCTS, un framework universale progettato per migliorare progressivamente le capacità di ragionamento dei MLLMs attraverso il Recupero Attivo (AR) e la Ricerca ad Albero di Monte Carlo (MCTS). Il nostro approccio inizia con lo sviluppo di un modulo di recupero unificato che recupera informazioni chiave di supporto per risolvere problemi complessi di ragionamento da un corpus di recupero ibrido-modale. Per colmare il divario nella verifica automatizzata del ragionamento multimodale, impieghiamo l'algoritmo MCTS combinato con un meccanismo di recupero attivo, che consente la generazione automatica di annotazioni passo dopo passo. Questa strategia recupera dinamicamente informazioni chiave per ciascun passaggio di ragionamento, andando oltre il campionamento tradizionale di ricerca a fascio per migliorare la diversità e l'affidabilità dello spazio di ragionamento. Inoltre, introduciamo un modello di ricompensa del processo che si allinea progressivamente per supportare la verifica automatica delle attività di ragionamento multimodale. I risultati sperimentali su tre complessi benchmark di ragionamento multimodale confermano l'efficacia del framework AR-MCTS nel migliorare le prestazioni di vari modelli multimodali. Ulteriori analisi dimostrano che AR-MCTS può ottimizzare la diversità e l'accuratezza del campionamento, producendo un ragionamento multimodale affidabile.
Nonostante la crescente domanda di recupero multimodale, i progressi in questo settore rimangono gravemente limitati dalla mancanza di dati di addestramento. In questo articolo, presentiamo MegaPairs, un nuovo metodo di sintesi dati che sfrutta i modelli di visione linguistica (VLM) e le immagini di dominio aperto, insieme a un massiccio dataset sintetico generato da questo metodo. La nostra analisi empirica mostra che MegaPairs genera dati di alta qualità, consentendo al recuperatore multimodale di superare significativamente il modello di base addestrato su 70 volte più dati provenienti dai dataset esistenti. Inoltre, poiché MegaPairs si basa esclusivamente su corpora di immagini generali e VLM open-source, può essere facilmente scalato, consentendo miglioramenti continui nelle prestazioni di recupero. In questa fase, abbiamo prodotto più di 26 milioni di istanze di addestramento e addestrato diversi modelli di dimensioni variabili utilizzando questi dati. Questi nuovi modelli raggiungono prestazioni di zero-shot all'avanguardia su 4 popolari benchmark di recupero di immagini composte (CIR) e le prestazioni complessive più elevate sui 36 dataset forniti da MMEB. Dimostrano anche notevoli miglioramenti delle prestazioni con ulteriore raffinamento a valle. Il nostro dataset prodotto, i modelli ben addestrati e il processo di sintesi dati saranno resi pubblicamente disponibili per facilitare lo sviluppo futuro di questo settore.
Il collasso del modello nei dati sintetici indica che l'addestramento iterativo su dati auto-generati porta a un graduale declino delle prestazioni. Con la proliferazione dei modelli di intelligenza artificiale, i dati sintetici ridisegneranno in modo fondamentale l'ecosistema dei dati web. I futuri modelli GPT-{n} saranno inevitabilmente addestrati su un mix di dati sintetici e dati prodotti dall'uomo. In questo articolo, ci concentriamo su due domande: quale è l'impatto dei dati sintetici sull'addestramento dei modelli linguistici e come sintetizzare dati senza causare il collasso del modello? Prima di tutto, pre-addestriamo modelli linguistici su diverse proporzioni di dati sintetici, rivelando una correlazione negativa tra la proporzione di dati sintetici e le prestazioni del modello. Inoltre, conduciamo un'analisi statistica sui dati sintetici per scoprire il fenomeno dello spostamento distribuzionale e la sovrapposizione eccessiva delle caratteristiche n-gram. Ispirati dalle scoperte precedenti, proponiamo la modifica dei token sui dati prodotti dall'uomo per ottenere dati semi-sintetici. Come prova di concetto, dimostriamo teoricamente che la modifica a livello di token può prevenire il collasso del modello, poiché l'errore di test è limitato da un limite superiore finito. Conduci...
Questo articolo introduce LongBench v2, un benchmark progettato per valutare la capacità dei LLM di gestire problemi di contesto lungo che richiedono una profonda comprensione e ragionamento attraverso multitask del mondo reale. LongBench v2 è composto da 503 domande a scelta multipla impegnative, con contesti che vanno da 8k a 2M parole, distribuiti in sei categorie principali di compiti: domande e risposte su singoli documenti, domande e risposte su documenti multipli, apprendimento in contesto lungo, comprensione della storia di dialoghi lunga, comprensione di repository di codice e comprensione di dati strutturati lunghi. Per garantire l'ampiezza e la praticità, raccogliamo dati da quasi 100 individui altamente istruiti con background professionali diversi. Utilizziamo processi di revisione automatizzati e manuali per mantenere alta qualità e difficoltà, risultando in esperti umani che raggiungono solo il 53,7% di accuratezza sotto un vincolo di tempo di 15 minuti. La nostra valutazione rivela che il modello che si comporta meglio, quando risponde direttamente alle domande, raggiunge solo il 50,1% di accuratezza. In contrasto, il modello o1-preview, che include un ragionamento più lungo, raggiunge il 57,7%, superando la base umana del 4%. Questi risultati evidenziano l'importanza dell'abilità di ragionamento potenziata e dell'incremento del calcolo al momento dell'inferenza per affrontare le sfide di contesto lungo in LongBench v2. Il progetto è disponibile su https://longbench2.github.io.
I modelli di diffusione e la loro generalizzazione, il flow matching, hanno avuto un impatto notevole nel campo della generazione di media. Qui, l'approccio convenzionale consiste nel imparare la mappatura complessa da una semplice distribuzione di sorgente di rumore gaussiano alla distribuzione di media target. Per compiti cross-modal come la generazione di testo-immagine, si impara la stessa mappatura da rumore a immagine includendo un meccanismo di condizionamento nel modello. Una caratteristica chiave, finora relativamente inesplorata, del flow matching è che, a differenza dei modelli di diffusione, non sono vincolati affinché la distribuzione di sorgente sia rumore. Pertanto, in questo articolo, proponiamo un cambio di paradigma e ci chiediamo se invece possiamo addestrare modelli di flow matching per imparare una mappatura diretta dalla distribuzione di una modalità alla distribuzione di un'altra, evitando così la necessità sia della distribuzione di rumore che del meccanismo di condizionamento. Presentiamo un framework generale e semplice, CrossFlow, per il flow matching cross-modal. Mostreremo l'importanza dell'applicazione degli Encoder Variazionali ai dati in ingresso e introdurremo un metodo per abilitare una guida senza classificatore. Sorprendentemente, per il testo-immagine, CrossFlow con un transformer vanilla senza attenzione incrociata supera leggermente il flow matching standard, e mostriamo che scala meglio con i passaggi di addestramento e le dimensioni del modello, consentendo anche interessanti operazioni aritmetiche latenti che producono modifiche semanticamente significative nello spazio di output. Per dimostrare la generalizzabilità del nostro approccio, mostriamo anche che CrossFlow è all'altezza o supera lo stato dell'arte per vari compiti di mappatura cross-modali / intra-modali, come la didascalia delle immagini, la stima della profondità e la sovrapposizione delle immagini. Speriamo che questo articolo contribuisca ad accelerare i progressi nella generazione di media cross-modali.
La natura intuitiva dell'interazione basata su trascinamento ha portato alla sua crescente adozione per controllare le traiettorie degli oggetti nella sintesi immagine-video. Tuttavia, i metodi esistenti che eseguono il trascinamento nello spazio 2D di solito affrontano l'ambiguità nel gestire i movimenti fuori piano. In questo lavoro, arricchiamo l'interazione con una nuova dimensione, ovvero la profondità, in modo che agli utenti sia consentito assegnare una profondità relativa per ciascun punto sulla traiettoria. In questo modo, il nostro nuovo paradigma di interazione non solo eredita la comodità del trascinamento 2D, ma facilita il controllo della traiettoria nello spazio 3D, ampliando il campo della creatività. Proponiamo un metodo innovativo per il controllo della traiettoria 3D nella sintesi immagine-video astrattendo le maschere degli oggetti in alcuni punti di cluster. Questi punti, accompagnati dalle informazioni sulla profondità e sull'istanza, vengono infine alimentati in un modello di diffusione video come segnale di controllo. Estesi esperimenti convalidano l'efficacia del nostro approccio, chiamato LeviTor, nel manipolare con precisione i movimenti degli oggetti nella produzione di video fotorealistici da immagini statiche. Pagina del progetto: https://ppetrichor.github.io/levitor.github.io/
Come operazione comune di modifica delle immagini, la composizione delle immagini implica l'integrazione degli oggetti in primo piano nelle scene di sfondo. In questo articolo, ampliamo l'applicazione del concetto di Affordance dalle attività di composizione delle immagini incentrate sull'essere umano a un framework più generale di composizione oggetto-scena, affrontando l'interazione complessa tra gli oggetti in primo piano e le scene di sfondo. Seguendo il principio dell'Affordance, definiamo il compito di inserimento di oggetti consapevoli dell'affordance, che mira a inserire senza soluzione di continuità qualsiasi oggetto in qualsiasi scena con vari suggerimenti di posizione. Per affrontare il problema dei dati limitati e incorporare questo compito, abbiamo costruito il dataset SAM-FB, che contiene oltre 3 milioni di esempi distribuiti su più di 3.000 categorie di oggetti. Inoltre, proponiamo il modello Mask-Aware Dual Diffusion (MADD), che utilizza un'architettura a doppio flusso per denoizzare simultaneamente l'immagine RGB e la maschera di inserimento. Modellando esplicitamente la maschera di inserimento nel processo di diffusione, MADD facilita efficacemente il concetto di affordance. Estesi risultati sperimentali mostrano che il nostro metodo supera i metodi all'avanguardia e presenta una forte capacità di generalizzazione sulle immagini in condizioni reali. Si prega di fare riferimento al nostro codice su https://github.com/KaKituken/affordance-aware-any.
In questo articolo, presentiamo AceMath, un insieme di modelli matematici all'avanguardia che eccellono nella risoluzione di problemi matematici complessi, insieme a modelli di ricompensa altamente efficaci capaci di valutare le soluzioni generate e identificare in modo affidabile quelle corrette. Per sviluppare i modelli matematici ottimizzati per le istruzioni, proponiamo un processo di sintonizzazione fine supervisionata (SFT) che prima raggiunge prestazioni competitive in domini generali, seguito da una sintonizzazione fine mirata per il dominio matematico utilizzando un insieme attentamente selezionato di prompt e risposte generate sinteticamente. Il modello risultante, AceMath-72B-Instruct, supera nettamente Qwen2.5-Math-72B-Instruct, GPT-4o e Claude-3.5 Sonnet. Per sviluppare un modello di ricompensa specializzato in matematica, costruiamo prima AceMath-RewardBench, un benchmark completo e robusto per valutare i modelli di ricompensa matematica su problemi diversi e livelli di difficoltà. Successivamente, presentiamo un approccio sistematico per costruire i nostri modelli di ricompensa matematica. Il modello risultante, AceMath-72B-RM, supera costantemente i modelli di ricompensa all'avanguardia. Inoltre, combinando AceMath-72B-Instruct con AceMath-72B-RM, otteniamo il punteggio medio rm@8 più alto tra i benchmark di ragionamento matematico. Rilasceremo i pesi del modello, i dati di addestramento e i benchmark di valutazione su: https://research.nvidia.com/labs/adlr/acemath
La Generazione di Contenuti Procedurale (PCG) è potente nella creazione di contenuti 3D di alta qualità, ma controllarla per produrre forme desiderate è difficile e spesso richiede un'ampia messa a punto dei parametri. La Generazione di Contenuti Procedurale Inversa mira a trovare automaticamente i migliori parametri in base alla condizione di input. Tuttavia, i metodi esistenti basati su campionamento e reti neurali soffrono ancora di numerose iterazioni di campionamento o di limitata controllabilità. In questo lavoro, presentiamo DI-PCG, un metodo innovativo ed efficiente per la PCG Inversa a partire da condizioni immagine generali. Al suo nucleo vi è un modello trasformatore di diffusione leggero, in cui i parametri PCG sono direttamente trattati come obiettivo di denoising e le immagini osservate come condizioni per controllare la generazione dei parametri. DI-PCG è efficiente ed efficace. Con soli 7,6 milioni di parametri di rete e 30 ore di GPU per l'addestramento, dimostra prestazioni superiori nel recupero accurato dei parametri e una buona generalizzazione alle immagini in condizioni reali. Risultati sperimentali quantitativi e qualitativi convalidano l'efficacia di DI-PCG nelle attività di PCG inversa e generazione di immagini in 3D. DI-PCG offre un approccio promettente per una PCG inversa efficiente e rappresenta un passo esplorativo prezioso verso un percorso di generazione 3D che modella come costruire un asset 3D utilizzando modelli parametrici.
Allenare Modelli Multimodalità di Grandi Dimensioni (LMMs) si basa su didascalie di immagini descrittive che collegano immagini e linguaggio. I metodi esistenti o distillano la didascalia dai modelli LMM o costruiscono le didascalie dalle immagini su internet o tramite intervento umano. Proponiamo di sfruttare specialisti visivi già pronti, che sono stati addestrati inizialmente su immagini annotate non per la generazione di didascalie, per migliorare la didascalia dell'immagine. Il nostro approccio, chiamato DCE, esplora attributi di basso livello e finemente dettagliati degli oggetti (ad esempio, profondità, emozione e categorie finemente dettagliate) e relazioni tra gli oggetti (ad esempio, posizione relativa e interazione umano-oggetto (HOI)), e combina gli attributi nella didascalia descrittiva. Gli esperimenti dimostrano che tali specialisti visivi sono in grado di migliorare le prestazioni per compiti di comprensione visiva così come di ragionamento che beneficia di una comprensione visiva più accurata. Rilasceremo il codice sorgente e il flusso di lavoro in modo che altri specialisti visivi possano essere facilmente combinati nel flusso di lavoro. Il codice sorgente completo del flusso di lavoro DCE e i set di dati saranno disponibili su https://github.com/syp2ysy/DCE.
Proponiamo un modello non supervisionato per la modifica delle immagini basata sulle istruzioni che elimina la necessità di immagini modificate di riferimento durante l'addestramento. I metodi supervisionati esistenti dipendono da set di dati contenenti triplette di immagini di input, immagine modificata e istruzione di modifica. Queste vengono generate o da metodi di modifica esistenti o da annotazioni umane, che introducono dei bias e limitano la capacità di generalizzazione. Il nostro metodo affronta queste sfide introducendo un nuovo meccanismo di modifica chiamato Coerenza di Modifica Ciclica (CEC), che applica modifiche in avanti e all'indietro in un singolo passaggio di addestramento e garantisce coerenza negli spazi delle immagini e dell'attenzione. Questo ci consente di evitare la necessità di immagini modificate di riferimento e di avviare per la prima volta l'addestramento su set di dati composti da coppie immagine-didascalia reali o triplette immagine-didascalia-modifica. Dimostriamo empiricamente che la nostra tecnica non supervisionata offre prestazioni migliori su un'ampia gamma di modifiche con alta fedeltà e precisione. Eliminando la necessità di set di dati preesistenti di triplette, riducendo i bias associati ai metodi supervisionati e proponendo CEC, il nostro lavoro rappresenta un significativo avanzamento nello sblocco della scalabilità della modifica delle immagini basata sulle istruzioni.
Proponiamo AV-Link, un framework unificato per la generazione Video-to-Audio e Audio-to-Video che sfrutta le attivazioni dei modelli di diffusione video e audio congelati per un condizionamento cross-modale temporalmente allineato. La chiave del nostro framework è un Blocco di Fusione che consente lo scambio bidirezionale di informazioni tra i nostri modelli di diffusione video e audio di base attraverso un'operazione di autoattenzione temporalmente allineata. A differenza dei lavori precedenti che utilizzano estrattori di caratteristiche preaddestrati per altre attività per il segnale di condizionamento, AV-Link può sfruttare direttamente le caratteristiche ottenute dalla modalità complementare in un unico framework, cioè le caratteristiche video per generare audio, o le caratteristiche audio per generare video. Valutiamo ampiamente le nostre scelte progettuali e dimostriamo la capacità del nostro metodo di ottenere contenuti audiovisivi sincronizzati e di alta qualità, mostrando il suo potenziale per applicazioni nella generazione di media immersivi. Pagina del Progetto: snap-research.github.io/AVLink/
In questo articolo, proponiamo il Text-based Open Molecule Generation Benchmark (TOMG-Bench), il primo benchmark per valutare la capacità di generazione di molecole in un dominio aperto delle LLM. TOMG-Bench include un dataset di tre compiti principali: modifica di molecole (MolEdit), ottimizzazione di molecole (MolOpt) e generazione personalizzata di molecole (MolCustom). Ogni compito contiene ulteriormente tre sotto-compiti, ciascuno con 5.000 campioni di test. Date le complessità intrinseche della generazione di molecole in un dominio aperto, abbiamo inoltre sviluppato un sistema di valutazione automatizzato che aiuta a misurare sia la qualità che l'accuratezza delle molecole generate. Il nostro completo confronto di 25 LLM rivela le attuali limitazioni e le aree potenziali per migliorare la scoperta di molecole guidata dal testo. Inoltre, con l'assistenza di OpenMolIns, un dataset di sintonizzazione delle istruzioni specializzato proposto per risolvere le sfide sollevate da TOMG-Bench, Llama3.1-8B è riuscito a superare tutte le LLM generali open-source, addirittura superando GPT-3.5-turbo del 46,5\% su TOMG-Bench. I nostri codici e dataset sono disponibili su https://github.com/phenixace/TOMG-Bench.
Ricerche recenti esplorano il potenziale dei Modelli a Diffusione (DM) per la modifica coerente degli oggetti, che mira a modificare la posizione, le dimensioni e la composizione degli oggetti, mantenendo la coerenza degli oggetti e dello sfondo senza alterarne la texture e gli attributi. I metodi attuali per l'inferenza spesso si basano sull'inversione di DDIM, compromettendo intrinsecamente l'efficienza e la coerenza ottenibile delle immagini modificate. Metodi recenti utilizzano anche la guida energetica che aggiorna in modo iterativo il rumore previsto e può allontanare i latenti dall'immagine originale, causando distorsioni. In questo articolo, proponiamo PixelMan, un metodo privo di inversione e di addestramento per ottenere una modifica coerente degli oggetti tramite Manipolazione e generazione di pixel, dove creiamo direttamente una copia duplicata dell'oggetto sorgente nella posizione di destinazione nello spazio dei pixel e introduciamo un approccio di campionamento efficiente per armonizzare in modo iterativo l'oggetto manipolato nella posizione di destinazione e per inpaintare la sua posizione originale, garantendo al contempo la coerenza dell'immagine ancorando l'immagine modificata da generare all'immagine manipolata a livello di pixel e introducendo varie tecniche di ottimizzazione che conservano la coerenza durante l'inferenza. Valutazioni sperimentali basate su set di dati di riferimento e ampie comparazioni visive mostrano che in soli 16 passaggi di inferenza, PixelMan supera una serie di metodi all'avanguardia basati sull'addestramento e privi di addestramento (di solito richiedendo 50 passaggi) su molteplici compiti di modifica coerente degli oggetti.
Questo articolo introduce DateLogicQA, un benchmark con 190 domande che coprono diversi formati di date, contesti temporali e tipi di ragionamento. Proponiamo la Metrica di Integrità Semantica per valutare la qualità della tokenizzazione e analizziamo due bias: il Bias a Livello di Rappresentazione, che influisce sulle incapsulazioni, e il Bias a Livello Logico, che influenza le uscite del ragionamento. I nostri risultati forniscono una valutazione esaustiva delle capacità e dei limiti dei LLM nel ragionamento temporale, evidenziando le sfide principali nel gestire i dati temporali con precisione. Il repository GitHub per il nostro lavoro è disponibile su https://github.com/gagan3012/EAIS-Temporal-Bias
La generazione di video realistici di persone rimane un compito impegnativo, con i metodi più efficaci che attualmente si basano su una sequenza di movimento umano come segnale di controllo. Gli approcci esistenti spesso utilizzano movimenti esistenti estratti da altri video, il che limita le applicazioni a tipi di movimento specifici e al matching globale della scena. Proponiamo Move-in-2D, un nuovo approccio per generare sequenze di movimento umano condizionate a un'immagine di scena, consentendo movimenti diversi che si adattano a scene diverse. Il nostro approccio utilizza un modello di diffusione che accetta sia un'immagine di scena che un prompt di testo come input, producendo una sequenza di movimento su misura per la scena. Per addestrare questo modello, raccogliamo un dataset video su larga scala che presenta attività umane singole, annotando ciascun video con il movimento umano corrispondente come output target. Gli esperimenti dimostrano che il nostro metodo predice efficacemente il movimento umano che si allinea con l'immagine della scena dopo la proiezione. Inoltre, mostriamo che la sequenza di movimento generata migliora la qualità del movimento umano nei compiti di sintesi video.