Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità impressionanti in vari compiti, ma continuano a lottare con il ragionamento matematico complesso. La ricerca esistente si concentra principalmente sulla costruzione di dataset e sull'ottimizzazione dei metodi, spesso trascurando due aspetti critici: una progettazione guidata dalla conoscenza completa e una modellazione dello spazio dati centrata sul modello. In questo articolo, introduciamo We-Math 2.0, un sistema unificato che integra un sistema strutturato di conoscenza matematica, una modellazione dello spazio dati centrata sul modello e un paradigma di addestramento basato sull'apprendimento per rinforzo (RL) per migliorare in modo completo le capacità di ragionamento matematico degli MLLMs. I contributi chiave di We-Math 2.0 sono quattro: (1) Sistema di Conoscenza MathBook: Costruiamo un sistema gerarchico a cinque livelli che comprende 491 punti di conoscenza e 1.819 principi fondamentali. (2) MathBook-Standard & Pro: Sviluppiamo MathBook-Standard, un dataset che garantisce una copertura concettuale ampia e flessibilità attraverso una doppia espansione. Inoltre, definiamo uno spazio di difficoltà tridimensionale e generiamo 7 varianti progressive per problema per costruire MathBook-Pro, un dataset impegnativo per un addestramento robusto. (3) MathBook-RL: Proponiamo un framework RL in due fasi composto da: (i) Fine-tuning a Freddo, che allinea il modello con un ragionamento a catena di pensiero orientato alla conoscenza; e (ii) RL di Allineamento Progressivo, sfruttando l'apprendimento a ricompensa media e la pianificazione dinamica dei dati per raggiungere un allineamento progressivo tra i livelli di difficoltà. (4) MathBookEval: Introduciamo un benchmark completo che copre tutti i 491 punti di conoscenza con distribuzioni diverse di passaggi di ragionamento. I risultati sperimentali mostrano che MathBook-RL compete efficacemente con i baselines esistenti su quattro benchmark ampiamente utilizzati e ottiene risultati solidi su MathBookEval, suggerendo una promettente generalizzazione nel ragionamento matematico.
I modelli autoregressivi (AR) predominanti per la generazione di immagini da testo si basano o su modelli di diffusione complessi e computazionalmente intensivi per elaborare token di immagine continui, o impiegano la quantizzazione vettoriale (VQ) per ottenere token discreti con perdita di quantizzazione. In questo articolo, avanziamo il paradigma autoregressivo con NextStep-1, un modello autoregressivo da 14B accoppiato a una testa di flow matching da 157M, addestrato su token di testo discreti e token di immagine continui con obiettivi di previsione del token successivo. NextStep-1 raggiunge prestazioni all'avanguardia per i modelli autoregressivi nei compiti di generazione di immagini da testo, dimostrando capacità eccezionali nella sintesi di immagini ad alta fedeltà. Inoltre, il nostro metodo mostra prestazioni solide nell'editing di immagini, evidenziando la potenza e la versatilità del nostro approccio unificato. Per favorire la ricerca aperta, rilasceremo il nostro codice e i modelli alla comunità.
Presentiamo PRELUDE, un benchmark per valutare la comprensione di contesti lunghi attraverso il compito di determinare se la storia prequel di un personaggio sia coerente con la narrazione canonica del libro originale. Il nostro compito richiede una comprensione globale e un ragionamento profondo più impegnativi rispetto ai benchmark esistenti — poiché i prequel non fanno parte della storia originale, valutarne la plausibilità richiede tipicamente la ricerca e l'integrazione di informazioni solo indirettamente correlate. Empiricamente, l'88% dei casi richiede prove provenienti da più parti della narrazione. I risultati sperimentali evidenziano la difficoltà del nostro compito: l'apprendimento in contesto, il RAG e l'addestramento in dominio con modelli linguistici all'avanguardia, così come i servizi commerciali di DeepResearch, rimangono indietro rispetto agli esseri umani di oltre il 15%. Un ulteriore studio umano rivela che i modelli spesso producono risposte corrette con un ragionamento difettoso, portando a un divario di oltre il 30% nell'accuratezza del ragionamento rispetto agli esseri umani. Questi risultati sottolineano il notevole margine di miglioramento nella comprensione e nel ragionamento su contesti lunghi.
La produzione tradizionale di cartoni animati e anime prevede fasi di keyframing, inbetweening e colorazione, che richiedono un intenso sforzo manuale. Nonostante i recenti progressi nell'IA, i metodi esistenti spesso gestiscono queste fasi separatamente, portando all'accumulo di errori e artefatti. Ad esempio, gli approcci di inbetweening faticano a gestire movimenti ampi, mentre i metodi di colorazione richiedono schizzi densi per ogni fotogramma. Per affrontare questo problema, presentiamo ToonComposer, un modello generativo che unisce inbetweening e colorazione in un'unica fase post-keyframing. ToonComposer utilizza un meccanismo di iniezione di schizzi sparsi per fornire un controllo preciso attraverso schizzi di keyframe. Inoltre, impiega un metodo di adattamento per cartoni animati con l'adattatore spaziale a basso rango per adattare un moderno modello di fondazione video al dominio dei cartoni animati, mantenendo intatta la sua priorità temporale. Richiedendo un solo schizzo e un fotogramma di riferimento colorato, ToonComposer eccelle con input sparsi, supportando anche più schizzi in qualsiasi posizione temporale per un controllo più preciso del movimento. Questa doppia capacità riduce il carico di lavoro manuale e migliora la flessibilità, potenziando gli artisti in scenari reali. Per valutare il nostro modello, abbiamo creato PKBench, un benchmark che include schizzi disegnati a mano che simulano casi d'uso reali. La nostra valutazione dimostra che ToonComposer supera i metodi esistenti in qualità visiva, coerenza del movimento ed efficienza produttiva, offrendo una soluzione superiore e più flessibile per la produzione di cartoni animati assistita dall'IA.
Presentiamo UI-Venus, un agente UI nativo che utilizza esclusivamente screenshot come input, basato su un modello linguistico multimodale di grandi dimensioni. UI-Venus raggiunge prestazioni all'avanguardia (SOTA) sia nei compiti di grounding che di navigazione UI, utilizzando solo diverse centinaia di migliaia di campioni di addestramento di alta qualità attraverso un fine-tuning basato su rinforzo (RFT) su Qwen2.5-VL. Nello specifico, le varianti da 7B e 72B di UI-Venus ottengono rispettivamente il 94,1% / 50,8% e il 95,3% / 61,9% sui benchmark standard di grounding, ovvero Screenspot-V2 / Pro, superando i precedenti benchmark SOTA, inclusi GTA1 open-source e UI-TARS-1.5 closed-source. Per dimostrare le capacità di riepilogo e pianificazione di UI-Venus, lo abbiamo valutato anche su AndroidWorld, un'arena di navigazione UI online, dove le nostre varianti da 7B e 72B raggiungono rispettivamente un tasso di successo del 49,1% e del 65,9%, battendo anche i modelli esistenti. Per ottenere questi risultati, abbiamo introdotto funzioni di ricompensa attentamente progettate per entrambi i compiti di grounding e navigazione UI, insieme a corrispondenti strategie efficienti di pulizia dei dati. Per migliorare ulteriormente le prestazioni di navigazione, proponiamo il Self-Evolving Trajectory History Alignment & Sparse Action Enhancement, che affina le tracce di ragionamento storico e bilancia la distribuzione di azioni sparse ma critiche, portando a una pianificazione più coerente e a una migliore generalizzazione nei compiti UI complessi. I nostri contributi includono la pubblicazione di agenti UI open-source SOTA, protocolli completi di pulizia dei dati e un nuovo framework self-evolving per migliorare le prestazioni di navigazione, che incoraggiano ulteriori ricerche e sviluppi nella comunità. Il codice è disponibile all'indirizzo https://github.com/antgroup/UI-Venus.
I modelli linguistici basati su diffusione (Diffusion Language Models, DLMs) stanno emergendo rapidamente come una valida e promettente alternativa al paradigma autoregressivo (AR) dominante. Generando token in parallelo attraverso un processo iterativo di denoising, i DLMs presentano vantaggi intrinseci nel ridurre la latenza di inferenza e nel catturare il contesto bidirezionale, consentendo così un controllo fine sul processo di generazione. Pur ottenendo un'accelerazione di diverse volte, i recenti progressi hanno permesso ai DLMs di raggiungere prestazioni paragonabili a quelle dei modelli autoregressivi, rendendoli una scelta convincente per varie attività di elaborazione del linguaggio naturale. In questa rassegna, forniamo una panoramica completa dello scenario attuale dei DLMs. Ne tracciamo l'evoluzione e il rapporto con altri paradigmi, come i modelli autoregressivi e quelli basati su mascheramento, e copriamo sia i principi fondamentali che i modelli all'avanguardia. Il nostro lavoro offre una tassonomia aggiornata e completa, nonché un'analisi approfondita delle tecniche attuali, dalle strategie di pre-training ai metodi avanzati di post-training. Un altro contributo di questa rassegna è una revisione accurata delle strategie e delle ottimizzazioni per l'inferenza nei DLMs, inclusi i miglioramenti nel parallelismo di decodifica, nei meccanismi di caching e nella qualità della generazione. Evidenziamo inoltre gli approcci più recenti alle estensioni multimodali dei DLMs e delineiamo le loro applicazioni in vari scenari pratici. Inoltre, la nostra discussione affronta i limiti e le sfide dei DLMs, tra cui l'efficienza, la gestione di sequenze lunghe e i requisiti infrastrutturali, delineando al contempo le direzioni future della ricerca per sostenere i progressi in questo campo in rapida evoluzione. Il progetto GitHub è disponibile all'indirizzo https://github.com/VILA-Lab/Awesome-DLMs.
Le applicazioni interattive moderne richiedono sempre più contenuti 3D dinamici, tuttavia la trasformazione di modelli 3D statici in asset animati rappresenta un significativo collo di bottiglia nei flussi di lavoro di creazione dei contenuti. Sebbene i recenti progressi nell'IA generativa abbiano rivoluzionato la creazione di modelli 3D statici, il rigging e l'animazione continuano a dipendere fortemente dall'intervento di esperti. Presentiamo Puppeteer, un framework completo che affronta sia il rigging automatico che l'animazione per oggetti 3D di diverso tipo. Il nostro sistema prevede innanzitutto strutture scheletriche plausibili attraverso un trasformatore auto-regressivo che introduce una strategia di tokenizzazione basata sulle articolazioni per una rappresentazione compatta e una metodologia di ordinamento gerarchico con perturbazione stocastica che migliora le capacità di apprendimento bidirezionale. Successivamente, inferisce i pesi di skinning attraverso un'architettura basata sull'attenzione che incorpora un'attenzione congiunta consapevole della topologia, codificando esplicitamente le relazioni tra le articolazioni in base alle distanze del grafo scheletrico. Infine, integriamo questi progressi nel rigging con una pipeline di animazione basata su ottimizzazione differenziabile che genera animazioni stabili e ad alta fedeltà, essendo al contempo computazionalmente più efficiente rispetto agli approcci esistenti. Valutazioni estese su più benchmark dimostrano che il nostro metodo supera significativamente le tecniche all'avanguardia sia in termini di accuratezza nella previsione scheletrica che di qualità del skinning. Il sistema elabora in modo robusto contenuti 3D diversificati, che vanno da asset di gioco progettati professionalmente a forme generate dall'IA, producendo animazioni temporalmente coerenti che eliminano i problemi di tremolio comuni nei metodi esistenti.
Presentiamo STream3R, un approccio innovativo alla ricostruzione 3D che riformula la previsione delle mappe di punti come un problema di Transformer esclusivamente decoder. I metodi all'avanguardia esistenti per la ricostruzione multi-vista dipendono o da costose ottimizzazioni globali o si basano su meccanismi di memoria semplicistici che non scalano bene con la lunghezza della sequenza. Al contrario, STream3R introduce un framework di streaming che elabora sequenze di immagini in modo efficiente utilizzando l'attenzione causale, ispirandosi ai progressi nel moderno modeling linguistico. Apprendendo prior geometriche da dataset 3D su larga scala, STream3R generalizza bene a scenari diversi e impegnativi, incluse scene dinamiche in cui i metodi tradizionali spesso falliscono. Esperimenti estensivi dimostrano che il nostro metodo supera costantemente i lavori precedenti su benchmark sia di scene statiche che dinamiche. Inoltre, STream3R è intrinsecamente compatibile con l'infrastruttura di addestramento in stile LLM, consentendo un efficiente pre-addestramento su larga scala e un fine-tuning per vari task 3D downstream. I nostri risultati sottolineano il potenziale dei modelli Transformer causali per la percezione 3D online, aprendo la strada a una comprensione 3D in tempo reale in ambienti di streaming. Ulteriori dettagli sono disponibili sulla nostra pagina del progetto: https://nirvanalan.github.io/projects/stream3r.
L'apprendimento per rinforzo con ricompense verificabili (RLVR), che tipicamente adotta Pass@1 come ricompensa, ha affrontato problemi nel bilanciare esplorazione e sfruttamento, portando le politiche a preferire azioni conservative e convergere verso un ottimo locale. Identificare una metrica di ricompensa appropriata è quindi cruciale. Per quanto riguarda il lavoro precedente, sebbene Pass@k sia stato utilizzato nella valutazione, la sua connessione con la capacità di esplorazione dei modelli linguistici (LLM) in RLVR è stata ampiamente trascurata. Per indagare questo aspetto, utilizziamo prima Pass@k come ricompensa per addestrare il modello di politica (cioè, Addestramento Pass@k) e osserviamo il miglioramento nella sua capacità di esplorazione. Successivamente, deriviamo una soluzione analitica per il vantaggio dell'Addestramento Pass@k, portando a un processo efficiente ed efficace. Sulla base di ciò, la nostra analisi rivela che esplorazione e sfruttamento non sono obiettivi intrinsecamente conflittuali, ma possono potenziarsi reciprocamente. Inoltre, l'Addestramento Pass@k con derivazione analitica implica essenzialmente la progettazione diretta della funzione di vantaggio. Ispirati da questo, esploriamo preliminarmente la progettazione del vantaggio per RLVR, mostrando risultati promettenti e evidenziando una potenziale direzione futura.
Sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLMs) mostrino un enorme potenziale per raggiungere interazioni veramente simili a quelle umane, il progresso è ostacolato dalla mancanza di framework di valutazione granulari per scenari centrati sull'uomo, che comprendano sia la comprensione di intenzioni umane complesse sia la fornitura di risposte empatiche e consapevoli del contesto. Qui presentiamo HumanSense, un benchmark completo progettato per valutare le capacità di percezione e interazione centrate sull'uomo degli MLLMs, con un particolare focus sulla comprensione profonda di contesti multimodali estesi e sulla formulazione di feedback razionali. La nostra valutazione rivela che i principali MLLMs hanno ancora un margine di miglioramento considerevole, specialmente per compiti di interazione avanzati. L'integrazione di input visivi con informazioni audio e testuali produce miglioramenti sostanziali, e i modelli Omni-modali mostrano vantaggi in questi compiti. Inoltre, sosteniamo che un feedback appropriato derivi da un'analisi contestuale dei bisogni e delle emozioni dell'interlocutore, con la capacità di ragionamento che funge da chiave per sbloccarlo. Di conseguenza, utilizziamo un apprendimento per rinforzo multi-stadio e progressivo nelle modalità per potenziare le capacità di ragionamento di un modello Omni, ottenendo guadagni significativi nei risultati di valutazione. In aggiunta, osserviamo che i processi di ragionamento di successo mostrano schemi di pensiero altamente consistenti. Progettando prompt corrispondenti, miglioriamo anche le prestazioni di modelli non basati sul ragionamento in modo privo di addestramento. Pagina del progetto: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
La ricerca precedente ha analizzato la robustezza degli encoder visivi rispetto a trasformazioni e corruzioni delle immagini, in particolare nei casi in cui tali alterazioni non sono state osservate durante l'addestramento. Quando ciò si verifica, introducono una forma di spostamento della distribuzione al momento del test, spesso portando a un degrado delle prestazioni. L'attenzione principale è stata rivolta a corruzioni gravi che, se applicate in modo aggressivo, distorcono i segnali utili necessari per previsioni semantiche accurate. Noi adottiamo una prospettiva diversa, analizzando i parametri del processo di acquisizione delle immagini e le trasformazioni che possono essere sottili o addirittura impercettibili all'occhio umano. Scopriamo che tali parametri sono sistematicamente codificati nelle rappresentazioni visive apprese e possono essere facilmente recuperati. Ancora più sorprendentemente, la loro presenza può avere un impatto profondo, positivo o negativo, sulle previsioni semantiche. Questo effetto dipende dal fatto che ci sia una forte correlazione o anti-correlazione tra le etichette semantiche e queste etichette basate sull'acquisizione o sul processing. Il nostro codice e i dati sono disponibili all'indirizzo: https://github.com/ryan-caesar-ramos/visual-encoder-traces
I recenti progressi nel machine learning hanno stimolato un crescente interesse verso la valutazione automatizzata della qualità dell'interpretazione. Tuttavia, la ricerca esistente presenta alcune lacune, tra cui un'analisi insufficiente della qualità dell'uso linguistico, un'efficacia di modellazione insoddisfacente dovuta alla scarsità e allo squilibrio dei dati, e una mancanza di sforzi per spiegare le previsioni dei modelli. Per colmare queste lacune, proponiamo un framework di modellazione multidimensionale che integra l'ingegneria delle feature, l'aumento dei dati e il machine learning spiegabile. Questo approccio privilegia la spiegabilità rispetto alle previsioni di tipo "scatola nera", utilizzando solo feature trasparenti e rilevanti per il costrutto e conducendo un'analisi basata sui valori di Shapley (SHAP). I nostri risultati dimostrano una forte performance predittiva su un nuovo dataset di interpretazione consecutiva inglese-cinese, identificando i punteggi BLEURT e CometKiwi come le feature predittive più forti per la fedeltà, le feature relative alle pause per la fluidità e le metriche di diversità fraseologica specifiche per il cinese per l'uso linguistico. In sintesi, ponendo particolare enfasi sulla spiegabilità, presentiamo un'alternativa scalabile, affidabile e trasparente alla tradizionale valutazione umana, facilitando la fornitura di feedback diagnostici dettagliati per gli apprendenti e supportando i vantaggi dell'apprendimento autoregolato non offerti dai punteggi automatizzati presi isolatamente.
Nello studio dell'elaborazione del linguaggio naturale (NLP) affidabile, sono emersi diversi importanti campi di ricerca, tra cui quelli della spiegabilità e della privacy. Sebbene l'interesse della ricerca sia per l'NLP spiegabile che per quello che preserva la privacy sia aumentato considerevolmente negli ultimi anni, manca ancora un'indagine all'intersezione dei due. Ciò lascia un notevole vuoto nella comprensione del fatto che sia possibile raggiungere sia la spiegabilità che la privacy, o se le due siano in contrasto tra loro. In questo lavoro, conduciamo un'indagine empirica sul compromesso tra privacy e spiegabilità nel contesto dell'NLP, guidati dai popolari metodi generali della Privacy Differenziale (DP) e della Spiegabilità Post-hoc. Le nostre scoperte includono una visione della complessa relazione tra privacy e spiegabilità, che è influenzata da numerosi fattori, tra cui la natura del task downstream e la scelta del metodo di privatizzazione del testo e di spiegabilità. In questo, evidenziamo il potenziale per la coesistenza di privacy e spiegabilità, e riassumiamo le nostre scoperte in una raccolta di raccomandazioni pratiche per futuri lavori in questa importante intersezione.