Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'ottimizzazione dei grandi modelli linguistici (LLM) rimane una sfida cruciale, specialmente poiché la scalabilità dei modelli aggrava la sensibilità all'imprecisione algoritmica e all'instabilità dell'addestramento. I recenti progressi negli ottimizzatori hanno migliorato l'efficienza della convergenza attraverso l'ortogonalizzazione del momento, ma soffrono di due limitazioni chiave di robustezza: la fragilità dimensionale nella precisione di ortogonalizzazione e la vulnerabilità al rumore indotto da valori anomali. Per affrontare queste sfide di robustezza, introduciamo ROOT, un Ottimizzatore Ortogonalizzato Robusto che migliora la stabilità dell'addestramento attraverso duplici meccanismi di robustezza. In primo luogo, sviluppiamo uno schema di ortogonalizzazione robusto a livello dimensionale utilizzando iterazioni di Newton adattive con coefficienti a grana fine calibrati per specifiche dimensioni matriciali, garantendo una precisione consistente across diverse configurazioni architetturali. In secondo luogo, introduciamo un framework robusto a livello di ottimizzazione tramite ottimizzazione prossimale che sopprime il rumore da outlier preservando al contempo le direzioni del gradiente significative. Esperimenti estensivi dimostrano che ROOT raggiunge una robustezza significativamente migliorata, con una convergenza più rapida e prestazioni finali superiori rispetto sia agli ottimizzatori basati su Muon che su Adam, specialmente in scenari rumorosi e non convessi. Il nostro lavoro stabilisce un nuovo paradigma per lo sviluppo di ottimizzatori robusti e precisi in grado di gestire le complessità dell'addestramento moderno di modelli su larga scala. Il codice sarà disponibile all'indirizzo https://github.com/huawei-noah/noah-research/tree/master/ROOT.
I recenti progressi nell'evoluzione computazionale guidata da LLM, in particolare AlphaEvolve (Novikov et al., 2025; Georgiev et al., 2025), hanno dimostrato un notevole successo nella scoperta di nuove costruzioni matematiche e nella risoluzione di problemi di ottimizzazione complessi. Tuttavia, le descrizioni di alto livello presenti nei lavori pubblicati lasciano molti dettagli implementativi non specificati, ostacolando la riproducibilità e la ricerca successiva. In questo rapporto presentiamo GigaEvo, un framework open-source estensibile che consente ai ricercatori di studiare e sperimentare approcci evolutivi ibridi con LLM ispirati ad AlphaEvolve. Il nostro sistema fornisce implementazioni modulari dei componenti chiave: algoritmi di qualità-diversità MAP-Elites, pipeline di valutazione asincrone basate su DAG, operatori di mutazione guidati da LLM con generazione di insight e tracciamento bidirezionale della discendenza, e strategie evolutive flessibili multi-isola. Al fine di valutare la riproducibilità e convalidare la nostra implementazione, testiamo GigaEvo su problemi complessi tratti dall'articolo su AlphaEvolve: posizionamento del triangolo di Heilbronn, impacchettamento di cerchi in quadrati e numeri di baci in alta dimensione. Il framework enfatizza la modularità, la concorrenza e la facilità di sperimentazione, consentendo un prototipaggio rapido attraverso una configurazione dichiarativa. Forniamo descrizioni dettagliate dell'architettura di sistema, delle decisioni implementative e della metodologia sperimentale per supportare ulteriori ricerche sui metodi evolutivi guidati da LLM. Il framework GigaEvo e tutto il codice sperimentale sono disponibili all'indirizzo https://github.com/AIRI-Institute/gigaevo-core.
La segmentazione delle immagini mediche è fondamentale per la scoperta biomedica. I metodi esistenti mancano di generalizzabilità e richiedono annotazioni manuali estensive e dispendiose in termini di tempo per nuove applicazioni cliniche. Qui proponiamo MedSAM-3, un modello di segmentazione medica promptabile tramite testo per la segmentazione di immagini e video medici. Ottimizzando l'architettura del Segment Anything Model (SAM) 3 su immagini mediche abbinate a etichette concettuali semantiche, il nostro MedSAM-3 abilita la Segmentazione Concettuale Promptabile (PCS) medica, consentendo il targeting preciso di strutture anatomiche tramite descrizioni testuali a vocabolario aperto anziché esclusivamente prompt geometrici. Introduciamo inoltre il MedSAM-3 Agent, un framework che integra Modelli Linguistici Multimodali di Grande Dimensioni (MLLM) per eseguire ragionamenti complessi e perfezionamenti iterativi in un flusso di lavoro agent-in-the-loop. Esperimenti esaustivi su diverse modalità di imaging medico, inclusi raggi X, risonanza magnetica, ecografia, tomografia computerizzata e video, dimostrano che il nostro approccio supera significativamente i modelli specialistici e foundation esistenti. Rilasceremo il nostro codice e modello all'indirizzo https://github.com/Joey-S-Liu/MedSAM3.
Gli agenti visione-linguaggio hanno compiuto progressi notevoli in varie attività di ragionamento multimodale; tuttavia, il loro apprendimento rimane vincolato dai limiti della supervisione annotata umana. Recenti approcci di auto-ricompensa tentano di superare questo vincolo consentendo ai modelli di fungere da critici o fornitori di ricompensa autonomi. Tuttavia, la valutazione autonoma puramente testuale fatica a verificare passaggi complessi di ragionamento visivo e spesso soffre di allucinazioni valutative. Per affrontare queste sfide, ispirati dai recenti progressi nel ragionamento con strumenti, proponiamo Agent0-VL, un agente visione-linguaggio auto-evolvente che raggiunge un miglioramento continuo attraverso il ragionamento con strumenti integrati. Agent0-VL incorpora l'uso di strumenti non solo nel ragionamento ma anche nell'auto-valutazione e auto-riparazione, consentendo al modello di introspezione, verifica e affinamento del proprio ragionamento attraverso analisi basate su evidenze. Unifica due ruoli sinergici all'interno di un singolo LVLM: un Risolutore che esegue ragionamenti multi-turno con strumenti integrati, e un Verificatore che genera feedback strutturato e auto-ricompense granulari attraverso critiche basate su strumenti. Questi ruoli interagiscono attraverso un Ciclo di Ragionamento Auto-Evolvente, dove la verifica basata su strumenti e l'apprendimento per rinforzo allineano congiuntamente le distribuzioni di ragionamento e valutazione per un auto-miglioramento stabile. Attraverso questa evoluzione a ricompensa esterna zero, Agent0-VL allinea i propri comportamenti di ragionamento e verifica senza alcuna annotazione umana o modelli di ricompensa esterni, raggiungendo un continuo auto-miglioramento. Esperimenti sulla risoluzione di problemi geometrici e analisi scientifiche visive mostrano che Agent0-VL raggiunge un miglioramento del 12,5% rispetto al modello base. Il nostro codice è disponibile all'indirizzo https://github.com/aiming-lab/Agent0/Agent0-VL{questo indirizzo HTTPS}.
Preservare l'identità del fotogramma iniziale garantendo al contempo un controllo preciso del movimento rappresenta una sfida fondamentale nell'animazione di immagini umane. Il processo di Image-to-Motion Binding del paradigma dominante Reference-to-Video (R2V) trascura i critici disallineamenti spazio-temporali comuni nelle applicazioni reali, portando a fallimenti come la deriva dell'identità e artefatti visivi. Introduciamo SteadyDancer, un framework basato sul paradigma Image-to-Video (I2V) che realizza un'animazione armonizzata e coerente, ed è il primo a garantire robustamente la preservazione del fotogramma iniziale. In primo luogo, proponiamo un Meccanismo di Riconciliazione delle Condizioni per armonizzare le due condizioni conflittuali, consentendo un controllo preciso senza sacrificare la fedeltà. In secondo luogo, progettiamo Moduli di Modulazione Sinergica della Posa per generare una rappresentazione della posa adattiva e coerente, altamente compatibile con l'immagine di riferimento. Infine, impieghiamo una Pipeline di Addestramento a Obiettivi Disaccoppiati e Fasi che ottimizza il modello in modo gerarchico per la fedeltà del movimento, la qualità visiva e la coerenza temporale. Gli esperimenti dimostrano che SteadyDancer raggiunge prestazioni all'avanguardia sia nella fedeltà dell'aspetto che nel controllo del movimento, richiedendo al contempo risorse di addestramento significativamente inferiori rispetto a metodi comparabili.
Negli ultimi anni si è assistuto a progressi significativi nei Modelli Multimodali Unificati, ma una domanda fondamentale rimane: la comprensione informa veramente la generazione? Per indagare questo aspetto, introduciamo UniSandbox, un framework di valutazione disaccoppiato abbinato a dataset sintetici e controllati per evitare la fuga di dati e consentire un'analisi dettagliata. I nostri risultati rivelano un divario significativo tra comprensione e generazione, che si riflette principalmente in due dimensioni chiave: la generazione di ragionamenti e il trasferimento di conoscenza. Nello specifico, per i compiti di generazione di ragionamenti, osserviamo che una Catena di Pensiero (CoT) esplicita nel modulo di comprensione colma efficacemente il divario, e dimostriamo ulteriormente che un approccio di auto-addestramento può internalizzare con successo questa abilità, abilitando un ragionamento implicito durante la generazione. Inoltre, per i compiti di trasferimento di conoscenza, scopriamo che la CoT assiste il processo generativo aiutando a recuperare le conoscenze appena apprese, e troviamo anche che le architetture basate su query mostrano intrinsecamente proprietà latenti simili alla CoT che influenzano questo trasferimento. UniSandbox fornisce spunti preliminari per progettare future architetture unificate e strategie di addestramento che colmino veramente il divario tra comprensione e generazione. Codice e dati sono disponibili all'indirizzo https://github.com/PKU-YuanGroup/UniSandBox.
L'apprendimento per rinforzo (RL) svolge un ruolo sempre più importante nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), ma un'ottimizzazione della politica stabile e performante rimane una sfida. I rapporti di importanza a livello di token spesso presentano un'elevata varianza - un fenomeno esacerbato nei modelli Mixture-of-Experts - che porta ad aggiornamenti instabili. I metodi esistenti di ottimizzazione della politica basati su gruppi, come GSPO e GRPO, alleviano questo problema tramite un hard clipping, rendendo difficile mantenere sia la stabilità che un apprendimento efficace. Proponiamo la Soft Adaptive Policy Optimization (SAPO), che sostituisce l'hard clipping con un gate controllato da temperatura, liscio, che attenua adattivamente gli aggiornamenti off-policy preservando i segnali di apprendimento utili. Rispetto a GSPO e GRPO, SAPO è sia coerente a livello di sequenza che adattivo a livello di token. Come GSPO, SAPO mantiene la coerenza a livello di sequenza, ma il suo soft gating forma una regione di trust continua che evita la fragile banda di hard clipping utilizzata in GSPO. Quando una sequenza contiene alcuni token fortemente off-policy, GSPO sopprime tutti i gradienti per quella sequenza, mentre SAPO riduce selettivamente il peso solo dei token problematici e preserva il segnale di apprendimento di quelli near-on-policy, migliorando l'efficienza campionaria. Rispetto a GRPO, SAPO sostituisce l'hard clipping a livello di token con un ridimensionamento liscio e controllato dalla temperatura, consentendo aggiornamenti più informativi e stabili. I risultati empirici su benchmark di ragionamento matematico indicano che SAPO mostra una stabilità di addestramento migliorata e prestazioni Pass@1 superiori con budget di addestramento comparabili. Inoltre, abbiamo impiegato SAPO per addestrare la serie di modelli Qwen3-VL, dimostrando che SAPO produce guadagni prestazionali consistenti su compiti diversi e con diverse dimensioni del modello. Nel complesso, SAPO fornisce una strategia di ottimizzazione più affidabile, scalabile ed efficace per l'addestramento RL degli LLM.
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
I modelli mondiali si stanno affermando come paradigma fondante per l'IA incarnata scalabile ed efficiente dal punto di vista dei dati. In questo lavoro, presentiamo GigaWorld-0, un framework unificato per modelli mondiali progettato esplicitamente come motore di dati per l'apprendimento Visione-Linguaggio-Azione (VLA). GigaWorld-0 integra due componenti sinergiche: GigaWorld-0-Video, che sfrutta la generazione di video su larga scala per produrre sequenze incarnate diversificate, ricche di texture e temporalmente coerenti sotto un controllo granulare dell'aspetto, del punto di vista della telecamera e della semantica delle azioni; e GigaWorld-0-3D, che combina modellazione generativa 3D, ricostruzione 3D Gaussian Splatting, identificazione di sistemi fisicamente differenziabili e pianificazione del moto eseguibile per garantire coerenza geometrica e realismo fisico. La loro ottimizzazione congiunta consente la sintesi scalabile di dati di interazione incarnata che sono visivamente accattivanti, spazialmente coerenti, fisicamente plausibili e allineati alle istruzioni. L'addestramento su larga scala è reso fattibile dal nostro efficiente framework GigaTrain, che sfrutta la precisione FP8 e l'attenzione sparsa per ridurre drasticamente i requisiti di memoria e calcolo. Condurremo valutazioni complete che dimostrano come GigaWorld-0 generi dati di alta qualità, diversificati e controllabili su molteplici dimensioni. In modo cruciale, i modelli VLA (ad esempio, GigaBrain-0) addestrati sui dati generati da GigaWorld-0 raggiungono solide prestazioni nel mondo reale, migliorando significativamente la generalizzazione e il successo dei compiti su robot fisici senza alcuna interazione nel mondo reale durante l'addestramento.
La complessità quadratica dell'attenzione completa limita l'elaborazione efficiente di contesti lunghi nei grandi modelli linguistici (LLM). L'attenzione sparsa mitiga questo costo limitando ogni query a considerare un sottoinsieme di token precedenti; tuttavia, approcci senza addestramento spesso portano a un grave degrado delle prestazioni. I metodi di attenzione sparsa nativa (ad es., NSA, MoBA) alleviano questo problema, ma presentano un paradosso critico: producono una minore sparsità dell'attenzione rispetto ai modelli a attenzione completa, nonostante mirino ad approssimarla, il che può limitarne l'efficacia. Attribuiamo questo paradosso a una carenza negli aggiornamenti del gradiente: le coppie chiave-valore a basso rango escluse durante l'addestramento sparso non ricevono né contributo in avanti né gradienti all'indietro, e quindi non apprendono mai una soppressione appropriata. Per superare questa limitazione, proponiamo SSA (Sparse Sparse Attention), un framework di addestramento unificato che considera sia l'attenzione sparsa che quella completa e applica un allineamento bidirezionale a ogni livello. Questo progetto preserva il flusso del gradiente verso tutti i token incoraggiando esplicitamente gli output dell'attenzione sparsa ad allinearsi con le loro controparti a attenzione completa, promuovendo così una sparsità più forte. Di conseguenza, SSA raggiunge prestazioni allo stato dell'arte nell'inferenza sia con attenzione sparsa che completa su molteplici benchmark di commonsense. Inoltre, SSA consente ai modelli di adattarsi agevolmente a budget di sparsità variabili; le prestazioni migliorano costantemente man mano che più token possono partecipare, supportando compromessi flessibili tra capacità di calcolo e prestazioni al momento dell'inferenza. Infine, mostriamo che l'addestramento con attenzione sparsa nativa migliora sorprendentemente l'estrapolazione di contesti lunghi mitigando l'over-allocation dei valori di attenzione nelle aree sink, con SSA che dimostra la capacità di estrapolazione più forte.
Questo articolo presenta HunyuanOCR, un modello visione-linguaggio (VLM) open-source di livello commerciale e leggero (1B di parametri) dedicato a compiti OCR. L'architettura comprende un Vision Transformer (ViT) nativo e un LLM leggero collegati tramite un adattatore MLP. HunyuanOCR dimostra prestazioni superiori, superando API commerciali, pipeline tradizionali e modelli più grandi (ad esempio, Qwen3-VL-4B). In particolare, supera le soluzioni pubbliche attuali nei compiti di percezione (Text Spotting, Parsing) ed eccelle nei compiti semantici (IE, Text Image Translation), conquistando il primo posto nella ICDAR 2025 DIMT Challenge (Small Model Track). Inoltre, ottiene risultati state-of-the-art (SOTA) su OCRBench tra i VLM con meno di 3B di parametri. HunyuanOCR raggiunge progressi in tre aspetti chiave: 1) Unificazione di Versatilità ed Efficienza: Implementiamo un supporto completo per le capacità fondamentali, inclusi spotting, parsing, IE, VQA e traduzione, all'interno di un framework leggero. Ciò affronta i limiti dei ristretti "modelli OCR esperti" e degli inefficienti "VLM generali". 2) Architettura End-to-End Semplificata: L'adozione di un paradigma puro end-to-end elimina le dipendenze da moduli di pre-elaborazione (ad esempio, analisi del layout). Ciò risolve fondamentalmente la propagazione degli errori comune nelle pipeline tradizionali e semplica la distribuzione del sistema. 3) Strategie Basate sui Dati e RL: Confermiamo il ruolo cruciale di dati di alta qualità e, per la prima volta nel settore, dimostriamo che le strategie di Apprendimento per Rinforzo (RL) producono significativi miglioramenti delle prestazioni nei compiti OCR. HunyuanOCR è ufficialmente open-source su HuggingFace. Forniamo inoltre una soluzione di distribuzione ad alte prestazioni basata su vLLM, collocando la sua efficienza produttiva al massimo livello. Speriamo che questo modello possa far avanzare la ricerca di frontiera e fornire una solida base per applicazioni industriali.
I recenti metodi di modelli video interattivi generano l'evoluzione della scena condizionata dalle istruzioni dell'utente. Sebbene raggiungano risultati impressionanti, permangono due limitazioni chiave. In primo luogo, non sfruttano appieno la corrispondenza tra il movimento della scena guidato dalle istruzioni e la geometria 3D sottostante, il che si traduce in instabilità strutturale sotto cambiamenti del punto di vista. In secondo luogo, dimenticano facilmente le informazioni storiche durante l'interazione a più fasi, causando un accumulo di errori e una deriva progressiva nella semantica e nella struttura della scena. Per affrontare questi problemi, proponiamo MagicWorld, un modello video interattivo che integra prior geometrici 3D e recupero storico. MagicWorld parte da una singola immagine di scena, utilizza le azioni dell'utente per guidare l'evoluzione dinamica della scena e sintetizza autoregressivamente scene continue. Introduciamo il Modulo di Geometria 3D Guidato dall'Azione (AG3D), che costruisce una nuvola di punti dal primo fotogramma di ogni interazione e dall'azione corrispondente, fornendo vincoli geometrici espliciti per le transizioni del punto di vista e migliorando così la coerenza strutturale. Proponiamo inoltre il meccanismo di Recupero dalla Cache Storica (HCR), che recupera fotogrammi storici rilevanti durante la generazione e li inietta come segnali di condizionamento, aiutando il modello a utilizzare le informazioni passate della scena e a mitigare l'accumulo di errori. I risultati sperimentali dimostrano che MagicWorld raggiunge miglioramenti significativi nella stabilità e continuità della scena attraverso le iterazioni di interazione.
I flussi normalizzanti (NF) sono modelli generativi basati sulla verosimiglianza end-to-end per dati continui e hanno recentemente riacquisito attenzione grazie a progressi incoraggianti nella generazione di immagini. Tuttavia, nel dominio della generazione video, dove la complessità spaziotemporale e il costo computazionale sono sostanzialmente più elevati, i sistemi all'avanguardia si basano quasi esclusivamente su modelli di tipo diffusion. In questo lavoro, rivisitiamo questo spazio di progettazione presentando STARFlow-V, un generatore di video basato su flussi normalizzanti con vantaggi sostanziali come l'apprendimento end-to-end, la previsione causale robusta e la stima nativa della verosimiglianza. Basandosi sul recente STARFlow proposto, STARFlow-V opera nello spazio latente spaziotemporale con un'architettura globale-locale che limita le dipendenze causali a uno spazio latente globale preservando al contempo ricche interazioni locali intra-frame. Questo attenua l'accumulo di errori nel tempo, una trappola comune della generazione autoregressiva standard con modelli diffusion. Inoltre, proponiamo il flow-score matching, che equipaggia il modello con un denoiser causale leggero per migliorare la coerenza della generazione video in modo autoregressivo. Per migliorare l'efficienza del campionamento, STARFlow-V utilizza uno schema di iterazione di Jacobi video-aware che trasforma gli aggiornamenti interni in iterazioni parallelizzabili senza violare la causalità. Grazie alla struttura invertibile, lo stesso modello può supportare nativamente compiti di generazione text-to-video, image-to-video e video-to-video. Empiricamente, STARFlow-V raggiunge una forte fedeltà visiva e coerenza temporale con una velocità di campionamento pratica rispetto ai baseline basati su diffusion. Questi risultati rappresentano, a nostra conoscenza, la prima evidenza che gli NF sono capaci di generazione video autoregressiva di alta qualità, stabilendoli come una promettente direzione di ricerca per la costruzione di modelli del mondo. Il codice e i campioni generati sono disponibili su https://github.com/apple/ml-starflow.
Nonostante i progressi, i trasformatori per diffusione video continuano a faticare a generalizzare oltre la lunghezza di addestramento, una sfida che definiamo estrapolazione della lunghezza video. Identifichiamo due modalità di fallimento: ripetizione periodica di contenuto specifica del modello e un degrado della qualità universale. I lavori precedenti tentano di risolvere la ripetizione tramite codifiche posizionali, trascurando il degrado della qualità e raggiungendo un'estrapolazione solo limitata. In questo articolo, affrontiamo nuovamente questa sfida da una prospettiva più fondamentale: le mappe di attenzione, che governano direttamente come il contesto influenza gli output. Identifichiamo che entrambe le modalità di fallimento originano da una causa unificata: la dispersione dell'attenzione, dove i token oltre la finestra di addestramento diluiscono i pattern di attenzione appresi. Ciò porta al degrado della qualità, e la ripetizione emerge come caso speciale quando questa dispersione si struttura in pattern di attenzione periodici, indotti dalle proprietà armoniche delle codifiche posizionali. Basandoci su questa intuizione, proponiamo UltraViCo, un metodo plug-and-play, senza necessità di addestramento, che sopprime l'attenzione per i token oltre la finestra di addestramento tramite un fattore di decadimento costante. Affrontando congiuntamente entrambe le modalità di fallimento, superiamo un'ampia gamma di baseline su diversi modelli e rapporti di estrapolazione, spingendo il limite di estrapolazione da 2x a 4x. Notevolmente, il metodo migliora il Dynamic Degree e l'Imaging Quality rispettivamente del 233% e del 40.5% rispetto al miglior metodo precedente a un'estrapolazione di 4x. Inoltre, il nostro metodo si generalizza senza soluzione di continuità a task downstream come la sintesi video controllabile e l'editing.
I modelli generativi hanno eccelso nella sintesi RGB, ma le applicazioni reali richiedono la manipolazione RGBA. Ciò ha portato a un panorama frammentato: modelli specializzati e monotask gestiscono il canale alfa ma mancano di versatilità, mentre framework unificati multitask sono confinati al dominio RGB. Per colmare questa lacuna critica, proponiamo OmniAlpha, il primo framework generativo unificato e multitask per la generazione e l'editing di immagini RGBA sequenza-a-sequenza. La sua architettura presenta MSRoPE-BiL, un nuovo metodo RoPE con un asse dei layer estendibile bidirezionalmente per il suo backbone Diffusion Transformer (DiT), che abilita l'elaborazione concorrente di multipli layer RGBA di input e target. Per alimentare questo framework, introduciamo AlphaLayers, un nuovo dataset di 1.000 tripletti multistrato di alta qualità, costruito tramite una nuova pipeline automatizzata di sintesi e filtraggio. Addestrando OmniAlpha congiuntamente su questo dataset attraverso un'estesa suite di 21 task diversificati, esperimenti approfonditi dimostrano che il nostro approccio unificato supera costantemente baseline specializzate e robuste. Notevolmente, OmniAlpha ottiene una drastica riduzione relativa dell'84,8% nel SAD per il matting senza maschera su AIM-500 e vince oltre il 90% delle preferenze umane nel completion condizionato ai layer. Il nostro lavoro dimostra che un modello unificato e multitask può apprendere una rappresentazione condivisa superiore per RGBA, aprendo la strada a sistemi generativi più potenti e consapevoli dei layer.
Presentiamo ReDirector, un metodo innovativo per la generazione di riprese alternative controllate dalla telecamera per video a lunghezza variabile acquisiti dinamicamente. In particolare, correggiamo un comune uso improprio di RoPE nei lavori precedenti allineando le posizioni spazio-temporali del video di input e della ripresa alternativa target. Inoltre, introduciamo la Rotary Camera Encoding (RoCE), uno sfasamento di fase RoPE condizionato dalla telecamera che cattura e integra le relazioni multi-vista all'interno e tra i video di input e target. Integrando le condizioni della telecamera in RoPE, il nostro metodo si generalizza a traiettorie della telecamera e lunghezze video fuori distribuzione, producendo un miglioramento della localizzazione dinamica degli oggetti e della preservazione dello sfondo statico. Esperimenti estensivi dimostrano ulteriormente significativi miglioramenti nella controllabilità della telecamera, nella consistenza geometrica e nella qualità video attraverso varie traiettorie e lunghezze.
Sebbene i recenti modelli visione-linguaggio (VLM) dimostrino una solida comprensione delle immagini, la loro capacità di "pensare con le immagini", ovvero di ragionare attraverso interazioni visive multi-step, rimane limitata. Introduciamo VISTA-Gym, un ambiente di training scalabile progettato per incentivare capacità di ragionamento visivo integrate con strumenti nei VLM. VISTA-Gym unifica diversi task di ragionamento multimodale del mondo reale (7 task provenienti da 13 dataset in totale) attraverso un'interfaccia standardizzata per strumenti visivi (es. grounding, parsing), loop di interazione eseguibili, segnali di feedback verificabili e una registrazione efficiente delle traiettorie, consentendo reinforcement learning agente-visivo su larga scala. Sebbene i VLM recenti mostrino un forte ragionamento puramente testuale, sia i modelli proprietari che quelli open-source incontrano ancora difficoltà nella selezione, invocazione e coordinamento degli strumenti. Utilizzando VISTA-Gym, addestriamo VISTA-R1 a intervallare l'uso di strumenti con il ragionamento agente mediante campionamento di traiettorie multi-turn e reinforcement learning end-to-end. Esperimenti estesi su 11 benchmark pubblici di VQA ad alta intensità di ragionamento mostrano che VISTA-R1-8B supera i baseline state-of-the-art di dimensioni simili del 9.51%-18.72%, dimostrando che VISTA-Gym è un terreno di training efficace per sbloccare le capacità di ragionamento integrate con strumenti per i VLM.
La generazione di città 3D realistiche è fondamentale per i modelli di mondo, la realtà virtuale e lo sviluppo di videogiochi, dove una scena urbana ideale deve soddisfare contemporaneamente diversità stilistica, granularità fine e controllabilità. Tuttavia, i metodi esistenti faticano a bilanciare la flessibilità creativa offerta dalla generazione basata su testo con l'editabilità a livello di oggetto abilitata dalle rappresentazioni strutturali esplicite. Introduciamo MajutsuCity, un framework guidato dal linguaggio naturale e adattivo esteticamente per sintetizzare scene urbane 3D strutturalmente coerenti e stilisticamente diversificate. MajutsuCity rappresenta una città come una composizione di layout, asset e materiali controllabili e opera attraverso una pipeline a quattro stadi. Per estendere la controllabilità oltre la generazione iniziale, integriamo ulteriormente MajutsuAgent, un agente di editing interattivo basato sul linguaggio che supporta cinque operazioni a livello di oggetto. Per supportare la sintesi di scene fotorealistiche e personalizzabili, costruiamo anche MajutsuDataset, un dataset multimodale di alta qualità contenente layout semantici 2D e mappe di altezza, asset edilizi 3D diversificati, e materiali PBR e skybox curati, ciascuno corredato da annotazioni dettagliate. Nel contempo, sviluppiamo un insieme pratico di metriche di valutazione, che coprono dimensioni chiave come la coerenza strutturale, la complessità della scena, la fedeltà dei materiali e l'atmosfera illuminotecnica. Esperimenti estensivi dimostrano che MajutsuCity riduce l'FID del layout dell'83,7% rispetto a CityDreamer e del 20,1% rispetto a CityCraft. Il nostro metodo si classifica al primo posto in tutti i punteggi AQS e RDR, superando i metodi esistenti con un margine netto. Questi risultati confermano MajutsuCity come un nuovo stato dell'arte nella fedeltà geometrica, nell'adattabilità stilistica e nella controllabilità semantica per la generazione di città 3D. Ci aspettiamo che il nostro framework possa ispirare nuove strade di ricerca nella generazione di città 3D. Il nostro dataset e codice saranno rilasciati su https://github.com/LongHZ140516/MajutsuCity.
I grandi modelli linguistici (LLM) risolvono problemi complessi ma falliscono su varianti più semplici, suggerendo che ottengano output corretti attraverso meccanismi fondamentalmente diversi dal ragionamento umano. Per comprendere questo divario, sintetizziamo la ricerca in scienze cognitive in una tassonomia di 28 elementi cognitivi che abbracciano invarianti di ragionamento, controlli meta-cognitivi, rappresentazioni per organizzare il ragionamento e la conoscenza, e operazioni di trasformazione. Introduciamo un framework di valutazione granulare e conduciamo la prima analisi empirica su larga scala di 192.000 tracce provenienti da 18 modelli attraverso testo, visione e audio, integrata da 54 tracce umane di pensiero ad alta voce, che rendiamo pubblicamente disponibili. Troviamo che i modelli sottoutilizzano elementi cognitivi correlati con il successo, restringendosi a una elaborazione sequenziale rigida su problemi mal strutturati dove rappresentazioni diversificate e il monitoraggio meta-cognitivo sono critici. Le tracce umane mostrano più astrazione ed elaborazione concettuale, mentre i modelli ricadono su enumerazioni superficiali. Una meta-analisi di 1.600 articoli sul ragionamento degli LLM rivela che la comunità di ricerca si concentra su elementi facilmente quantificabili (organizzazione sequenziale: 55%, scomposizione: 60%) ma trascura i controlli meta-cognitivi (auto-consapevolezza: 16%) che correlano con il successo. I modelli possiedono repertori comportamentali associati al successo ma non li impiegano spontaneamente. Sfruttando questi pattern, sviluppiamo una guida al ragionamento *al momento del test* che impalca automaticamente strutture di successo, migliorando le prestazioni fino al 66,7% su problemi complessi. Stabilendo un vocabolario condiviso tra scienze cognitive e ricerca sugli LLM, il nostro framework consente la diagnosi sistematica dei fallimenti di ragionamento e lo sviluppo principiato di modelli che ragionano attraverso meccanismi cognitivi robusti piuttosto che scorciatoie spurie, fornendo al contempo strumenti per testare teorie della cognizione umana su larga scala.
Il ragionamento astratto a partire da esempi minimi rimane un problema centrale irrisolto per i modelli fondazionali all'avanguardia come GPT-5 e Grok 4. Questi modelli falliscono ancora nell'inferire regole di trasformazione strutturate da una manciata di esempi, un tratto distintivo dell'intelligenza umana. L'Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) fornisce un banco di prova rigoroso per questa capacità, richiedendo l'induzione di regole concettuali e il loro trasferimento a compiti nuovi. La maggior parte dei metodi esistenti tratta l'ARC-AGI come un compito di ragionamento puramente testuale, trascurando il fatto che gli esseri umani si affidano pesantemente all'astrazione visiva per risolvere tali rompicapi. Tuttavia, i nostri esperimenti pilota rivelano un paradosso: la semplice resa delle griglie ARC-AGI come immagini degrada le prestazioni a causa di un'esecuzione imprecisa delle regole. Ciò porta alla nostra ipotesi centrale: la visione e il linguaggio possiedono punti di forza complementari in diverse fasi del ragionamento. La visione supporta l'astrazione di pattern globali e la verifica, mentre il linguaggio è specializzato nella formulazione simbolica di regole e nella loro esecuzione precisa. Basandoci su questa intuizione, introduciamo due strategie sinergiche: (1) Vision-Language Synergy Reasoning (VLSR), che scompone l'ARC-AGI in sottocompiti allineati alle modalità; e (2) Modality-Switch Self-Correction (MSSC), che sfrutta la visione per verificare il ragionamento basato sul testo e correggere gli errori intrinsecamente. Esperimenti estensivi dimostrano che il nostro approccio produce un miglioramento fino al 4,33% rispetto ai baseline puramente testuali su vari modelli di punta e su più compiti ARC-AGI. I nostri risultati suggeriscono che unificare l'astrazione visiva con il ragionamento linguistico è un passo cruciale verso il raggiungimento di un'intelligenza generalizzata e simile a quella umana nei futuri modelli fondazionali. Il codice sorgente sarà rilasciato a breve.
I progressi negli agenti di utilizzo del computer (CUA) sono stati limitati dall'assenza di dataset ampi e di alta qualità che catturino come gli umani interagiscono con un computer. Sebbene i modelli linguistici di grandi dimensioni (LLM) siano cresciuti grazie all'abbondanza di dati testuali, non esiste un corpus paragonabile per le traiettorie dei CUA. Per colmare queste lacune, introduciamo FaraGen, un nuovo sistema di generazione di dati sintetici per attività web multi-step. FaraGen è in grado di proporre attività diversificate da siti web di uso frequente, generare più tentativi di soluzione e filtrare le traiettorie di successo utilizzando più verificatori. Raggiunge un'elevata produttività, resa e diversità per le attività web multi-step, producendo traiettorie verificate al costo di circa 1$ ciascuna. Utilizziamo questi dati per addestrare Fara-7B, un modello CUA nativo che percepisce il computer utilizzando solo screenshot, esegue azioni tramite coordinate previste ed è abbastanza piccolo da essere eseguito su dispositivo. Rileviamo che Fara-7B supera altri modelli CUA di dimensioni comparabili su benchmark come WebVoyager, Online-Mind2Web e WebTailBench – il nostro nuovo benchmark che cattura meglio le attività web sottorappresentate nei benchmark preesistenti. Inoltre, Fara-7B è competitivo con modelli frontier molto più grandi, illustrando i principali vantaggi dei sistemi scalabili di generazione di dati nel far progredire piccoli modelli agentivi efficienti. Renderemo Fara-7B open-weight su Microsoft Foundry e HuggingFace e pubblicheremo WebTailBench.
Questo studio esamina il Visual Question-Visual Answering (VQ-VA): la generazione di un'immagine, anziché di testo, in risposta a una domanda visiva – un'abilità recentemente emersa in sistemi proprietari come NanoBanana e GPT-Image. Per portare questa capacità anche ai modelli open-source, introduciamo VQ-VA World, un framework incentrato sui dati costruito attorno a una pipeline agente per la costruzione di dati su larga scala e mirata. Sfruttando un deployment su scala web, questa pipeline raccoglie una grande quantità di circa 1,8 milioni di campioni immagine-testo di alta qualità e intercalati per l'addestramento del modello. Per la valutazione, rilasciamo inoltre IntelligentBench, un benchmark curato da esseri umani che valuta sistematicamente il VQ-VA lungo gli aspetti della conoscenza del mondo, della conoscenza del design e del ragionamento. L'addestramento con i dati di VQ-VA World produce forti miglioramenti empirici: aiuta LightFusion a raggiungere 53,06 su IntelligentBench, superando sostanzialmente le migliori baseline open-source precedenti (ad esempio, 7,78 da LightFusion vanilla; 1,94 da UniWorld-V1) e riducendo significativamente il divario rispetto ai principali sistemi proprietari (ad esempio, 81,67 da NanoBanana; 82,64 da GPT-Image). Rilasciando la suite completa di pesi del modello, dataset e pipeline, speriamo di stimolare la ricerca futura sul VQ-VA.
La pianificazione dei compiti è fondamentale per l'IA incarnata, poiché consente agli agenti di seguire istruzioni in linguaggio naturale ed eseguire azioni in modo efficiente in mondi fisici 3D. Tuttavia, i dataset esistenti spesso semplificano la pianificazione dei compiti ignorando le conoscenze di ricerca operativa (OR) e il grounding spaziale 3D. In questo lavoro, proponiamo ORS3D (Task Scheduling con Grounding 3D basato sulla Ricerca Operativa), un nuovo compito che richiede la sinergia di comprensione linguistica, grounding 3D e ottimizzazione dell'efficienza. A differenza delle impostazioni precedenti, ORS3D richiede che gli agenti minimizzino il tempo totale di completamento sfruttando sottocompiti parallelizzabili, come pulire il lavello mentre il microonde è in funzione. Per facilitare la ricerca su ORS3D, abbiamo costruito ORS3D-60K, un dataset su larga scala comprendente 60.000 compiti compositi in 4.000 scene del mondo reale. Inoltre, proponiamo GRANT, un modello linguistico multimodale incarnato dotato di un meccanismo di token di scheduling semplice ma efficace per generare pianificazioni efficienti dei compiti e azioni radicate. Esperimenti estensivi su ORS3D-60K convalidano l'efficacia di GRANT nella comprensione linguistica, nel grounding 3D e nell'efficienza della pianificazione. Il codice è disponibile all'indirizzo https://github.com/H-EmbodVis/GRANT.
La generazione realistica di città 3D è fondamentale per un'ampia gamma di applicazioni, inclusi la realtà virtuale e i gemelli digitali. Tuttavia, la maggior parte dei metodi esistenti si basa sull'addestramento di un singolo modello di diffusione, il che limita la loro capacità di generare scene su scala cittadina personalizzate e illimitate. In questo articolo, presentiamo Yo'City, un nuovo framework agente che abilita la generazione di città 3D personalizzabile dall'utente e infinitamente espandibile, sfruttando le capacità di ragionamento e composizione di modelli di grandi dimensioni preesistenti. Nello specifico, Yo'City concettualizza prima la città attraverso una strategia di pianificazione top-down che definisce una struttura gerarchica "Città-Distretto-Griglia". Il Pianificatore Globale determina la disposizione complessiva e i potenziali distretti funzionali, mentre il Progettista Locale perfeziona ulteriormente ogni distretto con descrizioni dettagliate a livello di griglia. Successivamente, la generazione 3D a livello di griglia viene ottenuta attraverso un ciclo di sintesi di immagini isometriche "produci-perfeziona-valuta", seguito dalla generazione da immagine a 3D. Per simulare un'evoluzione continua della città, Yo'City introduce inoltre un meccanismo di espansione guidato dalle relazioni e interattivo per l'utente, che esegue un'ottimizzazione del layout consapevole della distanza e della semantica basata su grafi di scena, garantendo una crescita cittadina spazialmente coerente. Per valutare in modo completo il nostro metodo, costruiamo un dataset di benchmark diversificato e progettiamo sei metriche multidimensionali che valutano la qualità della generazione dalle prospettive di semantica, geometria, texture e layout. Esperimenti estensivi dimostrano che Yo'City supera costantemente i metodi state-of-the-art esistenti in tutti gli aspetti valutativi.
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.
Sebbene i recenti modelli di generazione video abbiano raggiunto una significativa fedeltà visiva, spesso soffrono della mancanza di un controllo esplicito e di una plausibilità fisica. Per affrontare questo problema, alcuni studi recenti hanno tentato di guidare la generazione video con il rendering basato sulla fisica. Tuttavia, questi metodi incontrano sfide intrinseche nella modellazione accurata di proprietà fisiche complesse e nel controllo efficace del comportamento fisico risultante su sequenze temporali prolungate. In questo lavoro, introduciamo PhysChoreo, un nuovo framework in grado di generare video con diversificata controllabilità e realismo fisico a partire da una singola immagine. Il nostro metodo si compone di due fasi: inizialmente, stima le proprietà fisiche iniziali statiche di tutti gli oggetti nell'immagine attraverso una ricostruzione delle proprietà fisiche consapevole delle parti. Successivamente, mediante una simulazione temporalmente istruita e fisicamente modificabile, sintetizza video di alta qualità con ricchi comportamenti dinamici e realismo fisico. I risultati sperimentali dimostrano che PhysChoreo può generare video con comportamenti ricchi e realismo fisico, superando i metodi allo stato dell'arte su molteplici metriche di valutazione.
L'editing basato su modelli di diffusione consente una modifica realistica di regioni locali dell'immagine, rendendo più difficile il rilevamento di contenuti generati dall'IA. Gli attuali benchmark per il rilevamento di AIGC si concentrano sulla classificazione di immagini intere, tralasciando la localizzazione delle modifiche basate sulla diffusione. Introduciamo DiffSeg30k, un dataset pubblico di 30.000 immagini modificate con diffusione, dotato di annotazioni a livello di pixel, progettato per supportare il rilevamento granulare. DiffSeg30k presenta: 1) Immagini in contesti reali - raccogliamo immagini o prompt da COCO per riflettere la diversità dei contenuti del mondo reale; 2) Modelli di diffusione diversificati - modifiche locali utilizzando otto modelli di diffusione all'avanguardia; 3) Editing a più fasi - ogni immagine subisce fino a tre modifiche sequenziali per simulare l'editing sequenziale reale; e 4) Scenari di editing realistici - una pipeline basata su un modello visione-linguaggio (VLM) identifica automaticamente regioni significative e genera prompt consapevoli del contesto che coprono aggiunte, rimozioni e cambiamenti di attributi. DiffSeg30k sposta il rilevamento di AIGC dalla classificazione binaria alla segmentazione semantica, consentendo la localizzazione simultanea delle modifiche e l'identificazione dei modelli di editing. Valutiamo tre approcci baseline di segmentazione, rivelando sfide significative nei compiti di segmentazione semantica, in particolare per quanto riguarda la robustezza alle distorsioni d'immagine. Gli esperimenti mostrano anche che i modelli di segmentazione, sebbene addestrati per la localizzazione a livello di pixel, emergono come classificatori di immagini intere altamente affidabili per le modifiche da diffusione, superando i classificatori di falsificazione consolidati e mostrando un grande potenziale nella generalizzazione cross-generatore. Riteniamo che DiffSeg30k farà avanzare la ricerca nella localizzazione granulare dei contenuti generati dall'IA, dimostrando promesse e limiti dei metodi basati sulla segmentazione. DiffSeg30k è rilasciato su: https://huggingface.co/datasets/Chaos2629/Diffseg30k
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) e nei sistemi agenti video hanno migliorato significativamente la comprensione generale dei video. Tuttavia, quando applicati alla comprensione e all'educazione scientifica tramite video, un dominio che richiede l'integrazione di conoscenze professionali esterne e un ragionamento rigoroso passo-passo, gli approcci esistenti spesso incontrano difficoltà. Per colmare questa lacuna, proponiamo SciEducator, il primo sistema multi-agente auto-evolutivo iterativo per la comprensione e l'educazione scientifica tramite video. Radicato nel classico Ciclo di Deming della scienza gestionale, il nostro progetto riformula la sua filosofia Plan-Do-Study-Act in un meccanismo di ragionamento e feedback auto-evolutivo, che facilita l'interpretazione di intricate attività scientifiche nei video. Inoltre, SciEducator può produrre contenuti educativi multimodali personalizzati per specifici processi scientifici, incluse istruzioni testuali, guide visive, narrazioni audio e riferimenti interattivi. Per supportare la valutazione, abbiamo costruito SciVBench, un benchmark composto da 500 coppie domanda-risposta scientifiche verificate da esperti e basate sulla letteratura, distribuite in cinque categorie che coprono fenomeni fisici, chimici e quotidiani. Esperimenti estensivi dimostrano che SciEducator supera sostanzialmente i principali MLLM closed-source (ad esempio, Gemini, GPT-4o) e gli agenti video all'avanguardia sul benchmark, stabilendo un nuovo paradigma per la comunità.
Sebbene i recenti modelli di diffusione text-to-video (T2V) abbiano ottenuto una qualità e un allineamento al prompt impressionanti, spesso producono output a bassa diversità quando si campionano più video a partire da un singolo prompt testuale. Affrontiamo questa sfida formulandola come un problema di ottimizzazione di politiche a livello di insieme, con l'obiettivo di addestrare una politica in grado di coprire l'ampio spettro di risultati plausibili per un dato prompt. Per risolvere questo problema, introduciamo DPP-GRPO, un nuovo framework per la generazione di video diversificati che combina le teorie dei Processi Puntuali Determinantali (DPP) e dell'Ottimizzazione Relativa di Politiche di Gruppo (GRPO) per applicare una ricompensa esplicita sulle generazioni diverse. Il nostro obiettivo trasforma la diversità in un segnale esplicito imponendo rendimenti decrescenti sui campioni ridondanti (tramite DPP) fornendo al contempo un feedback collettivo sugli insiemi di candidati (tramite GRPO). Il nostro framework è plug-and-play e indipendente dal modello, e incentiva generazioni diversificate nell'aspetto visivo, nei movimenti della telecamera e nella struttura della scena senza sacrificare la fedeltà al prompt o la qualità percettiva. Implementiamo il nostro metodo su WAN e CogVideoX, e dimostriamo che il nostro metodo migliora costantemente la diversità video su benchmark all'avanguardia come VBench, VideoScore e studi sulle preferenze umane. Inoltre, rilasciamo il nostro codice e un nuovo dataset di benchmark composto da 30.000 prompt diversificati per supportare la ricerca futura.
I modelli generativi per la progettazione di farmaci basata sulla struttura sono spesso limitati a una modalità specifica, il che ne restringe l'applicabilità più ampia. Per affrontare questa sfida, introduciamo FuncBind, un framework basato sulla computer vision per generare molecole condizionate al bersaglio a livello atomico completo attraverso sistemi atomici. FuncBind utilizza campi neurali per rappresentare le molecole come densità atomiche continue e impiega modelli generativi basati su score con architetture moderne adattate dalla letteratura della computer vision. Questa rappresentazione indipendente dalla modalità consente di addestrare un singolo modello unificato su sistemi atomici diversificati, dalle piccole alle grandi molecole, e di gestire numeri variabili di atomi/residui, inclusi amminoacidi non canonici. FuncBind raggiunge prestazioni competitive in silico nella generazione di piccole molecole, peptidi macrociclici e loop delle regioni determinanti la complementarità degli anticorpi, condizionati alle strutture bersaglio. FuncBind ha anche generato leganti anticorpali in vitro tramite la riprogettazione de novo del loop H3 della regione determinante la complementarità di due strutture co-cristalline selezionate. Come contributo finale, introduciamo un nuovo dataset e benchmark per la generazione di peptidi macrociclici condizionata alla struttura. Il codice è disponibile all'indirizzo https://github.com/prescient-design/funcbind.
I modelli linguistici di grandi dimensioni (LLM) dimostrano una competenza previsionale parziale in eventi sociali, politici ed economici. Tuttavia, la loro capacità predittiva varia notevolmente in base alla struttura del dominio e all'impostazione del prompt. Indaghiamo come le prestazioni previsionali varino tra diverse famiglie di modelli su questioni del mondo reale relative ad eventi accaduti dopo la data di cutoff del modello. Analizziamo come il contesto, il tipo di domanda e la conoscenza esterna influenzino l'accuratezza e la calibrazione, e come l'aggiunta di contesto fattuale derivante da notizie modifichi la formazione delle credenze e le modalità di errore. I nostri risultati mostrano che l'abilità previsionale è altamente variabile poiché dipende da cosa chiediamo e da come lo chiediamo.
Su quali dati dovrebbe essere addestrato un modello visione-linguaggio? Per rispondere a questa domanda, molti sforzi di curatela dei dati si concentrano sulla qualità di un dataset. Tuttavia, la maggior parte di questi metodi esistenti sono (i) offline, cioè producono un dataset statico da un insieme di criteri di filtraggio predeterminati, e (ii) agnostici rispetto al concetto, cioè utilizzano filtri basati su modelli che inducono ulteriori distorsioni nei dati. In questo lavoro, andiamo oltre tali metodi offline e agnostici, e sosteniamo una curatela online basata sui concetti, più flessibile e adattiva al compito. Il nostro primo contributo è DataConcept, una collezione di 128 milioni di coppie immagine-testo estratte dal web, annotate con dettagli granulari sulla loro composizione concettuale. Basandoci su DataConcept, introduciamo il Campionamento a Lotto Consapevole del Concetto (Concept-Aware Batch Sampling - CABS), un framework di campionamento a lotto semplice ma efficace che costruisce flessibilmente i lotti al volo in base a distribuzioni target specifiche. Proponiamo due varianti: (i) Massimizzazione della Diversità (CABS-DM) per curare lotti con un'ampia copertura dei concetti disponibili, e (ii) Massimizzazione della Frequenza (CABS-FM) per curare lotti con un'elevata molteplicità di oggetti. Attraverso valutazioni estensive su 28 benchmark, dimostriamo che il nostro metodo CABS apporta significativi benefici alle classi di modelli CLIP/SigLIP e produce modelli dalle prestazioni elevate. Nel complesso, CABS rappresenta una valida alternativa open-source agli algoritmi proprietari di curatela dati online, consentendo ai professionisti di definire distribuzioni concettuali personalizzate che ottimizzano per specifici compiti downstream.
Ottenere il movimento 3D preciso di una pallina da tennis da tavolo da video monoculari standard è un problema complesso, poiché i metodi esistenti addestrati su dati sintetici faticano a generalizzare per le rilevazioni rumorose e imperfette della palla e del tavolo nel mondo reale. Ciò è dovuto principalmente all'intrinseca mancanza di traiettorie 3D di ground truth e di annotazioni dello spin per i video del mondo reale. Per superare questo limite, proponiamo una nuova pipeline in due fasi che suddivide il problema in un compito di percezione front-end e in un compito di "innalzamento" (uplifting) da 2D a 3D back-end. Questa separazione ci consente di addestrare i componenti front-end con un'abbondante supervisione 2D dal nostro nuovo dataset TTHQ, mentre la rete di uplifting back-end viene addestrata esclusivamente su dati sintetici fisicamente corretti. Abbiamo specificamente riprogettato il modello di uplifting per essere robusto ai comuni artefatti del mondo reale, come rilevazioni mancanti e frequenze dei fotogrammi variabili. Integrando un rilevatore di palline e un rilevatore di punti chiave del tavolo, il nostro approccio trasforma un metodo di uplifting proof-of-concept in un'applicazione end-to-end pratica, robusta e ad alte prestazioni per l'analisi 3D della traiettoria e dello spin nel tennis da tavolo.