Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo SAM 3D, un modello generativo per la ricostruzione 3D di oggetti basata su riferimenti visivi, che predice geometria, texture e disposizione a partire da una singola immagine. SAM 3D eccelle con immagini naturali, dove l'occlusione e il disordine della scena sono comuni e gli indizi di riconoscimento visivo contestuale giocano un ruolo più importante. Raggiungiamo questo risultato con una pipeline che coinvolge umani e modelli per l'annotazione della forma, della texture e della posa degli oggetti, fornendo dati di ricostruzione 3D visivamente ancorati a una scala senza precedenti. Apprendiamo da questi dati in un moderno framework di addestramento multi-stadio che combina pre-addestramento sintetico con allineamento al mondo reale, superando la "barriera dei dati" 3D. Otteniamo miglioramenti significativi rispetto ai lavori recenti, con un rapporto di preferenza umana di almeno 5:1 nei test su oggetti e scene del mondo reale. Rilasceremo il nostro codice e i pesi del modello, una demo online e un nuovo benchmark impegnativo per la ricostruzione 3D di oggetti in condizioni non controllate.
Gli Agenti di Modelli Linguistici di Grande Dimensione (LLM), spesso addestrati con Apprendimento per Rinforzo (RL), sono limitati da una dipendenza da dati curati da esseri umani, il che riduce la scalabilità e vincola l'IA alla conoscenza umana. I framework di auto-evoluzione esistenti offrono un'alternativa, ma sono tipicamente limitati dalle capacità intrinseche del modello e da interazioni a singolo round, ostacolando lo sviluppo di curricula complessi che coinvolgono l'uso di strumenti o ragionamento dinamico. Introduciamo Agent0, un framework completamente autonomo che evolve agenti ad alte prestazioni senza dati esterni attraverso una co-evoluzione multi-step e un'integrazione seamless di strumenti. Agent0 stabilisce una competizione simbiotica tra due agenti inizializzati dallo stesso LLM di base: un agente curriculum che propone task di frontiera progressivamente più impegnativi, e un agente esecutore che impara a risolverli. Integriamo strumenti esterni per potenziare la capacità di problem-solving dell'esecutore; questo miglioramento, a sua volta, spinge l'agente curriculum a costruire task più complessi e consapevoli degli strumenti. Attraverso questo processo iterativo, Agent0 stabilisce un ciclo auto-rinforzante che produce continuamente curricula di alta qualità. Empiricamente, Agent0 aumenta sostanzialmente le capacità di ragionamento, migliorando il modello Qwen3-8B-Base del 18% nel ragionamento matematico e del 24% sui benchmark di ragionamento generale. Il codice è disponibile all'indirizzo https://github.com/aiming-lab/Agent0.
Quale ruolo svolge il primo fotogramma nei modelli di generazione video? Tradizionalmente, è considerato il punto di partenza spazio-temporale di un video, semplicemente un seme per l'animazione successiva. In questo lavoro, riveliamo una prospettiva fondamentalmente diversa: i modelli video trattano implicitamente il primo fotogramma come un buffer di memoria concettuale che immagazzina entità visive per un successivo riutilizzo durante la generazione. Sfruttando questa intuizione, dimostriamo che è possibile ottenere una robusta e generalizzata personalizzazione dei contenuti video in scenari diversificati, utilizzando solo 20-50 esempi di addestramento senza modifiche architetturali o messa a punto su larga scala. Ciò rivela una potente capacità, finora trascurata, dei modelli di generazione video per la personalizzazione video basata su riferimento.
I recenti progressi nei modelli di ragionamento hanno dimostrato notevoli successi nei domini testuali e visivi attraverso deliberazioni estese a catena di pensiero. Tuttavia, un fenomeno sconcertante persiste nei modelli linguistici audio: essi performano costantemente meglio con ragionamenti minimi o nulli, sollevando una questione fondamentale - l'intelligenza audio può realmente trarre beneficio da un pensiero deliberato? Introduciamo Step-Audio-R1, il primo modello di ragionamento audio che sblocca con successo le capacità di ragionamento nel dominio audio. Attraverso il nostro framework proposto di Distillazione del Ragionamento ancorato alla Modalità (MGRD), Step-Audio-R1 impara a generare catene di ragionamento rilevanti per l'audio che si ancorano genuinamente alle caratteristiche acustiche, invece di produrre deliberazioni sconnesse e allucinate. Il nostro modello mostra forti capacità di ragionamento audio, superando Gemini 2.5 Pro e raggiungendo prestazioni paragonabili allo stato dell'arte Gemini 3 Pro in benchmark completi di comprensione e ragionamento audio che abbracciano parlato, suoni ambientali e musica. Questi risultati dimostrano che il ragionamento è una capacità trasferibile tra le modalità quando ancorata appropriatamente, trasformando la deliberazione estesa da uno svantaggio in una potente risorsa per l'intelligenza audio. Stabilendo il primo modello di ragionamento audio di successo, Step-Audio-R1 apre nuove strade verso la costruzione di sistemi di ragionamento veramente multimodali che pensano in profondità attraverso tutte le modalità sensoriali.
Nonostante i progressi significativi, i modelli fondazionali multimodali continuano a mostrare carenze sorprendenti nell'intelligenza spaziale. In questo lavoro, esploriamo il potenziamento dei modelli fondazionali multimodali per sviluppare l'intelligenza spaziale all'interno della famiglia SenseNova-SI, costruita su basi multimodali consolidate che includono modelli di comprensione visiva (ovvero Qwen3-VL e InternVL3) e modelli unificati di comprensione e generazione (ovvero Bagel). Adottiamo un approccio metodologico per costruire un'intelligenza spaziale robusta e ad alte prestazioni, curando sistematicamente SenseNova-SI-8M: otto milioni di campioni dati diversificati secondo una tassonomia rigorosa delle capacità spaziali. SenseNova-SI dimostra prestazioni senza precedenti su un'ampia gamma di benchmark di intelligenza spaziale: 68,7% su VSI-Bench, 43,3% su MMSI, 85,6% su MindCube, 54,6% su ViewSpatial e 50,1% su SITE, mantenendo al contempo una solida comprensione multimodale generale (ad esempio, 84,9% su MMBench-En). Ancora più importante, analizziamo l'impatto del scaling dei dati, discutiamo i primi segni di capacità di generalizzazione emergenti abilitate dall'addestramento con dati diversificati, esaminiamo il rischio di overfitting e scorciatoie linguistiche, presentiamo uno studio preliminare sul ragionamento a catena spaziale (spatial chain-of-thought) e convalidiamo la potenziale applicazione downstream. SenseNova-SI è un progetto in evoluzione, e questo rapporto sarà aggiornato continuamente. Tutti i nuovi modelli fondazionali multimodali addestrati vengono rilasciati pubblicamente per facilitare ulteriori ricerche in questa direzione.
I recenti progressi nei modelli generativi di video, come Veo-3, hanno dimostrato sorprendenti capacità di ragionamento zero-shot, creando una crescente necessità di valutazioni sistematiche e affidabili. Introduciamo V-ReasonBench, un benchmark progettato per valutare il ragionamento video lungo quattro dimensioni chiave: risoluzione strutturata di problemi, cognizione spaziale, inferenza basata su modelli e dinamiche fisiche. Il benchmark è costruito sia da sequenze di immagini sintetiche che del mondo reale e fornisce un insieme diversificato di task verificabili con risposte, riproducibili, scalabili e inequivocabili. Le valutazioni di sei modelli video all’avanguardia rivelano chiare differenze per dimensione, con una forte variazione nel ragionamento strutturato, spaziale, basato su modelli e fisico. Confrontiamo inoltre i modelli video con modelli di immagini avanzati, analizziamo i comportamenti comuni di allucinazione e studiamo come la durata del video influenzi il ragionamento a catena di fotogrammi. Nel complesso, V-ReasonBench offre un framework unificato e riproducibile per misurare il ragionamento video e mira a supportare lo sviluppo di modelli con capacità di ragionamento più affidabili e allineate a quelle umane.
Sebbene i modelli linguistici abbiano avuto un impatto significativo in molte applicazioni del mondo reale, la generazione video rimane largamente confinata all'ambito dell'intrattenimento. Motivati dalla capacità intrinseca del video di dimostrare informazioni sul mondo fisico difficili da comunicare solo tramite linguaggio (ad esempio, immaginate di insegnare a qualcuno ad allacciare una cravatta usando solo il testo), identifichiamo un'opportunità sottoutilizzata per estendere il video come una nuova modalità di risposta per la Predizione dell'Evento Successivo (Next-Event Prediction, NEP), formalizzata come Predizione dell'Evento Successivo tramite Video (Video-Next-Event Prediction, VNEP). Mentre il compito NEP consolidato prende in input un video con una domanda procedurale o predittiva per prevedere l'evento successivo in formato testo, la VNEP richiede risposte video dinamiche. Questo passaggio dal "raccontare" al "mostrare" sblocca risposte più intuitive e personalizzate per l'apprendimento procedurale e l'esplorazione creativa. Tuttavia, questo compito rimane impegnativo per i modelli esistenti, poiché richiede la comprensione di input multimodale, un ragionamento condizionato dalle istruzioni e la generazione di video con coerenza visiva e semantica. Per affrontare ciò, introduciamo VANS, un modello che sfrutta l'apprendimento per rinforzo per allineare un Modello Visione-Linguaggio (Vision-Language Model, VLM) con un Modello di Diffusione Video (Video Diffusion Model, VDM) per la VNEP. Il cuore di VANS è il nostro Joint-GRPO proposto, che orchestra il VLM e il VDM per funzionare come un'unità. Guidato da una ricompensa condivisa sui rispettivi output, esso ottimizza il VLM per produrre didascalie che siano sia accurate che facili da visualizzare, mentre guida il VDM a generare video fedeli a queste didascalie e al contesto visivo di input. Per abilitare questo apprendimento, creiamo VANS-Data-100K, un dataset dedicato al compito VNEP. Esperimenti su benchmark procedurali e predittivi dimostrano che VANS raggiunge prestazioni allo stato dell'arte sia nella predizione che nella visualizzazione di eventi video. I codici sono rilasciati su https://github.com/KlingTeam/VANS.
L'addestramento di una famiglia di modelli linguistici di grandi dimensioni mirata a più scale e obiettivi di deployment è proibitivamente costoso, poiché richiede sessioni di training separate per ogni dimensione diversa. I recenti progressi nella compressione dei modelli tramite pruning e distillazione della conoscenza hanno ridotto questo costo; tuttavia, questo processo comporta ancora un costo di addestramento equivalente a centinaia di miliardi di token per ogni modello compresso. In questo articolo, presentiamo Nemotron Elastic, un framework per costruire LLM orientati al ragionamento, incluse architetture ibride Mamba-Attention, che incorporano molteplici sottomodelli annidati all'interno di un singolo modello genitore, ciascuno ottimizzato per diverse configurazioni di deployment e budget. Ciascuno di questi sottomodelli condivide i pesi con il modello genitore e può essere estratto zero-shot durante il deployment senza ulteriore addestramento o fine-tuning. Abilitiamo questa funzionalità attraverso un router addestrato end-to-end, strettamente accoppiato a un curriculum di addestramento in due fasi progettato specificamente per modelli di ragionamento. Introduciamo inoltre l'elastificazione SSM con consapevolezza dei gruppi che preserva i vincoli strutturali di Mamba, l'elastificazione eterogenea degli MLP, l'importanza dei layer basata su MSE normalizzato per una migliore selezione della profondità e la distillazione della conoscenza che abilita l'ottimizzazione multi-budget simultanea. Applichiamo Nemotron Elastic al modello Nemotron Nano V2 12B, producendo simultaneamente un modello da 9B e uno da 6B utilizzando solo 110B token di addestramento; ciò si traduce in una riduzione dei costi di oltre 360x rispetto all'addestramento di famiglie di modelli da zero, e di circa 7x rispetto alle tecniche di compressione SoTA. Ciascuno dei modelli annidati performa in termini di accuratezza almeno quanto o meglio dello stato dell'arte. Inoltre, a differenza di altri metodi di compressione, la capacità annidata del nostro approccio consente di avere un modello di ragionamento "molti-in-uno" che ha una memoria di deployment costante rispetto al numero di modelli nella famiglia.
Rendiamo open-source MiMo-Embodied, il primo modello foundation cross-embodied ad integrare con successo e a raggiungere prestazioni all'avanguardia sia nella Guida Autonoma che nell'Embodied AI. MiMo-Embodied stabilisce nuovi record su 17 benchmark di Embodied AI nella Pianificazione di Compiti, nella Predizione di Affordance e nella Comprensione Spaziale, eccellendo anche in 12 benchmark di guida autonoma relativi a Percezione Ambientale, Predizione dello Stato e Pianificazione della Guida. In tutte queste attività, MiMo-Embodied supera significativamente i baseline esistenti, open-source, closed-source e specializzati. I nostri risultati indicano che, attraverso un apprendimento multi-stadio, una costruzione curata dei dati e un fine-tuning CoT/RL, questi due domini mostrano un forte trasferimento positivo e si rafforzano reciprocamente. Forniamo un'analisi dettagliata del design del nostro modello e delle metodologie di addestramento per facilitare ulteriori ricerche. Codice e modelli sono disponibili all'indirizzo https://github.com/XiaomiMiMo/MiMo-Embodied.
I modelli Vision-Language-Action (VLA) eccellono nella manipolazione robotica ma sono limitati dalla loro forte dipendenza da dimostrazioni esperte, il che porta a un bias dimostrativo e limita le prestazioni. L'apprendimento per rinforzo (RL) è una strategia cruciale di post-addestramento per superare questi limiti, tuttavia, gli attuali metodi VLA-RL, inclusi gli approcci di ottimizzazione di gruppo, sono ostacolati da una severa sparsità dei reward. L'affidarsi a indicatori binari di successo spreca informazioni preziose nelle traiettorie fallite, risultando in una bassa efficienza di addestramento. Per risolvere questo problema, proponiamo la Self-Referential Policy Optimization (SRPO), un nuovo framework VLA-RL. SRPO elimina la necessità di dimostrazioni esterne o di una progettazione manuale dei reward sfruttando le traiettorie di successo del modello stesso, generate all'interno del batch di addestramento corrente, come autoriferimento. Ciò ci permette di assegnare un reward progressivo ai tentativi falliti. Un'innovazione fondamentale è l'uso di rappresentazioni latenti del mondo per misurare robustamente il progresso comportamentale. Invece di affidarsi a pixel grezzi o richiedere una messa a punto specifica per dominio, utilizziamo le codifiche compresse e trasferibili dallo spazio latente di un modello del mondo. Queste rappresentazioni catturano naturalmente modelli di progresso tra diversi ambienti, consentendo un confronto accurato e generalizzato delle traiettorie. Le valutazioni empiriche sul benchmark LIBERO dimostrano l'efficienza e l'efficacia di SRPO. Partendo da una baseline supervisionata con un successo del 48.9%, SRPO raggiunge un nuovo stato dell'arte con un tasso di successo del 99.2% in sole 200 step di RL, rappresentando un miglioramento relativo del 103% senza alcuna supervisione aggiuntiva. Inoltre, SRPO mostra una sostanziale robustezza, ottenendo un miglioramento delle prestazioni del 167% sul benchmark LIBERO-Plus.
Gli ospedali e i sistemi sanitari si basano su decisioni operative che determinano il flusso dei pazienti, i costi e la qualità dell'assistenza. Nonostante le eccellenti prestazioni nelle conoscenze mediche e nei benchmark conversazionali, i modelli di base addestrati su testo generico potrebbero non possedere le conoscenze specialistiche necessarie per queste decisioni operative. Presentiamo Lang1, una famiglia di modelli (da 100M a 7B di parametri) pre-addestrata su un corpus specializzato che combina 80B di token clinici dagli EHR del NYU Langone Health e 627B di token provenienti da internet. Per valutare rigorosamente Lang1 in contesti reali, abbiamo sviluppato il REalistic Medical Evaluation (ReMedE), un benchmark derivato da 668.331 note di EHR che valuta cinque compiti critici: previsione dei riammissioni a 30 giorni, previsione della mortalità a 30 giorni, durata della degenza, codifica delle comorbidità e previsione del diniego delle richieste di rimborso assicurativo. In contesti zero-shot, sia i modelli generalisti che quelli specializzati ottengono prestazioni inferiori in quattro dei cinque compiti (AUROC 36,6%-71,7%), con l'eccezione della previsione della mortalità. Dopo il fine-tuning, Lang1-1B supera i modelli generalisti sottoposti a fine-tuning fino a 70 volte più grandi e i modelli zero-shot fino a 671 volte più grandi, migliorando l'AUROC rispettivamente del 3,64%-6,75% e dell'1,66%-23,66%. Abbiamo anche osservato uno scaling cross-task, per cui il fine-tuning congiunto su più compiti porta a un miglioramento in altri compiti. Lang1-1B si trasferisce efficacemente a contesti out-of-distribution, inclusi altri compiti clinici e un sistema sanitario esterno. I nostri risultati suggeriscono che le capacità predittive per le operazioni ospedaliere richiedono un esplicito fine-tuning supervisionato e che questo processo è reso più efficiente dal pre-addestramento in-domain sugli EHR. I nostri risultati supportano l'opinione emergente che gli LLM specializzati possano competere con i modelli generalisti in compiti specialistici e dimostrano che un'IA efficace per i sistemi sanitari richiede la combinazione di pre-addestramento in-domain, fine-tuning supervisionato e valutazione nel mondo reale che vada oltre i benchmark proxy.
I sistemi di recupero delle informazioni neurali eccellono nelle lingue ad alte risorse, ma rimangono poco esplorati per lingue morfologicamente ricche e a risorse limitate come il turco. I bi-encoder densi attualmente dominano l'IR per il turco, mentre i modelli a interazione tardiva – che conservano rappresentazioni a livello di token per un matching più granulare – non sono stati valutati sistematicamente. Introduciamo TurkColBERT, il primo benchmark completo che confronta encoder densi e modelli a interazione tardiva per il recupero di informazioni in turco. La nostra pipeline di adattamento in due fasi mette a punto encoder inglesi e multilingue su task NLI/STS in turco, per poi convertirli in retriever in stile ColBERT utilizzando PyLate addestrato su MS MARCO-TR. Valutiamo 10 modelli su cinque dataset BEIR turchi che coprono domini scientifici, finanziari e argomentativi. I risultati mostrano una forte efficienza parametrica: il modello colbert-hash-nano-tr da 1.0M di parametri è 600 volte più piccolo del codificatore denso turkish-e5-large da 600M, pur preservando oltre il 71% della sua mAP media. I modelli a interazione tardiva che sono 3-5 volte più piccoli degli encoder densi li superano significativamente; ColmmBERT-base-TR fornisce un miglioramento della mAP fino al +13,8% su task specifici di dominio. Per la prontezza alla produzione, confrontiamo algoritmi di indicizzazione: MUVERA+Rerank è 3,33 volte più veloce di PLAID e offre un guadagno relativo di mAP dell'+1,7%. Ciò consente un recupero a bassa latenza, con ColmmBERT-base-TR che raggiunge tempi di query di 0,54 ms sotto MUVERA. Rilasciamo tutti i checkpoint, le configurazioni e gli script di valutazione. Le limitazioni includono la dipendenza da dataset di dimensioni moderate (≤50K documenti) e benchmark tradotti, che potrebbero non riflettere pienamente le condizioni reali del recupero in turco; rimangono necessarie valutazioni MUVERA su larga scala.
Presentiamo NaTex, un framework di generazione di texture nativa che predice il colore della texture direttamente nello spazio 3D. A differenza degli approcci precedenti che si basano sulla "cottura" (baking) di immagini 2D multi-vista sintetizzate da modelli di diffusione condizionati dalla geometria (MVDs), NaTex evita diverse limitazioni intrinseche della pipeline MVD. Queste includono le difficoltà nella gestione delle regioni occluse che richiedono inpaintin, nel raggiungimento di un allineamento preciso tra mesh e texture lungo i bordi, e nel mantenere una coerenza cross-vista sia nel contenuto che nell'intensità del colore. NaTex introduce un paradigma innovativo che affronta i problemi summenzionati considerando la texture come una nuvola di punti di colore densa. Guidati da questa idea, proponiamo la diffusione latente del colore, che comprende un VAE per nuvole di punti di colore consapevole della geometria e un diffusion transformer (DiT) a controllo multiplo, interamente addestrato da zero utilizzando dati 3D, per la ricostruzione e generazione di texture. Per abilitare un allineamento preciso, introduciamo un controllo nativo della geometria che condiziona il DiT su informazioni spaziali 3D dirette tramite positional embedding e latenti geometrici. Co-progettiamo l'architettura VAE-DiT, in cui i latenti geometrici vengono estratti attraverso un ramo dedicato alla geometria strettamente accoppiato con il VAE del colore, fornendo una guida fine della superficie che mantiene una forte corrispondenza con la texture. Con queste soluzioni, NaTex dimostra prestazioni elevate, superando significativamente i metodi precedenti in termini di coerenza e allineamento della texture. Inoltre, NaTex mostra anche forti capacità di generalizzazione, sia in modalità training-free che con una semplice messa a punto, per varie applicazioni downstream, come la generazione di materiali, il perfezionamento delle texture, e la segmentazione e texturing di parti.
I recenti progressi nella generazione visiva hanno esplorato sempre più l'integrazione di capacità di ragionamento. Questi approcci incorporano il ragionamento testuale, ovvero "pensano", prima (come pre-pianificazione) o dopo (come post-affinamento) il processo di generazione, ma mancano di un'interazione multimodale in tempo reale durante la generazione stessa. In questo studio preliminare, introduciamo Thinking-while-Generating (TwiG), il primo framework interlacciato che consente la co-evoluzione del ragionamento testuale durante l'intero processo di generazione visiva. Man mano che il contenuto visivo viene generato progressivamente, il ragionamento testuale si intercala per guidare le prossime regioni locali e riflettere su quelle precedentemente sintetizzate. Questa interazione dinamica produce output visivi più consapevoli del contesto e semanticamente più ricchi. Per svelare il potenziale di questo framework, investigiamo tre strategie candidate: prompting zero-shot, fine-tuning supervisionato (SFT) sul nostro dataset curato TwiG-50K, e apprendimento per rinforzo (RL) tramite una strategia personalizzata TwiG-GRPO, ciascuna delle quali offre spunti unici sulla dinamica del ragionamento interlacciato. Speriamo che questo lavoro ispiri ulteriori ricerche sull'interlacciamento del ragionamento testuale per una generazione visiva potenziata. Il codice sarà rilasciato su: https://github.com/ZiyuGuo99/Thinking-while-Generating.
Introduciamo TimeViper, un modello ibrido visione-linguaggio progettato per affrontare le sfide della comprensione di video lunghi. L'elaborazione di video lunghi richiede sia un'architettura modellistica efficiente che un meccanismo efficace per gestire contesti temporali estesi. A tal fine, TimeViper adotta un'architettura ibrida Mamba-Transformer che combina l'efficienza dei modelli spazio-stato con l'espressività dei meccanismi di attenzione. Attraverso questo design ibrido, riveliamo il fenomeno di aggregazione dell'informazione dalla visione al testo, in cui l'informazione fluisce progressivamente dai token visivi ai token testuali con l'aumentare della profondità del LLM, risultando in una severa ridondanza dei token visivi. Motivati da questa osservazione, proponiamo TransV, un modulo di trasferimento dell'informazione dei token che trasferisce e comprime i token visivi in token di istruzione mantenendo le capacità di comprensione multimodale. Questo design consente a TimeViper di elaborare video della durata di ore che superano i 10.000 fotogrammi. Esperimenti estesi su molteplici benchmark dimostrano che TimeViper compete con i modelli all'avanguardia pur estendendo il numero di fotogrammi. Analizziamo ulteriormente i comportamenti di attenzione sia degli strati Mamba che Transformer, offrendo nuove intuizioni sull'interpretabilità dei modelli ibridi. Questo lavoro rappresenta un passo iniziale verso lo sviluppo, l'interpretazione e la compressione delle architetture ibride Mamba-Transformer.
La mappatura UV appiattisce le superfici 3D in 2D con distorsione minima, richiedendo spesso che la superficie complessa venga scomposta in più _chart_. Sebbene ampiamente studiata, i metodi esistenti di mappatura UV faticano frequentemente con le mesh generate dall'IA, che sono tipicamente rumorose, irregolari e mal condizionate. Questi metodi spesso producono _chart_ altamente frammentati e contorni subottimali, introducendo artefatti e ostacolando i task a valle. Introduciamo PartUV, una pipeline di mappatura UV basata sulle parti che genera un numero significativamente inferiore di _chart_, allineati alle parti, mantenendo al contempo una bassa distorsione. Costruita su un recente metodo di scomposizione in parti basato sull'apprendimento, PartField, PartUV combina una scomposizione semantica di alto livello delle parti con nuove euristiche geometriche in un framework ricorsivo top-down. Garantisce che la distorsione di ogni _chart_ rimanga al di sotto di una soglia specificata dall'utente, minimizzando al contempo il numero totale di _chart_. La pipeline integra ed estende algoritmi di parametrizzazione e impacchettamento, incorpora una gestione dedicata di mesh non-manifold e degeneri, ed è ampiamente parallelizzata per efficienza. Valutata su quattro dataset diversificati, inclusi oggetti artificiali, CAD, generati da IA e Forme Comuni, PartUV supera gli strumenti esistenti e i recenti metodi neurali nel conteggio dei _chart_ e nella lunghezza delle cuciture, raggiunge una distorsione comparabile, mostra alti tassi di successo su mesh difficili e abilita nuove applicazioni come l'impacchettamento multi-tile specifico per parti. La nostra pagina del progetto è all'indirizzo https://www.zhaoningwang.com/PartUV.
La segmentazione di video chirurgici è cruciale per la chirurgia computer-assistita, poiché consente la localizzazione precisa e il tracciamento degli strumenti e dei tessuti. Modelli di Segmentazione Interattiva di Oggetti Video (iVOS) come Segment Anything Model 2 (SAM2) offrono una flessibilità basata su prompt che va oltre i metodi con categorie predefinite, ma affrontano sfide negli scenari chirurgici a causa del divario di dominio e della limitata capacità di tracciamento a lungo termine. Per affrontare queste limitazioni, abbiamo costruito SA-SV, il più grande benchmark chirurgico per iVOS con annotazioni spazio-temporali a livello di istanza (masklet) che coprono otto tipi di procedure (61k frame, 1.6k masklet), consentendo uno sviluppo e una valutazione completi per il tracciamento a lungo termine e la generalizzazione zero-shot. Basandoci su SA-SV, proponiamo SAM2S, un modello di base che potenzia SAM2 per l'iVOS Chirurgico attraverso: (1) DiveMem, un meccanismo di memoria diversificata addestrabile per un tracciamento a lungo termine robusto; (2) l'apprendimento semantico temporale per la comprensione degli strumenti; e (3) l'apprendimento resiliente all'ambiguità per mitigare le inconsistenze di annotazione tra dataset multi-sorgente. Esperimenti estensivi dimostrano che il fine-tuning su SA-SV consente miglioramenti prestazionali sostanziali, con SAM2 che migliora di 12.99 punti J\&F medi rispetto al SAM2 vanilla. SAM2S fa ulteriormente avanzare le prestazioni a 80.42 J\&F medi, superando rispettivamente SAM2 vanilla e fine-tunato di 17.10 e 4.11 punti, mantenendo al contempo un'inferenza in tempo reale a 68 FPS e una forte generalizzazione zero-shot. Il codice e il dataset saranno rilasciati su https://jinlab-imvr.github.io/SAM2S.
L'addestramento a lungo termine di grandi modelli linguistici (LLM) richiede il mantenimento di un'esplorazione stabile per prevenire il collasso del modello in comportamenti sub-ottimali. L'entropia è cruciale in questo contesto, poiché controlla l'esplorazione e aiuta a evitare una convergenza prematura verso soluzioni sub-ottimali. Tuttavia, i metodi di apprendimento per rinforzo esistenti faticano a mantenere un livello appropriato di entropia, poiché il processo di addestramento coinvolge un mix di campioni positivi e negativi, ciascuno dei quali influisce sull'entropia in modi diversi durante le varie fasi. Per affrontare questo problema, proponiamo EntroPIC (Stabilizzazione dell'Entropia tramite Controllo Proporzionale-Integrale), un metodo innovativo che regola in modo adattivo l'influenza dei campioni positivi e negativi modulando dinamicamente i loro coefficienti di loss. Questo approccio stabilizza l'entropia durante l'intero addestramento, garantendo un'esplorazione efficiente e progressi costanti. Forniamo un'analisi teorica completa sia per contesti di apprendimento on-policy che off-policy, dimostrando che EntroPIC è efficace nel controllare l'entropia nell'addestramento di LLM su larga scala. I risultati sperimentali mostrano che il nostro metodo mantiene con successo i livelli di entropia desiderati, consentendo un addestramento RL stabile e ottimale per gli LLM.
Le architetture basate su Transformer sono ampiamente adottate nei sistemi di raccomandazione sequenziale, tuttavia la loro applicazione nei Servizi Finanziari (FS) presenta sfide pratiche e di modellazione distinte per la raccomandazione in tempo reale. Queste includono: a) interazioni utente a lungo raggio (implicite ed esplicite) che abbracciano sia canali digitali che fisici, generando un contesto temporalmente eterogeneo; b) la presenza di prodotti multipli interrelati richiede modelli coordinati per supportare inserzioni pubblicitarie varie e feed personalizzati, bilanciando al contempo obiettivi di business concorrenti. Proponiamo FinTRec, un framework basato su Transformer che affronta queste sfide e i suoi obiettivi operativi nei FS. Sebbene i modelli basati su albero siano stati tradizionalmente preferiti nei FS per la loro spiegabilità e conformità ai requisiti normativi, il nostro studio dimostra che FinTRec offre un cambiamento valido ed efficace verso le architetture basate su Transformer. Attraverso simulazioni storiche e correlazioni di test A/B live, mostriamo che FinTRec supera costantemente la baseline di produzione basata su alberi. L'architettura unificata, quando messa a punto per l'adattamento del prodotto, consente la condivisione di segnali cross-prodotto, riduce i costi di addestramento e il debito tecnico, migliorando al contempo le prestazioni offline su tutti i prodotti. A nostra conoscenza, questo è il primo studio completo sulla modellazione unificata della raccomandazione sequenziale nei FS che affronta sia le considerazioni tecniche che quelle di business.
L'accuratezza di trasferimento tramite linear probe su ImageNet-1K rimane il parametro di riferimento predefinito per la qualità delle rappresentazioni visive, tuttavia non è più in grado di predire le prestazioni su immagini scientifiche. Analizzando 46 checkpoint di modelli visivi moderni, l'accuracy top-1 di ImageNet spiega solo il 34% della varianza nei compiti di ecologia e classifica erroneamente il 30% dei modelli con accuratezza superiore al 75%. Presentiamo BioBench, un benchmark visivo open source per l'ecologia che cattura ciò che ImageNet tralascia. BioBench unifica 9 task pubblici guidati da applicazioni pratiche, 4 regni tassonomici e 6 modalità di acquisizione (RGB da drone, video web, micrografie, foto in-situ e di esemplari, fotogrammi da camera trap), per un totale di 3,1 milioni di immagini. Una semplice API Python consente di scaricare i dati, addestrare classificatori leggeri su backbone congelati e restituire il macro-F1 bilanciato (oltre alle metriche di dominio per FishNet e FungiCLEF); i modelli ViT-L vengono valutati in 6 ore su una GPU A6000. BioBench fornisce un nuovo segnale per la computer vision in ecologia e uno schema template per costruire benchmark affidabili di AI per la scienza in qualsiasi dominio. Codice e predizioni sono disponibili su https://github.com/samuelstevens/biobench e i risultati su https://samuelstevens.me/biobench.
Sebbene i recenti Large Vision-Language Models (LVLM) mostrino forti capacità di ragionamento multimodale, spesso producono risposte infondate o allucinate poiché si basano eccessivamente su prior linguistici anziché su evidenze visive. Questa limitazione evidenzia l'assenza di una misura quantitativa di quanto questi modelli utilizzino effettivamente le informazioni visive durante il ragionamento. Proponiamo Draft and Refine (DnR), un framework ad agente guidato da una metrica di utilizzo condizionata alla domanda. La metrica quantifica la dipendenza del modello dalle evidenze visive costruendo prima una mappa di rilevanza condizionata alla query per localizzare gli indizi specifici della domanda, per poi misurare la dipendenza attraverso un mascheramento probabilistico guidato dalla rilevanza. Guidato da questa metrica, l'agente DnR affina la sua bozza iniziale utilizzando feedback mirati da esperti visivi esterni. L'output di ogni esperto (come bounding box o maschere) viene renderizzato come indizi visivi sull'immagine, e il modello viene interrogato nuovamente per selezionare la risposta che produce il maggior miglioramento nell'utilizzo. Questo processo rafforza l'ancoraggio visivo senza necessità di riaddestramento o modifiche architetturali. Esperimenti su benchmark di VQA e captioning mostrano guadagni consistenti in accuratezza e una ridotta allucinazione, dimostrando che misurare l'utilizzo visivo fornisce un percorso metodologicamente solido verso sistemi ad agente multimodali più interpretabili e guidati dalle evidenze.
I recenti progressi nel pre-addestramento immagine-testo hanno significativamente migliorato la comprensione visiva attraverso l'allineamento delle rappresentazioni visive e testuali. Il Contrastive Language-Image Pretraining (CLIP) ha svolto un ruolo fondamentale nell'apprendimento multimodale. Tuttavia, la sua focalizzazione sull'allineamento a singola etichetta e singola granularità ne limita l'efficacia in domini complessi come l'imaging medico, dove le immagini spesso corrispondono a multiple etichette di alto livello (ad esempio, categorie di malattie) attraverso diverse granularità di annotazione (ad esempio, descrizione diagnostica, spiegazione clinica). Per affrontare questa limitazione, proponiamo il Multi-Granular Language Learning (MGLL), un framework di apprendimento contrastivo progettato per migliorare sia l'allineamento multi-etichetta che quello cross-granularità. MGLL sfrutta una supervisione strutturata multi-etichetta, integra descrizioni testuali attraverso le granularità e introduce una supervisione a etichette soft con vincoli point-wise per migliorare l'allineamento. MGLL utilizza la divergenza di Kullback-Leibler (KL) regolarizzata per garantire la coerenza cross-granularità mantenendo al contempo l'efficienza computazionale come modulo plug-and-play per i modelli visione-linguaggio. Pre-addestrato sui nostri dataset su larga scala a multi-granularità costruiti appositamente e valutato su multiple banche dati, MGLL supera altri metodi state-of-the-art nei task downstream. Il codice è disponibile all'indirizzo https://github.com/HUANGLIZI/MGLL.