Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Depth Anything 3 (DA3), un modello che predice una geometria spazialmente coerente da un numero arbitrario di input visivi, con o senza pose delle camere note. Nel perseguimento di una modellazione minimale, DA3 fornisce due intuizioni chiave: un singolo transformer semplice (ad esempio, un encoder DINO standard) è sufficiente come backbone senza specializzazioni architetturali, e un singolo obiettivo di predizione depth-ray (raggio di profondità) elimina la necessità di un complesso apprendimento multi-task. Attraverso il nostro paradigma di addestramento teacher-student, il modello raggiunge un livello di dettaglio e generalizzazione pari a Depth Anything 2 (DA2). Istituiamo un nuovo benchmark per la geometria visiva che copre la stima della posa della camera, la geometria da qualsiasi vista e il rendering visivo. Su questo benchmark, DA3 stabilisce un nuovo stato dell'arte in tutti i compiti, superando il precedente SOTA VGGT in media del 44,3% nell'accuratezza della stima della posa della camera e del 25,1% nell'accuratezza geometrica. Inoltre, supera DA2 nella stima della profondità monoculare. Tutti i modelli sono addestrati esclusivamente su dataset accademici pubblici.
Un modello mondiale consente a un agente intelligente di immaginare, prevedere e ragionare su come il mondo si evolve in risposta alle sue azioni, e di conseguenza pianificare e definire strategie. Sebbene i recenti modelli di generazione video producano sequenze visive realistiche, tipicamente operano in modalità prompt-to-full-video senza il controllo causale, l'interattività o la coerenza a lungo termine necessari per un ragionamento finalizzato. D'altro canto, gli attuali sforzi di modellazione mondiale si concentrano spesso su domini ristretti (ad es. dinamiche fisiche, di gioco o di scene 3D) con profondità e controllabilità limitate, e faticano a generalizzare attraverso ambienti e formati di interazione diversi. In questo lavoro, introduciamo PAN, un modello mondiale generale, interagibile e a lungo orizzonte che prevede gli stati futuri del mondo attraverso una simulazione video di alta qualità condizionata dalla cronologia storica e da azioni in linguaggio naturale. PAN impiega l'architettura Generative Latent Prediction (GLP) che combina un backbone di dinamica latente autoregressiva basato su un large language model (LLM), che ancorala simulazione a una vasta conoscenza testuale e permette il condizionamento su azioni specificate linguisticamente, con un decoder di diffusione video che ricostruisce osservazioni visive percettivamente dettagliate e temporalmente coerenti, per realizzare un'unificazione tra il ragionamento nello spazio latente (immaginazione) e le dinamiche mondiali realizzabili (realtà). Addestrato su coppie video-azione su larga scala che abbracciano domini diversi, PAN supporta una simulazione open-domain, condizionata all'azione, con dinamiche coerenti e a lungo termine. Esperimenti estensivi dimostrano che PAN raggiunge prestazioni solide nella simulazione mondiale condizionata all'azione, nella previsione a lungo orizzonte e nel ragionamento simulativo rispetto ad altri generatori video e modelli mondiali, compiendo un passo verso modelli mondiali generali che abilitano la simulazione predittiva degli stati futuri del mondo per il ragionamento e l'azione.
I modelli di diffusione faticano a scalare oltre le risoluzioni di addestramento, poiché il campionamento diretto ad alta risoluzione è lento e costoso, mentre la super-risoluzione delle immagini (ISR) post-hoc introduce artefatti e ulteriore latenza operando dopo la decodifica. Presentiamo il Latent Upscaler Adapter (LUA), un modulo leggero che esegue la super-risoluzione direttamente sul codice latente del generatore prima del passo finale di decodifica VAE. LUA si integra come componente plug-and-play, senza richiedere modifiche al modello base o ulteriori fasi di diffusione, e consente la sintesi ad alta risoluzione attraverso un singolo passaggio in avanti nello spazio latente. Un backbone condiviso in stile Swin con teste pixel-shuffle specifiche per scala supporta fattori di 2x e 4x e rimane compatibile con le baseline di SR nello spazio delle immagini, raggiungendo una qualità percettiva comparabile con un tempo di decodifica e upscaling quasi 3 volte inferiore (aggiungendo solo +0,42 s per la generazione di 1024 px da 512 px, rispetto a 1,87 s per la SR nello spazio dei pixel utilizzando la stessa architettura SwinIR). Inoltre, LUA mostra una forte generalizzazione attraverso gli spazi latenti di diversi VAE, rendendolo facile da implementare senza bisogno di riaddestramento da zero per ogni nuovo decodificatore. Esperimenti estensivi dimostrano che LUA si avvicina alla fedeltà della generazione nativa ad alta risoluzione, offrendo un percorso pratico ed efficiente per la sintesi di immagini scalabili e ad alta fedeltà nelle moderne pipeline di diffusione.
La distillazione in black-box crea modelli linguistici di grandi dimensioni (LLM) studente apprendendo esclusivamente dagli output testuali di un modello insegnante proprietario, senza accesso ai suoi logit interni o parametri. In questo lavoro, introduciamo la Distillazione Adversariale Generativa (GAD), che abilita una distillazione on-policy e in black-box. GAD inquadra lo studente LLM come generatore e addestra un discriminatore per distinguere le sue risposte da quelle dell'insegnante LLM, creando un gioco minimax. Il discriminatore funge da modello di ricompensa on-policy che co-evolve con lo studente, fornendo un feedback stabile e adattivo. I risultati sperimentali mostrano che GAD supera costantemente la comune distillazione della conoscenza a livello di sequenza. In particolare, Qwen2.5-14B-Instruct (studente) addestrato con GAD diventa comparabile al suo insegnante, GPT-5-Chat, nella valutazione automatica LMSYS-Chat. I risultati stabiliscono GAD come un paradigma promettente ed efficace per la distillazione di LLM in black-box.
Mentre i modelli di IA specializzati eccellono in compiti video isolati come la generazione o la comprensione, le applicazioni nel mondo reale richiedono flussi di lavoro complessi e iterativi che combinino queste capacità. Per colmare questa lacuna, presentiamo UniVA, un framework multi-agente open-source e onnicapace per generalisti video di prossima generazione che unisce comprensione, segmentazione, editing e generazione video in flussi di lavoro coerenti. UniVA impiega un'architettura duale Plan-and-Act che guida un flusso di lavoro altamente automatizzato e proattivo: un agente pianificatore interpreta le intenzioni dell'utente e le scompone in passaggi strutturati di elaborazione video, mentre agenti esecutori li realizzano attraverso server di strumenti modulari basati su MCP (per analisi, generazione, editing, tracking, ecc.). Attraverso una memoria gerarchica multi-livello (conoscenza globale, contesto del compito e preferenze specifiche dell'utente), UniVA sostiene un ragionamento a lungo termine, la continuità contestuale e la comunicazione inter-agente, abilitando una creazione video interattiva e autoriflessiva con piena tracciabilità. Questo design consente flussi di lavoro video iterativi e condizionati da qualsiasi input (ad es., generazione condizionata da testo/immagine/video → editing multi-round → segmentazione di oggetti → sintesi compositiva) che in precedenza erano difficili da realizzare con modelli a scopo singolo o modelli video-linguistici monolitici. Introduciamo anche UniVA-Bench, una suite di benchmark per compiti video multi-step che abbracciano comprensione, editing, segmentazione e generazione, per valutare rigorosamente tali sistemi video agentivi. Sia UniVA che UniVA-Bench sono completamente open-source, con l'obiettivo di catalizzare la ricerca sull'intelligenza video interattiva, agentiva e a scopo generale per la prossima generazione di sistemi di IA multimodale. (https://univa.online/)
Il Group Relative Policy Optimization (GRPO) ha dimostrato una grande utilità nel post-addestramento dei Large Language Model (LLM). Nel GRPO, i prompt vengono elaborati dal modello e, attraverso l'apprendimento per rinforzo, si apprendono i completamenti preferiti. Grazie al ridotto volume di comunicazione, il GRPO è intrinsecamente adatto per l'addestramento decentralizzato, poiché i prompt possono essere elaborati contemporaneamente da più nodi e poi scambiati sotto forma di stringhe. In questo lavoro, presentiamo il primo attacco avversario in un contesto di GRPO decentralizzato. Dimostriamo che parti maligne possono avvelenare tali sistemi iniettando token malevoli arbitrari in modelli benigni, sia tramite attacchi fuori contesto che in contesto. Utilizzando esempi empirici tratti da attività matematiche e di coding, mostriamo che gli attacchi avversari possono facilmente avvelenare i nodi benigni, inquinando il loro post-addestramento locale degli LLM, raggiungendo tassi di successo dell'attacco fino al 100% in appena 50 iterazioni. Proponiamo due metodi per difendersi da questi attacchi, a seconda che tutti gli utenti addestrino lo stesso modello o modelli diversi. Mostriamo che queste difese possono raggiungere tassi di blocco fino al 100%, rendendo l'attacco impossibile.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto progressi straordinari nel ragionamento, nell'acume e nell'uso di strumenti, ma concatenare queste abilità in processi estesi della scala di quelli eseguiti abitualmente da esseri umani, organizzazioni e società è rimasto finora irraggiungibile. I modelli presentano un tasso di errore persistente che ne impedisce la scalabilità: ad esempio, recenti esperimenti nel dominio di benchmark della Torre di Hanoi hanno mostrato che il processo inevitabilmente deraglia dopo al massimo poche centinaia di passi. Pertanto, sebbene la ricerca sugli LLM sia spesso ancora valutata su compiti con relativamente pochi passi logici dipendenti, sta crescendo l'attenzione sulla capacità (o incapacità) degli LLM di eseguire compiti a lungo raggio. Questo articolo descrive MAKER, il primo sistema che risolve con successo un compito con oltre un milione di passi di LLM senza errori e che, in linea di principio, scala ben oltre questo livello. L'approccio si basa su una scomposizione estrema di un compito in sottocompiti, ciascuno dei quali può essere affrontato da microagenti specializzati. L'elevato livello di modularità risultante dalla scomposizione consente di applicare la correzione degli errori a ogni passo attraverso uno schema di votazione multi-agente efficiente. Questa combinazione di scomposizione estrema e correzione degli errori rende possibile la scalabilità. I risultati suggeriscono quindi che, invece di fare affidamento sul miglioramento continuo degli LLM attuali, i processi agentivi massicciamente decomposti (MDAP) possano offrire un modo per risolvere efficientemente problemi a livello di organizzazioni e società.
I modelli linguistici di grandi dimensioni hanno compiuto progressi significativi in problemi complessi ma facili da verificare, ma continuano a lottare con la scoperta dell'ignoto. In questo articolo presentiamo AlphaResearch, un agente di ricerca autonomo progettato per scoprire nuovi algoritmi su problemi aperti. Per sinergizzare fattibilità e innovazione nel processo di scoperta, costruiamo un ambiente di ricerca duale innovativo combinando la verifica basata sull'esecuzione con un ambiente simulato di revisione paritaria del mondo reale. AlphaResearch scopre nuovi algoritmi eseguendo iterativamente i seguenti passi: (1) proporre nuove idee, (2) verificare le idee nell'ambiente di ricerca duale, (3) ottimizzare le proposte di ricerca per ottenere prestazioni migliori. Per promuovere un processo di valutazione trasparente, costruiamo AlphaResearchComp, un nuovo benchmark di valutazione che include una competizione su otto problemi algoritmici aperti, con ciascun problema accuratamente curato e verificato attraverso pipeline eseguibili, metriche oggettive e controlli di riproducibilità. AlphaResearch ottiene un tasso di vittoria del 2/8 in un confronto diretto con ricercatori umani, dimostrando la possibilità di accelerare la scoperta di algoritmi con i LLM. Notevolmente, l'algoritmo scoperto da AlphaResearch sul problema del "impacchettamento di cerchi" raggiunge le migliori prestazioni conosciute, superando i risultati dei ricercatori umani e i forti baseline di lavori recenti (ad esempio, AlphaEvolve). Inoltre, conduciamo un'analisi completa delle sfide rimanenti nei 6/8 casi di fallimento, fornendo spunti preziosi per la ricerca futura.
I grandi modelli linguistici (LLM) vengono sempre più addestrati con tecniche di ottimizzazione classiche come AdamW per migliorare la convergenza e la generalizzazione. Tuttavia, i meccanismi attraverso i quali i metodi di ispirazione quantistica potenziano l'addestramento classico rimangono poco esplorati. Introduciamo la Discesa del Gradiente in Superposizione (SGD), un nuovo ottimizzatore che collega gli aggiornamenti del gradiente con la sovrapposizione quantistica mediante l'iniezione di perturbazioni da circuiti quantistici. Presentiamo un framework matematico e implementiamo circuiti ibridi quantistico-classici in PyTorch e Qiskit. Su compiti di classificazione di sequenze sintetiche e di fine-tuning su larga scala di LLM, SGD converge più rapidamente e produce una loss finale inferiore rispetto ad AdamW. Nonostante i risultati promettenti, la scalabilità e i vincoli hardware ne limitano l'adozione. Nel complesso, questo lavoro fornisce nuove intuizioni sull'intersezione tra calcolo quantistico e apprendimento profondo, suggerendo percorsi pratici per sfruttare i principi quantistici per controllare e migliorare il comportamento del modello.
Introduciamo Music Flamingo, un nuovo e innovativo modello audio-linguistico di grandi dimensioni progettato per far progredire la comprensione della musica (inclusa la canzone) nei modelli audio fondazionali. Sebbene la ricerca audio-linguistica abbia compiuto rapidi progressi, la musica rimane una sfida a causa della sua natura dinamica, stratificata e densa di informazioni. I progressi sono stati ulteriormente limitati dalla difficoltà di scalare modelli aperti di comprensione audio, principalmente a causa della scarsità di dati e annotazioni musicali di alta qualità. Di conseguenza, i modelli precedenti sono limitati alla produzione di didascalie brevi e di alto livello, rispondono solo a domande superficiali e mostrano una limitata generalizzazione tra diverse culture musicali. Per affrontare queste sfide, abbiamo curato MF-Skills, un dataset su larga scala etichettato attraverso una pipeline multi-stadio che produce ricche didascalie e coppie domanda-risposta che coprono armonia, struttura, timbro, testo e contesto culturale. Addestriamo per transfer learning (fine-tuning) un'architettura potenziata di Audio Flamingo 3 su MF-Skills e rafforziamo ulteriormente molteplici abilità rilevanti per la comprensione musicale. Per migliorare le capacità di ragionamento del modello, introduciamo una ricetta di post-addestramento: iniziamo con un "cold-start" su MF-Think, un nuovo dataset a catena di pensiero (chain-of-thought) basato sulla teoria musicale, seguito da un apprendimento per rinforzo basato su GRPO con ricompense personalizzate. Music Flamingo ottiene risultati all'avanguardia su oltre 10 benchmark per la comprensione e il ragionamento musicale, affermandosi come un modello audio-linguistico generalista e musicalmente intelligente. Oltre a forti risultati empirici, Music Flamingo stabilisce un nuovo standard per la comprensione musicale avanzata, dimostrando come i modelli possano passare dal riconoscimento superficiale a una percezione stratificata e simile a quella umana delle canzoni. Riteniamo che questo lavoro fornisca sia un punto di riferimento che una base affinché la comunità possa costruire la prossima generazione di modelli in grado di interagire con la musica in modo significativo come fanno gli esseri umani.
Deep Research (DR) è un'applicazione agente emergente che sfrutta i grandi modelli linguistici (LLM) per affrontare query a risposta aperta. Richiede l'integrazione di diverse capacità, tra cui il ragionamento multi-step, la sintesi cross-documentale e la generazione di risposte lunghe e supportate da evidenze. La valutazione del DR rimane complessa poiché le risposte sono lunghe e diversificate, ammettono molte soluzioni valide e spesso dipendono da fonti informative dinamiche. Introduciamo ResearchRubrics, un benchmark standardizzato per il DR, costruito con oltre 2.800+ ore di lavoro umano, che abbina prompt realistici e diversificati per dominio a 2.500+ rubriche dettagliate scritte da esperti per valutare il fondamento fattuale, la solidità del ragionamento e la chiarezza. Proponiamo inoltre un nuovo framework di complessità per categorizzare i compiti di DR lungo tre assi: ampiezza concettuale, annidamento logico ed esplorazione. In aggiunta, sviluppiamo protocolli di valutazione umani e basati su modelli che misurano l'aderenza alle rubriche per gli agenti di DR. Valutiamo diversi sistemi di DR all'avanguardia e riscontriamo che anche agenti leader come il DR di Gemini e il DR di OpenAI raggiungono una conformità media inferiore al 68% con le nostre rubriche, principalmente a causa della mancata considerazione del contesto implicito e di un ragionamento inadeguato sulle informazioni recuperate. I nostri risultati evidenziano la necessità di una valutazione robusta e scalabile delle capacità di deep research, e a tal fine rilasciamo ResearchRubrics (inclusi tutti i prompt, le rubriche e il codice di valutazione) per facilitare il progresso verso assistenti alla ricerca ben giustificati.
I modelli di editing basati su istruzioni hanno recentemente ottenuto prestazioni impressionanti, consentendo modifiche complesse a un'immagine di input a partire da un prompt multi-istruzione. Tuttavia, questi modelli applicano ciascuna istruzione nel prompt con un'intensità fissa, limitando la capacità dell'utente di controllare con precisione e in modo continuo l'intensità delle singole modifiche. Introduciamo SliderEdit, un framework per l'editing continuo di immagini con un controllo istruzionale fine e interpretabile. Dato un prompt di modifica multi-parte, SliderEdit separa le singole istruzioni e le espone ciascuna come uno slider addestrato globalmente, consentendo una regolazione fluida della sua intensità. A differenza dei lavori precedenti che hanno introdotto controlli basati su slider per attributi nella generazione di immagini da testo, che tipicamente richiedono un addestramento o un fine-tuning separato per ogni attributo o concetto, il nostro metodo apprende un unico insieme di matrici di adattamento low-rank che generalizzano su diverse modifiche, attributi e istruzioni compositive. Ciò consente un'interpolazione continua lungo le singole dimensioni di modifica preservando sia la località spaziale che la coerenza semantica globale. Applichiamo SliderEdit a modelli di editing di immagini all'avanguardia, inclusi FLUX-Kontext e Qwen-Image-Edit, e osserviamo miglioramenti sostanziali nella controllabilità dell'editing, nella coerenza visiva e nella guidabilità da parte dell'utente. Per quanto a nostra conoscenza, siamo i primi a esplorare e proporre un framework per il controllo istruzionale continuo e di grana fine nei modelli di editing basati su istruzioni. I nostri risultati aprono la strada a una manipolazione interattiva delle immagini guidata da istruzioni con controllo continuo e compositivo.
Una collaborazione efficace tra umani e agenti in ambienti fisici richiede la comprensione non solo di quali elementi agire, ma anche della loro posizione e delle modalità di interazione. Gli approcci esistenti operano spesso a livello di oggetto o gestiscono in modo disgiunto il ragionamento sulle affordance a grana fine, mancando di un grounding e un ragionamento coerenti e guidati dalle istruzioni. In questo lavoro, introduciamo un nuovo compito: il Ragionamento Embodied a Grana Fine in 3D, che richiede a un agente di prevedere, per ogni elemento di affordance referenziato in una scena 3D, una tripletta strutturata comprendente la sua posizione spaziale, il tipo di movimento e l'asse del movimento, sulla base di un'istruzione di compito. Per risolvere questo compito, proponiamo AffordBot, un framework innovativo che integra Modelli Linguistici Multimodali di Grande Dimensione (MLLM) con un paradigma di ragionamento a catena del pensiero (CoT) appositamente studiato. Per colmare il divario tra l'input 3D e gli MLLM compatibili con il 2D, renderizziamo immagini a vista panoramica della scena e proiettiamo i candidati elementi 3D in queste viste, formando una ricca rappresentazione visiva allineata con la geometria della scena. La nostra pipeline CoT inizia con una fase di percezione attiva, sollecitando l'MLLM a selezionare il punto di vista più informativo in base all'istruzione, per poi procedere con un ragionamento passo-passo per localizzare gli elementi di affordance e inferire movimenti di interazione plausibili. Valutato sul dataset SceneFun3D, AffordBot raggiunge prestazioni allo stato dell'arte, dimostrando una forte generalizzazione e un ragionamento fisicamente fondato utilizzando solo nuvole di punti 3D in input e MLLM.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno portato a prestazioni impressionanti in una serie di compiti, tuttavia, la capacità avanzata di seguire istruzioni (IF) – specialmente per istruzioni complesse, multi-turno e guidate da prompt di sistema – rimane una sfida significativa. Una valutazione rigorosa e un addestramento efficace per tali capacità sono ostacolati dalla mancanza di benchmark di alta qualità, annotati da esseri umani, e di segnali di ricompensa affidabili e interpretabili. In questo lavoro, introduciamo AdvancedIF (renderemo presto pubblico questo benchmark), un benchmark completo che presenta oltre 1.600 prompt e rubriche curate da esperti che valutano la capacità degli LLM di seguire istruzioni complesse, multi-turno e a livello di sistema. Proponiamo inoltre RIFL (Rubric-based Instruction-Following Learning), una nuova pipeline di post-training che sfrutta la generazione di rubriche, un verificatore di rubriche raffinato e il reward shaping per abilitare un efficace apprendimento per rinforzo per il seguire le istruzioni. Esperimenti estensivi dimostrano che RIFL migliora sostanzialmente le capacità di seguire le istruzioni degli LLM, ottenendo un guadagno assoluto del 6.7% su AdvancedIF e risultati solidi su benchmark pubblici. I nostri studi di ablazione confermano l'efficacia di ogni componente in RIFL. Questo lavoro stabilisce le rubriche come uno strumento potente sia per l'addestramento che per la valutazione dell'IF avanzato negli LLM, aprendo la strada a sistemi di IA più capaci e affidabili.
Nonostante i progressi nella qualità generativa, gli attuali modelli testo-immagine (T2I) spesso mancano di diversità, producendo output omogenei. Questo lavoro introduce un framework per affrontare l'esigenza di una valutazione robusta della diversità nei modelli T2I. Il nostro framework valuta sistematicamente la diversità analizzando singoli concetti e i loro relativi fattori di variazione. I contributi chiave includono: (1) un modello innovativo per la valutazione umana della diversità di sfumature; (2) un set di prompt selezionati che copre concetti diversificati con i loro fattori di variazione identificati (es. prompt: Un'immagine di una mela, fattore di variazione: colore); e (3) una metodologia per confrontare i modelli mediante annotazioni umane tramite test binomiali. Inoltre, confrontiamo rigorosamente vari embedding d'immagine per la misurazione della diversità. Significativamente, il nostro approccio metodologico consente di classificare i modelli T2I per diversità, identificando le categorie in cui essi incontrano particolari difficoltà. Questa ricerca offre una metodologia solida e insight significativi, aprendo la strada a miglioramenti nella diversità dei modelli T2I e nello sviluppo di metriche.
La capacità critica è fondamentale affinché i modelli possano auto-migliorarsi e fungere da assistenti IA affidabili. Sebbene ampiamente studiata in contesti puramente linguistici, la critica multimodale dei Large Multimodal Models (LMM) rimane poco esplorata nonostante le loro crescenti capacità in compiti come la descrizione di immagini e il ragionamento visivo. In questo lavoro, presentiamo MM-CRITIC, un benchmark olistico per valutare la capacità critica degli LMM lungo molteplici dimensioni: critica di base, correttiva e comparativa. Coprendo 8 tipologie principali di compiti e oltre 500 attività, MM-CRITIC raccoglie risposte da vari LMM con diverse dimensioni di modello ed è composto da 4471 campioni. Per aumentare l'affidabilità della valutazione, integriamo risposte di riferimento informate da esperti in griglie di valutazione che guidano GPT-4o nell'annotare le risposte e generare critiche di riferimento, le quali fungono da ancoraggi per giudizi affidabili. Esperimenti estensivi convalidano l'efficacia di MM-CRITIC e forniscono una valutazione completa delle capacità critiche dei principali LMM sotto molteplici dimensioni. Ulteriori analisi rivelano alcune intuizioni chiave, inclusa la correlazione tra qualità della risposta e critica, e la difficoltà critica variabile tra le diverse dimensioni di valutazione. Il nostro codice è disponibile all'indirizzo https://github.com/MichealZeng0420/MM-Critic.
I sentimenti riguardanti la riproducibilità dei paper citati nella letteratura downstream offrono prospettive comunitarie e si sono dimostrati un segnale promettente dell'effettiva riproducibilità dei risultati pubblicati. Per addestrare modelli efficaci a prevedere tali sentimenti orientati alla riproducibilità e studiare sistematicamente la loro correlazione con la riproducibilità stessa, presentiamo il dataset CC30k, che comprende un totale di 30.734 contesti di citazione tratti da articoli di machine learning. Ogni contesto di citazione è etichettato con uno di tre sentimenti orientati alla riproducibilità: Positivo, Negativo o Neutro, riflettendo la riproducibilità o replicabilità percepita del lavoro citato. Di questi, 25.829 sono etichettati tramite crowdsourcing, integrati da esempi negativi generati attraverso una pipeline controllata per contrastare la scarsità di etichette negative. A differenza dei tradizionali dataset per l'analisi del sentimento, CC30k si concentra sui sentimenti legati alla riproducibilità, colmando una lacuna di ricerca nelle risorse per gli studi computazionali sulla riproducibilità. Il dataset è stato creato attraverso una pipeline che include una robusta pulizia dei dati, un'attenta selezione dei crowdworker e una validazione approfondita. Il dataset risultante raggiunge un'accuratezza di etichettatura del 94%. Abbiamo quindi dimostrato che le prestazioni di tre grandi modelli linguistici migliorano significativamente nella classificazione del sentimento orientato alla riproducibilità dopo un fine-tuning utilizzando il nostro dataset. Il dataset getta le basi per valutazioni su larga scala della riproducibilità degli articoli di machine learning. Il dataset CC30k e i notebook Jupyter utilizzati per produrre e analizzare il dataset sono disponibili pubblicamente all'indirizzo https://github.com/lamps-lab/CC30k.
I metodi di classificazione (AC) e segmentazione (AS) delle anomalie zero-shot mirano a identificare e delineare i difetti senza utilizzare alcun campione etichettato. In questo articolo, riveliamo una proprietà chiave trascurata dai metodi esistenti: i patch di immagini normali attraverso i prodotti industriali tipicamente trovano molti altri patch simili, non solo nell'aspetto 2D ma anche nelle forme 3D, mentre le anomalie rimangono diverse e isolate. Per sfruttare esplicitamente questa proprietà discriminativa, proponiamo un framework di Mutual Scoring (MuSc-V2) per AC/AS zero-shot, che supporta flessibilmente singole modalità 2D/3D o multimodalità. Nello specifico, il nostro metodo inizia migliorando la rappresentazione 3D attraverso l'Iterative Point Grouping (IPG), che riduce i falsi positivi da superfici discontinue. Quindi utilizziamo la Similarity Neighborhood Aggregation with Multi-Degrees (SNAMD) per fondere gli indizi di vicinato 2D/3D in feature di patch multi-scala più discriminative per il punteggio reciproco. Il nucleo comprende un Mutual Scoring Mechanism (MSM) che permette ai campioni all'interno di ciascuna modalità di assegnare un punteggio l'un l'altro, e una Cross-modal Anomaly Enhancement (CAE) che fonde i punteggi 2D e 3D per recuperare le anomalie mancanti specifiche della modalità. Infine, il Re-scoring with Constrained Neighborhood (RsCon) sopprime le false classificazioni basate sulla somiglianza con campioni più rappresentativi. Il nostro framework funziona flessibilmente sia sul dataset completo che su sottoinsiemi più piccoli con prestazioni costantemente robuste, garantendo una adattabilità senza soluzione di continuità attraverso diverse linee di prodotto. Grazie al nuovo framework, MuSc-V2 raggiunge miglioramenti prestazionali significativi: un guadagno di +23.7% AP sul dataset MVTec 3D-AD e un incremento di +19.3% sul dataset Eyecandies, superando i precedenti benchmark zero-shot e superando persino la maggior parte dei metodi few-shot. Il codice sarà disponibile su https://github.com/HUST-SLOW/MuSc-V2.