Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, presentiamo Medical SAM 2 (MedSAM-2), un modello avanzato di segmentazione che utilizza il framework SAM 2 per affrontare sia compiti di segmentazione di immagini mediche 2D che 3D. Adottando la filosofia di considerare le immagini mediche come video, MedSAM-2 non solo si applica alle immagini mediche 3D, ma sblocca anche una nuova capacità di One-prompt Segmentation. Ciò consente agli utenti di fornire un prompt per una sola immagine o per un'immagine specifica mirata a un oggetto, dopodiché il modello può segmentare autonomamente lo stesso tipo di oggetto in tutte le immagini successive, indipendentemente dalle relazioni temporali tra le immagini. Abbiamo valutato MedSAM-2 su una varietà di modalità di imaging medico, inclusi organi addominali, dischi ottici, tumori cerebrali, noduli tiroidei e lesioni cutanee, confrontandolo con modelli all'avanguardia sia in contesti di segmentazione tradizionale che interattiva. I nostri risultati dimostrano che MedSAM-2 non solo supera i modelli esistenti in termini di prestazioni, ma mostra anche una generalizzazione superiore in una gamma di compiti di segmentazione di immagini mediche. Il nostro codice sarà rilasciato all'indirizzo: https://github.com/MedicineToken/Medical-SAM2.
Il pre-training su larga scala in modalità self-supervised ha aperto la strada affinché un singolo modello di base possa gestire molteplici task visivi. La maggior parte delle metodologie di pre-training addestra un unico modello di una determinata dimensione alla volta. Tuttavia, i vari vincoli computazionali o di archiviazione negli scenari reali richiedono notevoli sforzi per sviluppare una serie di modelli di dimensioni diverse da distribuire. Pertanto, in questo studio, proponiamo un nuovo framework di training self-supervised a tre rami, denominato POA (Pre-training Once for All), per affrontare il problema sopra menzionato. Il nostro approccio introduce un innovativo ramo studente elastico in un moderno paradigma di self-distillation. Ad ogni passo di pre-training, campioniamo casualmente una sotto-rete dallo studente originale per formare lo studente elastico e addestriamo tutti i rami in modalità self-distilling. Una volta pre-addestrato, POA consente l'estrazione di modelli pre-addestrati di dimensioni diverse per task downstream. In modo notevole, lo studente elastico facilita il pre-training simultaneo di più modelli con dimensioni diverse, che funge anche come un ulteriore ensemble di modelli di varie dimensioni per migliorare l'apprendimento delle rappresentazioni. Esperimenti estensivi, tra cui k-nearest neighbors, valutazione lineare e test su più task downstream, dimostrano l'efficacia e i vantaggi del nostro POA. Raggiunge prestazioni all'avanguardia utilizzando backbones come ViT, Swin Transformer e ResNet, producendo circa un centinaio di modelli di dimensioni diverse attraverso una singola sessione di pre-training. Il codice è disponibile all'indirizzo: https://github.com/Qichuzyy/POA.
Il Linking di Entità (Entity Linking, EL) e l'Estrazione di Relazioni (Relation Extraction, RE) sono compiti fondamentali nell'Elaborazione del Linguaggio Naturale, costituendo componenti critiche in un'ampia gamma di applicazioni. In questo articolo, proponiamo ReLiK, un'architettura Retriever-Reader per entrambi EL e RE, in cui, dato un testo in input, il modulo Retriever si occupa di identificare le entità o relazioni candidate che potenzialmente potrebbero apparire nel testo. Successivamente, il modulo Reader ha il compito di discernere le entità o relazioni pertinenti recuperate e stabilirne l'allineamento con i corrispondenti segmenti testuali. In particolare, introduciamo una rappresentazione innovativa dell'input che incorpora le entità o relazioni candidate insieme al testo, rendendo possibile collegare entità o estrarre relazioni in un unico passaggio in avanti e sfruttare appieno le capacità di contestualizzazione dei modelli linguistici pre-addestrati, a differenza dei precedenti metodi basati su Retriever-Reader, che richiedono un passaggio in avanti per ogni candidato. La nostra formulazione di EL e RE raggiunge prestazioni all'avanguardia sia nei benchmark in dominio che fuori dominio, utilizzando un addestramento con budget accademico e con una velocità di inferenza fino a 40 volte superiore rispetto ai concorrenti. Infine, dimostriamo come la nostra architettura possa essere utilizzata in modo fluido per l'Estrazione di Informazioni (cIE), ovvero EL + RE, stabilendo un nuovo stato dell'arte impiegando un Reader condiviso che estrae simultaneamente entità e relazioni.
Dato un mesh 3D, il nostro obiettivo è sintetizzare texture 3D che corrispondano a descrizioni testuali arbitrarie. I metodi attuali per generare e assemblare texture a partire da viste campionate spesso risultano in cuciture evidenti o in un eccessivo livellamento. Per affrontare questi problemi, presentiamo TexGen, un innovativo framework di campionamento e ricampionamento multi-vista per la generazione di texture che sfrutta un modello di diffusione testo-immagine pre-addestrato. Per un campionamento coerente tra le viste, manteniamo innanzitutto una mappa di texture nello spazio RGB, parametrizzata dal passo di denoising e aggiornata dopo ogni passo di campionamento del modello di diffusione, per ridurre progressivamente la discrepanza tra le viste. Una strategia di campionamento multi-vista guidata dall'attenzione viene sfruttata per diffondere le informazioni sull'aspetto tra le diverse viste. Per preservare i dettagli della texture, sviluppiamo una tecnica di ricampionamento del rumore che aiuta a stimare il rumore, generando input per i successivi passi di denoising, guidati dal prompt testuale e dalla mappa di texture corrente. Attraverso una vasta quantità di valutazioni qualitative e quantitative, dimostriamo che il nostro metodo proposto produce una qualità della texture significativamente migliore per oggetti 3D diversi, con un elevato grado di coerenza tra le viste e dettagli di aspetto ricchi, superando i metodi attuali all'avanguardia. Inoltre, la nostra tecnica di generazione di texture può essere applicata anche alla modifica delle texture preservando l'identità originale. Ulteriori risultati sperimentali sono disponibili all'indirizzo https://dong-huo.github.io/TexGen/.
I modelli multimodali che elaborano congiuntamente audio e linguaggio offrono grandi potenzialità nella comprensione audio e stanno trovando un crescente impiego nel dominio musicale. Consentendo agli utenti di effettuare query tramite testo e ottenere informazioni su un determinato input audio, questi modelli hanno il potenziale di abilitare una varietà di attività di comprensione musicale attraverso interfacce basate sul linguaggio. Tuttavia, la loro valutazione presenta notevoli sfide, e non è ancora chiaro come valutare efficacemente la loro capacità di interpretare correttamente input legati alla musica con i metodi attuali. Motivati da ciò, introduciamo MuChoMusic, un benchmark per valutare la comprensione musicale nei modelli linguistici multimodali focalizzati sull'audio. MuChoMusic comprende 1.187 domande a scelta multipla, tutte validate da annotatori umani, su 644 brani musicali provenienti da due dataset musicali pubblicamente disponibili, e copre una vasta gamma di generi. Le domande nel benchmark sono progettate per valutare conoscenze e capacità di ragionamento attraverso diverse dimensioni che coprono concetti musicali fondamentali e la loro relazione con contesti culturali e funzionali. Attraverso l'analisi olistica offerta dal benchmark, valutiamo cinque modelli open-source e identifichiamo diverse criticità, tra cui un'eccessiva dipendenza dalla modalità linguistica, indicando la necessità di una migliore integrazione multimodale. Dati e codice sono resi disponibili in open source.
La capacità dei modelli linguistici generativi su larga scala (LLM) di apprendere in contesto ha dato origine a un ampio corpus di ricerche su come ottimizzare il prompting di questi modelli per vari compiti di elaborazione del linguaggio naturale. In questo articolo, ci concentriamo sulla traduzione automatica (MT), un compito che ha dimostrato di trarre vantaggio da esempi di traduzione in contesto. Tuttavia, non sono stati pubblicati studi sistematici su come selezionare al meglio gli esempi, e sono stati riportati risultati contrastanti sull'utilità della selezione basata sulla similarità rispetto alla selezione casuale. Presentiamo uno studio che copre diversi LLM e diverse strategie di recupero di esempi in contesto, confrontando gli embedding di frasi multilingue. Esaminiamo diverse direzioni linguistiche, rappresentanti diversi livelli di risorse linguistiche (dall'inglese al francese, tedesco, swahili e wolof). Contrariamente ai risultati precedentemente pubblicati, scopriamo che la similarità degli embedding di frasi può migliorare la MT, specialmente per le direzioni linguistiche a bassa risorsa, e discutiamo il bilanciamento tra diversità e qualità del pool di selezione. Evidenziamo inoltre potenziali problemi nella valutazione della MT basata su LLM e suggeriamo un protocollo di valutazione più appropriato, adattando la metrica COMET alla valutazione degli LLM. Il codice e gli output sono liberamente disponibili all'indirizzo https://github.com/ArmelRandy/ICL-MT.
Presentiamo RelBench, un benchmark pubblico per risolvere task predittivi su database relazionali utilizzando reti neurali grafiche. RelBench fornisce database e task che coprono diversi domini e scale, e si propone come infrastruttura di base per la ricerca futura. Utilizziamo RelBench per condurre il primo studio completo sul Deep Learning Relazionale (RDL) (Fey et al., 2024), che combina modelli predittivi basati su reti neurali grafiche con modelli tabellari (deep) che estraggono rappresentazioni iniziali a livello di entità da tabelle grezze. I modelli RDL appresi end-to-end sfruttano appieno il segnale predittivo codificato nei collegamenti tra chiavi primarie ed esterne, segnando un significativo allontanamento dal paradigma dominante dell'ingegnerizzazione manuale delle feature combinata con modelli tabellari. Per valutare approfonditamente l'RDL rispetto a questo precedente standard di riferimento, conduciamo uno studio approfondito con utenti in cui un data scientist esperto ingegnerizza manualmente le feature per ciascun task. In questo studio, l'RDL apprende modelli migliori riducendo il lavoro umano necessario di oltre un ordine di grandezza. Ciò dimostra la potenza del deep learning per risolvere task predittivi su database relazionali, aprendo molte nuove opportunità di ricerca rese possibili da RelBench.
Quali caratteristiche latenti sono codificate nelle rappresentazioni dei modelli linguistici (LM)? Recenti lavori sull'addestramento di autoencoder sparsi (SAE) per separare caratteristiche interpretabili nelle rappresentazioni dei LM hanno mostrato risultati promettenti. Tuttavia, valutare la qualità di questi SAE è difficile perché manca una raccolta di caratteristiche interpretabili di riferimento che ci aspettiamo che i buoni SAE riescano a recuperare. Proponiamo quindi di misurare i progressi nell'apprendimento di dizionari interpretabili lavorando in contesti di LM addestrati su trascrizioni di scacchi e Othello. Questi contesti offrono collezioni naturali di caratteristiche interpretabili — ad esempio, "c'è un cavallo in F3" — che sfruttiamo per creare metriche supervisionate per la qualità dei SAE. Per guidare i progressi nell'apprendimento di dizionari interpretabili, introduciamo una nuova tecnica di addestramento per SAE, il p-annealing, che migliora le prestazioni sia sulle metriche non supervisionate precedenti che sulle nostre nuove metriche.