HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

8 papers found

Medical SAM 2: Segmentazione di immagini mediche come video tramite il Segment Anything Model 2
Medical SAM 2: Segment medical images as video via Segment Anything Model 2

Aug 1

ByJiayuan Zhu, Yunli Qi, Junde Wu

In questo articolo, presentiamo Medical SAM 2 (MedSAM-2), un modello avanzato di segmentazione che utilizza il framework SAM 2 per affrontare sia compiti di segmentazione di immagini mediche 2D che 3D. Adottando la filosofia di considerare le immagini mediche come video, MedSAM-2 non solo si applica alle immagini mediche 3D, ma sblocca anche una nuova capacità di One-prompt Segmentation. Ciò consente agli utenti di fornire un prompt per una sola immagine o per un'immagine specifica mirata a un oggetto, dopodiché il modello può segmentare autonomamente lo stesso tipo di oggetto in tutte le immagini successive, indipendentemente dalle relazioni temporali tra le immagini. Abbiamo valutato MedSAM-2 su una varietà di modalità di imaging medico, inclusi organi addominali, dischi ottici, tumori cerebrali, noduli tiroidei e lesioni cutanee, confrontandolo con modelli all'avanguardia sia in contesti di segmentazione tradizionale che interattiva. I nostri risultati dimostrano che MedSAM-2 non solo supera i modelli esistenti in termini di prestazioni, ma mostra anche una generalizzazione superiore in una gamma di compiti di segmentazione di immagini mediche. Il nostro codice sarà rilasciato all'indirizzo: https://github.com/MedicineToken/Medical-SAM2.

POA: Pre-addestramento Unico per Modelli di Tutte le Dimensioni
POA: Pre-training Once for Models of All Sizes

Aug 2

ByYingying Zhang, Xin Guo, Jiangwei Lao, Lei Yu, Lixiang Ru, Jian Wang, Guo Ye, Huimei He, Jingdong Chen, Ming Yang

Il pre-training su larga scala in modalità self-supervised ha aperto la strada affinché un singolo modello di base possa gestire molteplici task visivi. La maggior parte delle metodologie di pre-training addestra un unico modello di una determinata dimensione alla volta. Tuttavia, i vari vincoli computazionali o di archiviazione negli scenari reali richiedono notevoli sforzi per sviluppare una serie di modelli di dimensioni diverse da distribuire. Pertanto, in questo studio, proponiamo un nuovo framework di training self-supervised a tre rami, denominato POA (Pre-training Once for All), per affrontare il problema sopra menzionato. Il nostro approccio introduce un innovativo ramo studente elastico in un moderno paradigma di self-distillation. Ad ogni passo di pre-training, campioniamo casualmente una sotto-rete dallo studente originale per formare lo studente elastico e addestriamo tutti i rami in modalità self-distilling. Una volta pre-addestrato, POA consente l'estrazione di modelli pre-addestrati di dimensioni diverse per task downstream. In modo notevole, lo studente elastico facilita il pre-training simultaneo di più modelli con dimensioni diverse, che funge anche come un ulteriore ensemble di modelli di varie dimensioni per migliorare l'apprendimento delle rappresentazioni. Esperimenti estensivi, tra cui k-nearest neighbors, valutazione lineare e test su più task downstream, dimostrano l'efficacia e i vantaggi del nostro POA. Raggiunge prestazioni all'avanguardia utilizzando backbones come ViT, Swin Transformer e ResNet, producendo circa un centinaio di modelli di dimensioni diverse attraverso una singola sessione di pre-training. Il codice è disponibile all'indirizzo: https://github.com/Qichuzyy/POA.

ReLiK: Recupera e Collega, Collegamento di Entità ed Estrazione di Relazioni Rapido e Preciso con un Budget Accademico
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget

Jul 31

ByRiccardo Orlando, Pere-Lluis Huguet-Cabot, Edoardo Barba, Roberto Navigli

Il Linking di Entità (Entity Linking, EL) e l'Estrazione di Relazioni (Relation Extraction, RE) sono compiti fondamentali nell'Elaborazione del Linguaggio Naturale, costituendo componenti critiche in un'ampia gamma di applicazioni. In questo articolo, proponiamo ReLiK, un'architettura Retriever-Reader per entrambi EL e RE, in cui, dato un testo in input, il modulo Retriever si occupa di identificare le entità o relazioni candidate che potenzialmente potrebbero apparire nel testo. Successivamente, il modulo Reader ha il compito di discernere le entità o relazioni pertinenti recuperate e stabilirne l'allineamento con i corrispondenti segmenti testuali. In particolare, introduciamo una rappresentazione innovativa dell'input che incorpora le entità o relazioni candidate insieme al testo, rendendo possibile collegare entità o estrarre relazioni in un unico passaggio in avanti e sfruttare appieno le capacità di contestualizzazione dei modelli linguistici pre-addestrati, a differenza dei precedenti metodi basati su Retriever-Reader, che richiedono un passaggio in avanti per ogni candidato. La nostra formulazione di EL e RE raggiunge prestazioni all'avanguardia sia nei benchmark in dominio che fuori dominio, utilizzando un addestramento con budget accademico e con una velocità di inferenza fino a 40 volte superiore rispetto ai concorrenti. Infine, dimostriamo come la nostra architettura possa essere utilizzata in modo fluido per l'Estrazione di Informazioni (cIE), ovvero EL + RE, stabilendo un nuovo stato dell'arte impiegando un Reader condiviso che estrae simultaneamente entità e relazioni.

TexGen: Generazione di Texture 3D Guidata da Testo con Campionamento Multi-vista e Ricampionamento
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

Aug 2

ByDong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang

Dato un mesh 3D, il nostro obiettivo è sintetizzare texture 3D che corrispondano a descrizioni testuali arbitrarie. I metodi attuali per generare e assemblare texture a partire da viste campionate spesso risultano in cuciture evidenti o in un eccessivo livellamento. Per affrontare questi problemi, presentiamo TexGen, un innovativo framework di campionamento e ricampionamento multi-vista per la generazione di texture che sfrutta un modello di diffusione testo-immagine pre-addestrato. Per un campionamento coerente tra le viste, manteniamo innanzitutto una mappa di texture nello spazio RGB, parametrizzata dal passo di denoising e aggiornata dopo ogni passo di campionamento del modello di diffusione, per ridurre progressivamente la discrepanza tra le viste. Una strategia di campionamento multi-vista guidata dall'attenzione viene sfruttata per diffondere le informazioni sull'aspetto tra le diverse viste. Per preservare i dettagli della texture, sviluppiamo una tecnica di ricampionamento del rumore che aiuta a stimare il rumore, generando input per i successivi passi di denoising, guidati dal prompt testuale e dalla mappa di texture corrente. Attraverso una vasta quantità di valutazioni qualitative e quantitative, dimostriamo che il nostro metodo proposto produce una qualità della texture significativamente migliore per oggetti 3D diversi, con un elevato grado di coerenza tra le viste e dettagli di aspetto ricchi, superando i metodi attuali all'avanguardia. Inoltre, la nostra tecnica di generazione di texture può essere applicata anche alla modifica delle texture preservando l'identità originale. Ulteriori risultati sperimentali sono disponibili all'indirizzo https://dong-huo.github.io/TexGen/.

MuChoMusic: Valutazione della comprensione musicale nei modelli multimodali audio-linguistici
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

Aug 2

ByBenno Weck, Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas, Dmitry Bogdanov

I modelli multimodali che elaborano congiuntamente audio e linguaggio offrono grandi potenzialità nella comprensione audio e stanno trovando un crescente impiego nel dominio musicale. Consentendo agli utenti di effettuare query tramite testo e ottenere informazioni su un determinato input audio, questi modelli hanno il potenziale di abilitare una varietà di attività di comprensione musicale attraverso interfacce basate sul linguaggio. Tuttavia, la loro valutazione presenta notevoli sfide, e non è ancora chiaro come valutare efficacemente la loro capacità di interpretare correttamente input legati alla musica con i metodi attuali. Motivati da ciò, introduciamo MuChoMusic, un benchmark per valutare la comprensione musicale nei modelli linguistici multimodali focalizzati sull'audio. MuChoMusic comprende 1.187 domande a scelta multipla, tutte validate da annotatori umani, su 644 brani musicali provenienti da due dataset musicali pubblicamente disponibili, e copre una vasta gamma di generi. Le domande nel benchmark sono progettate per valutare conoscenze e capacità di ragionamento attraverso diverse dimensioni che coprono concetti musicali fondamentali e la loro relazione con contesti culturali e funzionali. Attraverso l'analisi olistica offerta dal benchmark, valutiamo cinque modelli open-source e identifichiamo diverse criticità, tra cui un'eccessiva dipendenza dalla modalità linguistica, indicando la necessità di una migliore integrazione multimodale. Dati e codice sono resi disponibili in open source.

La selezione degli esempi in-context tramite ricerca di similarità migliora la traduzione automatica con risorse limitate
In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation

Aug 1

ByArmel Zebaze, Benoît Sagot, Rachel Bawden

La capacità dei modelli linguistici generativi su larga scala (LLM) di apprendere in contesto ha dato origine a un ampio corpus di ricerche su come ottimizzare il prompting di questi modelli per vari compiti di elaborazione del linguaggio naturale. In questo articolo, ci concentriamo sulla traduzione automatica (MT), un compito che ha dimostrato di trarre vantaggio da esempi di traduzione in contesto. Tuttavia, non sono stati pubblicati studi sistematici su come selezionare al meglio gli esempi, e sono stati riportati risultati contrastanti sull'utilità della selezione basata sulla similarità rispetto alla selezione casuale. Presentiamo uno studio che copre diversi LLM e diverse strategie di recupero di esempi in contesto, confrontando gli embedding di frasi multilingue. Esaminiamo diverse direzioni linguistiche, rappresentanti diversi livelli di risorse linguistiche (dall'inglese al francese, tedesco, swahili e wolof). Contrariamente ai risultati precedentemente pubblicati, scopriamo che la similarità degli embedding di frasi può migliorare la MT, specialmente per le direzioni linguistiche a bassa risorsa, e discutiamo il bilanciamento tra diversità e qualità del pool di selezione. Evidenziamo inoltre potenziali problemi nella valutazione della MT basata su LLM e suggeriamo un protocollo di valutazione più appropriato, adattando la metrica COMET alla valutazione degli LLM. Il codice e gli output sono liberamente disponibili all'indirizzo https://github.com/ArmelRandy/ICL-MT.

RelBench: Un Benchmark per l'Apprendimento Profondo su Database Relazionali
RelBench: A Benchmark for Deep Learning on Relational Databases

Jul 29

ByJoshua Robinson, Rishabh Ranjan, Weihua Hu, Kexin Huang, Jiaqi Han, Alejandro Dobles, Matthias Fey, Jan E. Lenssen, Yiwen Yuan, Zecheng Zhang, Xinwei He, Jure Leskovec

Presentiamo RelBench, un benchmark pubblico per risolvere task predittivi su database relazionali utilizzando reti neurali grafiche. RelBench fornisce database e task che coprono diversi domini e scale, e si propone come infrastruttura di base per la ricerca futura. Utilizziamo RelBench per condurre il primo studio completo sul Deep Learning Relazionale (RDL) (Fey et al., 2024), che combina modelli predittivi basati su reti neurali grafiche con modelli tabellari (deep) che estraggono rappresentazioni iniziali a livello di entità da tabelle grezze. I modelli RDL appresi end-to-end sfruttano appieno il segnale predittivo codificato nei collegamenti tra chiavi primarie ed esterne, segnando un significativo allontanamento dal paradigma dominante dell'ingegnerizzazione manuale delle feature combinata con modelli tabellari. Per valutare approfonditamente l'RDL rispetto a questo precedente standard di riferimento, conduciamo uno studio approfondito con utenti in cui un data scientist esperto ingegnerizza manualmente le feature per ciascun task. In questo studio, l'RDL apprende modelli migliori riducendo il lavoro umano necessario di oltre un ordine di grandezza. Ciò dimostra la potenza del deep learning per risolvere task predittivi su database relazionali, aprendo molte nuove opportunità di ricerca rese possibili da RelBench.

Misurare i Progressi nell'Apprendimento del Dizionario per l'Interpretabilità dei Modelli Linguistici attraverso Modelli di Giochi da Tavolo
Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models

Jul 31

ByAdam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks

Quali caratteristiche latenti sono codificate nelle rappresentazioni dei modelli linguistici (LM)? Recenti lavori sull'addestramento di autoencoder sparsi (SAE) per separare caratteristiche interpretabili nelle rappresentazioni dei LM hanno mostrato risultati promettenti. Tuttavia, valutare la qualità di questi SAE è difficile perché manca una raccolta di caratteristiche interpretabili di riferimento che ci aspettiamo che i buoni SAE riescano a recuperare. Proponiamo quindi di misurare i progressi nell'apprendimento di dizionari interpretabili lavorando in contesti di LM addestrati su trascrizioni di scacchi e Othello. Questi contesti offrono collezioni naturali di caratteristiche interpretabili — ad esempio, "c'è un cavallo in F3" — che sfruttiamo per creare metriche supervisionate per la qualità dei SAE. Per guidare i progressi nell'apprendimento di dizionari interpretabili, introduciamo una nuova tecnica di addestramento per SAE, il p-annealing, che migliora le prestazioni sia sulle metriche non supervisionate precedenti che sulle nostre nuove metriche.

TexGen: Generazione di Texture 3D Guidata da Testo con Campionamento Multi-vista e Ricampionamento
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

Aug 2

ByDong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang