Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il ragionamento visivo è un componente fondamentale dell'intelligenza umana e una capacità critica per i modelli multimodali avanzati. Tuttavia, le attuali valutazioni del ragionamento nei modelli linguistici multimodali di grandi dimensioni (MLLMs) si basano spesso su descrizioni testuali e consentono scorciatoie di ragionamento basate sul linguaggio, fallendo nel misurare un autentico ragionamento centrato sulla visione. Per affrontare questo problema, introduciamo VisuLogic: un benchmark di 1.000 problemi verificati da esseri umani, suddivisi in sei categorie (ad esempio, spostamenti quantitativi, relazioni spaziali, confronti di attributi). Questi vari tipi di domande possono essere valutati per testare le capacità di ragionamento visivo degli MLLMs da molteplici prospettive. Valutiamo i principali MLLMs su questo benchmark e analizziamo i loro risultati per identificare le modalità di errore più comuni. La maggior parte dei modelli ottiene un'accuratezza inferiore al 30%, solo leggermente superiore al 25% del caso casuale e ben al di sotto del 51,4% raggiunto dagli esseri umani, rivelando significative lacune nel ragionamento visivo. Inoltre, forniamo un dataset di addestramento supplementare e una baseline di apprendimento per rinforzo per supportare ulteriori progressi.
Con quale rapporto costo-efficacia è possibile ottenere capacità di ragionamento avanzate nei modelli linguistici? Spinti da questa domanda fondamentale, presentiamo Tina, una famiglia di piccoli modelli di ragionamento realizzati con un'elevata efficienza in termini di costi. In particolare, Tina dimostra che è possibile sviluppare prestazioni di ragionamento significative utilizzando solo risorse minime, applicando aggiornamenti efficienti in termini di parametri durante l'apprendimento per rinforzo (RL), utilizzando l'adattamento a basso rango (LoRA), su un modello base già piccolo di 1,5 miliardi di parametri. Questo approccio minimalista produce modelli che raggiungono prestazioni di ragionamento competitive e talvolta superiori ai modelli RL SOTA costruiti sullo stesso modello base. Questo risultato è ottenuto a una frazione minima del costo computazionale post-addestramento impiegato dai modelli SOTA esistenti. Infatti, il miglior modello Tina ottiene un aumento delle prestazioni di ragionamento superiore al 20% e un'accuratezza Pass@1 del 43,33% su AIME24, con un costo post-addestramento e valutazione di soli \$9 USD (ovvero una riduzione stimata dei costi di 260 volte). Il nostro lavoro rivela la sorprendente efficacia del ragionamento RL efficiente tramite LoRA. Validiamo questo risultato su più dataset di ragionamento open-source e in varie configurazioni di ablazione partendo da un singolo set fisso di iperparametri. Inoltre, ipotizziamo che questa efficacia ed efficienza derivino dalla capacità di LoRA di adattare rapidamente il modello al formato strutturale del ragionamento premiato dall'RL, preservando in gran parte la conoscenza sottostante del modello base. Al fine di promuovere l'accessibilità e la ricerca aperta, rendiamo completamente open-source tutto il codice, i log di addestramento e i pesi & checkpoint dei modelli.
In questo articolo presentiamo DreamID, un modello di face swapping basato su diffusione che raggiunge elevati livelli di somiglianza dell'identità, conservazione degli attributi, fedeltà dell'immagine e velocità di inferenza. A differenza del tipico processo di addestramento per il face swapping, che spesso si affida a supervisione implicita e fatica a ottenere risultati soddisfacenti, DreamID stabilisce una supervisione esplicita per il face swapping costruendo dati di Triplet ID Group, migliorando significativamente la somiglianza dell'identità e la conservazione degli attributi. La natura iterativa dei modelli di diffusione pone sfide per l'utilizzo di funzioni di perdita efficienti nello spazio delle immagini, poiché eseguire un campionamento multi-step dispendioso in termini di tempo per ottenere l'immagine generata durante l'addestramento è impraticabile. Per affrontare questo problema, sfruttiamo il modello di diffusione accelerato SD Turbo, riducendo i passi di inferenza a una singola iterazione, consentendo un addestramento end-to-end efficiente a livello di pixel con supervisione esplicita del Triplet ID Group. Inoltre, proponiamo un'architettura di modello basata su diffusione migliorata, composta da SwapNet, FaceNet e ID Adapter. Questa architettura robusta sblocca appieno il potenziale della supervisione esplicita del Triplet ID Group. Infine, per estendere ulteriormente il nostro metodo, modifichiamo esplicitamente i dati del Triplet ID Group durante l'addestramento per affinare e preservare attributi specifici, come occhiali e forma del viso. Esperimenti estensivi dimostrano che DreamID supera i metodi all'avanguardia in termini di somiglianza dell'identità, conservazione di pose ed espressioni, e fedeltà dell'immagine. Nel complesso, DreamID raggiunge risultati di face swapping di alta qualità a una risoluzione di 512*512 in soli 0,6 secondi e si comporta eccezionalmente bene in scenari complessi come illuminazione intricata, angoli ampi e occlusioni.
Presentiamo Trillion-7B, il modello linguistico multilingue centrato sul coreano più efficiente in termini di token disponibile. Il nostro innovativo meccanismo di Cross-lingual Document Attention (XLDA) consente un trasferimento di conoscenze altamente efficiente ed efficace dall'inglese a lingue target come il coreano e il giapponese. Combinato con miscele di dati ottimizzate, filtraggio specifico per lingua e costruzione di tokenizer su misura, Trillion-7B raggiunge prestazioni competitive dedicando solo il 10\% dei suoi 2T token di addestramento a dati multilingue e richiedendo appena 59.4K ore di GPU H100 (\$148K) per l'addestramento completo. Valutazioni approfondite su 27 benchmark in quattro lingue dimostrano le solide prestazioni multilingue e l'eccezionale coerenza cross-linguale di Trillion-7B.
Presentiamo PHYBench, un nuovo benchmark di alta qualità progettato per valutare le capacità di ragionamento dei grandi modelli linguistici (LLM) in contesti fisici. PHYBench è composto da 500 problemi di fisica accuratamente selezionati, basati su scenari fisici del mondo reale, concepiti per valutare la capacità dei modelli di comprendere e ragionare su processi fisici realistici. Coprendo meccanica, elettromagnetismo, termodinamica, ottica, fisica moderna e fisica avanzata, il benchmark spazia da esercizi di livello scolastico superiore a problemi universitari e sfide delle Olimpiadi della Fisica. Inoltre, proponiamo l'Expression Edit Distance (EED) Score, una nuova metrica di valutazione basata sulla distanza di modifica tra espressioni matematiche, che cattura efficacemente le differenze nei processi e nei risultati del ragionamento dei modelli, andando oltre i tradizionali metodi di valutazione binaria. Abbiamo valutato vari LLM su PHYBench e confrontato le loro prestazioni con quelle di esperti umani. I nostri risultati rivelano che anche i modelli di ragionamento più avanzati rimangono significativamente indietro rispetto agli esperti umani, evidenziando i loro limiti e la necessità di miglioramenti negli scenari di ragionamento fisico complesso. I risultati del nostro benchmark e il dataset sono pubblicamente disponibili all'indirizzo https://phybench-official.github.io/phybench-demo/.
Con il progredire del campo dell'apprendimento di rappresentazioni, si è assistito a una proliferazione di diverse funzioni di perdita per risolvere diverse classi di problemi. Introduciamo un'unica equazione di natura teorico-informativa che generalizza una vasta collezione di moderne funzioni di perdita nell'apprendimento automatico. In particolare, presentiamo un framework che dimostra come diverse ampie classi di metodi di apprendimento automatico stiano minimizzando in modo preciso una divergenza KL integrata tra due distribuzioni condizionali: le rappresentazioni supervisionate e quelle apprese. Questa prospettiva rivela una geometria informativa sottostante a tecniche come il clustering, i metodi spettrali, la riduzione della dimensionalità, l'apprendimento contrastivo e l'apprendimento supervisionato. Questo framework consente lo sviluppo di nuove funzioni di perdita combinando tecniche di successo tratte dalla letteratura. Non solo presentiamo una vasta gamma di dimostrazioni, collegando oltre 23 approcci diversi, ma sfruttiamo anche questi risultati teorici per creare classificatori di immagini non supervisionati all'avanguardia che raggiungono un miglioramento dell'8% rispetto allo stato dell'arte precedente nella classificazione non supervisionata su ImageNet-1K. Dimostriamo inoltre che I-Con può essere utilizzato per derivare metodi di debiasing principiati che migliorano gli apprenditori di rappresentazioni contrastive.
Recentemente, un'ampia ricerca sulla personalizzazione delle immagini (ad esempio, identità, soggetto, stile, sfondo, ecc.) ha dimostrato forti capacità di personalizzazione nei modelli generativi su larga scala. Tuttavia, la maggior parte degli approcci è progettata per compiti specifici, limitando la loro generalizzabilità per combinare diversi tipi di condizioni. Sviluppare un framework unificato per la personalizzazione delle immagini rimane una sfida aperta. In questo articolo, presentiamo DreamO, un framework di personalizzazione delle immagini progettato per supportare un'ampia gamma di compiti facilitando al contempo l'integrazione senza soluzione di continuità di più condizioni. Nello specifico, DreamO utilizza un framework di trasformatori di diffusione (DiT) per elaborare uniformemente input di diversi tipi. Durante l'addestramento, costruiamo un ampio dataset di addestramento che include vari compiti di personalizzazione e introduciamo un vincolo di instradamento delle feature per facilitare l'interrogazione precisa delle informazioni rilevanti dalle immagini di riferimento. Inoltre, progettiamo una strategia di segnaposto che associa specifici segnaposti a condizioni in posizioni particolari, consentendo il controllo sul posizionamento delle condizioni nei risultati generati. Inoltre, utilizziamo una strategia di addestramento progressivo composta da tre fasi: una fase iniziale focalizzata su compiti semplici con dati limitati per stabilire una coerenza di base, una fase di addestramento su larga scala per migliorare in modo completo le capacità di personalizzazione e una fase finale di allineamento della qualità per correggere i bias di qualità introdotti da dati di bassa qualità. Esperimenti estensivi dimostrano che il DreamO proposto può eseguire efficacemente vari compiti di personalizzazione delle immagini con alta qualità e integrare flessibilmente diversi tipi di condizioni di controllo.
Questo articolo presenta la nostra proposta vincitrice per il Premio Progresso 2 delle Olimpiadi Matematiche di Intelligenza Artificiale (AIMO-2). La nostra ricetta per costruire modelli di ragionamento matematico all'avanguardia si basa su tre pilastri chiave. In primo luogo, abbiamo creato un dataset su larga scala composto da 540K problemi matematici unici di alta qualità, inclusi problemi di livello olimpico, e le loro 3.2M soluzioni con ragionamenti estesi. In secondo luogo, abbiamo sviluppato un metodo innovativo per integrare l'esecuzione di codice con modelli di ragionamento esteso attraverso un addestramento iterativo, generazione e filtraggio di qualità, ottenendo 1.7M soluzioni di alta qualità con Ragionamento Integrato con Strumenti. In terzo luogo, abbiamo creato una pipeline per addestrare i modelli a selezionare la soluzione più promettente tra molte candidate. Dimostriamo che tale selezione generativa di soluzioni (GenSelect) può migliorare significativamente rispetto alla baseline del voto a maggioranza. Combinando queste idee, abbiamo addestrato una serie di modelli che raggiungono risultati all'avanguardia nei benchmark di ragionamento matematico. Per facilitare ulteriori ricerche, rilasciamo il nostro codice, i modelli e il dataset completo OpenMathReasoning sotto una licenza commercialmente permissiva.
L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) semplifica l'apprendimento per rinforzo basato sul feedback umano (Reinforcement Learning from Human Feedback, RLHF) per i grandi modelli linguistici (Large Language Models, LLMs) ottimizzando direttamente le preferenze umane senza un modello esplicito di ricompensa. Durante l'addestramento DPO, osserviamo che il modello di riferimento funge da regolatore del peso dei dati. Tuttavia, la pratica comune di inizializzare il modello di politica e il modello di riferimento in modo identico nel DPO può portare a un utilizzo inefficiente dei dati e imporre un limite alle prestazioni. Nel frattempo, l'assenza di un modello di riferimento nell'ottimizzazione semplice delle preferenze (Simple Preference Optimization, SimPO) riduce la robustezza dell'addestramento e richiede condizioni più rigorose per prevenire l'oblio catastrofico. In questo lavoro, proponiamo Pre-DPO, un paradigma di addestramento basato su DPO semplice ma efficace che migliora le prestazioni dell'ottimizzazione delle preferenze sfruttando un modello di riferimento guida. Questo modello di riferimento fornisce una visione anticipata dello stato ottimale della politica raggiungibile attraverso i dati di preferenza di addestramento, fungendo da meccanismo guida che assegna in modo adattivo pesi più alti ai campioni più adatti al modello e pesi più bassi a quelli meno adatti. Esperimenti estensivi sui benchmark AlpacaEval 2.0 e Arena-Hard v0.1 dimostrano che Pre-DPO migliora costantemente le prestazioni sia di DPO che di SimPO, senza fare affidamento su modelli esterni o dati aggiuntivi.
Il Contrastive Language-Image Pre-training (CLIP) ha ottenuto successo in molteplici task downstream allineando le modalità immagine e testo. Tuttavia, la natura dell'apprendimento contrastivo globale limita la capacità di CLIP di comprendere concetti composizionali, come relazioni e attributi. Sebbene studi recenti utilizzino campioni negativi globali difficili per migliorare la comprensione composizionale, questi metodi compromettono significativamente le capacità intrinseche del modello allontanando forzatamente i campioni testuali negativi dalle immagini nello spazio di embedding. Per superare questa limitazione, introduciamo un framework di Decoupled Global-Local Alignment (DeGLA) che migliora la comprensione composizionale mitigando sostanzialmente le perdite nelle capacità generali. Per ottimizzare la conservazione delle capacità intrinseche del modello, incorporiamo un meccanismo di auto-distillazione nel processo di allineamento globale, allineando l'encoder immagine-testo apprendibile con un modello insegnante congelato derivato da una media mobile esponenziale. Sotto il vincolo dell'auto-distillazione, si mitiga efficacemente la dimenticanza catastrofica della conoscenza pre-addestrata durante il fine-tuning. Per migliorare la comprensione composizionale, sfruttiamo prima la capacità di apprendimento in-context dei Large Language Models (LLMs) per costruire circa 2 milioni di didascalie negative di alta qualità in cinque tipologie. Successivamente, proponiamo la perdita Image-Grounded Contrast (IGC) e la perdita Text-Grounded Contrast (TGC) per migliorare la composizionalità visione-linguaggio. I risultati sperimentali estesi dimostrano l'efficacia del framework DeGLA. Rispetto ai precedenti metodi state-of-the-art, DeGLA ottiene un miglioramento medio del 3,5% sui benchmark VALSE, SugarCrepe e ARO. Contemporaneamente, registra un miglioramento medio delle prestazioni del 13,0% sui task di classificazione zero-shot su undici dataset. Il nostro codice sarà rilasciato su https://github.com/xiaoxing2001/DeGLA.
Il notevole successo dei Large Language Models (LLM) ha illuminato una via promettente verso il raggiungimento dell'Intelligenza Artificiale Generale, sia per la comunità accademica che per quella industriale, grazie alle loro prestazioni senza precedenti in varie applicazioni. Man mano che i LLM continuano a guadagnare importanza sia nel campo della ricerca che in quello commerciale, le implicazioni per la loro sicurezza e affidabilità sono diventate una preoccupazione crescente, non solo per i ricercatori e le aziende, ma anche per ogni nazione. Attualmente, le revisioni esistenti sulla sicurezza dei LLM si concentrano principalmente su fasi specifiche del ciclo di vita dei LLM, ad esempio la fase di distribuzione o di fine-tuning, mancando di una comprensione completa dell'intera "catena di vita" dei LLM. Per colmare questa lacuna, questo articolo introduce, per la prima volta, il concetto di sicurezza "full-stack" per considerare sistematicamente i problemi di sicurezza durante l'intero processo di addestramento, distribuzione e commercializzazione finale dei LLM. Rispetto alle revisioni standard sulla sicurezza dei LLM, il nostro lavoro dimostra diversi vantaggi distintivi: (I) Prospettiva Completa. Definiamo il ciclo di vita completo dei LLM come comprendente la preparazione dei dati, il pre-addestramento, il post-addestramento, la distribuzione e la commercializzazione finale. Per quanto ne sappiamo, questa rappresenta la prima revisione sulla sicurezza che copre l'intero ciclo di vita dei LLM. (II) Ampio Supporto Letterario. La nostra ricerca è basata su una revisione esaustiva di oltre 800 articoli, garantendo una copertura completa e un'organizzazione sistematica dei problemi di sicurezza all'interno di una comprensione più olistica. (III) Approfondimenti Unici. Attraverso un'analisi sistematica della letteratura, abbiamo sviluppato roadmap affidabili e prospettive per ogni capitolo. Il nostro lavoro identifica promettenti direzioni di ricerca, tra cui la sicurezza nella generazione dei dati, le tecniche di allineamento, la modifica dei modelli e i sistemi di agenti basati su LLM. Questi approfondimenti forniscono una guida preziosa per i ricercatori che intendono perseguire lavori futuri in questo campo.
Recentemente, DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) ha dimostrato eccellenti capacità di ragionamento in compiti complessi e ha condiviso pubblicamente la sua metodologia. Ciò fornisce dati di catena di pensiero (CoT) di potenzialmente alta qualità per stimolare le capacità di ragionamento di modelli linguistici di grandi dimensioni (LLM) di piccole dimensioni. Per generare dati CoT di alta qualità per diversi LLM, cerchiamo un metodo efficiente per generare dati CoT di alta qualità con livelli di difficoltà delle domande adattati agli LLM. In primo luogo, classifichiamo la difficoltà delle domande in base alla capacità di ragionamento degli LLM stessi e costruiamo un database di domande adattato agli LLM. In secondo luogo, campioniamo il database dei problemi in base a una distribuzione dei livelli di difficoltà delle domande e poi utilizziamo DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) per generare i corrispondenti dati CoT di alta qualità con risposte corrette. Grazie alla costruzione di dati CoT con livelli di difficoltà adattati agli LLM, abbiamo ridotto significativamente il costo della generazione dei dati e migliorato l'efficienza del fine-tuning supervisionato (SFT) del modello. Infine, abbiamo validato l'efficacia e la generalizzabilità del metodo proposto nei campi delle competizioni matematiche complesse e dei compiti di generazione di codice. In particolare, con soli 2k dati CoT matematici di alta qualità, il nostro ZMath-32B supera DeepSeek-Distill-32B nel compito di ragionamento matematico. Allo stesso modo, con soli 2k dati CoT di codice di alta qualità, il nostro ZCode-32B supera DeepSeek-Distill-32B nei compiti di ragionamento sul codice.
Poiché l'annotazione dei dati è costosa, i dataset di riferimento spesso incorporano etichette provenienti da dataset di immagini consolidati. In questo lavoro, valutiamo l'impatto degli errori di etichettatura in MSCOCO sul benchmark POPE, ampiamente utilizzato per l'allucinazione di oggetti. Riannotiamo le immagini del benchmark e identifichiamo uno squilibrio negli errori di annotazione tra diversi sottoinsiemi. Valutando più modelli sulle etichette riviste, che denominiamo RePOPE, osserviamo cambiamenti significativi nelle classifiche dei modelli, evidenziando l'impatto della qualità delle etichette. Il codice e i dati sono disponibili all'indirizzo https://github.com/YanNeu/RePOPE.
L'analisi causale svolge un ruolo fondamentale nella scoperta scientifica e nel processo decisionale affidabile, ma rimane largamente inaccessibile agli esperti di dominio a causa della sua complessità concettuale e algoritmica. Questa disconnessione tra metodologia causale e usabilità pratica presenta una duplice sfida: gli esperti di dominio non sono in grado di sfruttare i recenti progressi nell'apprendimento causale, mentre i ricercatori nel campo della causalità mancano di un ampio dispiegamento nel mondo reale per testare e affinare i loro metodi. Per affrontare questo problema, introduciamo Causal-Copilot, un agente autonomo che opera un'analisi causale di livello esperto all'interno di un framework di grandi modelli linguistici. Causal-Copilot automatizza l'intera pipeline dell'analisi causale per dati tabulari e serie temporali, inclusa la scoperta causale, l'inferenza causale, la selezione degli algoritmi, l'ottimizzazione degli iperparametri, l'interpretazione dei risultati e la generazione di insight azionabili. Supporta il perfezionamento interattivo attraverso il linguaggio naturale, abbassando la barriera per i non specialisti pur mantenendo il rigore metodologico. Integrando oltre 20 tecniche all'avanguardia nell'analisi causale, il nostro sistema favorisce un ciclo virtuoso, ampliando l'accesso ai metodi causali avanzati per gli esperti di dominio e generando applicazioni ricche e reali che informano e fanno progredire la teoria causale. Le valutazioni empiriche dimostrano che Causal-Copilot raggiunge prestazioni superiori rispetto ai baseline esistenti, offrendo una soluzione affidabile, scalabile ed estensibile che colma il divario tra la sofisticazione teorica e l'applicabilità nel mondo reale nell'analisi causale. Una demo interattiva live di Causal-Copilot è disponibile all'indirizzo https://causalcopilot.com/.
La transpilazione da C a Rust è essenziale per modernizzare il codice legacy in C, migliorando al contempo la sicurezza e l'interoperabilità con gli ecosistemi moderni di Rust. Tuttavia, attualmente non esiste un dataset per valutare se un sistema sia in grado di transpilare C in Rust sicuro che superi una serie di test case. Introduciamo CRUST-Bench, un dataset di 100 repository in C, ciascuno abbinato a interfacce scritte manualmente in Rust sicuro e a test case che possono essere utilizzati per validare la correttezza della transpilazione. Considerando interi repository piuttosto che funzioni isolate, CRUST-Bench cattura le sfide della traduzione di progetti complessi con dipendenze tra più file. Le interfacce in Rust fornite offrono specifiche esplicite che garantiscono l'aderenza a pattern idiomatici e sicuri per la memoria, mentre i test case associati impongono la correttezza funzionale. Valutiamo i modelli linguistici di ultima generazione (LLM) su questo compito e scopriamo che la generazione di Rust sicuro e idiomatico rimane un problema impegnativo per vari metodi e tecniche all'avanguardia. Forniamo anche approfondimenti sugli errori che gli LLM commettono solitamente nella transpilazione del codice da C a Rust sicuro. Il modello con le migliori prestazioni, OpenAI o1, è in grado di risolvere solo 15 task in un'impostazione single-shot. Miglioramenti su CRUST-Bench porterebbero a sistemi di transpilazione più avanzati in grado di ragionare su scenari complessi e aiutare nella migrazione di codebase legacy da C a linguaggi come Rust che garantiscono la sicurezza della memoria. È possibile trovare il dataset e il codice all'indirizzo https://github.com/anirudhkhatry/CRUST-bench.
Le caselle di controllo sono fondamentali nell'elaborazione di documenti nel mondo reale, dove la presenza o l'assenza di segni di spunta influenza direttamente l'estrazione dei dati e i processi decisionali. Tuttavia, nonostante le elevate prestazioni dei Modelli di Visione e Linguaggio di Grande Scala in un'ampia gamma di attività, essi incontrano difficoltà nell'interpretazione di contenuti selezionabili. Questa sfida diventa particolarmente pressante in settori in cui una singola casella di controllo trascurata può portare a costosi errori normativi o contrattuali. Per colmare questa lacuna, introduciamo il dataset CheckboxQA, una risorsa mirata progettata per valutare e migliorare le prestazioni dei modelli nelle attività relative alle caselle di controllo. Esso rivela i limiti dei modelli attuali e si pone come uno strumento prezioso per avanzare i sistemi di comprensione documentale, con implicazioni significative per applicazioni in settori come la tecnologia legale e la finanza. Il dataset è disponibile pubblicamente all'indirizzo: https://github.com/Snowflake-Labs/CheckboxQA
Il grounding visivo multi-task (MTVG) comprende due sotto-task, ovvero la Comprensione delle Espressioni Referenziali (REC) e la Segmentazione delle Espressioni Referenziali (RES). Gli approcci rappresentativi esistenti seguono generalmente una pipeline di ricerca che consiste principalmente in tre procedure fondamentali: l'estrazione indipendente delle caratteristiche per le modalità visiva e linguistica, rispettivamente, un modulo di interazione cross-modale e teste di previsione indipendenti per i diversi sotto-task. Nonostante raggiungano prestazioni notevoli, questa linea di ricerca presenta due limitazioni: 1) Il contenuto linguistico non è stato completamente integrato nell'intero backbone visivo per potenziare un'estrazione più efficace delle caratteristiche visive e richiede un modulo aggiuntivo di interazione cross-modale; 2) La relazione tra i task REC e RES non è sfruttata efficacemente per favorire una previsione collaborativa e ottenere un output più accurato. Per affrontare questi problemi, in questo articolo proponiamo un framework di Apprendimento Visivo Guidato Progressivamente dal Linguaggio per il grounding visivo multi-task, denominato PLVL, che non solo estrae finemente l'espressione intrinseca delle caratteristiche della modalità visiva stessa, ma integra progressivamente le informazioni linguistiche per aiutare a imparare le caratteristiche visive correlate al linguaggio. In questo modo, il nostro PLVL non richiede un modulo aggiuntivo di fusione cross-modale, pur introducendo pienamente la guida linguistica. Inoltre, analizziamo come il centro di localizzazione per REC possa aiutare, in una certa misura, a identificare la regione dell'oggetto da segmentare per RES. Ispirati da questa analisi, progettiamo una testa multi-task per realizzare previsioni collaborative per questi due sotto-task. Esperimenti estensivi condotti su diversi dataset di riferimento dimostrano in modo completo che il nostro PLVL supera nettamente i metodi rappresentativi sia nei task REC che RES. https://github.com/jcwang0602/PLVL