Articoli di ricerca IA selezionati quotidianamente con traduzioni
Esploriamo un metodo per migliorare le prestazioni dei modelli linguistici di grandi dimensioni attraverso l'autoriflessione e l'apprendimento per rinforzo. Incentivando il modello a generare migliori autoriflessioni quando risponde in modo errato, dimostriamo che la capacità del modello di risolvere compiti complessi e verificabili può essere potenziata anche quando la generazione di dati sintetici non è fattibile e sono disponibili solo feedback binari. Il nostro framework opera in due fasi: prima, dopo aver fallito un determinato compito, il modello genera un commento autoriflessivo che analizza il tentativo precedente; in secondo luogo, al modello viene data un'altra possibilità di affrontare il compito con l'autoriflessione contestualizzata. Se il tentativo successivo ha successo, i token generati durante la fase di autoriflessione vengono premiati. I nostri risultati sperimentali mostrano miglioramenti sostanziali delle prestazioni in una varietà di architetture di modelli, con un miglioramento fino al 34,7% nella scrittura di equazioni matematiche e del 18,1% nella chiamata di funzioni. È degno di nota che modelli più piccoli e fine-tunati (da 1,5 a 7 miliardi di parametri) superino modelli della stessa famiglia che sono 10 volte più grandi. Il nostro paradigma innovativo rappresenta quindi una via entusiasmante verso modelli linguistici più utili e affidabili in grado di auto-migliorarsi su compiti impegnativi con un feedback esterno limitato.
Sebbene i modelli unificati esistenti offrano prestazioni solide nella comprensione visivo-linguistica e nella generazione di immagini da testo, sono limitati nell'esplorazione di compiti di percezione e manipolazione delle immagini, che sono urgentemente richiesti dagli utenti per applicazioni ampie. Recentemente, OpenAI ha rilasciato il loro potente modello GPT-4o-Image per una percezione e manipolazione completa delle immagini, raggiungendo una capacità espressiva e attirando l'interesse della comunità. Osservando le prestazioni di GPT-4o-Image nei nostri esperimenti accuratamente costruiti, deduciamo che GPT-4o-Image sfrutta caratteristiche estratte da encoder semantici invece di VAE, mentre i VAE sono considerati componenti essenziali in molti modelli di manipolazione delle immagini. Motivati da tali osservazioni stimolanti, presentiamo un framework generativo unificato chiamato UniWorld, basato su caratteristiche semantiche fornite da potenti modelli visivo-linguistici e encoder semantici contrastivi. Di conseguenza, costruiamo un modello unificato solido utilizzando solo l'1% dei dati di BAGEL, che supera costantemente BAGEL nei benchmark di editing delle immagini. UniWorld mantiene anche capacità competitive di comprensione e generazione delle immagini, ottenendo prestazioni solide in molteplici compiti di percezione delle immagini. Rilasciamo completamente in open-source i nostri modelli, inclusi pesi del modello, script di addestramento e valutazione, e dataset.
I recenti progressi nei Modelli di Linguaggio Visivo (VLMs) hanno ampliato le loro capacità verso compiti di agenti interattivi, tuttavia i benchmark esistenti rimangono limitati a ambienti a singolo agente o basati esclusivamente su testo. Al contrario, gli scenari del mondo reale spesso coinvolgono più agenti che interagiscono in contesti visivi e linguistici ricchi, presentando sfide sia con osservazioni multimodali che con interazioni strategiche. Per colmare questa lacuna, introduciamo Visual Strategic Bench (VS-Bench), un benchmark multimodale che valuta i VLMs per il ragionamento strategico e il processo decisionale in ambienti multi-agente. VS-Bench comprende otto ambienti basati sulla visione che abbracciano interazioni cooperative, competitive e a motivazione mista, progettati per valutare la capacità degli agenti di prevedere le mosse future degli altri e ottimizzare per obiettivi a lungo termine. Consideriamo due dimensioni di valutazione complementari, tra cui la valutazione offline del ragionamento strategico attraverso l'accuratezza nella previsione della prossima azione e la valutazione online del processo decisionale attraverso il rendimento normalizzato per episodio. Esperimenti estesi su quattordici VLMs leader rivelano un divario significativo tra i modelli attuali e le prestazioni ottimali, con i migliori modelli che raggiungono un'accuratezza di previsione del 47,8% e un rendimento normalizzato del 24,3%. Condividiamo inoltre analisi approfondite sulle osservazioni multimodali, il ridimensionamento al momento del test, i comportamenti sociali e i casi di fallimento degli agenti VLM. Standardizzando la valutazione e evidenziando i limiti dei modelli esistenti, immaginiamo VS-Bench come una base per la ricerca futura sugli agenti multimodali strategici. Codice e dati sono disponibili su https://vs-bench.github.io.
I modelli visione-linguaggio (VLMs) addestrati tramite apprendimento per rinforzo con ricompensa verificabile (RLVR) hanno mostrato progressi significativi nel ridimensionare efficacemente il calcolo al momento del test. In questo lavoro, investigiamo come i dati RL sintetizzati possano ulteriormente migliorare l'RLVR. A tal fine, proponiamo SynthRL, una pipeline scalabile e garantita per il ridimensionamento automatico dei dati nell'addestramento RL orientato al ragionamento. SynthRL comprende tre fasi chiave: (1) selezione di domande iniziali con una distribuzione appropriata, (2) ampliamento di queste in varianti più complesse preservando le risposte originali, e (3) una fase di verifica garantita che assicura una correttezza quasi perfetta e un aumento della difficoltà. I nostri esperimenti empirici dimostrano la scalabilità e l'efficacia di SynthRL. Applicato al dataset MMK12, SynthRL sintetizza oltre 3.3K ulteriori domande verificabili e complesse a partire da circa 8K campioni iniziali. I modelli addestrati con i nostri dati sintetizzati ottengono miglioramenti consistenti su cinque benchmark di ragionamento matematico visivo fuori dominio, con un significativo avanzamento rispetto ai modelli di base addestrati solo sui dati iniziali. In particolare, un'analisi dettagliata rivela che i guadagni sono più pronunciati sui campioni di valutazione più complessi, evidenziando l'efficacia di SynthRL nell'evocare schemi di ragionamento più profondi e articolati.
Una delle principali sfide nella costruzione di agenti GUI basati su VLM è il grounding visivo, ovvero la localizzazione della regione appropriata dello schermo per l'esecuzione di azioni basandosi sia sul contenuto visivo che sui piani testuali. La maggior parte del lavoro esistente formula questo compito come una generazione di coordinate basata su testo. Tuttavia, questi approcci presentano diverse limitazioni: un allineamento spaziale-semantico debole, l'incapacità di gestire target di supervisione ambigui e una discrepanza tra la natura densa delle coordinate dello schermo e la granularità grossolana, a livello di patch, delle caratteristiche visive estratte da modelli come i Vision Transformers. In questo articolo, proponiamo GUI-Actor, un metodo basato su VLM per il grounding di GUI senza coordinate. Al suo interno, GUI-Actor introduce una testa di azione basata sull'attenzione che impara ad allineare un token dedicato <ACTOR> con tutti i token visivi di patch rilevanti, consentendo al modello di proporre una o più regioni di azione in un singolo passaggio in avanti. In linea con ciò, progettiamo ulteriormente un verificatore di grounding per valutare e selezionare la regione di azione più plausibile tra quelle proposte per l'esecuzione dell'azione. Esperimenti estesi dimostrano che GUI-Actor supera i precedenti metodi all'avanguardia su più benchmark di grounding di azioni GUI, con un miglioramento nella generalizzazione a risoluzioni e layout dello schermo non visti. In particolare, GUI-Actor-7B supera persino UI-TARS-72B (38.1) su ScreenSpot-Pro, raggiungendo punteggi di 40.7 con Qwen2-VL e 44.6 con Qwen2.5-VL come backbone. Inoltre, incorporando il verificatore, scopriamo che il fine-tuning solo della nuova testa di azione introdotta (~100M parametri per il modello 7B) mantenendo congelato il backbone VLM è sufficiente per ottenere prestazioni comparabili ai precedenti modelli all'avanguardia, evidenziando che GUI-Actor può dotare il VLM sottostante di capacità di grounding efficaci senza comprometterne i punti di forza generali.
I modelli visione-linguaggio (VLMs) hanno dimostrato progressi significativi nella comprensione multimodale, ma le loro capacità di ragionamento scientifico rimangono inadeguatamente valutate. Gli attuali benchmark multimodali valutano principalmente la comprensione generica delle immagini o il ragionamento guidato dal testo, mancando di contesti scientifici autentici che richiedono l'integrazione di conoscenze specifiche del dominio con l'analisi di evidenze visive. Per colmare questa lacuna, presentiamo CSVQA, un benchmark multimodale diagnostico progettato specificamente per valutare il ragionamento scientifico attraverso risposte a domande visive radicate nel dominio. Il nostro benchmark comprende 1.378 coppie domanda-risposta accuratamente costruite che abbracciano diverse discipline STEM, ciascuna delle quali richiede conoscenze di dominio, integrazione di evidenze visive e ragionamento di ordine superiore. Rispetto ai precedenti benchmark multimodali, CSVQA pone maggiore enfasi sui contenuti scientifici del mondo reale e sul ragionamento complesso. Proponiamo inoltre un protocollo di valutazione rigoroso per valutare sistematicamente se le previsioni del modello sono supportate da passaggi di ragionamento intermedi validi basati su spiegazioni curate. La nostra valutazione completa di 15 VLMs su questo benchmark rivela notevoli disparità di prestazioni, poiché anche il modello proprietario più performante raggiunge solo una precisione del 49,6%. Questa evidenza empirica sottolinea la pressante necessità di avanzare le capacità di ragionamento scientifico nei VLMs. Il nostro CSVQA è disponibile all'indirizzo https://huggingface.co/datasets/Skywork/CSVQA.
Il ragionamento spaziale è un aspetto chiave della psicologia cognitiva e rimane un importante collo di bottiglia per gli attuali modelli visione-linguaggio (VLMs). Sebbene numerose ricerche abbiano mirato a valutare o migliorare la comprensione da parte dei VLMs delle relazioni spaziali di base, come distinguere sinistra da destra, vicino da lontano e il conteggio degli oggetti, questi compiti rappresentano solo il livello più fondamentale del ragionamento spaziale. In questo lavoro, introduciamo OmniSpatial, un benchmark completo e impegnativo per il ragionamento spaziale, basato sulla psicologia cognitiva. OmniSpatial copre quattro categorie principali: ragionamento dinamico, logica spaziale complessa, interazione spaziale e assunzione di prospettiva, con 50 sottocategorie dettagliate. Attraverso il crawling di dati su Internet e un'attenta annotazione manuale, abbiamo costruito oltre 1.5K coppie domanda-risposta. Esperimenti estensivi dimostrano che sia i VLMs open-source che quelli closed-source, così come i modelli esistenti di ragionamento e comprensione spaziale, presentano significative limitazioni nella comprensione spaziale complessiva. Analizziamo ulteriormente i casi di fallimento e proponiamo potenziali direzioni per la ricerca futura.
I recenti modelli avanzati di ragionamento su larga scala (LRM) sfruttano il ragionamento a catena di pensiero (CoT) esteso per risolvere compiti complessi, raggiungendo prestazioni all'avanguardia. Nonostante il loro successo, abbiamo identificato un problema critico: una porzione significativa di compiti semplici risolti dagli LRM può essere affrontata anche da LLM non basati sul ragionamento utilizzando un numero significativamente inferiore di token, indicando che il ragionamento complesso potrebbe non essere sempre necessario. Per affrontare questo problema, analizziamo sistematicamente le traiettorie di ragionamento degli LRM e presentiamo un metodo che utilizza paradigmi identificati e LLM-Judge per classificare queste traiettorie come Ragionamento Ridondante o Ragionamento Essenziale. Introduciamo inoltre OThink-R1, un metodo che pota i passaggi di ragionamento ridondanti preservando la validità logica. OThink-R1 impiega dinamicamente la modalità non pensante (pensiero veloce) per problemi semplici, mentre si impegna in un pensiero deliberato (pensiero lento) per problemi complessi. Esperimenti su compiti matematici e di risposta alle domande dimostrano che OThink-R1 riduce la ridondanza del ragionamento di quasi il 23% in media senza compromettere l'accuratezza, offrendo linee guida pratiche per modelli di ragionamento efficienti. Il codice è disponibile all'indirizzo https://github.com/AgenticIR-Lab/OThink-R1.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno registrato uno sviluppo rapido negli ultimi anni. Tuttavia, nel dominio finanziario, si riscontra una marcata carenza di dataset di valutazione multimodali efficaci e specializzati. Per favorire lo sviluppo degli MLLMs in ambito finanziario, introduciamo FinMME, che comprende oltre 11.000 campioni di alta qualità provenienti da ricerche finanziarie, distribuiti in 18 domini finanziari e 6 classi di asset, con 10 tipologie principali di grafici e 21 sottotipi. Garantiamo la qualità dei dati attraverso 20 annotatori e meccanismi di validazione accuratamente progettati. Inoltre, sviluppiamo FinScore, un sistema di valutazione che incorpora penalità per le allucinazioni e una valutazione multidimensionale delle capacità, al fine di fornire una valutazione imparziale. I risultati sperimentali estesi dimostrano che anche modelli all'avanguardia come GPT-4o mostrano prestazioni insoddisfacenti su FinMME, evidenziandone la natura impegnativa. Il benchmark mostra un'elevata robustezza, con variazioni nelle previsioni sotto diversi prompt che rimangono al di sotto dell'1%, dimostrando un'affidabilità superiore rispetto ai dataset esistenti. Il nostro dataset e il protocollo di valutazione sono disponibili su https://huggingface.co/datasets/luojunyu/FinMME e https://github.com/luo-junyu/FinMME.
I notevoli progressi dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno attirato un'attenzione crescente verso la loro estensione a entità fisiche come i robot a zampe. Ciò richiede tipicamente che gli MLLMs non solo acquisiscano capacità di comprensione multimodale, ma integrino anche ragionamento visivo-spaziale e capacità di interazione fisica. Tuttavia, i metodi esistenti faticano a unificare queste capacità a causa delle loro differenze fondamentali. In questo articolo, presentiamo il Visual Embodied Brain (VeBrain), un framework unificato per la percezione, il ragionamento e il controllo nel mondo reale. VeBrain riformula il controllo robotico in comuni task basati su testo degli MLLMs nello spazio visivo 2D, unificando così gli obiettivi e gli spazi di mappatura di diversi compiti. Successivamente, viene proposto un nuovo adattatore robotico per convertire i segnali di controllo testuali degli MLLMs in politiche di movimento per robot reali. Dal punto di vista dei dati, introduciamo ulteriormente VeBrain-600k, un dataset di istruzioni di alta qualità che comprende varie capacità di VeBrain. In VeBrain-600k, abbiamo impiegato centinaia di ore per raccogliere, curare e annotare i dati, e abbiamo adottato il ragionamento a catena multimodale (CoT) per mescolare le diverse capacità in una singola conversazione. Esperimenti estensivi su 13 benchmark multimodali e 5 benchmark di intelligenza spaziale dimostrano la performance superiore di VeBrain rispetto agli MLLMs esistenti come Qwen2.5-VL. Quando implementato su robot a zampe e bracci robotici, VeBrain mostra una forte adattabilità, flessibilità e capacità compositiva rispetto ai metodi esistenti. Ad esempio, rispetto a Qwen2.5-VL, VeBrain non solo ottiene guadagni sostanziali su MMVet con un +5,6%, ma eccelle anche nei task con robot a zampe con guadagni medi del +50%.
I modelli linguistici basati su diffusione (Diffusion LLMs) si sono affermati come una promettente alternativa ai tradizionali modelli linguistici autoregressivi, offrendo un potenziale significativo per migliorare l'efficienza in fase di esecuzione. Tuttavia, i modelli di diffusione esistenti non sono in grado di applicare in modo dimostrabile vincoli formali specificati dall'utente, come le espressioni regolari, il che li rende inaffidabili per compiti che richiedono output strutturati, come la generazione di JSON con schema fisso. A differenza dei modelli autoregressivi che generano i token in sequenza, i Diffusion LLMs prevedono un blocco di token in parallelo. Questo parallelismo rende inefficaci i tradizionali algoritmi di decodifica vincolata, progettati per la previsione sequenziale dei token, nel preservare la vera distribuzione dell'output. Per affrontare questa limitazione, proponiamo DINGO, una strategia di decodifica vincolata basata sulla programmazione dinamica che è sia efficiente che dimostrabilmente conservativa della distribuzione. DINGO consente il campionamento di stringhe di output con la massima probabilità secondo la distribuzione prevista dal modello, rispettando rigorosamente qualsiasi espressione regolare specificata dall'utente. Su benchmark standard di matematica simbolica e generazione di JSON, DINGO raggiunge un miglioramento fino a 68 punti percentuali rispetto all'inferenza non vincolata.
Nonostante i progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), la loro competenza nella comprensione fine del movimento nei video rimane fortemente limitata. Spesso mancano di differenziazione inter-fotogramma e tendono a mediare o ignorare segnali visivi sottili. Inoltre, sebbene il prompting visivo abbia mostrato potenziale nelle immagini statiche, la sua applicazione alle complessità temporali dei video, in particolare per la comprensione fine del movimento, rimane largamente inesplorata. Indaghiamo se sia possibile sbloccare capacità intrinseche e potenziare la percezione del movimento degli MLLMs, abilitando firme visive distinte progettate per separare i segnali di movimento dell'oggetto e della telecamera. In questo studio, introduciamo MotionSight, un nuovo metodo zero-shot che pionierizza l'uso di spotlight visivi centrati sull'oggetto e del motion blur come prompt visivi per migliorare efficacemente la comprensione fine del movimento senza addestramento. Per trasformare questo in risorse dati di valore, abbiamo curato MotionVid-QA, il primo dataset su larga scala per la comprensione fine del movimento nei video, con annotazioni gerarchiche che includono dati SFT e di preferenza, {\Theta}(40K) clip video e {\Theta}(87K) domande e risposte. Gli esperimenti mostrano che MotionSight raggiunge prestazioni all'avanguardia open-source e competitività con modelli commerciali. In particolare, per la comprensione fine del movimento, presentiamo una nuova tecnica zero-shot e un dataset su larga scala e di alta qualità. Tutto il codice e le annotazioni saranno pubblicamente disponibili.
I grandi modelli visione-linguaggio (LVLM) hanno recentemente dimostrato un grande potenziale nel far progredire la robotica, combinando il ragionamento incarnato con il controllo dei robot. Un approccio comune prevede l'addestramento su compiti di ragionamento incarnato relativi al controllo dei robot utilizzando il Fine-Tuning Supervisionato (SFT). Tuttavia, i dataset per SFT sono spesso costruiti in modo euristico e non sono esplicitamente ottimizzati per migliorare il controllo dei robot. Inoltre, l'SFT spesso porta a problemi come il catastrofico oblio e una ridotta capacità di generalizzazione. Per affrontare queste limitazioni, introduciamo Robot-R1, un nuovo framework che sfrutta l'apprendimento per rinforzo per migliorare il ragionamento incarnato specificamente per il controllo dei robot. Robot-R1 impara a prevedere lo stato del prossimo punto chiave necessario per il completamento del compito, condizionato dall'immagine della scena corrente e dai metadati dell'ambiente derivati da dimostrazioni di esperti. Ispirato dall'approccio di apprendimento DeepSeek-R1, Robot-R1 campiona risposte basate sul ragionamento e rinforza quelle che portano a previsioni più accurate. I nostri esperimenti mostrano che i modelli addestrati con Robot-R1 superano i metodi SFT nei compiti di ragionamento incarnato. Nonostante abbia solo 7 miliardi di parametri, Robot-R1 supera persino GPT-4o nei compiti di ragionamento legati al controllo di azioni di basso livello, come il ragionamento spaziale e sui movimenti primitivi.
Mentre i Diffusion Transformers (DiTs) hanno ottenuto progressi significativi nella generazione di video, questo compito di generazione di sequenze lunghe rimane limitato dalla complessità quadratica dei meccanismi di attenzione, risultando in una latenza di inferenza considerevole. Attraverso un'analisi dettagliata delle mappe di attenzione nel Video Diffusion Transformer (vDiT), abbiamo identificato tre modelli ricorrenti di sparsità: strutture diagonali, multi-diagonali e a strisce verticali. Inoltre, è possibile saltare anche il 3-6% delle teste di attenzione. Crucialmente, questi modelli mostrano forti correlazioni con la profondità del livello e la posizione della testa, ma una dipendenza limitata dal contenuto dell'input. Sfruttando queste scoperte, proponiamo Sparse-vDiT, un framework di accelerazione basato sulla sparsità per vDiT che comprende: 1) Kernel sparsi ottimizzati per i modelli, che sostituiscono l'attenzione densa con implementazioni computazionalmente efficienti per ciascun modello di sparsità identificato. 2) Un algoritmo di ricerca sparsa offline che seleziona la strategia di calcolo sparsa ottimale per ogni livello e testa attraverso un modello di costo consapevole dell'hardware. Dopo aver determinato la configurazione ottimale, fondiamo le teste all'interno dello stesso livello che condividono la stessa strategia di attenzione, migliorando l'efficienza dell'inferenza. Integrato nei modelli vDiT all'avanguardia (CogVideoX1.5, HunyuanVideo e Wan2.1), Sparse-vDiT raggiunge una riduzione teorica dei FLOP di 2.09 volte, 2.38 volte e 1.67 volte, e accelerazioni effettive dell'inferenza di 1.76 volte, 1.85 volte e 1.58 volte, rispettivamente, mantenendo un'elevata fedeltà visiva, con valori PSNR che raggiungono 24.13, 27.09 e 22.59. Il nostro lavoro dimostra che la sparsità strutturale latente nei vDiT può essere sfruttata sistematicamente per la sintesi di video lunghi.
Proponiamo CURE, un innovativo framework di apprendimento per rinforzo con un design dedicato delle ricompense che co-evolve le capacità di generazione di codice e di test unitari basandosi sui risultati della loro interazione, senza alcun codice di riferimento come supervisione. Questo approccio consente un addestramento flessibile e scalabile e permette al tester unitario di apprendere direttamente dagli errori del generatore di codice. I nostri modelli derivati ReasonFlux-Coder-7B e 14B migliorano l'accuratezza nella generazione di codice del 5,3% e l'accuratezza Best-of-N del 9,0% dopo l'ottimizzazione sui modelli Qwen2.5-Instruct, superando Qwen-Coder, DeepSeek-Coder e Seed-Coder di dimensioni simili. Essi si estendono naturalmente a task downstream come lo scaling in fase di test e il coding agentico, ottenendo un miglioramento dell'8,1% rispetto al modello base. Per il modello long-CoT, il nostro ReasonFlux-Coder-4B supera costantemente Qwen3-4B raggiungendo un'efficienza inferenziale del 64,8% nella generazione di test unitari. Inoltre, notiamo che il nostro modello può servire come un efficace modello di ricompensa per l'apprendimento per rinforzo sui modelli base. Progetto: https://github.com/Gen-Verse/CURE
Presentiamo Subject Fidelity Optimization (SFO), un innovativo framework di apprendimento comparativo per la generazione guidata da soggetti in modalità zero-shot che migliora la fedeltà al soggetto. Oltre ai metodi di fine-tuning supervisionato che si basano esclusivamente su target positivi e utilizzano la loss di diffusione come nella fase di pre-training, SFO introduce target negativi sintetici e guida esplicitamente il modello a preferire i positivi rispetto ai negativi attraverso confronti a coppie. Per i target negativi, proponiamo Condition-Degradation Negative Sampling (CDNS), che genera automaticamente negativi distintivi e informativi degradando intenzionalmente gli indizi visivi e testuali senza costose annotazioni umane. Inoltre, ricalibriamo i timestep di diffusione per concentrare il fine-tuning sui passaggi intermedi in cui emergono i dettagli del soggetto. Esperimenti estensivi dimostrano che SFO con CDNS supera significativamente i baseline in termini di fedeltà al soggetto e allineamento al testo su un benchmark di generazione guidata da soggetti. Pagina del progetto: https://subjectfidelityoptimization.github.io/
I recenti progressi nei contenuti generati dall'intelligenza artificiale (AIGC) hanno accelerato significativamente la produzione di animazioni. Per creare animazioni coinvolgenti, è essenziale generare clip video multi-inquadratura coerenti con script narrativi e riferimenti ai personaggi. Tuttavia, i dataset pubblici esistenti si concentrano principalmente su scenari del mondo reale con descrizioni globali e mancano di immagini di riferimento per una guida coerente dei personaggi. Per colmare questa lacuna, presentiamo AnimeShooter, un dataset di animazione multi-inquadratura guidato da riferimenti. AnimeShooter offre annotazioni gerarchiche complete e una forte coerenza visiva tra le inquadrature attraverso una pipeline automatizzata. Le annotazioni a livello di storia forniscono una panoramica della narrazione, inclusa la trama, le scene chiave e i profili dei personaggi principali con immagini di riferimento, mentre le annotazioni a livello di inquadratura scompongono la storia in inquadrature consecutive, ciascuna annotata con la scena, i personaggi e didascalie visive sia narrative che descrittive. Inoltre, un sottoinsieme dedicato, AnimeShooter-audio, offre tracce audio sincronizzate per ogni inquadratura, insieme a descrizioni audio e fonti sonore. Per dimostrare l'efficacia di AnimeShooter e stabilire una baseline per il compito di generazione video multi-inquadratura guidata da riferimenti, introduciamo AnimeShooterGen, che sfrutta Modelli di Linguaggio Multimodali di Grande Scala (MLLMs) e modelli di diffusione video. L'immagine di riferimento e le inquadrature precedentemente generate vengono prima elaborate da MLLM per produrre rappresentazioni consapevoli sia del riferimento che del contesto, che vengono poi utilizzate come condizione per il modello di diffusione per decodificare l'inquadratura successiva. I risultati sperimentali mostrano che il modello addestrato su AnimeShooter raggiunge una superiore coerenza visiva tra le inquadrature e un'aderenza alla guida visiva di riferimento, evidenziando il valore del nostro dataset per la generazione coerente di video animati.
Introduciamo la sintesi di immagini a risoluzione nativa, un nuovo paradigma di modellazione generativa che consente la sintesi di immagini a risoluzioni e rapporti d'aspetto arbitrari. Questo approccio supera i limiti dei metodi convenzionali a risoluzione fissa e immagini quadrate, gestendo nativamente token visivi di lunghezza variabile, una sfida fondamentale per le tecniche tradizionali. A tal fine, presentiamo il Native-resolution diffusion Transformer (NiT), un'architettura progettata per modellare esplicitamente risoluzioni e rapporti d'aspetto variabili all'interno del suo processo di denoising. Libero dai vincoli dei formati fissi, NiT apprende distribuzioni visive intrinseche da immagini che coprono un'ampia gamma di risoluzioni e rapporti d'aspetto. È degno di nota che un singolo modello NiT raggiunga simultaneamente prestazioni all'avanguardia sia sui benchmark ImageNet-256x256 che 512x512. Sorprendentemente, analogamente alle robuste capacità zero-shot osservate nei modelli linguistici avanzati, NiT, addestrato esclusivamente su ImageNet, dimostra un'eccellente performance di generalizzazione zero-shot. Genera con successo immagini ad alta fedeltà a risoluzioni elevate mai viste prima (ad esempio, 1536 x 1536) e con rapporti d'aspetto diversificati (ad esempio, 16:9, 3:1, 4:3), come mostrato nella Figura 1. Questi risultati indicano il significativo potenziale della modellazione a risoluzione nativa come ponte tra la modellazione generativa visiva e le metodologie avanzate dei modelli linguistici di grandi dimensioni (LLM).
La generazione di video lunghi ha attirato un'attenzione crescente grazie alle sue ampie applicazioni in campi come l'intrattenimento e la simulazione. Nonostante i progressi, sintetizzare sequenze lunghe temporalmente coerenti e visivamente accattivanti rimane una sfida formidabile. Gli approcci convenzionali spesso sintetizzano video lunghi generando e concatenando sequenze di clip brevi, oppure generando fotogrammi chiave e interpolando i fotogrammi intermedi in modo gerarchico. Tuttavia, entrambi i metodi presentano ancora sfide significative, portando a problemi come ripetizioni temporali o transizioni innaturali. In questo articolo, riprendiamo in esame la pipeline gerarchica per la generazione di video lunghi e introduciamo LumosFlow, un framework che introduce esplicitamente una guida al movimento. Nello specifico, utilizziamo prima il Large Motion Text-to-Video Diffusion Model (LMTV-DM) per generare fotogrammi chiave con intervalli di movimento più ampi, garantendo così la diversità di contenuto nei video lunghi generati. Data la complessità dell'interpolazione delle transizioni contestuali tra i fotogrammi chiave, scomponiamo ulteriormente l'interpolazione dei fotogrammi intermedi in generazione del movimento e raffinamento post-hoc. Per ogni coppia di fotogrammi chiave, il Latent Optical Flow Diffusion Model (LOF-DM) sintetizza flussi ottici complessi e con ampi movimenti, mentre MotionControlNet raffinare i risultati deformati per migliorare la qualità e guidare la generazione dei fotogrammi intermedi. Rispetto all'interpolazione tradizionale dei fotogrammi video, otteniamo un'interpolazione 15x, garantendo un movimento ragionevole e continuo tra fotogrammi adiacenti. Gli esperimenti dimostrano che il nostro metodo può generare video lunghi con movimento e aspetto coerenti. Codice e modelli saranno resi pubblicamente disponibili dopo l'accettazione. La nostra pagina del progetto: https://jiahaochen1.github.io/LumosFlow/
Ispirati dal meccanismo di apprendimento in-context dei grandi modelli linguistici (LLMs), sta emergendo un nuovo paradigma di editing di immagini basato su prompt visivi generalizzabili. I metodi esistenti che utilizzano un singolo riferimento si concentrano tipicamente su aggiustamenti di stile o aspetto e faticano a gestire trasformazioni non rigide. Per affrontare queste limitazioni, proponiamo di sfruttare coppie di immagini sorgente-destinazione per estrarre e trasferire l'intento di editing consapevole del contenuto a nuove immagini di query. A tal fine, introduciamo RelationAdapter, un modulo leggero che consente ai modelli basati su Diffusion Transformer (DiT) di catturare e applicare efficacemente trasformazioni visive a partire da esempi minimi. Introduciamo anche Relation252K, un dataset completo che comprende 218 task di editing diversi, per valutare la generalizzazione e l'adattabilità del modello in scenari guidati da prompt visivi. Gli esperimenti su Relation252K dimostrano che RelationAdapter migliora significativamente la capacità del modello di comprendere e trasferire l'intento di editing, portando a notevoli miglioramenti nella qualità della generazione e nelle prestazioni complessive dell'editing.
I Modelli di Diffusione hanno ottenuto risultati notevoli nella sintesi video, ma richiedono passaggi iterativi di denoising, portando a un notevole sovraccarico computazionale. I Modelli di Consistenza hanno fatto progressi significativi nell'accelerazione dei modelli di diffusione. Tuttavia, applicarli direttamente ai modelli di diffusione video spesso comporta un grave deterioramento della consistenza temporale e dei dettagli visivi. In questo articolo, analizzando le dinamiche di addestramento dei Modelli di Consistenza, identifichiamo un conflitto chiave nelle dinamiche di apprendimento durante il processo di distillazione: c'è una significativa discrepanza nei gradienti di ottimizzazione e nei contributi delle perdite tra i diversi passaggi temporali. Questa discrepanza impedisce al modello studente distillato di raggiungere uno stato ottimale, portando a una consistenza temporale compromessa e a dettagli visivi degradati. Per affrontare questo problema, proponiamo un Modello di Consistenza Dual-Expert~(DCM) efficiente in termini di parametri, in cui un esperto semantico si concentra sull'apprendimento del layout semantico e del movimento, mentre un esperto di dettagli si specializza nel perfezionamento dei dettagli fini. Inoltre, introduciamo la Perdita di Coerenza Temporale per migliorare la consistenza del movimento per l'esperto semantico e applichiamo la Perdita GAN e la Perdita di Corrispondenza delle Caratteristiche per migliorare la qualità della sintesi dell'esperto di dettagli. Il nostro approccio raggiunge una qualità visiva all'avanguardia con un numero significativamente ridotto di passaggi di campionamento, dimostrando l'efficacia della specializzazione degli esperti nella distillazione dei modelli di diffusione video. Il nostro codice e i nostri modelli sono disponibili su https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
Dataset di alta qualità sono fondamentali per l'addestramento e la valutazione di modelli di machine learning, ma la loro creazione—specialmente con annotazioni umane accurate—rimane una sfida significativa. Molte proposte di articoli su dataset mancano di originalità, diversità o controlli rigorosi sulla qualità, e queste carenze sono spesso trascurate durante la revisione tra pari. Le proposte inoltre omettono frequentemente dettagli essenziali sulla costruzione e le proprietà dei dataset. Sebbene strumenti esistenti come le datasheet mirino a promuovere la trasparenza, sono principalmente descrittivi e non forniscono metodi standardizzati e misurabili per valutare la qualità dei dati. Allo stesso modo, i requisiti di metadata nelle conferenze promuovono la responsabilità, ma sono applicati in modo incoerente. Per affrontare queste limitazioni, questo position paper sostiene l'integrazione di metriche di valutazione sistematiche e basate su rubriche nel processo di revisione dei dataset—specialmente considerando che i volumi di proposte continuano a crescere. Esploriamo inoltre metodi scalabili e convenienti per la generazione di dati sintetici, inclusi strumenti dedicati e approcci LLM-as-a-judge, per supportare una valutazione più efficiente. Come invito all'azione, introduciamo DataRubrics, un framework strutturato per valutare la qualità di dataset sia generati da umani che da modelli. Sfruttando i recenti progressi nella valutazione basata su LLM, DataRubrics offre una soluzione riproducibile, scalabile e azionabile per la valutazione della qualità dei dataset, consentendo sia agli autori che ai revisori di mantenere standard più elevati nella ricerca incentrata sui dati. Rilasciamo inoltre codice per supportare la riproducibilità delle valutazioni basate su LLM all'indirizzo https://github.com/datarubrics/datarubrics.
I modelli di diffusione text-to-video sono notoriamente limitati nella loro capacità di modellare aspetti temporali come il movimento, la fisica e le interazioni dinamiche. Gli approcci esistenti affrontano questa limitazione riaddestrando il modello o introducendo segnali di condizionamento esterni per imporre la coerenza temporale. In questo lavoro, esploriamo se una rappresentazione temporale significativa possa essere estratta direttamente dalle previsioni di un modello pre-addestrato senza ulteriori addestramenti o input ausiliari. Introduciamo FlowMo, un nuovo metodo di guida senza addestramento che migliora la coerenza del movimento utilizzando solo le previsioni del modello stesso in ogni passo di diffusione. FlowMo deriva prima una rappresentazione temporale bilanciata rispetto all'aspetto misurando la distanza tra i latenti corrispondenti a frame consecutivi. Questo evidenzia la struttura temporale implicita prevista dal modello. Successivamente, stima la coerenza del movimento misurando la varianza a livello di patch lungo la dimensione temporale e guida il modello a ridurre dinamicamente questa varianza durante il campionamento. Esperimenti estesi su più modelli text-to-video dimostrano che FlowMo migliora significativamente la coerenza del movimento senza sacrificare la qualità visiva o l'allineamento con il prompt, offrendo una soluzione plug-and-play efficace per migliorare la fedeltà temporale dei modelli di diffusione video pre-addestrati.
La generazione di codice con modelli linguistici di grandi dimensioni (LLM), spesso definita "vibe coding", è sempre più adottata in produzione, ma non riesce a garantire la qualità del codice, in particolare per quanto riguarda la sicurezza (ad esempio, vulnerabilità da SQL injection) e la manutenibilità (ad esempio, annotazioni di tipo mancanti). I metodi esistenti, come il fine-tuning supervisionato e l'elaborazione post-hoc basata su regole, si affidano ad annotazioni laboriose o euristiche fragili, limitandone la scalabilità e l'efficacia. Proponiamo REAL, un framework di apprendimento per rinforzo che incentiva gli LLM a generare codice di qualità produttiva utilizzando feedback guidato dall'analisi del programma. Nello specifico, REAL integra due segnali automatizzati: (1) l'analisi del programma che rileva difetti di sicurezza o manutenibilità e (2) i test unitari che garantiscono la correttezza funzionale. A differenza dei lavori precedenti, il nostro framework è indipendente dal prompt e non richiede riferimenti, consentendo una supervisione scalabile senza intervento manuale. Esperimenti su più dataset e scale di modelli dimostrano che REAL supera i metodi all'avanguardia nelle valutazioni simultanee di funzionalità e qualità del codice. Il nostro lavoro colma il divario tra prototipazione rapida e codice pronto per la produzione, consentendo agli LLM di offrire sia velocità che qualità.
Le tecniche di diffusione video hanno fatto progressi significativi negli ultimi anni; tuttavia, faticano a generare immagini realistiche di incidenti automobilistici a causa della scarsità di eventi di questo tipo nella maggior parte dei dataset di guida. Migliorare la sicurezza stradale richiede simulazioni di incidenti realistiche e controllabili. Per affrontare il problema, proponiamo Ctrl-Crash, un modello di generazione video controllabile di incidenti automobilistici che si basa su segnali come bounding box, tipi di incidente e un'immagine iniziale. Il nostro approccio consente la generazione di scenari controfattuali in cui piccole variazioni negli input possono portare a esiti di incidenti drasticamente diversi. Per supportare un controllo fine al momento dell'inferenza, sfruttiamo la guida senza classificatore con scale regolabili in modo indipendente per ogni segnale di condizionamento. Ctrl-Crash raggiunge prestazioni all'avanguardia sia nelle metriche quantitative di qualità video (ad esempio, FVD e JEDi) che nelle misurazioni qualitative basate su una valutazione umana del realismo fisico e della qualità video rispetto ai precedenti metodi basati sulla diffusione.
I grandi modelli linguistici stanno rapidamente diventando la base per agenti intelligenti in grado di utilizzare strumenti. Tuttavia, addestrare tali agenti è impegnativo perché richiede la creazione e l'annotazione umana di un insieme diversificato di compiti, strumenti e criteri di valutazione. In questo articolo, proponiamo il framework Self-Challenging per addestrare un agente su compiti di alta qualità generati da sé stesso. L'agente assume prima il ruolo di sfidante e genera un compito dopo aver interagito con gli strumenti forniti. I compiti assumono la forma di una nuova classe generale di problemi denominata Code-as-Task, definiti da un'istruzione, una funzione di verifica e casi di soluzione e fallimento che fungono da test, permettendo di filtrare solo i compiti di alta qualità. L'agente assume poi il ruolo di esecutore e si addestra su tali compiti con apprendimento per rinforzo, utilizzando il feedback di valutazione come ricompensa. La valutazione su due benchmark esistenti per agenti multi-turn che utilizzano strumenti, M3ToolEval e TauBench, mostra che il framework Self-Challenging ottiene un miglioramento di oltre il doppio in Llama-3.1-8B-Instruct, nonostante utilizzi solo dati di addestramento auto-generati.
La distillazione della conoscenza (Knowledge Distillation, KD) è un framework ampiamente utilizzato per addestrare modelli compatti e specifici per un determinato compito sfruttando la conoscenza di modelli insegnanti. Tuttavia, la sua applicazione all'apprendimento attivo (Active Learning, AL), che mira a minimizzare i costi di annotazione attraverso la selezione iterativa di campioni, rimane poco esplorata. Questa lacuna deriva dal fatto che la KD presuppone tipicamente l'accesso a dati etichettati sufficienti, mentre l'AL opera in scenari con scarsità di dati in cui i modelli insegnanti specifici per il compito sono spesso non disponibili. In questo articolo, introduciamo ActiveKD, un framework che integra l'AL con la KD sfruttando le capacità zero-shot e few-shot di grandi modelli visione-linguaggio (Vision-Language Models, VLMs). Un aspetto chiave di ActiveKD è il bias di previsione strutturata dei VLMs, ovvero il fatto che le loro previsioni formano cluster nello spazio delle probabilità. Consideriamo questa struttura come un bias induttivo del modello insegnante, che cattura schemi di output generalizzabili utili per l'apprendimento dello studente. Per sfruttare questo bias, proponiamo Probabilistic CoreSet (PCoreSet), una strategia di selezione che massimizza la copertura nello spazio delle probabilità anziché nello spazio delle feature. PCoreSet seleziona strategicamente campioni non etichettati con diversità categoriale, facilitando un trasferimento più efficiente della conoscenza dell'insegnante con budget di annotazione limitati. Le valutazioni su 11 dataset dimostrano che PCoreSet supera costantemente i metodi di selezione esistenti all'interno del framework ActiveKD, avanzando la ricerca all'intersezione tra AL e KD.
Gli attuali approcci di autocorrezione nel campo di text-to-SQL affrontano due limitazioni critiche: 1) I metodi convenzionali di autocorrezione si basano su chiamate ricorsive di LLM, con conseguente sovraccarico computazionale moltiplicativo, e 2) Gli LLM faticano a implementare un rilevamento e una correzione efficaci degli errori per query SQL dichiarative, poiché non riescono a dimostrare il percorso di ragionamento sottostante. In questo lavoro, proponiamo SHARE, un assistente di correzione gerarchica basato su SLM (Small Language Model) che consente agli LLM di eseguire una localizzazione degli errori più precisa e una correzione efficiente. SHARE orchestra tre Small Language Model (SLM) specializzati in una pipeline sequenziale, in cui prima trasforma le query SQL dichiarative in traiettorie di azioni passo-passo che rivelano il ragionamento sottostante, seguito da un affinamento granulare in due fasi. Proponiamo inoltre una nuova strategia di auto-evoluzione gerarchica per un addestramento efficiente in termini di dati. I risultati sperimentali dimostrano che SHARE migliora efficacemente le capacità di autocorrezione, dimostrandosi robusto su vari LLM. Inoltre, la nostra analisi completa mostra che SHARE mantiene prestazioni solide anche in contesti di addestramento con risorse limitate, il che è particolarmente prezioso per applicazioni text-to-SQL con vincoli di privacy dei dati.
Presentiamo MoCA-Video (Motion-Aware Concept Alignment in Video), un framework senza necessità di addestramento che colma il divario tra la miscelazione semantica nel dominio delle immagini e i video. Dato un video generato e un'immagine di riferimento fornita dall'utente, MoCA-Video inietta le caratteristiche semantiche dell'immagine di riferimento in un oggetto specifico all'interno del video, preservando il movimento originale e il contesto visivo. Il nostro approccio sfrutta una pianificazione diagonale del rumore e una segmentazione agnostica rispetto alla classe per rilevare e tracciare gli oggetti nello spazio latente e controllare con precisione la posizione spaziale degli oggetti miscelati. Per garantire la coerenza temporale, incorporiamo correzioni semantiche basate sul momento e una stabilizzazione del rumore residuo gamma per transizioni fluide tra i fotogrammi. Valutiamo le prestazioni di MoCA utilizzando gli standard SSIM, LPIPS a livello di immagine, LPIPS temporale e introduciamo una nuova metrica CASS (Conceptual Alignment Shift Score) per valutare la coerenza e l'efficacia degli spostamenti visivi tra il prompt sorgente e i fotogrammi video modificati. Utilizzando un dataset auto-costruito, MoCA-Video supera le baseline attuali, raggiungendo una consistenza spaziale superiore, un movimento coerente e un punteggio CASS significativamente più alto, nonostante non abbia alcun addestramento o fine-tuning. MoCA-Video dimostra che la manipolazione strutturata nella traiettoria del rumore di diffusione consente una sintesi video controllabile e di alta qualità.
La velocità di generazione dei modelli linguistici di grandi dimensioni (LLM) è limitata dal decodifica autoregressiva, in cui i token vengono predetti sequenzialmente uno alla volta. In alternativa, i modelli linguistici di grandi dimensioni basati su diffusione (dLLM) teoricamente consentono la generazione parallela di token, ma in pratica faticano a raggiungere la velocità dei modelli autoregressivi senza sacrificare significativamente la qualità. Introduciamo quindi il decodifica parallela adattiva (APD), un metodo innovativo che regola dinamicamente il numero di token campionati in parallelo. Raggiungiamo questo obiettivo definendo una miscela moltiplicativa tra le probabilità marginali del dLLM e la probabilità congiunta di sequenze sotto un piccolo modello autoregressivo ausiliario. Questo inverte la configurazione standard del decodifica speculativa, in cui l'obiettivo è campionare da un verificatore autoregressivo di grandi dimensioni utilizzando un modello più piccolo per la bozza. Ottimizziamo ulteriormente l'APD abilitando la memorizzazione nella cache KV e limitando la dimensione dell'input mascherato. Nel complesso, il nostro metodo propone tre parametri regolabili per bilanciare flessibilmente la velocità di elaborazione e la qualità. Dimostriamo che l'APD offre una velocità di elaborazione notevolmente più elevata con minime riduzioni della qualità nei benchmark a valle.
L'acquisizione di dati di simulazione robotica nel mondo reale tramite teleoperazione è notoriamente dispendiosa in termini di tempo e di risorse umane. Recentemente, i modelli generativi guidati da azioni hanno ottenuto un'ampia adozione nell'apprendimento e nella simulazione robotica, poiché eliminano le preoccupazioni legate alla sicurezza e riducono gli sforzi di manutenzione. Tuttavia, le sequenze di azioni utilizzate in questi metodi spesso risultano in una precisione di controllo limitata e in una scarsa generalizzazione a causa del loro allineamento globalmente grossolano. Per affrontare queste limitazioni, proponiamo ORV, un framework di generazione di video robotici centrato sull'occupazione, che utilizza sequenze di occupazione semantica 4D come rappresentazione fine per fornire una guida semantica e geometrica più accurata nella generazione di video. Sfruttando rappresentazioni basate sull'occupazione, ORV consente una traduzione fluida dei dati di simulazione in video robotici fotorealistici, garantendo al contempo un'elevata coerenza temporale e una precisa controllabilità. Inoltre, il nostro framework supporta la generazione simultanea di video multi-vista delle operazioni di presa robotica, una capacità importante per le attività di apprendimento robotico downstream. I risultati sperimentali estesi dimostrano che ORV supera costantemente i metodi di base esistenti su vari dataset e sotto-task. Demo, Codice e Modello: https://orangesodahub.github.io/ORV
I Large Language Model (LLM) hanno recentemente ottenuto progressi significativi sfruttando il Reinforcement Learning e tecniche avanzate di Chain-of-Thought (CoT). Tuttavia, la sfida di eseguire un ragionamento linguistico efficiente—specialmente durante l'inferenza con output estremamente lunghi—ha attirato un'attenzione crescente da parte della comunità di ricerca. In questo lavoro, proponiamo una pipeline di addestramento basata su rapporti dinamici che non si affida a annotazioni di dati sofisticate o all'interpolazione tra più modelli. Bilanciamo continuamente i pesi tra i dati del Sistema-1 e del Sistema-2 del modello per eliminare i processi di ragionamento ridondanti, preservando al contempo la capacità di ragionamento del modello. Validiamo il nostro approccio su modelli come DeepSeek-R1-Distill-7B e DeepSeek-R1-Distill-14B e su un insieme diversificato di benchmark con livelli di difficoltà variabili. Il nostro metodo riduce significativamente il numero di token di output di quasi il 40%, mantenendo l'accuratezza del ragionamento. Il nostro codice e i nostri dati saranno presto disponibili.
Le visualizzazioni svolgono un ruolo cruciale nella comunicazione efficace di concetti e informazioni. I recenti progressi nel ragionamento e nella generazione aumentata da recupero hanno consentito ai Modelli Linguistici di Grande Scala (LLM) di condurre ricerche approfondite e generare report completi. Nonostante questi progressi, gli attuali framework di ricerca approfondita si concentrano principalmente sulla generazione di contenuti testuali, lasciando inesplorata la generazione automatizzata di testi e visualizzazioni intercalati. Questo nuovo compito presenta sfide chiave nella progettazione di visualizzazioni informative e nella loro efficace integrazione con i report testuali. Per affrontare queste sfide, proponiamo la Descrizione Formale della Visualizzazione (FDV), una rappresentazione testuale strutturata di grafici che consente ai LLM di apprendere e generare visualizzazioni diversificate e di alta qualità. Basandoci su questa rappresentazione, introduciamo Multimodal DeepResearcher, un framework agentico che scompone il compito in quattro fasi: (1) ricerca, (2) testualizzazione del report esemplare, (3) pianificazione e (4) generazione del report multimodale. Per la valutazione dei report multimodali generati, sviluppiamo MultimodalReportBench, che contiene 100 argomenti diversificati come input insieme a 5 metriche dedicate. Esperimenti estesi su modelli e metodi di valutazione dimostrano l'efficacia di Multimodal DeepResearcher. In particolare, utilizzando lo stesso modello Claude 3.7 Sonnet, Multimodal DeepResearcher raggiunge un tasso di vittoria complessivo dell'82% rispetto al metodo di base.
Le complessità intrinseche della scrittura araba; la sua natura corsiva, i segni diacritici (tashkeel) e la tipografia variegata, pongono sfide persistenti per il Riconoscimento Ottico dei Caratteri (OCR). Presentiamo Qari-OCR, una serie di modelli visione-linguaggio derivati da Qwen2-VL-2B-Instruct, progressivamente ottimizzati per l'arabo attraverso un affinamento iterativo su dataset sintetici specializzati. Il nostro modello principale, QARI v0.2, stabilisce un nuovo stato dell'arte open-source con un tasso di errore sulle parole (WER) di 0.160, un tasso di errore sui caratteri (CER) di 0.061 e un punteggio BLEU di 0.737 su testi ricchi di diacritici. Qari-OCR dimostra una gestione superiore dei tashkeel, dei font diversificati e dei layout dei documenti, insieme a prestazioni impressionanti su immagini a bassa risoluzione. Ulteriori esplorazioni (QARI v0.3) mostrano un forte potenziale per la comprensione strutturale dei documenti e del testo manoscritto. Questo lavoro offre un miglioramento significativo nell'accuratezza e nell'efficienza dell'OCR arabo, con tutti i modelli e i dataset rilasciati per favorire ulteriori ricerche.
Questo articolo si propone di affrontare le sfide del sottopensiero e del sovrapensiero nel ragionamento a lunga catena di pensiero (CoT) per i Modelli di Ragionamento su Grande Scala (LRMs) introducendo i Campi di Controllo del Ragionamento (RCF)--un approccio innovativo in fase di test che inietta segnali di controllo strutturati per guidare il ragionamento da una prospettiva di ricerca ad albero. Gli RCF consentono ai modelli di regolare lo sforzo di ragionamento in base alle condizioni di controllo specificate durante la risoluzione di compiti complessi. Inoltre, presentiamo il dataset Control-R-4K, composto da problemi impegnativi annotati con processi di ragionamento dettagliati e corrispondenti campi di controllo. Per migliorare ulteriormente il controllo del ragionamento, proponiamo un metodo di Fine-tuning con Distillazione Condizionale (CDF), che addestra il modello--in particolare Control-R-32B--a regolare efficacemente lo sforzo di ragionamento durante il test. I risultati sperimentali su benchmark come AIME2024 e MATH500 dimostrano che il nostro approccio raggiunge prestazioni all'avanguardia alla scala 32B, consentendo un processo di ragionamento a Lunga CoT (L-CoT) controllabile. Nel complesso, questo lavoro introduce un paradigma efficace per il ragionamento scalabile e controllabile in fase di test.
Con il rilascio di R1, un modello di ragionamento su larga scala (LRM) disponibile pubblicamente, i ricercatori comunemente addestrano nuovi LRM allenando modelli linguistici sulle lunghe inferenze a catena di pensiero (CoT) di R1. Sebbene lavori precedenti dimostrino che le capacità degli LRM possano essere riprodotte attraverso la distillazione diretta, la continua dipendenza dai modelli esistenti (ad esempio, R1) rimane una limitazione critica per l'avanzamento del campo. Come primo passo verso lo sviluppo indipendente di LRM, questo articolo esplora la possibilità di costruire un dataset di CoT lunghi utilizzando LLM che non sono addestrati per il ridimensionamento al momento dell'inferenza. A tal fine, presentiamo la Long CoT Collection, un dataset di 100K razionalità CoT annotate utilizzando LLM esistenti per CoT brevi. Sviluppiamo una pipeline che introduce le nuove strategie di ragionamento di o1 negli LLM per CoT brevi, consentendo loro di pensare più a lungo e introducendo la controllabilità sul budget di pensiero per gestire meglio il problema del sovrapensiero. Le nostre analisi estensive confermano che il nostro dataset raggiunge una qualità comparabile—o leggermente inferiore—a quella di R1. Inoltre, i nostri esperimenti dimostrano che l'addestramento sul nostro dataset non solo rafforza le capacità di ragionamento generale, ma fornisce anche una solida base per l'apprendimento per rinforzo—i modelli inizializzati sui nostri dati raggiungono guadagni 2-3 volte maggiori con RLVR.
I recenti progressi nei grandi modelli linguistici (LLM) hanno migliorato efficacemente le loro capacità di ragionamento, in particolare su problemi matematici e logici con risposte verificabili, attraverso tecniche come il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo (RL). Ricerche precedenti indicano che l'RL internalizza efficacemente le strategie di ricerca, abilitando ragionamenti a catena di pensiero (CoT) lunghi, con il backtracking che emerge naturalmente come una capacità appresa. Tuttavia, i benefici precisi del backtracking, in particolare quanto contribuisca significativamente al miglioramento del ragionamento e l'estensione ottimale del suo utilizzo, rimangono poco compresi. In questo lavoro, indaghiamo sistematicamente le dinamiche tra SFT e RL su otto compiti di ragionamento: Countdown, Sudoku, Arc 1D, Geometria, Rotazione del Cubo Colorato, Funzioni di Lista, Puzzle Zebra e Auto-Riferimento. I nostri risultati evidenziano che brevi sequenze CoT utilizzate nell'SFT come riscaldamento contribuiscono moderatamente all'addestramento RL, rispetto a un RL a freddo; tuttavia, tale contributo diminuisce quando i compiti diventano progressivamente più difficili. Motivati da questa osservazione, costruiamo dataset sintetici che variano sistematicamente nel numero di passaggi di backtracking e conduciamo esperimenti controllati per isolare l'influenza della correttezza (contenuto) o della struttura (frequenza di backtracking). Scopriamo che (1) CoT più lunghi con backtracking inducono generalmente un addestramento RL migliore e più stabile, (2) problemi più complessi con spazi di ricerca più ampi tendono a richiedere un numero maggiore di backtracking durante la fase SFT. Inoltre, dimostriamo attraverso esperimenti su dati distillati che l'addestramento RL è largamente insensibile alla correttezza delle sequenze CoT lunghe, suggerendo che l'RL privilegia i modelli strutturali rispetto alla correttezza del contenuto. Nel complesso, i nostri risultati offrono indicazioni pratiche per progettare strategie di addestramento ottimali per scalare efficacemente il ragionamento negli LLM.
La comprensione di video di lunga durata presenta sfide significative a causa dell'estesa complessità spazio-temporale e della difficoltà di rispondere a domande in contesti così estesi. Sebbene i Modelli Linguistici di Grande Dimensione (LLM) abbiano dimostrato notevoli progressi nelle capacità di analisi video e nella gestione di contesti lunghi, continuano a mostrare limitazioni quando elaborano video densi di informazioni della durata di un'ora. Per superare tali limitazioni, proponiamo l'agente Deep Video Discovery (DVD) per sfruttare una strategia di ricerca agentica su clip video segmentati. A differenza dei precedenti agenti video che progettavano manualmente un flusso di lavoro rigido, il nostro approccio enfatizza la natura autonoma degli agenti. Fornendo un insieme di strumenti incentrati sulla ricerca su un database video multi-granulare, il nostro agente DVD sfrutta la capacità di ragionamento avanzata dell'LLM per pianificare in base al suo stato di osservazione corrente, selezionare strategicamente gli strumenti, formulare parametri appropriati per le azioni e affinare iterativamente il proprio ragionamento interno alla luce delle informazioni raccolte. Eseguiamo una valutazione completa su più benchmark di comprensione di video lunghi che dimostra il vantaggio dell'intero design del sistema. Il nostro agente DVD raggiunge prestazioni all'avanguardia, superando significativamente i lavori precedenti con un ampio margine sul complesso dataset LVBench. Sono inoltre forniti studi di ablazione completi e analisi approfondite degli strumenti, offrendo spunti per avanzare ulteriormente gli agenti intelligenti progettati per compiti di comprensione di video di lunga durata. Il codice verrà rilasciato in seguito.
Il recupero semantico è cruciale per le applicazioni moderne, ma rimane ancora poco esplorato nella ricerca attuale. I dataset esistenti sono limitati a singole lingue, singole immagini o condizioni di recupero singolari, spesso non riuscendo a sfruttare appieno la capacità espressiva delle informazioni visive, come evidenziato dalle prestazioni mantenute quando le immagini vengono sostituite con didascalie. Tuttavia, gli scenari pratici di recupero coinvolgono frequentemente query intervallate con condizioni multiple e immagini multiple. Pertanto, questo articolo introduce MERIT, il primo dataset multilingue per il recupero semantico intervallato con condizioni multiple, comprendente 320.000 query con 135.000 prodotti in 5 lingue, coprendo 7 distinte categorie di prodotti. Esperimenti estensivi su MERIT identificano una limitazione dei modelli esistenti: concentrarsi esclusivamente sulle informazioni semantiche globali trascurando elementi condizionali specifici nelle query. Di conseguenza, proponiamo Coral, un nuovo framework di fine-tuning che adatta MLLM pre-addestrati integrando la ricostruzione degli embedding per preservare elementi condizionali dettagliati e l'apprendimento contrastivo per estrarre semantiche globali complete. Gli esperimenti dimostrano che Coral raggiunge un miglioramento delle prestazioni del 45,9% rispetto agli approcci convenzionali su MERIT, con forti capacità di generalizzazione validate su 8 benchmark di recupero consolidati. Collettivamente, i nostri contributi - un nuovo dataset, l'identificazione di limitazioni critiche negli approcci esistenti e un innovativo framework di fine-tuning - stabiliscono una base per la ricerca futura nel recupero semantico intervallato con condizioni multiple.
Il pre-addestramento contrastivo lingua-immagine allinea le caratteristiche delle coppie testo-immagine in uno spazio latente comune attraverso encoder distinti per ciascuna modalità. Sebbene questo approccio raggiunga prestazioni impressionanti in diversi compiti zero-shot, non è in grado di gestire nativamente input multimodali, ovvero codificare immagine e testo in un unico vettore di caratteristiche. Come rimedio, è pratica comune utilizzare moduli aggiuntivi per fondere le caratteristiche estratte dagli encoder unimodali. In questo lavoro, presentiamo FuseLIP, un'architettura alternativa per l'embedding multimodale. Sfruttando i recenti progressi nei tokenizer discreti per immagini, proponiamo di utilizzare un singolo modello transformer che opera su un vocabolario esteso di token di testo e immagini. Questo approccio di fusione precoce consente alle diverse modalità di interagire a ogni livello di codifica e ottenere rappresentazioni più ricche rispetto alla comune fusione tardiva. Raccogliamo nuovi dataset per il pre-addestramento e la valutazione multimodale, progettando compiti impegnativi per i modelli di encoder multimodali. Mostriamo che FuseLIP supera altri approcci nei compiti di embedding multimodale come il VQA e il recupero di trasformazioni di immagini guidate da testo, pur essendo comparabile ai baseline nei compiti unimodali.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno portato allo sviluppo di nuovi benchmark per valutare le loro prestazioni nel dominio finanziario. Tuttavia, gli attuali benchmark finanziari si basano spesso su articoli di notizie, rapporti sugli utili o annunci, rendendo difficile catturare le dinamiche reali delle riunioni finanziarie. Per colmare questa lacuna, proponiamo un nuovo benchmark chiamato M^3FinMeeting, un dataset multilingue, multisettoriale e multi-task progettato per la comprensione delle riunioni finanziarie. In primo luogo, M^3FinMeeting supporta inglese, cinese e giapponese, migliorando la comprensione delle discussioni finanziarie in contesti linguistici diversi. In secondo luogo, copre vari settori industriali definiti dallo Standard di Classificazione Globale dell'Industria (GICS), garantendo che il benchmark abbracci un'ampia gamma di attività finanziarie. Infine, M^3FinMeeting include tre task: riassunto, estrazione di coppie domanda-risposta (QA) e risposta alle domande, facilitando una valutazione più realistica e completa della comprensione. I risultati sperimentali con sette popolari LLM rivelano che anche i modelli più avanzati con contesto lungo hanno un margine di miglioramento significativo, dimostrando l'efficacia di M^3FinMeeting come benchmark per valutare le capacità di comprensione delle riunioni finanziarie da parte degli LLM.
Gli attuali paradigmi di Reinforcement Fine-Tuning (RFT) per i Large Language Models (LLM) soffrono di inefficienza campionaria a causa dell'esposizione ridondante di query identiche sotto un campionamento uniforme dei dati. Mentre lavori precedenti hanno esplorato il curriculum learning attraverso metriche euristiche di difficoltà, queste strategie presentano limitazioni trascurando i segnali di apprendimento intrinseci generati dal modello stesso, portando così a regimi di addestramento subottimali. In questo articolo, identifichiamo un segnale intrinseco al modello denominato concentrazione angolare che riflette efficacemente la capacità di un LLM di apprendere da dati specifici. Dimostriamo teoricamente ed empiricamente una correlazione tra la distribuzione angolare dei vettori di stato nascosto dei token e il gradiente risultante, rivelando una preferenza di apprendimento per i dati che mostrano una maggiore concentrazione angolare. Ispirati da questa scoperta, proponiamo GAIN-RL, un framework di Reinforcement Learning Navigato e Informato dall'Angolo basato sul Gradiente. Sfruttando il segnale intrinseco di concentrazione angolare del modello, GAIN-RL seleziona dinamicamente i dati di addestramento in ogni epoca, garantendo aggiornamenti del gradiente costantemente impattanti e migliorando così significativamente l'efficienza complessiva dell'addestramento. Valutazioni empiriche dimostrano che GAIN-RL (GRPO) raggiunge un'accelerazione di oltre 2,5 volte nell'efficienza di addestramento su vari compiti matematici e di codifica e su diverse scale di modelli. Inoltre, il campionamento efficiente di GAIN-RL (GRPO) produce un addestramento efficiente in termini di dati, ottenendo prestazioni migliori con la metà dei dati originali rispetto al GRPO standard con tutti i dati di addestramento. Il codice è disponibile all'indirizzo https://github.com/wangqinsi1/GAINRL/tree/main.
La cultura è un dominio ricco e dinamico che si evolve sia nello spazio che nel tempo. Tuttavia, gli studi esistenti sulla comprensione culturale con modelli visione-linguaggio (VLMs) si concentrano principalmente sulla diversità geografica, spesso trascurando le cruciali dimensioni temporali. Per colmare questa lacuna, introduciamo Hanfu-Bench, un nuovo dataset multimodale curato da esperti. L'Hanfu, un abito tradizionale che attraversa le antiche dinastie cinesi, rappresenta un patrimonio culturale emblematico che riflette gli aspetti temporali profondi della cultura cinese, pur rimanendo estremamente popolare nella società contemporanea cinese. Hanfu-Bench comprende due compiti principali: la comprensione visiva culturale e la transcrazione culturale di immagini. Il primo compito esamina il riconoscimento di caratteristiche culturali temporali basato su input di immagini singole o multiple attraverso risposte a domande a scelta multipla, mentre il secondo si concentra sulla trasformazione di abiti tradizionali in design moderni attraverso l'eredità di elementi culturali e l'adattamento al contesto moderno. La nostra valutazione mostra che i VLMs chiusi performano in modo comparabile ai non esperti nella comprensione visiva culturale, ma rimangono inferiori del 10% rispetto agli esperti umani, mentre i VLMs aperti sono ulteriormente indietro rispetto ai non esperti. Per il compito di transcrazione, una valutazione umana multidimensionale indica che il modello con le migliori prestazioni raggiunge un tasso di successo di appena il 42%. Il nostro benchmark fornisce un banco di prova essenziale, rivelando sfide significative in questa nuova direzione della comprensione culturale temporale e dell'adattamento creativo.
I recenti progressi nei Large Multi-modal Models (LMM) hanno consentito un efficace ragionamento visivo-linguistico, ma la capacità di comprendere i contenuti video rimane limitata da strategie subottimali di selezione dei frame. Gli approcci esistenti spesso si basano su euristiche statiche o moduli di recupero esterni per fornire informazioni sui frame ai video-LLM, il che potrebbe non garantire la rilevanza rispetto alla query. In questo lavoro, introduciamo ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding), un innovativo framework di ottimizzazione a livello di frame che sposta l'obiettivo di ottimizzazione dalle risposte testuali alla selezione degli input visivi. ReFoCUS apprende una politica di selezione dei frame tramite reinforcement learning, utilizzando segnali di ricompensa derivati da un LMM di riferimento per riflettere le preferenze intrinseche del modello per i frame che meglio supportano risposte temporalmente contestualizzate. Per esplorare in modo efficiente il vasto spazio combinatorio dei frame, adottiamo un'architettura di selezione condizionale autoregressiva che garantisce coerenza temporale riducendo al contempo la complessità. Il nostro approccio non richiede supervisione esplicita a livello di frame e migliora costantemente le prestazioni di ragionamento su diversi benchmark di video QA, evidenziando i vantaggi di allineare la selezione dei frame con l'utilità interna del modello.
I metodi di interpolazione esistenti utilizzano prior di diffusione video pre-addestrate per generare fotogrammi intermedi tra fotogrammi chiave campionati in modo sparso. In assenza di una guida geometrica 3D, questi metodi faticano a produrre risultati plausibili per movimenti umani complessi e articolati e offrono un controllo limitato sulle dinamiche sintetizzate. In questo articolo, introduciamo PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), un nuovo framework che integra segnali di guida umana 3D nel processo di diffusione per l'Interpolazione Controllabile di Fotogrammi Chiave Centrata sull'Uomo (CHKI). Per fornire ricchi indizi spaziali e strutturali per l'interpolazione, il nostro PoseFuse3D, un modello di controllo informato in 3D, presenta un nuovo codificatore SMPL-X che trasforma la geometria e la forma 3D nello spazio di condizionamento latente 2D, insieme a una rete di fusione che integra questi indizi 3D con incorporamenti di pose 2D. Per la valutazione, abbiamo costruito CHKI-Video, un nuovo dataset annotato con pose 2D e parametri SMPL-X 3D. Mostriamo che PoseFuse3D-KI supera costantemente i baseline più avanzati su CHKI-Video, ottenendo un miglioramento del 9% in PSNR e una riduzione del 38% in LPIPS. Le ablazioni complete dimostrano che il nostro modello PoseFuse3D migliora la fedeltà dell'interpolazione.
Indaghiamo se il successo di un processo zero-shot di Chain-of-Thought (CoT) possa essere previsto prima del suo completamento. Scopriamo che un classificatore di probing, basato sulle rappresentazioni di un LLM, performa bene anche prima che venga generato un singolo token, suggerendo che informazioni cruciali sul processo di ragionamento siano già presenti nelle rappresentazioni iniziali. Al contrario, una solida baseline basata su BERT, che si affida esclusivamente ai token generati, performa peggio, probabilmente perché dipende da indizi linguistici superficiali piuttosto che da dinamiche di ragionamento più profonde. Sorprendentemente, l'utilizzo di passaggi di ragionamento successivi non migliora sempre la classificazione. Quando il contesto aggiuntivo non è utile, le rappresentazioni iniziali assomigliano di più a quelle successive, suggerendo che gli LLM codificano le informazioni chiave precocemente. Ciò implica che il ragionamento può spesso fermarsi in anticipo senza perdite. Per testare questa ipotesi, conduciamo esperimenti di early stopping, dimostrando che troncare il ragionamento CoT migliora comunque le prestazioni rispetto a non utilizzare affatto il CoT, sebbene rimanga un divario rispetto al ragionamento completo. Tuttavia, approcci come l'apprendimento supervisionato o l'apprendimento per rinforzo progettati per accorciare le catene CoT potrebbero sfruttare la guida del nostro classificatore per identificare quando l'early stopping è efficace. Le nostre scoperte forniscono intuizioni che potrebbero supportare tali metodi, aiutando a ottimizzare l'efficienza del CoT preservandone i benefici.
I grandi modelli di raccomandazione hanno esteso i modelli linguistici di grandi dimensioni (LLM) come potenti strumenti di raccomandazione attraverso la codifica o la generazione di elementi, e i recenti progressi nel ragionamento degli LLM hanno contemporaneamente motivato l'esplorazione del ragionamento nei sistemi di raccomandazione. Gli studi attuali posizionano solitamente gli LLM come moduli di ragionamento esterni per fornire pensieri ausiliari al fine di potenziare le pipeline di raccomandazione convenzionali. Tuttavia, tali design disaccoppiati sono limitati da un significativo costo di risorse e da un'ottimizzazione congiunta non ottimale. Per affrontare questi problemi, proponiamo \name, un modello unificato di raccomandazione di grandi dimensioni con capacità intrinseche di ragionamento. Inizialmente, riconcettualizziamo l'architettura del modello per facilitare il ragionamento intervallato e la raccomandazione nel processo autoregressivo. Successivamente, proponiamo RecPO, un corrispondente framework di apprendimento per rinforzo che ottimizza \name\ sia per le capacità di ragionamento che di raccomandazione simultaneamente in un singolo aggiornamento della politica; RecPO introduce uno schema di ricompensa fusa che sfrutta esclusivamente le etichette di raccomandazione per simulare la capacità di ragionamento, eliminando la dipendenza da annotazioni specializzate di ragionamento. Esperimenti su tre dataset con varie baseline verificano l'efficacia di \name, mostrando miglioramenti relativi del 68,67\% in Hit@5 e del 45,21\% in NDCG@20. Il codice è disponibile all'indirizzo https://github.com/YRYangang/RRec.
La modifica delle immagini con istruzioni per riflettere movimenti non rigidi, cambiamenti del punto di vista della fotocamera, deformazioni degli oggetti, articolazioni umane e interazioni complesse rappresenta un problema impegnativo e ancora poco esplorato nel campo della visione artificiale. Gli approcci e i dataset esistenti si concentrano principalmente su scene statiche o trasformazioni rigide, limitando la loro capacità di gestire modifiche espressive che coinvolgono movimenti dinamici. Per colmare questa lacuna, introduciamo ByteMorph, un framework completo per la modifica delle immagini basata su istruzioni, con un'enfasi sui movimenti non rigidi. ByteMorph comprende un dataset su larga scala, ByteMorph-6M, e un solido modello di riferimento basato sul Diffusion Transformer (DiT), denominato ByteMorpher. ByteMorph-6M include oltre 6 milioni di coppie di immagini ad alta risoluzione per l'addestramento, insieme a un benchmark di valutazione accuratamente curato, ByteMorph-Bench. Entrambi catturano una vasta gamma di tipi di movimento non rigido in ambienti diversi, figure umane e categorie di oggetti. Il dataset è costruito utilizzando la generazione di dati guidata dal movimento, tecniche di composizione a strati e didascalie automatizzate per garantire diversità, realismo e coerenza semantica. Inoltre, conduciamo una valutazione completa dei recenti metodi di modifica delle immagini basati su istruzioni provenienti sia dal mondo accademico che da quello commerciale.
Lo sviluppo di strumenti efficaci per l'interpretabilità dei Transformer rappresenta un obiettivo cruciale nella ricerca sul deep learning. Uno degli approcci più promettenti in questo ambito è la Propagazione della Rilevanza Strato per Strato (Layer-wise Relevance Propagation, LRP), che propaga i punteggi di rilevanza all'indietro attraverso la rete fino allo spazio di input, ridistribuendo i valori di attivazione in base a regole predefinite. Tuttavia, i metodi esistenti basati su LRP per l'interpretabilità dei Transformer trascurano completamente un componente critico dell'architettura Transformer: la codifica posizionale (Positional Encoding, PE), portando alla violazione della proprietà di conservazione e alla perdita di un tipo importante e unico di rilevanza, associato anche a caratteristiche strutturali e posizionali. Per affrontare questa limitazione, riformuliamo lo spazio di input per l'interpretabilità dei Transformer come un insieme di coppie posizione-token. Ciò ci consente di proporre regole LRP specializzate e teoricamente fondate, progettate per propagare le attribuzioni attraverso vari metodi di codifica posizionale, tra cui Rotary, Learnable e Absolute PE. Esperimenti estesi sia con classificatori fine-tuned che con modelli foundation zero-shot, come LLaMA 3, dimostrano che il nostro metodo supera significativamente lo stato dell'arte sia nei compiti di interpretabilità visiva che in quelli NLP. Il nostro codice è pubblicamente disponibile.
L'apprendimento in contesto (In-context Learning, ICL) è un'abilità importante ma non ancora completamente compresa dei modelli linguistici pre-addestrati su larga scala (Large Language Models, LLMs). Questa capacità può migliorare significativamente le prestazioni su un compito utilizzando pochi esempi, denominati dimostrazioni, senza la necessità di un fine-tuning. Sebbene efficace nelle attività di risposta alle domande, l'ICL spesso ottiene risultati inferiori nei compiti di generazione di testi lunghi, come la sintesi. In base a ipotesi realistiche appropriate, dimostriamo empiricamente e teoricamente che le sole dimostrazioni dell'ICL non sono sufficienti per insegnare ai LLMs le distribuzioni del linguaggio e del formato del compito per la generazione. Sosteniamo la necessità di un'esposizione esplicita alle distribuzioni del compito e ipotizziamo che definirle tramite prompt migliori le prestazioni del modello. A tal fine, presentiamo LongGuide, che genera in modo efficiente due flussi paralleli di linee guida che catturano le proprietà del linguaggio e del formato del compito: (i) Metric Guidelines (MGs) che istruiscono i modelli a ottimizzare metriche auto-valutate; e (ii) Output Constraint Guidelines (OCGs) che vincolano la generazione sia a livello di token che di frase. LongGuide seleziona automaticamente la migliore combinazione di linee guida, migliorando sia i LLMs open-source che closed-source di oltre il 5% in contesti zero-shot e few-shot. Dimostriamo che LongGuide è generalizzabile, apprendibile da modelli deboli per potenziare quelli forti, e si integra sinergicamente con ottimizzatori automatici di prompt.