Articoli di ricerca IA selezionati quotidianamente con traduzioni
Mentre il paradigma del "ragionamento profondo" ha stimolato progressi significativi in domini verificabili come la matematica, la sua applicazione alla generazione aperta e creativa rimane una sfida cruciale. I due metodi dominanti per instillare il ragionamento — l'apprendimento per rinforzo (RL) e la distillazione di istruzioni — mostrano limiti in questo ambito; l'RL fatica a causa dell'assenza di segnali di ricompensa chiari e di modelli di ricompensa di alta qualità, mentre la distillazione è proibitivamente costosa e limitata dalle capacità del modello insegnante. Per superare queste limitazioni, introduciamo il REverse-Engineered Reasoning (REER), un nuovo paradigma che cambia radicalmente l'approccio. Invece di costruire un processo di ragionamento "in avanti" attraverso tentativi ed errori o imitazione, il REER opera "all'indietro" partendo da soluzioni note per scoprire computazionalmente il processo latente di ragionamento profondo passo-passo che avrebbe potuto produrle. Utilizzando questo approccio scalabile e privo di gradienti, abbiamo curato e reso disponibile DeepWriting-20K, un dataset su larga scala di 20.000 traiettorie di ragionamento profondo per compiti aperti. Il nostro modello, DeepWriter-8B, addestrato su questi dati, non solo supera solidi benchmark open-source, ma raggiunge prestazioni competitive e, in alcuni casi, superiori a modelli proprietari leader come GPT-4o e Claude 3.5.
Il paradigma dei Large Language Models (LLM) si è sempre più orientato verso applicazioni agentiche, in cui le capacità di navigazione web sono fondamentali per recuperare informazioni da diverse fonti online. Tuttavia, gli agenti web open-source esistenti dimostrano capacità limitate di ricerca di informazioni su compiti complessi o mancano di implementazioni trasparenti. In questo lavoro, identifichiamo che la sfida principale risiede nella scarsità di dati complessi per la ricerca di informazioni. Per affrontare questa limitazione, introduciamo WebExplorer: un approccio sistematico alla generazione di dati basato sull'esplorazione guidata da modelli e sull'evoluzione iterativa di query da lunghe a brevi. Questo metodo crea coppie query-risposta complesse che richiedono ragionamenti multi-step e una navigazione web articolata. Sfruttando il nostro dataset di alta qualità curato, sviluppiamo con successo l'agente web avanzato WebExplorer-8B attraverso un fine-tuning supervisionato seguito da apprendimento per rinforzo. Il nostro modello supporta una lunghezza contestuale di 128K e fino a 100 chiamate di strumenti, abilitando la risoluzione di problemi a lungo termine. Su diversi benchmark di ricerca di informazioni, WebExplorer-8B raggiunge prestazioni all'avanguardia per la sua scala. In particolare, come modello di dimensioni 8B, WebExplorer-8B è in grado di effettuare ricerche efficaci in media su 16 turni dopo l'addestramento RL, ottenendo una maggiore accuratezza rispetto a WebSailor-72B su BrowseComp-en/zh e raggiungendo le migliori prestazioni tra i modelli fino a 100B parametri su WebWalkerQA e FRAMES. Oltre a questi compiti di ricerca di informazioni, il nostro modello dimostra anche una forte generalizzazione sul benchmark HLE nonostante sia addestrato solo su dati QA ad alta intensità di conoscenza. Questi risultati evidenziano il nostro approccio come un percorso pratico verso agenti web a lungo termine.
Proponiamo TraceRL, un framework di apprendimento per rinforzo basato su traiettorie per modelli linguistici di diffusione (DLM) che incorpora traiettorie di inferenza preferite nel post-addestramento, applicabile a diverse architetture. Dotato di un modello di valore basato su diffusione che migliora la stabilità dell'addestramento, dimostriamo prestazioni migliorate in compiti complessi di matematica e programmazione. Inoltre, può essere applicato per adattare modelli specifici per blocchi a blocchi più grandi, migliorando la flessibilità del campionamento. Utilizzando TraceRL, deriviamo una serie di modelli linguistici di diffusione all'avanguardia, denominati TraDo. Sebbene più piccoli dei modelli AR su scala 7B, TraDo-4B-Instruct supera costantemente questi ultimi in compiti complessi di ragionamento matematico. TraDo-8B-Instruct ottiene miglioramenti relativi di accuratezza del 6,1% rispetto a Qwen2.5-7B-Instruct e del 51,3% rispetto a Llama3.1-8B-Instruct su benchmark di ragionamento matematico. Attraverso l'apprendimento curriculare, deriviamo anche il primo DLM a lunga catena di pensiero (long-CoT), superando Qwen2.5-7B-Instruct su MATH500 con un guadagno relativo di accuratezza del 18,1%. Per favorire la ricerca riproducibile e le applicazioni pratiche, rilasciamo un framework open-source completo per la costruzione, l'addestramento e il deployment di LLM di diffusione su diverse architetture. Il framework integra tecniche accelerate di KV-cache e motori di inferenza sia per l'inferenza che per l'apprendimento per rinforzo, e include implementazioni di vari metodi di fine-tuning supervisionato e RL per compiti di matematica, programmazione e generali. Codice e Modelli: https://github.com/Gen-Verse/dLLM-RL
Presentiamo Paper2Agent, un framework automatizzato che converte articoli di ricerca in agenti AI. Paper2Agent trasforma i risultati della ricerca da artefatti passivi in sistemi attivi che possono accelerare l'uso, l'adozione e la scoperta a valle. Gli articoli di ricerca convenzionali richiedono ai lettori di investire uno sforzo sostanziale per comprendere e adattare il codice, i dati e i metodi di un articolo al proprio lavoro, creando barriere alla diffusione e al riutilizzo. Paper2Agent affronta questa sfida convertendo automaticamente un articolo in un agente AI che funge da assistente di ricerca esperto. Analizza sistematicamente l'articolo e il codice associato utilizzando più agenti per costruire un server Model Context Protocol (MCP), quindi genera e esegue iterativamente test per affinare e rendere robusto l'MCP risultante. Questi MCP degli articoli possono poi essere collegati in modo flessibile a un agente di chat (ad esempio Claude Code) per eseguire query scientifiche complesse attraverso il linguaggio naturale, invocando strumenti e flussi di lavoro dell'articolo originale. Dimostriamo l'efficacia di Paper2Agent nella creazione di agenti di articoli affidabili e capaci attraverso studi di caso approfonditi. Paper2Agent ha creato un agente che utilizza AlphaGenome per interpretare varianti genomiche e agenti basati su ScanPy e TISSUE per eseguire analisi di trascrittomica a singola cellula e spaziale. Verifichiamo che questi agenti di articoli possono riprodurre i risultati dell'articolo originale e possono eseguire correttamente nuove query degli utenti. Trasformando articoli statici in agenti AI dinamici e interattivi, Paper2Agent introduce un nuovo paradigma per la diffusione della conoscenza e una base per l'ecosistema collaborativo di co-scienziati AI.
L'avvento di modelli di fondazione visivi su larga scala, pre-addestrati su immagini naturali diverse, ha segnato un cambiamento di paradigma nel campo della visione artificiale. Tuttavia, rimane una questione aperta come l'efficacia di questi modelli di frontiera si trasferisca a domini specializzati come l'imaging medico. Questo rapporto indaga se DINOv3, un transformer visivo (ViT) all'avanguardia nell'apprendimento auto-supervisionato, noto per le sue forti capacità nei compiti di predizione densa, possa servire direttamente come un encoder potente e unificato per compiti di visione medica senza un pre-addestramento specifico per il dominio. Per rispondere a questa domanda, valutiamo DINOv3 su compiti comuni di visione medica, inclusi la classificazione 2D/3D e la segmentazione su una vasta gamma di modalità di imaging medico. Analizziamo sistematicamente la sua scalabilità variando le dimensioni del modello e le risoluzioni delle immagini di input. I nostri risultati rivelano che DINOv3 mostra prestazioni impressionanti e stabilisce un nuovo e formidabile punto di riferimento. Sorprendentemente, può persino superare modelli di fondazione specifici per il medico come BiomedCLIP e CT-Net in diversi compiti, nonostante sia stato addestrato esclusivamente su immagini naturali. Tuttavia, identifichiamo chiare limitazioni: le caratteristiche del modello si degradano in scenari che richiedono una specializzazione profonda del dominio, come nelle immagini patologiche Whole-Slide (WSI), nella Microscopia Elettronica (EM) e nella Tomografia a Emissione di Positroni (PET). Inoltre, osserviamo che DINOv3 non segue in modo coerente la legge di scalabilità nel dominio medico; le prestazioni non aumentano in modo affidabile con modelli più grandi o risoluzioni di caratteristiche più fini, mostrando comportamenti di scalabilità diversi tra i compiti. In definitiva, il nostro lavoro stabilisce DINOv3 come un punto di riferimento solido, le cui potenti caratteristiche visive possono servire come un priore robusto per molteplici compiti medici complessi. Ciò apre promettenti direzioni future, come sfruttare le sue caratteristiche per rafforzare la coerenza multiview nella ricostruzione 3D.
I sistemi di ricerca avanzata, basati su IA agentica che risolvono compiti complessi e multi-step coordinando ragionamento, ricerca sul web aperto e file utente, e l'uso di strumenti, si stanno evolvendo verso implementazioni gerarchiche con un Planner, un Coordinator e degli Executor. Nella pratica, addestrare interi stack end-to-end rimane impraticabile, quindi la maggior parte del lavoro si concentra sull'addestramento di un singolo planner connesso a strumenti fondamentali come ricerca, navigazione e codice. Mentre il Supervised Fine-Tuning (SFT) garantisce fedeltà ai protocolli, soffre di bias di imitazione e esposizione e sottoutilizza il feedback ambientale. Metodi di allineamento delle preferenze come il Direct Preference Optimization (DPO) dipendono da schemi e proxy, sono off-policy e deboli nell'assegnazione del credito a lungo termine e nei compromessi multi-obiettivo. Un'ulteriore limitazione di SFT e DPO è la loro dipendenza da punti di decisione e sottoabilità definiti dall'uomo attraverso la progettazione di schemi e confronti etichettati. Il reinforcement learning si allinea con la ricerca a ciclo chiuso e l'interazione con strumenti ottimizzando politiche a livello di traiettoria, abilitando esplorazione, comportamenti di recupero e un'assegnazione del credito principiata, riducendo la dipendenza da tali presupposti umani e bias dei valutatori. Questa rassegna è, a nostra conoscenza, la prima dedicata ai fondamenti del reinforcement learning per i sistemi di ricerca avanzata. Sistematizza il lavoro successivo a DeepSeek-R1 lungo tre assi: (i) sintesi e cura dei dati; (ii) metodi di RL per la ricerca agentica, coprendo stabilità, efficienza campionaria, gestione di contesti lunghi, progettazione di ricompense e credito, ottimizzazione multi-obiettivo e integrazione multimodale; e (iii) sistemi e framework di addestramento RL agentico. Copriamo anche l'architettura e la coordinazione degli agenti, oltre a valutazioni e benchmark, inclusi recenti compiti di QA, VQA, sintesi di testi lunghi e interazione con strumenti radicati in domini specifici. Distilliamo schemi ricorrenti, evidenziamo colli di bottiglia infrastrutturali e offriamo indicazioni pratiche per l'addestramento di agenti di ricerca avanzata robusti e trasparenti con il RL.
Il ragionamento visivo, un pilastro dell'intelligenza umana, comprende processi percettivi e logici complessi essenziali per risolvere una vasta gamma di problemi visivi. Sebbene i progressi nella visione artificiale abbiano prodotto modelli potenti per vari compiti percettivi, sfruttarli per un ragionamento visivo generale rimane una sfida. Ricerche precedenti dimostrano che potenziare i modelli linguistici di grandi dimensioni (LLM) con modelli visivi tramite fine-tuning supervisionato migliora le prestazioni, ma presenta limitazioni chiave come la generazione costosa di dati, la dipendenza da un'attenta filtrazione dei dati e una scarsa generalizzazione. Per affrontare questi problemi, proponiamo ReVPT per migliorare le capacità dei modelli linguistici multi-modali di ragionare e utilizzare strumenti visivi attraverso l'apprendimento per rinforzo. Introduciamo un nuovo algoritmo di RL basato su GRPO, progettato per addestrare i modelli a ragionare con una suite di quattro strumenti visivi. Attraverso esperimenti estesi, dimostriamo che il nostro metodo raggiunge prestazioni all'avanguardia su diversi benchmark con forte componente percettiva, tra cui SAT, CV-Bench, BLINK e MMStar, superando significativamente i baseline di fine-tuning supervisionato e RL basato su testo. In particolare, i nostri ReVPT-3B e ReVPT-7B superano i modelli instruct rispettivamente del 9,03% e del 9,44% su CV-Bench. Infine, offriamo alla comunità nuove intuizioni sull'uso di strumenti visivi basati su RL attraverso ampie ablazioni. Il nostro codice è disponibile all'indirizzo https://github.com/ls-kelvin/REVPT.
L'apprendimento multi-task (MTL) viene spesso realizzato unendo i dataset prima del fine-tuning, ma la crescente disponibilità di modelli già ottimizzati ha portato a nuovi approcci come la fusione di modelli tramite aritmetica dei task. Una delle principali sfide in questo contesto è l'interferenza tra task, che peggiora all'aumentare del numero di task. Proponiamo un metodo che unisce modelli addestrati su task diversi in un unico modello, mantenendo prestazioni solide su tutti i task. Il nostro approccio sfrutta la divergenza di Jensen-Shannon per guidare il processo di fusione senza richiedere dati etichettati aggiuntivi e bilancia automaticamente l'importanza dei task. A differenza dei metodi esistenti, il nostro approccio rimane robusto all'aumentare del numero di task e supera costantemente i lavori precedenti.
I modelli visione-linguaggio (VLMs) hanno dimostrato un successo notevole in una vasta gamma di compiti visivi, ma le loro prestazioni si degradano in ambienti visivi complessi. Mentre gli approcci esistenti di miglioramento richiedono ulteriore addestramento, si basano su strumenti esterni di segmentazione o operano a livelli grossolani, trascurano l'abilità intrinseca dei VLMs. Per colmare questa lacuna, investigiamo i pattern di attenzione dei VLMs e scopriamo che: (1) la complessità visiva è fortemente correlata con l'entropia dell'attenzione, influenzando negativamente le prestazioni di ragionamento; (2) l'attenzione si affina progressivamente da una scansione globale negli strati superficiali a una convergenza focalizzata negli strati più profondi, con il grado di convergenza determinato dalla complessità visiva. (3) Teoricamente, dimostriamo che il contrasto delle mappe di attenzione tra query generali e query specifiche per il compito consente la scomposizione del segnale visivo in componenti di segnali semantici e rumore visivo. Basandoci su queste intuizioni, proponiamo il Contrastive Attention Refinement for Visual Enhancement (CARVE), un metodo senza addestramento che estrae i segnali visivi rilevanti per il compito attraverso il contrasto dell'attenzione a livello di pixel. Esperimenti estensivi dimostrano che CARVE migliora costantemente le prestazioni, raggiungendo fino al 75% di miglioramento sui modelli open-source. Il nostro lavoro fornisce intuizioni critiche sull'interazione tra complessità visiva e meccanismi di attenzione, offrendo una via efficiente per migliorare il ragionamento visivo con il contrasto dell'attenzione.
Dotare i grandi modelli linguistici (LLM) di capacità complesse e interconnesse di ragionamento e utilizzo di strumenti è diventato un obiettivo chiave nella ricerca sull'IA agentica, specialmente con i recenti progressi nei modelli orientati al ragionamento (``pensiero''). Tali capacità sono fondamentali per sbloccare numerose applicazioni importanti. Una di queste è la Ricerca Approfondita (Deep Research, DR), che richiede un'estesa ricerca e ragionamento su molteplici fonti. Il nostro lavoro in questo articolo si concentra sullo sviluppo di modelli autonomi a singolo agente nativi per la DR, caratterizzati da un minimo crawling web e integrazione di strumenti Python. A differenza dei sistemi multi-agente, in cui gli agenti assumono ruoli predefiniti e ricevono istruzioni su cosa fare in ogni fase di un flusso di lavoro statico, un agente singolo autonomo determina la sua prossima azione dinamicamente in base al contesto, senza direttive manuali. Mentre lavori precedenti hanno proposto ricette di addestramento per LLM di base o ottimizzati per istruzioni, noi ci concentriamo sull'apprendimento per rinforzo continuo (RL) di modelli ottimizzati per il ragionamento, al fine di migliorare ulteriormente le capacità agentiche preservando la capacità di ragionamento. A tal fine, proponiamo una semplice ricetta RL con dati interamente sintetici, che applichiamo a vari LLM open-source. La nostra variante migliore, SFR-DR-20B, raggiunge fino al 28,7% sul benchmark Humanity's Last Exam. Inoltre, conduciamo esperimenti di analisi chiave per fornire ulteriori approfondimenti sulle nostre metodologie.
Presentiamo UniVerse-1, un modello unificato simile a Veo-3, in grado di generare simultaneamente audio e video coordinati. Per migliorare l'efficienza dell'addestramento, evitiamo di partire da zero e utilizziamo invece una tecnica di "stitching of experts" (SoE). Questo approccio fonde in profondità i blocchi corrispondenti di modelli esperti pre-addestrati per la generazione di video e musica, sfruttando appieno le loro capacità di base. Per garantire annotazioni accurate e un allineamento temporale sia per i suoni ambientali che per il parlato rispetto al contenuto video, abbiamo sviluppato una pipeline di annotazione online che elabora i dati di addestramento necessari e genera etichette durante il processo di addestramento. Questa strategia evita il degrado delle prestazioni spesso causato da annotazioni testuali non allineate. Grazie alla sinergia di queste tecniche, il nostro modello, dopo essere stato perfezionato su circa 7.600 ore di dati audio-video, produce risultati con audio-visivi ben coordinati per la generazione di suoni ambientali e un forte allineamento per la generazione del parlato. Per valutare sistematicamente il metodo proposto, introduciamo Verse-Bench, un nuovo dataset di benchmark. Nel tentativo di avanzare la ricerca nella generazione audio-video e di colmare il divario di prestazioni con modelli all'avanguardia come Veo3, rendiamo pubblicamente disponibili il nostro modello e il codice. Speriamo che questo contributo possa beneficiare l'intera comunità di ricerca. Pagina del progetto: https://dorniwang.github.io/UniVerse-1/.
I modelli unificati di comprensione e generazione multimodale hanno recentemente ottenuto miglioramenti significativi nella capacità di generazione di immagini, ma rimane un ampio divario nel seguire le istruzioni e nel preservare i dettagli rispetto a sistemi che accoppiano strettamente la comprensione con la generazione, come GPT-4o. Motivati dai recenti progressi nel ragionamento intercalato, esploriamo se tale ragionamento possa ulteriormente migliorare la generazione da testo a immagine (Text-to-Image, T2I). Introduciamo Interleaving Reasoning Generation (IRG), un framework che alterna il pensiero basato su testo e la sintesi di immagini: il modello produce prima un pensiero basato su testo per guidare un'immagine iniziale, poi riflette sul risultato per affinare dettagli granulari, qualità visiva ed estetica, preservando la semantica. Per addestrare efficacemente IRG, proponiamo Interleaving Reasoning Generation Learning (IRGL), che si concentra su due sotto-obiettivi: (1) rafforzare la fase iniziale di pensiero e generazione per stabilire il contenuto principale e la qualità di base, e (2) abilitare una riflessione testuale di alta qualità e un'implementazione fedele di tali perfezionamenti in un'immagine successiva. Curiamo IRGL-300K, un dataset organizzato in sei modalità di apprendimento scomposte che coprono congiuntamente l'apprendimento del pensiero basato su testo e le traiettorie complete di pensiero-immagine. Partendo da un modello di base unificato che emette naturalmente output intercalati testo-immagine, il nostro addestramento in due fasi costruisce prima un pensiero e una riflessione robusti, poi sintonizza efficientemente la pipeline IRG sui dati delle traiettorie complete di pensiero-immagine. Esperimenti estensivi mostrano prestazioni all'avanguardia, con guadagni assoluti di 5-10 punti su GenEval, WISE, TIIF, GenAI-Bench e OneIG-EN, insieme a sostanziali miglioramenti nella qualità visiva e nella fedeltà dei dettagli granulari. Il codice, i pesi del modello e i dataset saranno rilasciati su: https://github.com/Osilly/Interleaving-Reasoning-Generation.
L'integrazione dei Large Language Models (LLM) nel campo del teorema automatico ha dimostrato un enorme potenziale, ma è fondamentalmente limitata dalle sfide legate alla scalabilità sia dell'apprendimento per rinforzo (RL) durante l'addestramento sia del calcolo durante l'inferenza. Questo articolo introduce BFS-Prover-V2, un sistema progettato per affrontare questo duplice problema di scalabilità. Presentiamo due innovazioni principali. La prima è un nuovo framework RL multi-turn off-policy per migliorare continuamente le prestazioni del passo-prover basato su LLM durante l'addestramento. Questo framework, ispirato ai principi di AlphaZero, utilizza una pipeline di iterazione esperta multi-stage che include un filtraggio adattivo dei dati a livello tattico e un riaddestramento periodico per superare i plateau di prestazione che tipicamente limitano l'RL a lungo termine negli agenti basati su LLM. La seconda innovazione è un'architettura di ricerca multi-agente potenziata da un pianificatore che scala le capacità di ragionamento durante l'inferenza. Questa architettura impiega un modello di ragionamento generale come pianificatore di alto livello per scomporre iterativamente teoremi complessi in una sequenza di sottobiettivi più semplici. Questo approccio gerarchico riduce sostanzialmente lo spazio di ricerca, consentendo a un team di agenti prover paralleli di collaborare in modo efficiente sfruttando una cache di prove condivisa. Dimostriamo che questo duplice approccio alla scalabilità produce risultati all'avanguardia su benchmark consolidati di matematica formale. BFS-Prover-V2 raggiunge il 95,08% e il 41,4% rispettivamente sui set di test MiniF2F e ProofNet. Sebbene dimostrato nel dominio della matematica formale, le tecniche di RL e inferenza presentate in questo lavoro sono di interesse più ampio e possono essere applicate ad altri domini che richiedono ragionamenti multi-turn a lungo termine e ricerche complesse.
La generazione da testo a immagine (Text-to-Image, T2I) mira a sintetizzare immagini a partire da prompt testuali, che specificano congiuntamente cosa deve essere mostrato e implicano cosa può essere dedotto, corrispondendo così a due capacità fondamentali: composizione e ragionamento. Tuttavia, con i progressi emergenti dei modelli T2I nel ragionamento oltre la composizione, i benchmark esistenti rivelano chiare limitazioni nel fornire valutazioni complete sia tra che all'interno di queste capacità. Nel frattempo, questi progressi consentono anche ai modelli di gestire prompt più complessi, mentre i benchmark attuali rimangono limitati a una bassa densità di scene e a un ragionamento semplificato uno-a-uno. Per affrontare queste limitazioni, proponiamo T2I-CoReBench, un benchmark completo e complesso che valuta sia le capacità di composizione che di ragionamento dei modelli T2I. Per garantire la completezza, strutturiamo la composizione attorno agli elementi del grafo di scena (istanza, attributo e relazione) e il ragionamento attorno al quadro filosofico dell'inferenza (deduttiva, induttiva e abduttiva), formulando una tassonomia di valutazione a 12 dimensioni. Per aumentare la complessità, guidati dalle complessità intrinseche degli scenari del mondo reale, curiamo ogni prompt con un'alta densità compositiva per la composizione e inferenze multi-step per il ragionamento. Abbiamo anche associato a ogni prompt una checklist che specifica singole domande sì/no per valutare ogni elemento inteso in modo indipendente, facilitando una valutazione granulare e affidabile. In termini statistici, il nostro benchmark comprende 1.080 prompt impegnativi e circa 13.500 domande di checklist. Esperimenti condotti su 27 modelli T2I attuali rivelano che la loro capacità di composizione rimane ancora limitata in scenari complessi ad alta densità, mentre la capacità di ragionamento è ancora più indietro come un collo di bottiglia critico, con tutti i modelli che faticano a dedurre elementi impliciti dai prompt. La nostra pagina del progetto: https://t2i-corebench.github.io/.
L'integrazione dei Large Language Models (LLM) in varie applicazioni ha aumentato la necessità di risposte strutturate e affidabili. Una delle principali sfide nei sistemi di Retrieval-Augmented Generation (RAG) è garantire che gli output siano allineati ai formati attesi, riducendo al minimo le allucinazioni. Questo studio esamina il ruolo del decoding guidato nei sistemi RAG, confrontando tre metodi: Outlines, XGrammar e LM Format Enforcer, in diverse configurazioni di prompt multi-turn (0-turn, 1-turn e 2-turn). Valutando i tassi di successo, i tassi di allucinazione e la qualità degli output, forniamo approfondimenti sulle loro prestazioni e applicabilità. I nostri risultati rivelano come le interazioni multi-turn influenzino il decoding guidato, evidenziando variazioni inaspettate nelle prestazioni che possono orientare la scelta del metodo per casi d'uso specifici. Questo lavoro contribuisce alla comprensione della generazione di output strutturati nei sistemi RAG, offrendo sia intuizioni teoriche che indicazioni pratiche per il deployment dei LLM.
Il ridimensionamento al momento del test aumenta il calcolo durante l'inferenza consentendo ai modelli di generare lunghe catene di ragionamento e ha dimostrato prestazioni solide in molti domini. Tuttavia, in questo lavoro, mostriamo che questo approccio non è ancora efficace per compiti ad alta intensità di conoscenza, dove l'elevata accuratezza fattuale e bassi tassi di allucinazione sono essenziali. Conduciamo una valutazione completa del ridimensionamento al momento del test utilizzando 12 modelli di ragionamento su due benchmark ad alta intensità di conoscenza. I nostri risultati rivelano che aumentare il calcolo al momento del test non migliora in modo consistente l'accuratezza e, in molti casi, porta persino a più allucinazioni. Analizziamo quindi come il ragionamento esteso influisca sul comportamento delle allucinazioni. Scopriamo che la riduzione delle allucinazioni spesso deriva dal fatto che il modello sceglie di astenersi dopo aver pensato di più, piuttosto che da un miglioramento del richiamo fattuale. Al contrario, per alcuni modelli, un ragionamento più lungo incoraggia tentativi su domande precedentemente senza risposta, molte delle quali risultano in allucinazioni. Studi di caso mostrano che il ragionamento esteso può indurre un bias di conferma, portando a allucinazioni eccessivamente sicure. Nonostante queste limitazioni, osserviamo che, rispetto al non ragionamento, abilitare il ragionamento rimane vantaggioso. Codice e dati sono disponibili su https://github.com/XuZhao0/tts-knowledge.
L'editing di immagini basato sul trascinamento è emerso come un paradigma potente per la manipolazione intuitiva delle immagini. Tuttavia, gli approcci esistenti si basano principalmente sulla manipolazione dello spazio latente dei modelli generativi, portando a una precisione limitata, feedback ritardati e vincoli specifici del modello. Di conseguenza, presentiamo Inpaint4Drag, un nuovo framework che scompone l'editing basato sul trascinamento in una deformazione bidirezionale nello spazio dei pixel e in un'operazione di inpainting. Ispirati dalla deformazione elastica degli oggetti nel mondo fisico, trattiamo le regioni dell'immagine come materiali deformabili che mantengono una forma naturale sotto la manipolazione dell'utente. Il nostro metodo ottiene anteprime di deformazione in tempo reale (0.01s) e un inpainting efficiente (0.3s) a una risoluzione di 512x512, migliorando significativamente l'esperienza di interazione rispetto ai metodi esistenti che richiedono minuti per ogni modifica. Trasformando direttamente gli input di trascinamento in formati standard di inpainting, il nostro approccio funge da adattatore universale per qualsiasi modello di inpainting senza necessità di modifiche architetturali, ereditando automaticamente tutti i futuri miglioramenti nella tecnologia di inpainting. Esperimenti estensivi dimostrano che il nostro metodo raggiunge una qualità visiva superiore e un controllo preciso mantenendo prestazioni in tempo reale. Pagina del progetto: https://visual-ai.github.io/inpaint4drag/
Presentiamo Llama-GENBA-10B, un modello di base trilingue che affronta il bias centrato sull'inglese nei grandi modelli linguistici. Costruito su Llama 3.1-8B e scalato a 10 miliardi di parametri, Llama-GENBA-10B è stato pre-addestrato continuamente su 164 miliardi di token (82 miliardi in inglese, 82 miliardi in tedesco e 80 milioni in bavarese), bilanciando le risorse e prevenendo la dominanza dell'inglese. Rivolto alla comunità NLP tedesca, il modello promuove anche il bavarese come lingua a bassa risorsa. Lo sviluppo ha affrontato quattro sfide: (1) la creazione di un corpus multilingue nonostante la scarsità di dati in bavarese, (2) la creazione di un tokenizer unificato per inglese, tedesco e bavarese, (3) l'ottimizzazione dell'architettura e degli iperparametri del rapporto linguistico per il trasferimento cross-linguale, e (4) l'istituzione della prima suite di valutazione trilingue standardizzata traducendo benchmark tedeschi in bavarese. Le valutazioni mostrano che Llama-GENBA-10B raggiunge prestazioni cross-linguali solide, con la variante fine-tuned che supera Apertus-8B-2509 e gemma-2-9b in bavarese, affermandosi come il miglior modello nella sua classe per questa lingua, mentre supera anche EuroLLM in inglese e ne eguaglia i risultati in tedesco. L'addestramento su Cerebras CS-2 ha dimostrato un pre-addestramento multilingue su larga scala efficiente con un uso energetico documentato, offrendo un modello di riferimento per modelli di base inclusivi che integrano lingue a bassa risorsa.
L'umorismo nero nei meme online presenta sfide uniche a causa della sua dipendenza da segnali impliciti, sensibili e contestualizzati culturalmente. Per affrontare la mancanza di risorse e metodi per rilevare l'umorismo nero nei contenuti multimodali, introduciamo un nuovo dataset di 4.379 meme di Reddit annotati per umorismo nero, categoria target (genere, salute mentale, violenza, razza, disabilità e altro) e un livello di intensità a tre livelli (lieve, moderato, grave). Basandoci su questa risorsa, proponiamo un framework potenziato dal ragionamento che genera prima spiegazioni strutturate per ogni meme utilizzando un Large Vision-Language Model (VLM). Attraverso un Role-Reversal Self-Loop, il VLM adotta la prospettiva dell'autore per affinare iterativamente le sue spiegazioni, garantendo completezza e allineamento. Successivamente, estraiamo caratteristiche testuali sia dalla trascrizione OCR che dal ragionamento auto-affinato tramite un encoder di testo, mentre le caratteristiche visive vengono ottenute utilizzando un vision transformer. Una Tri-stream Cross-Reasoning Network (TCRNet) fonde questi tre flussi, testo, immagine e ragionamento, attraverso meccanismi di attenzione a coppie, producendo una rappresentazione unificata per la classificazione. I risultati sperimentali dimostrano che il nostro approccio supera i forti baseline in tre compiti: rilevamento dell'umorismo nero, identificazione del target e previsione dell'intensità. Il dataset, le annotazioni e il codice sono rilasciati per facilitare ulteriori ricerche nella comprensione dell'umorismo multimodale e nella moderazione dei contenuti. Codice e Dataset sono disponibili su: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
In questo position paper, affrontiamo il persistente divario tra le capacità in rapida crescita dell'IA e i progressi ritardatari in materia di sicurezza. I paradigmi esistenti si dividono in "Rendere l'IA sicura", che applica allineamenti post-hoc e barriere protettive ma rimane fragile e reattivo, e "Creare IA sicura", che enfatizza la sicurezza intrinseca ma fatica a gestire rischi imprevisti in ambienti aperti. Proponiamo quindi la sicurezza-per-coevoluzione come una nuova formulazione del paradigma "Creare IA sicura", ispirata all'immunità biologica, in cui la sicurezza diventa un processo dinamico, avversariale e di apprendimento continuo. Per operazionalizzare questa visione, introduciamo R^2AI — IA Resistente e Resiliente — come un framework pratico che unisce la resistenza a minacce note con la resilienza a rischi imprevisti. R^2AI integra modelli di sicurezza veloci e lenti, simulazione e verifica avversariale attraverso un tunnel del vento per la sicurezza, e cicli di feedback continui che guidano la coevoluzione di sicurezza e capacità. Sosteniamo che questo framework offra un percorso scalabile e proattivo per mantenere una sicurezza continua in ambienti dinamici, affrontando sia vulnerabilità a breve termine che rischi esistenziali a lungo termine man mano che l'IA avanza verso AGI e ASI.
I modelli visione-linguaggio (VLMs) come CLIP hanno dimostrato impressionanti capacità di apprendimento zero-shot e few-shot in diverse applicazioni. Tuttavia, l'adattamento di questi modelli a nuovi domini fine-grained rimane difficile a causa della dipendenza dall'ingegneria dei prompt e dell'elevato costo del fine-tuning completo del modello. Gli approcci di adattamento esistenti si basano su componenti aggiuntivi, come token di prompt e moduli adattatori, che potrebbero limitare la qualità dell'adattamento, destabilizzare il modello e compromettere la ricca conoscenza acquisita durante il pre-training. In questo lavoro, presentiamo CLIP-SVD, una nuova tecnica di adattamento multi-modale e efficiente in termini di parametri che sfrutta la Decomposizione a Valori Singolari (SVD) per modificare lo spazio dei parametri interni di CLIP senza iniettare moduli aggiuntivi. Nello specifico, eseguiamo il fine-tuning solo dei valori singolari delle matrici dei parametri di CLIP per ridimensionare i vettori di base per l'adattamento al dominio, mantenendo intatto il modello pre-addestrato. Questo design consente una migliore performance di adattamento utilizzando solo lo 0,04% dei parametri totali del modello e una migliore preservazione della sua capacità di generalizzazione. CLIP-SVD raggiunge risultati di classificazione all'avanguardia su 11 dataset naturali e 10 biomedici, superando i metodi precedenti sia in accuratezza che in generalizzazione in contesti few-shot. Inoltre, sfruttiamo un approccio basato sul linguaggio naturale per analizzare l'efficacia e le dinamiche dell'adattamento di CLIP, consentendo l'interpretabilità di CLIP-SVD. Il codice è disponibile pubblicamente all'indirizzo https://github.com/HealthX-Lab/CLIP-SVD.
La scarsità di dati di alta qualità e logicamente solidi rappresenta un collo di bottiglia critico per il progresso del ragionamento matematico nei Modelli Linguistici di Grande Dimensione (LLMs). Il nostro lavoro affronta questa sfida trasformando decenni di ricerca sul teorema automatico in un motore di dati scalabile. Invece di affidarsi a LLMs soggetti a errori o a complesse sintassi di assistenti di dimostrazione come Lean e Isabelle, il nostro framework sfrutta le capacità di saturazione di E-prover sulla vasta libreria di assiomi TPTP per derivare un corpus massiccio e garantito valido di teoremi. La nostra pipeline è principiata e semplice: satura gli assiomi, filtra i teoremi "interessanti" e genera compiti. Senza LLMs nel ciclo, eliminiamo gli errori fattuali per costruzione. Questi dati puramente simbolici vengono poi trasformati in tre sfide a difficoltà controllata: verifica di implicazione, selezione delle premesse e ricostruzione della dimostrazione. I nostri esperimenti zero-shot su modelli di frontiera rivelano una chiara debolezza: le prestazioni crollano sui compiti che richiedono un ragionamento profondo e strutturale. Il nostro framework fornisce sia lo strumento diagnostico per misurare questo divario sia una fonte scalabile di dati di addestramento simbolici per affrontarlo. Rendiamo disponibili pubblicamente il codice e i dati. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
I modelli Vision-Language-Action (VLA) rappresentano una promettente direzione per realizzare agenti embodied generalisti in grado di adattarsi rapidamente a nuovi compiti, modalità e ambienti. Tuttavia, i metodi per interpretare e guidare i VLA sono ancora lontani dalle pipeline robotiche classiche, che si basano su modelli espliciti di cinematica, dinamica e controllo. Questa mancanza di comprensione meccanicistica costituisce una sfida centrale per il dispiegamento di politiche apprese nella robotica del mondo reale, dove robustezza e spiegabilità sono critiche. Ispirati dai progressi nell'interpretabilità meccanicistica dei grandi modelli linguistici, introduciamo il primo framework per interpretare e guidare i VLA attraverso le loro rappresentazioni interne, consentendo un intervento diretto sul comportamento del modello durante l'inferenza. Proiettiamo le attivazioni feedforward all'interno dei livelli transformer sulla base di embedding dei token, identificando direzioni semantiche sparse - come velocità e direzione - che sono causalmente collegate alla selezione delle azioni. Sfruttando queste scoperte, introduciamo un metodo generale di steering delle attivazioni che modula il comportamento in tempo reale, senza fine-tuning, segnali di ricompensa o interazione con l'ambiente. Valutiamo questo metodo su due recenti VLA open-source, Pi0 e OpenVLA, e dimostriamo il controllo comportamentale zero-shot in simulazione (LIBERO) e su un robot fisico (UR5). Questo lavoro dimostra che i componenti interpretabili dei VLA embodied possono essere sistematicamente sfruttati per il controllo, stabilendo un nuovo paradigma per modelli foundation trasparenti e guidabili nella robotica.
Per migliorare l'efficienza degli agenti GUI su varie piattaforme come smartphone e computer, un paradigma ibrido che combina operazioni GUI flessibili con scorciatoie efficienti (ad esempio, API, deep link) sta emergendo come una direzione promettente. Tuttavia, un framework per valutare sistematicamente questi agenti ibridi è ancora poco esplorato. Per compiere il primo passo nel colmare questa lacuna, introduciamo MAS-Bench, un benchmark che pionierizza la valutazione degli agenti ibridi GUI-scorciatoie con un focus specifico sul dominio mobile. Oltre a utilizzare semplicemente scorciatoie predefinite, MAS-Bench valuta la capacità di un agente di generare autonomamente scorciatoie scoprendo e creando flussi di lavoro riutilizzabili e a basso costo. Include 139 task complessi su 11 applicazioni del mondo reale, una base di conoscenza di 88 scorciatoie predefinite (API, deep link, script RPA) e 7 metriche di valutazione. I task sono progettati per essere risolvibili tramite operazioni esclusivamente GUI, ma possono essere significativamente accelerati incorporando in modo intelligente delle scorciatoie. Gli esperimenti dimostrano che gli agenti ibridi raggiungono tassi di successo ed efficienza significativamente più elevati rispetto alle loro controparti esclusivamente GUI. Questo risultato dimostra anche l'efficacia del nostro metodo per valutare le capacità di generazione di scorciatoie di un agente. MAS-Bench colma una lacuna critica nella valutazione, fornendo una piattaforma fondamentale per i futuri progressi nella creazione di agenti intelligenti più efficienti e robusti.
La registrazione delle nuvole di punti LiDAR è fondamentale per la percezione e la navigazione robotica. Tuttavia, in ambienti geometricamente degeneri o stretti, i problemi di registrazione diventano mal condizionati, portando a soluzioni instabili e a una ridotta accuratezza. Mentre gli approcci esistenti tentano di gestire questi problemi, non riescono ad affrontare la sfida principale: rilevare, interpretare e risolvere accuratamente questo mal condizionamento, portando a mancate rilevazioni o soluzioni corrotte. In questo studio, introduciamo DCReg, un framework strutturato che affronta sistematicamente i problemi di registrazione mal condizionati attraverso tre innovazioni integrate. In primo luogo, DCReg ottiene un rilevamento affidabile del mal condizionamento impiegando una decomposizione del complemento di Schur sulla matrice hessiana. Questa tecnica disaccoppia il problema di registrazione in sottospazi rotazionali e traslazionali puliti, eliminando gli effetti di accoppiamento che mascherano i modelli di degenerazione nelle analisi convenzionali. In secondo luogo, all'interno di questi sottospazi puliti, sviluppiamo tecniche di caratterizzazione quantitativa che stabiliscono mappature esplicite tra gli autospazi matematici e le direzioni del movimento fisico, fornendo intuizioni operative su quali movimenti specifici mancano di vincoli. Infine, sfruttando questo sottospazio pulito, progettiamo una strategia di mitigazione mirata: un nuovo precondizionatore che stabilizza selettivamente solo le direzioni mal condizionate identificate, preservando tutte le informazioni ben vincolate nello spazio osservabile. Ciò consente un'ottimizzazione efficiente e robusta tramite il metodo del Gradiente Coniugato Precondizionato con un unico parametro fisicamente interpretabile. Esperimenti estensivi dimostrano che DCReg ottiene un miglioramento dell'accuratezza di localizzazione compreso tra il 20% e il 50% e un'accelerazione da 5 a 100 volte rispetto ai metodi all'avanguardia in diversi ambienti. La nostra implementazione sarà disponibile all'indirizzo https://github.com/JokerJohn/DCReg.