Articoli di ricerca IA selezionati quotidianamente con traduzioni
Dimostriamo che il reinforcement learning con ricompensa verificabile utilizzando un singolo esempio di addestramento (1-shot RLVR) è efficace nell'incentivare le capacità di ragionamento matematico dei grandi modelli linguistici (LLMs). Applicando RLVR al modello base Qwen2.5-Math-1.5B, identifichiamo un singolo esempio che eleva le prestazioni del modello su MATH500 dal 36,0% al 73,6% e migliora la prestazione media su sei benchmark comuni di ragionamento matematico dal 17,6% al 35,7%. Questo risultato eguaglia le prestazioni ottenute utilizzando il sottoinsieme DeepScaleR di 1.2k esempi (MATH500: 73,6%, media: 35,9%), che include l'esempio citato. Miglioramenti sostanziali simili sono osservati in vari modelli (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algoritmi di RL (GRPO e PPO) e diversi esempi matematici (molti dei quali producono un miglioramento di circa il 30% o superiore su MATH500 quando utilizzati come singolo esempio di addestramento). Inoltre, identifichiamo alcuni fenomeni interessanti durante l'1-shot RLVR, tra cui la generalizzazione cross-dominio, l'aumento della frequenza di auto-riflessione e il miglioramento sostenuto delle prestazioni nei test anche dopo che l'accuratezza di addestramento ha raggiunto la saturazione, un fenomeno che definiamo generalizzazione post-saturazione. Verifichiamo inoltre che l'efficacia dell'1-shot RLVR deriva principalmente dalla perdita del gradiente della politica, distinguendola dal fenomeno del "grokking". Mostriamo anche il ruolo cruciale della promozione dell'esplorazione (ad esempio, aggiungendo una perdita di entropia con un coefficiente appropriato) nell'addestramento 1-shot RLVR. Come bonus, osserviamo che l'applicazione della sola perdita di entropia, senza alcuna ricompensa basata sui risultati, migliora significativamente le prestazioni di Qwen2.5-Math-1.5B su MATH500 del 27,4%. Questi risultati possono ispirare lavori futuri sull'efficienza dei dati in RLVR e incoraggiare una rivalutazione sia dei progressi recenti che dei meccanismi sottostanti in RLVR. Il nostro codice, modello e dati sono open source all'indirizzo https://github.com/ypwang61/One-Shot-RLVR.
Misurare i progressi è fondamentale per l'avanzamento di qualsiasi campo scientifico. Man mano che i benchmark assumono un ruolo sempre più centrale, diventano anche più suscettibili a distorsioni. Chatbot Arena è emersa come la classifica di riferimento per classificare i sistemi di intelligenza artificiale più capaci. Tuttavia, in questo lavoro identifichiamo problemi sistemici che hanno portato a un campo di gioco distorto. Rileviamo che pratiche di test private non dichiarate avvantaggiano un numero ristretto di fornitori, che possono testare più varianti prima del rilascio pubblico e ritirare i punteggi se lo desiderano. Dimostriamo che la capacità di questi fornitori di scegliere il punteggio migliore porta a risultati distorti nell'Arena a causa della divulgazione selettiva dei risultati delle prestazioni. In un caso estremo, identifichiamo 27 varianti private di LLM testate da Meta in vista del rilascio di Llama-4. Inoltre, stabiliamo che i modelli proprietari chiusi vengono campionati a tassi più elevati (numero di battaglie) e hanno meno modelli rimossi dall'arena rispetto alle alternative open-weight e open-source. Entrambe queste politiche portano a grandi asimmetrie nell'accesso ai dati nel tempo. Fornitori come Google e OpenAI hanno ricevuto rispettivamente il 19,2% e il 20,4% di tutti i dati dell'arena. Al contrario, un totale di 83 modelli open-weight ha ricevuto solo il 29,7% dei dati totali. Dimostriamo che l'accesso ai dati di Chatbot Arena offre vantaggi sostanziali; anche dati aggiuntivi limitati possono portare a guadagni di prestazioni relative fino al 112% sulla distribuzione dell'arena, secondo le nostre stime conservative. Insieme, queste dinamiche portano a un overfitting verso dinamiche specifiche dell'Arena piuttosto che alla qualità generale del modello. L'Arena si basa sugli sforzi significativi sia degli organizzatori che di una comunità aperta che mantiene questa preziosa piattaforma di valutazione. Offriamo raccomandazioni pratiche per riformare il framework di valutazione di Chatbot Arena e promuovere benchmark più equi e trasparenti per il settore.
La Generazione Aumentata dal Recupero (RAG) ha dimostrato un potenziale significativo nel migliorare l'accuratezza fattuale, ancorando le risposte del modello a conoscenze esterne rilevanti per le query. Tuttavia, la maggior parte degli approcci RAG esistenti si limita a un corpus esclusivamente testuale, e sebbene recenti sforzi abbiano esteso il RAG ad altre modalità come immagini e video, questi operano tipicamente su un corpus specifico per una singola modalità. Al contrario, le query del mondo reale variano ampiamente nel tipo di conoscenza richiesta, che una singola fonte di conoscenza non può soddisfare. Per affrontare questo problema, introduciamo UniversalRAG, un nuovo framework RAG progettato per recuperare e integrare conoscenze da fonti eterogenee con modalità e granularità diverse. Nello specifico, motivati dall'osservazione che forzare tutte le modalità in uno spazio di rappresentazione unificato derivato da un unico corpus combinato causa un divario di modalità, in cui il recupero tende a favorire elementi della stessa modalità della query, proponiamo un meccanismo di routing consapevole della modalità che identifica dinamicamente il corpus specifico per la modalità più appropriato ed esegue un recupero mirato al suo interno. Inoltre, oltre alla modalità, organizziamo ciascuna modalità in più livelli di granularità, consentendo un recupero raffinato adattato alla complessità e all'ambito della query. Validiamo UniversalRAG su 8 benchmark che coprono più modalità, dimostrando la sua superiorità rispetto ai baseline specifici per modalità e unificati.
Presentiamo ReasonIR-8B, il primo retriever specificamente addestrato per compiti di ragionamento generale. I retriever esistenti hanno mostrato guadagni limitati nei compiti di ragionamento, in parte perché i dataset di addestramento attuali si concentrano su query fattuali brevi legate a documenti che rispondono in modo diretto. Abbiamo sviluppato una pipeline di generazione di dati sintetici che, per ogni documento, crea una query rilevante e impegnativa, insieme a un hard negativo plausibilmente correlato ma alla fine inutile. Addestrando su una miscela dei nostri dati sintetici e dei dati pubblici esistenti, ReasonIR-8B raggiunge un nuovo stato dell'arte di 29.9 nDCG@10 senza reranker e 36.9 nDCG@10 con reranker su BRIGHT, un benchmark ampiamente utilizzato per il recupero di informazioni (IR) intensivo di ragionamento. Quando applicato ai compiti RAG, ReasonIR-8B migliora le prestazioni di MMLU e GPQA rispettivamente del 6.4% e del 22.6%, rispetto al baseline closed-book, superando altri retriever e motori di ricerca. Inoltre, ReasonIR-8B utilizza il calcolo al momento del test in modo più efficace: su BRIGHT, le sue prestazioni aumentano costantemente con query riscritte più lunghe e ricche di informazioni; continua a superare altri retriever quando combinato con un reranker LLM. La nostra ricetta di addestramento è generale e può essere facilmente estesa ai futuri LLM; a tal fine, rendiamo open-source il nostro codice, i dati e il modello.
I metodi di allineamento basati su ricompensa per i grandi modelli linguistici (LLM) affrontano due limitazioni chiave: la vulnerabilità al reward hacking, in cui i modelli sfruttano difetti nel segnale di ricompensa; e la dipendenza da un'ingegneria dei prompt fragile e laboriosa quando gli LLM vengono utilizzati come modelli di ricompensa. Introduciamo il Meta Policy Optimization (MPO), un framework che affronta queste sfide integrando un meta-modello di ricompensa che affina dinamicamente il prompt del modello di ricompensa durante l'addestramento. Nell'MPO, il meta-modello di ricompensa monitora il contesto di addestramento in evoluzione e regola continuamente il prompt del modello di ricompensa per mantenere un elevato allineamento, fornendo un segnale di ricompensa adattivo che resiste allo sfruttamento da parte della politica. Questo approccio di meta-apprendimento promuove un'ottimizzazione della politica più stabile e riduce notevolmente la necessità di progettazione manuale dei prompt di ricompensa. Produce prestazioni pari o superiori a quelle dei modelli guidati da prompt di ricompensa ampiamente elaborati a mano. Inoltre, dimostriamo che l'MPO mantiene la sua efficacia in una vasta gamma di compiti, come il rispondere a domande e il ragionamento matematico, senza richiedere progettazioni specializzate delle ricompense. Oltre al classico RLAIF, la formulazione di meta-apprendimento dell'MPO è facilmente estendibile a framework di allineamento di livello superiore. Nel complesso, questo metodo affronta le sfide teoriche e pratiche nell'allineamento RL basato su ricompensa per gli LLM, aprendo la strada a strategie di allineamento più robuste e adattabili. Il codice e i modelli saranno condivisi pubblicamente.
Questo articolo presenta un approccio efficace per apprendere nuovi modelli mondiali incarnati 4D, che prevedono l'evoluzione dinamica di scene 3D nel tempo in risposta alle azioni di un agente incarnato, garantendo coerenza sia spaziale che temporale. Proponiamo di apprendere un modello mondiale 4D addestrandolo su video RGB-DN (RGB, profondità e normali). Questo non solo supera i tradizionali modelli 2D incorporando dettagli sulla forma, configurazione e cambiamenti temporali nelle loro previsioni, ma ci permette anche di apprendere efficacemente modelli dinamici inversi accurati per un agente incarnato. Nello specifico, estendiamo prima i dataset esistenti di video di manipolazione robotica con informazioni sulla profondità e sulle normali sfruttando modelli preesistenti. Successivamente, ottimizziamo un modello di generazione video su questo dataset annotato, che prevede congiuntamente RGB-DN (RGB, profondità e normali) per ogni fotogramma. Presentiamo poi un algoritmo per convertire direttamente i video generati di RGB, profondità e normali in una scena 4D di alta qualità del mondo. Il nostro metodo garantisce coerenza temporale e spaziale nelle previsioni di scene 4D da scenari incarnati, abilita la sintesi di nuove visualizzazioni per ambienti incarnati e facilita l'apprendimento di politiche che superano significativamente quelle derivate da precedenti modelli mondiali basati su video.
La modifica delle immagini basata su istruzioni consente una robusta alterazione delle immagini tramite prompt in linguaggio naturale, tuttavia i metodi attuali affrontano un compromesso tra precisione ed efficienza. Le tecniche di fine-tuning richiedono risorse computazionali significative e grandi dataset, mentre le tecniche senza addestramento faticano nella comprensione delle istruzioni e nella qualità delle modifiche. Risolviamo questo dilemma sfruttando la capacità di generazione avanzata e la consapevolezza contestuale nativa dei Transformer di Diffusione su larga scala (DiT). La nostra soluzione introduce tre contributi: (1) un framework di modifica in-context per il rispetto delle istruzioni in zero-shot utilizzando prompt in-context, evitando cambiamenti strutturali; (2) una strategia di tuning ibrida LoRA-MoE che migliora la flessibilità con un adattamento efficiente e un routing dinamico degli esperti, senza un esteso riaddestramento; e (3) un metodo di scalatura inferenziale con filtro precoce che utilizza modelli visione-linguaggio (VLMs) per selezionare un rumore iniziale migliore in anticipo, migliorando la qualità delle modifiche. Valutazioni estensive dimostrano la superiorità del nostro metodo: supera gli approcci all'avanguardia richiedendo solo lo 0,5% dei dati di addestramento e l'1% dei parametri addestrabili rispetto ai baselines convenzionali. Questo lavoro stabilisce un nuovo paradigma che abilita una modifica guidata da istruzioni ad alta precisione ma efficiente. Codici e demo sono disponibili su https://river-zhang.github.io/ICEdit-gh-pages/.
L'esposizione dei grandi modelli linguistici (LLM) a materiale protetto da copyright durante la fase di pre-addestramento solleva preoccupazioni riguardo a potenziali violazioni involontarie del copyright dopo il dispiegamento. Ciò ha portato allo sviluppo di metodi di "rimozione del copyright", approcci post-addestramento mirati a prevenire che i modelli generino contenuti sostanzialmente simili a quelli protetti. Sebbene gli attuali approcci di mitigazione siano in qualche modo efficaci per i rischi medi, dimostriamo che trascurano i rischi peggiori di violazione del copyright, evidenziati dalla presenza di citazioni lunghe e verbatim tratte da fonti protette. Proponiamo BloomScrub, un approccio sorprendentemente semplice ma altamente efficace in fase di inferenza, che fornisce una rimozione certificata del copyright. Il nostro metodo intercala ripetutamente il rilevamento di citazioni con tecniche di riscrittura per trasformare segmenti potenzialmente infrangenti. Sfruttando efficienti strutture dati (filtri di Bloom), il nostro approccio consente uno screening scalabile del copyright anche per corpora su larga scala nel mondo reale. Quando le citazioni oltre una certa soglia di lunghezza non possono essere rimosse, il sistema può astenersi dal rispondere, offrendo una riduzione certificata del rischio. I risultati sperimentali mostrano che BloomScrub riduce il rischio di violazione, preserva l'utilità e si adatta a diversi livelli di rigore nell'applicazione con un'astensione adattiva. I nostri risultati suggeriscono che metodi leggeri in fase di inferenza possono essere sorprendentemente efficaci per la prevenzione del copyright.
Proponiamo X-Fusion, un framework che estende i modelli linguistici di grandi dimensioni (LLM) pre-addestrati per compiti multimodali preservando le loro capacità linguistiche. X-Fusion utilizza un design a doppia torre con pesi specifici per ciascuna modalità, mantenendo congelati i parametri dell'LLM mentre integra informazioni specifiche per la visione sia per la comprensione che per la generazione. I nostri esperimenti dimostrano che X-Fusion supera costantemente architetture alternative sia nei compiti di immagine-a-testo che di testo-a-immagine. Troviamo che l'incorporazione di dati focalizzati sulla comprensione migliora la qualità della generazione, che la riduzione del rumore nei dati immagine migliora le prestazioni complessive e che l'allineamento delle feature accelera la convergenza per modelli più piccoli ma ha un impatto minimo su quelli più grandi. Le nostre scoperte forniscono preziose intuizioni per la costruzione di modelli multimodali unificati ed efficienti.
I Grandi Modelli Multimodali (ad esempio, GPT-4, Gemini, Chameleon) si sono evoluti in strumenti potenti con milioni di utenti. Tuttavia, rimangono modelli generici e mancano di conoscenze personalizzate sui concetti specifici degli utenti. Ricerche precedenti hanno esplorato la personalizzazione per la generazione di testo, ma non è ancora chiaro come questi metodi possano essere adattati a nuove modalità, come la generazione di immagini. In questo articolo, introduciamo Yo'Chameleon, il primo tentativo di studiare la personalizzazione per i grandi modelli multimodali. Dati 3-5 immagini di un concetto specifico, Yo'Chameleon sfrutta il soft-prompt tuning per incorporare informazioni specifiche del soggetto per (i) rispondere a domande sul soggetto e (ii) ricreare dettagli a livello di pixel per produrre immagini del soggetto in nuovi contesti. Yo'Chameleon è addestrato con (i) un meccanismo di ottimizzazione self-prompting per bilanciare le prestazioni su più modalità, e (ii) un approccio di generazione di immagini "soft-positive" per migliorare la qualità delle immagini in un contesto few-shot.
L'addestramento di grandi modelli linguistici (LLM) come agenti interattivi presenta sfide uniche, tra cui il processo decisionale a lungo termine e l'interazione con feedback ambientali stocastici. Sebbene l'apprendimento per rinforzo (RL) abbia permesso progressi in compiti statici, l'addestramento RL per agenti multi-turn rimane poco esplorato. Proponiamo StarPO (State-Thinking-Actions-Reward Policy Optimization), un framework generale per l'RL a livello di traiettoria per agenti, e introduciamo RAGEN, un sistema modulare per l'addestramento e la valutazione di agenti LLM. Il nostro studio su tre ambienti stilizzati rivela tre risultati principali. Innanzitutto, il nostro addestramento RL per agenti mostra un ricorrente fenomeno di "Echo Trap", caratterizzato da picchi di varianza delle ricompense e gradienti; affrontiamo questo problema con StarPO-S, una variante stabilizzata che include filtraggio delle traiettorie, incorporazione di un critico e clipping disaccoppiato. In secondo luogo, scopriamo che la strutturazione degli episodi RL trarrebbe vantaggio da stati iniziali diversificati, una granularità di interazione media e un campionamento più frequente. Infine, dimostriamo che, senza segnali di ricompensa dettagliati e consapevoli del ragionamento, il ragionamento degli agenti difficilmente emerge attraverso l'RL multi-turn, e possono manifestare strategie superficiali o pensieri allucinati. Codice e ambienti sono disponibili su https://github.com/RAGEN-AI/RAGEN.
La generazione di drammi spaziali immersivi multimodali si concentra sulla creazione di un parlato binaurale continuo multi-parlante con prosodia drammatica basata su prompt multimodali, con potenziali applicazioni in AR, VR e altri ambiti. Questo compito richiede la modellazione simultanea delle informazioni spaziali e della prosodia drammatica basata su input multimodali, con costi elevati di raccolta dati. Per quanto ne sappiamo, il nostro lavoro rappresenta il primo tentativo di affrontare queste sfide. Abbiamo costruito MRSDrama, il primo dataset di drammi spaziali registrati multimodali, contenente audio binaurali di drammi, script, video, pose geometriche e prompt testuali. Successivamente, abbiamo proposto ISDrama, il primo modello di generazione di drammi spaziali immersivi tramite prompt multimodali. ISDrama comprende questi componenti principali: 1) Codificatore di Pose Multimodale, basato sull'apprendimento contrastivo, che considera l'effetto Doppler causato dai parlanti in movimento per estrarre informazioni unificate sulla pose dai prompt multimodali. 2) Trasformatore di Drammi Immersivi, un modello mamba-transformer basato su flusso che genera drammi di alta qualità, incorporando Drama-MOE per selezionare gli esperti appropriati per un migliore controllo della prosodia e della pose. Abbiamo anche progettato una strategia di guida senza classificatore coerente con il contesto per generare in modo coerente drammi completi. I risultati sperimentali mostrano che ISDrama supera i modelli di riferimento su metriche oggettive e soggettive. Le demo e il dataset sono disponibili all'indirizzo https://aaronz345.github.io/ISDramaDemo.
I recenti progressi nella generazione di Talking Head (THG) hanno raggiunto un'impressionante sincronizzazione labiale e qualità visiva attraverso modelli di diffusione; tuttavia, i metodi esistenti faticano a generare ritratti emotivamente espressivi preservando l'identità del parlante. Identifichiamo tre limitazioni critiche nella generazione attuale di talking head emotivi: un utilizzo insufficiente degli indizi emotivi intrinseci dell'audio, la fuoriuscita di identità nelle rappresentazioni emotive e l'apprendimento isolato delle correlazioni emotive. Per affrontare queste sfide, proponiamo un nuovo framework denominato DICE-Talk, seguendo l'idea di separare l'identità dall'emozione e poi cooperare emozioni con caratteristiche simili. In primo luogo, sviluppiamo un embedder emotivo disaccoppiato che modella congiuntamente gli indizi emotivi audio-visivi attraverso l'attenzione cross-modale, rappresentando le emozioni come distribuzioni gaussiane indipendenti dall'identità. In secondo luogo, introduciamo un modulo di condizionamento emotivo potenziato dalla correlazione con Emotion Banks apprendibili che catturano esplicitamente le relazioni inter-emotive attraverso la quantizzazione vettoriale e l'aggregazione di feature basata sull'attenzione. In terzo luogo, progettiamo un obiettivo di discriminazione emotiva che impone la coerenza affettiva durante il processo di diffusione attraverso la classificazione nello spazio latente. Esperimenti estesi sui dataset MEAD e HDTF dimostrano la superiorità del nostro metodo, superando gli approcci all'avanguardia in termini di accuratezza emotiva mantenendo una performance competitiva nella sincronizzazione labiale. I risultati qualitativi e gli studi sugli utenti confermano ulteriormente la capacità del nostro metodo di generare ritratti che preservano l'identità con espressioni emotive ricche e correlate che si adattano naturalmente a identità non viste.
Le attuali pipeline di apprendimento per rinforzo da feedback umano (RLHF) per l'allineamento di modelli linguistici di grandi dimensioni (LLM) assegnano tipicamente ricompense scalari alle sequenze, utilizzando il token finale come indicatore surrogato della qualità dell'intera sequenza. Tuttavia, ciò porta a feedback sparsi e a un'assegnazione di credito a livello di token subottimale. In questo lavoro, inquadriamo la modellazione delle ricompense come un problema di ottimizzazione focalizzato sull'assegnazione di credito a livello di token. Proponiamo una funzione di modellazione delle ricompense che sfrutta metodi di spiegabilità come SHAP e LIME per stimare le ricompense per token dal modello di ricompensa. Per apprendere i parametri di questa funzione di modellazione, utilizziamo un framework di ottimizzazione bilevel che integra l'ottimizzazione bayesiana e l'addestramento della policy per gestire il rumore derivante dalle stime delle ricompense a livello di token. I nostri esperimenti dimostrano che il raggiungimento di un migliore bilanciamento nell'attribuzione delle ricompense a livello di token porta a miglioramenti delle prestazioni rispetto ai benchmark sui task downstream e trova una policy ottimale più rapidamente durante l'addestramento. Inoltre, dimostriamo teoricamente che i metodi di spiegabilità che sono funzioni di attribuzione additive rispetto alle feature mantengono la policy ottimale come la ricompensa originale.
I sistemi di generazione aumentata da recupero (RAG) affrontano sfide significative nel rispondere a domande multi-hop (MHQA), dove query complesse richiedono la sintesi di informazioni provenienti da più frammenti di documenti. Gli approcci esistenti si basano tipicamente su riscritture e instradamenti iterativi delle query basati su LLM, risultando in elevati costi computazionali dovuti a ripetute invocazioni di LLM e processi multi-stadio. Per superare queste limitazioni, proponiamo TreeHop, un framework a livello di embedding che non richiede l'uso di LLM per il perfezionamento delle query. TreeHop aggiorna dinamicamente gli embedding delle query fondendo informazioni semantiche provenienti da query precedenti e documenti recuperati, consentendo un recupero iterativo esclusivamente attraverso operazioni nello spazio degli embedding. Questo metodo sostituisce il tradizionale ciclo "Recupera-Riscrivi-Vettorizza-Recupera" con un flusso semplificato "Recupera-Embed-Recupera", riducendo significativamente l'overhead computazionale. Inoltre, viene introdotto un criterio di arresto basato su regole per ulteriormente eliminare recuperi ridondanti, bilanciando efficienza e tasso di richiamo. I risultati sperimentali mostrano che TreeHop rivaleggia con metodi RAG avanzati su tre dataset MHQA a dominio aperto, raggiungendo prestazioni comparabili con solo il 5%-0,4% delle dimensioni dei parametri del modello e riducendo la latenza delle query di circa il 99% rispetto agli approcci concorrenti. Ciò rende TreeHop una soluzione più veloce e conveniente per l'implementazione in una gamma di applicazioni ad alta intensità di conoscenza. Per scopi di riproducibilità, i codici e i dati sono disponibili qui: https://github.com/allen-li1231/TreeHop.
I professionisti legali, in particolare quelli all'inizio della loro carriera, affrontano compiti complessi e ad alto rischio che richiedono un ragionamento adattivo e sensibile al contesto. Sebbene l'IA prometta di supportare il lavoro legale, i dataset e i modelli attuali sono strettamente focalizzati su sottocompiti isolati e non riescono a catturare il processo decisionale end-to-end necessario nella pratica reale. Per colmare questa lacuna, introduciamo LawFlow, un dataset di flussi di lavoro legali completi end-to-end raccolti da studenti di legge formati, basati su scenari reali di costituzione di entità aziendali. A differenza dei dataset precedenti focalizzati su coppie input-output o catene di pensiero lineari, LawFlow cattura processi di ragionamento dinamici, modulari e iterativi che riflettono l'ambiguità, la revisione e le strategie adattive al cliente della pratica legale. Utilizzando LawFlow, confrontiamo i flussi di lavoro generati da esseri umani e da LLM, rivelando differenze sistematiche nella struttura, nella flessibilità del ragionamento e nell'esecuzione del piano. I flussi di lavoro umani tendono a essere modulari e adattivi, mentre quelli degli LLM sono più sequenziali, esaustivi e meno sensibili alle implicazioni a valle. I nostri risultati suggeriscono inoltre che i professionisti legali preferiscono che l'IA svolga ruoli di supporto, come il brainstorming, l'identificazione di punti ciechi e la proposta di alternative, piuttosto che eseguire flussi di lavoro complessi end-to-end. Sulla base di questi risultati, proponiamo una serie di suggerimenti di design, radicati in osservazioni empiriche, che allineano l'assistenza dell'IA con gli obiettivi umani di chiarezza, completezza, creatività ed efficienza, attraverso pianificazione ibrida, esecuzione adattiva e supporto ai punti decisionali. I nostri risultati evidenziano sia le attuali limitazioni degli LLM nel supportare flussi di lavoro legali complessi, sia le opportunità per sviluppare sistemi di IA legale più collaborativi e consapevoli del ragionamento. Tutti i dati e il codice sono disponibili sulla nostra pagina del progetto (https://minnesotanlp.github.io/LawFlow-website/).
Il prompting a catena di pensiero ha dimostrato un grande successo nel facilitare le capacità di ragionamento dei modelli linguistici di grandi dimensioni. In questo lavoro, esploriamo come queste capacità di ragionamento potenziate possano essere sfruttate per migliorare la robustezza dei modelli linguistici di grandi dimensioni in compiti che non sono necessariamente focalizzati sul ragionamento. In particolare, mostriamo come un'ampia gamma di modelli linguistici di grandi dimensioni mostri un miglioramento significativo nella robustezza contro la corruzione dei riferimenti utilizzando un metodo semplice chiamato catena di pensiero difensivo, in cui vengono forniti solo pochi esempi con ragionamenti strutturati e difensivi come dimostrazioni. Empiricamente, i miglioramenti possono essere sorprendenti, soprattutto considerando la semplicità e l'applicabilità del metodo. Ad esempio, nel compito delle Natural Questions, l'accuratezza di GPT-4o diminuisce dal 60% a un minimo del 3% con il prompting standard quando 1 su 10 riferimenti forniti è corrotto da attacchi di iniezione di prompt. Al contrario, GPT-4o utilizzando il prompting a catena di pensiero difensivo mantiene un'accuratezza del 50%.
Investighiamo l'apprendimento per rinforzo (RL) per la pianificazione privilegiata nella guida autonoma. Gli approcci all'avanguardia per questo compito sono basati su regole, ma questi metodi non scalano bene per casi complessi e rari. L'RL, d'altra parte, è scalabile e non soffre di errori cumulativi come l'apprendimento per imitazione. Gli approcci RL contemporanei per la guida utilizzano ricompense complesse che sommano più ricompense individuali, ad esempio ricompense per il progresso, la posizione o l'orientamento. Dimostriamo che PPO non riesce a ottimizzare una versione popolare di queste ricompense quando la dimensione del mini-batch viene aumentata, il che limita la scalabilità di questi approcci. Proponiamo invece un nuovo design della ricompensa basato principalmente sull'ottimizzazione di un singolo termine intuitivo: il completamento del percorso. Le infrazioni vengono penalizzate terminando l'episodio o riducendo moltiplicativamente il completamento del percorso. Troviamo che PPO scala bene con dimensioni maggiori del mini-batch quando addestrato con la nostra ricompensa semplice, migliorando persino le prestazioni. L'addestramento con grandi dimensioni del mini-batch consente una scalabilità efficiente tramite il parallelismo distribuito dei dati. Scaliamo PPO a 300M di campioni in CARLA e 500M di campioni in nuPlan con un singolo nodo a 8 GPU. Il modello risultante raggiunge 64 DS nel benchmark CARLA longest6 v2, superando di gran lunga altri metodi RL con ricompense più complesse. Richiedendo solo adattamenti minimi rispetto al suo utilizzo in CARLA, lo stesso metodo è il miglior approccio basato sull'apprendimento su nuPlan. Ottiene un punteggio di 91.3 nel traffico non reattivo e 90.6 nel traffico reattivo sul benchmark Val14, essendo un ordine di grandezza più veloce rispetto ai lavori precedenti.
Questa revisione fornisce un'analisi sistematica di un'indagine completa sulla rilevazione di oggetti 3D con modelli visione-linguaggio (VLMs), un'area in rapida evoluzione all'intersezione tra visione 3D e intelligenza artificiale multimodale. Esaminando oltre 100 articoli di ricerca, offriamo la prima analisi sistematica dedicata alla rilevazione di oggetti 3D con modelli visione-linguaggio. Iniziamo delineando le sfide uniche della rilevazione di oggetti 3D con modelli visione-linguaggio, sottolineando le differenze rispetto alla rilevazione 2D nel ragionamento spaziale e nella complessità dei dati. Gli approcci tradizionali che utilizzano nuvole di punti e griglie voxel vengono confrontati con i moderni framework visione-linguaggio come CLIP e 3D LLMs, che abilitano la rilevazione open-vocabulary e la generalizzazione zero-shot. Esaminiamo le architetture chiave, le strategie di pre-addestramento e i metodi di prompt engineering che allineano le caratteristiche testuali e 3D per una rilevazione efficace di oggetti 3D con modelli visione-linguaggio. Vengono discussi esempi di visualizzazione e benchmark di valutazione per illustrare le prestazioni e il comportamento. Infine, evidenziamo le attuali sfide, come la limitatezza dei dataset 3D-linguaggio e le esigenze computazionali, e proponiamo direzioni future di ricerca per far progredire la rilevazione di oggetti 3D con modelli visione-linguaggio. >Rilevazione di Oggetti, Modelli Visione-Linguaggio, Agenti, VLMs, LLMs, AI