Articoli di ricerca IA selezionati quotidianamente con traduzioni
La crescente domanda di dati di alta qualità per i Large Language Model (LLM) ha intensificato la necessità di pipeline di preparazione dei dati scalabili, affidabili e semanticamente ricche. Tuttavia, le pratiche attuali sono ancora dominate da script ad-hoc e flussi di lavoro scarsamente specificati, che mancano di astrazioni principiate, ostacolano la riproducibilità e offrono un supporto limitato per la generazione di dati con modello-in-the-loop. Per affrontare queste sfide, presentiamo DataFlow, un framework unificato ed estendibile per la preparazione dei dati guidata da LLM. DataFlow è progettato con astrazioni a livello di sistema che abilitano trasformazioni dei dati modulari, riutilizzabili e componibili, e fornisce un'API per la costruzione di pipeline in stile PyTorch per realizzare dataflow debuggabili e ottimizzabili. Il framework è composto da quasi 200 operatori riutilizzabili e sei pipeline generali di dominio che coprono testo, ragionamento matematico, codice, Text-to-SQL, RAG agenziale ed estrazione di conoscenza su larga scala. Per migliorare ulteriormente l'usabilità, introduciamo DataFlow-Agent, che traduce automaticamente specifiche in linguaggio naturale in pipeline eseguibili attraverso sintesi di operatori, pianificazione della pipeline e verifica iterativa. In sei casi d'uso rappresentativi, DataFlow migliora costantemente le prestazioni degli LLM a valle. Le nostre pipeline per matematica, codice e testo superano dataset umani curati e baseline sintetici specializzati, raggiungendo fino a un +3% di accuratezza di esecuzione in Text-to-SQL rispetto a SynSQL, miglioramenti medi del +7% su benchmark di codice e guadagni di 1-3 punti su MATH, GSM8K e AIME. Inoltre, un dataset unificato di 10.000 campioni prodotto da DataFlow consente ai modelli base di superare le controparti addestrate su 1 milione di dati Infinity-Instruct. Questi risultati dimostrano che DataFlow fornisce un substrato pratico e ad alte prestazioni per una preparazione dei dati per LLM affidabile, riproducibile e scalabile, e stabilisce una fondazione a livello di sistema per il futuro sviluppo dell'AI data-centrica.
Le rappresentazioni profonde attraverso le modalità sono intrinsecamente interconnesse. In questo articolo, analizziamo sistematicamente le caratteristiche spettrali di vari encoder semantici e pixel. È interessante notare che il nostro studio rivela una corrispondenza altamente ispiratrice e raramente esplorata tra lo spettro delle feature di un encoder e il suo ruolo funzionale: gli encoder semantici catturano principalmente componenti a bassa frequenza che codificano significati astratti, mentre gli encoder pixel trattengono ulteriormente informazioni ad alta frequenza che veicolano dettagli granulari. Questa scoperta euristica offre una prospettiva unificante che lega il comportamento dell'encoder alla sua struttura spettrale sottostante. La definiamo Ipotesi del Prisma, dove ogni modalità di dati può essere vista come una proiezione del mondo naturale su uno spettro di feature condiviso, proprio come un prisma. Basandoci su questa intuizione, proponiamo Unified Autoencoding (UAE), un modello che armonizza la struttura semantica e i dettagli pixel tramite un innovativo modulatore di banda di frequenza, consentendo la loro coesistenza senza soluzione di continuità. Esperimenti estensivi sui benchmark ImageNet e MS-COCO convalidano che il nostro UAE unifica efficacemente l'astrazione semantica e la fedeltà a livello pixel in un singolo spazio latente con prestazioni all'avanguardia.
Il paradigma di generazione in-context ha recentemente dimostrato una notevole efficacia nell'editing di immagini basato su istruzioni, unendo efficienza dei dati e qualità della sintesi. Tuttavia, modellare tale apprendimento in-context per l'editing video guidato da istruzioni non è banale. Senza specificare le regioni da modificare, i risultati possono soffrire del problema di aree di editing imprecise e dell'interferenza tra token delle aree soggette a modifica e di quelle non modificate durante il denoising. Per affrontare ciò, presentiamo ReCo, un nuovo paradigma per l'editing video istruzionale che esplora in modo innovativo la modellazione dei vincoli tra regioni di editing e non-editing durante la generazione in-context. Tecnicamente, ReCo concatena orizzontalmente il video sorgente e quello target per un denoising congiunto. Per calibrare l'apprendimento della diffusione video, ReCo sfrutta due termini di regolarizzazione, ovvero la regolarizzazione latente e quella dell'attenzione, applicati rispettivamente ai latent denoisati di un passo indietro e alle mappe di attenzione. La prima aumenta la discrepanza latente della regione di editing tra i video sorgente e target, riducendo al contempo quella delle aree non modificate, enfatizzando così la modifica nell'area di interesse e alleviando la generazione di contenuti indesiderati all'esterno. La seconda sopprime l'attenzione dei token nella regione di editing verso i token nella controparte del video sorgente, mitigando così la loro interferenza durante la generazione di nuovi oggetti nel video target. Inoltre, proponiamo un dataset di editing video su larga scala e di alta qualità, denominato ReCo-Data, comprendente 500K coppie istruzione-video per favorire l'addestramento del modello. Esperimenti estensivi condotti su quattro principali task di editing video basato su istruzioni dimostrano la superiorità della nostra proposta.
I recenti progressi nei modelli di diffusione video hanno stimolato un crescente interesse per la generazione di video da nuove prospettive con controllo della telecamera per scene dinamiche, con l'obiettivo di fornire ai creatori capacità di controllo cinematografico della telecamera in post-produzione. Una sfida chiave nella generazione video con controllo della telecamera è garantire la fedeltà alla posa specificata della telecamera, mantenendo al contempo la coerenza visiva e ragionando sulla geometria occlusa a partire da osservazioni limitate. Per affrontare ciò, i metodi esistenti addestrano modelli di generazione video condizionati da traiettorie su dataset di coppie traiettoria-video, oppure stimano la profondità dal video in input per riproiettarlo lungo una traiettoria target e generare le regioni non proiettate. Tuttavia, i metodi esistenti faticano a generare video di alta qualità e fedeli alla posa della telecamera per due ragioni principali: (1) gli approcci basati sulla riproiezione sono altamente suscettibili a errori causati da stime imprecise della profondità; e (2) la limitata diversità delle traiettorie di telecamera nei dataset esistenti restringe i modelli appresi. Per superare queste limitazioni, presentiamo InfCam, un framework di generazione video-to-video senza stima della profondità e con controllo della telecamera, caratterizzato da alta fedeltà alla posa. Il framework integra due componenti chiave: (1) il warping per omografia infinita, che codifica le rotazioni 3D della telecamera direttamente nello spazio latente 2D di un modello di diffusione video. Condizionando su queste informazioni rotazionali prive di rumore, il termine di parallasse residuo viene previsto attraverso un addestramento end-to-end per raggiungere un'elevata fedeltà alla posa della telecamera; e (2) una pipeline di data augmentation che trasforma i dataset sintetici multiview esistenti in sequenze con traiettorie e lunghezze focali diversificate. I risultati sperimentali dimostrano che InfCam supera i metodi di riferimento in accuratezza della posa della telecamera e fedeltà visiva, generalizzando bene dai dati sintetici a quelli del mondo reale. Link alla nostra pagina progetto: https://emjay73.github.io/InfCam/
La Generazione Aumentata con Recupero Dinamico determina in modo adattivo quando effettuare il recupero durante la generazione per mitigare le allucinazioni nei grandi modelli linguistici (LLM). Tuttavia, i metodi esistenti si basano su segnali interni al modello (ad es., logit, entropia), che sono fondamentalmente inaffidabili poiché gli LLM sono tipicamente mal calibrati e spesso mostrano elevata confidenza in output errati. Proponiamo QuCo-RAG, che passa dalla confidenza soggettiva a statistiche oggettive calcolate dai dati di pre-addestramento. Il nostro metodo quantifica l'incertezza attraverso due fasi: (1) prima della generazione, identifichiamo entità a bassa frequenza che indicano lacune nella conoscenza di coda lunga; (2) durante la generazione, verifichiamo la co-occorrenza delle entità nel corpus di pre-addestramento, dove una co-occorrenza zero segnala spesso un rischio di allucinazione. Entrambe le fasi sfruttano Infini-gram per query con latenza di millisecondi su 4 trilioni di token, attivando il recupero quando l'incertezza è elevata. Esperimenti su benchmark di QA multi-hop mostrano che QuCo-RAG ottiene guadagni in EM di 5-12 punti rispetto ai baseline state-of-the-art con modelli OLMo-2 e si trasferisce efficacemente a modelli con dati di pre-addestramento non divulgati (Llama, Qwen, GPT), migliorando l'EM fino a 14 punti. La generalizzazione di dominio su QA biomedico convalida ulteriormente la robustezza del nostro paradigma. Questi risultati stabiliscono la verifica basata sul corpus come un paradigma dinamico per RAG, fondato su principi e praticamente agnostico rispetto al modello. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/ZhishanQ/QuCo-RAG.
La stima accurata della difficoltà degli item (domande o compiti) è fondamentale per la valutazione educativa, ma soffre del problema del cold start. Sebbene i Large Language Model dimostrino capacità di problem solving sovrumane, rimane una questione aperta se essi possano percepire le difficoltà cognitive degli studenti umani. In questo lavoro, presentiamo un'analisi empirica su larga scala dell'Allineamento della Difficoltà Uomo-IA per oltre 20 modelli in domini diversificati come la conoscenza medica e il ragionamento matematico. I nostri risultati rivelano un disallineamento sistematico in cui l'aumento della dimensione del modello non è affidabilmente d'aiuto; invece di allinearsi con gli umani, i modelli convergono verso un consenso macchina condiviso. Osserviamo che l'alta performance spesso ostacola una stima accurata della difficoltà, poiché i modelli faticano a simulare i limiti di capacità degli studenti anche quando vengono esplicitamente invitati ad adottare specifici livelli di competenza. Inoltre, identifichiamo una critica mancanza di introspezione, poiché i modelli non riescono a prevedere i propri limiti. Questi risultati suggeriscono che la capacità generale di problem solving non implica una comprensione delle difficoltà cognitive umane, evidenziando la sfida nell'utilizzare i modelli attuali per la previsione automatizzata della difficoltà.
La generazione di video geometricamente coerenti a lungo raggio presenta un dilemma fondamentale: sebbene la coerenza richieda un rigoroso rispetto della geometria 3D nello spazio dei pixel, i modelli generativi all'avanguardia operano in modo più efficace in uno spazio latente condizionato dalla telecamera. Questa disconnessione fa sì che i metodi attuali incontrino difficoltà con le aree occluse e traiettorie complesse della telecamera. Per colmare questa lacuna, proponiamo WorldWarp, un framework che accoppia un'ancora strutturale 3D con un raffinatore generativo 2D. Per stabilire un ancoraggio geometrico, WorldWarp mantiene una cache geometrica 3D online costruita tramite Gaussian Splatting (3DGS). Deformando esplicitamente il contenuto storico in nuove visuali, questa cache funge da impalcatura strutturale, garantendo che ogni nuovo fotogramma rispetti la geometria precedente. Tuttavia, la deformazione statica lascia inevitabilmente lacune e artefatti a causa delle occlusioni. Affrontiamo questo problema utilizzando un modello di diffusione spaziotemporale (ST-Diff) progettato per un obiettivo di "riempimento e revisione". La nostra innovazione chiave è una programmazione del rumore variabile spaziotemporalmente: le regioni vuote ricevono rumore completo per innescare la generazione, mentre le regioni deformate ricevono rumore parziale per consentire la rifinitura. Aggiornando dinamicamente la cache 3D a ogni passo, WorldWarp mantiene la coerenza tra i segmenti video. Di conseguenza, raggiunge una fedeltà all'avanguardia garantendo che la logica 3D guidi la struttura mentre la logica di diffusione perfeziona la texture. Pagina del progetto: https://hyokong.github.io/worldwarp-page/.
La pianificazione di traiettorie in ambienti non strutturati è una capacità fondamentale e impegnativa per i robot mobili. Le tradizionali pipeline modulari soffrono di latenza e errori a cascata tra i moduli di percezione, localizzazione, mappatura e pianificazione. I recenti metodi di apprendimento end-to-end mappano le osservazioni visive grezze direttamente su segnali di controllo o traiettorie, promettendo prestazioni ed efficienza superiori in contesti open-world. Tuttavia, la maggior parte dei precedenti approcci end-to-end dipende ancora da moduli di localizzazione separati che richiedono una calibrazione estrinseca accurata dei sensori per la stima dello stato proprio, limitando così la generalizzazione tra diverse implementazioni e ambienti. Introduciamo LoGoPlanner, un framework di navigazione end-to-end basato sulla localizzazione che affronta queste limitazioni attraverso: (1) il fine-tuning di un backbone visivo-geometrico a lungo orizzonte per ancorare le previsioni a una scala metrica assoluta, fornendo così una stima implicita dello stato per una localizzazione accurata; (2) la ricostruzione della geometria della scena circostante dalle osservazioni storiche per fornire una consapevolezza ambientale densa e granulare necessaria per un'evitamento affidabile degli ostacoli; e (3) il condizionamento della policy su una geometria implicita avviata dai suddetti compiti ausiliari, riducendo così la propagazione degli errori. Valutiamo LoGoPlanner sia in simulazione che in scenari reali, dove il suo design completamente end-to-end riduce l'errore cumulativo, mentre la memoria geometrica metric-aware migliora la coerenza della pianificazione e l'evitamento degli ostacoli, portando a un miglioramento superiore al 27,3% rispetto ai baseline con localizzazione oracle e a una forte generalizzazione tra diverse implementazioni e ambienti. Il codice e i modelli sono stati resi pubblicamente disponibili sulla {pagina del progetto} https://steinate.github.io/logoplanner.github.io/.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nei compiti di generazione del codice. Tuttavia, la loro efficacia dipende fortemente dall'addestramento supervisionato con ampi dataset etichettati (ad esempio, coppie domanda-risposta) o non etichettati (ad esempio, frammenti di codice), che sono spesso costosi e difficili da ottenere su larga scala. Per affrontare questa limitazione, questo articolo introduce un metodo chiamato IPC, un framework non supervisionato che sfrutta il Internal Probing (analisi interna) degli LLM per la generazione di codice senza alcun corpus esterno, persino senza frammenti di codice non etichettati. Introduciamo il problem space probing, il test understanding probing, il solution space probing e la knowledge consolidation and reinforcement per analizzare la conoscenza interna e i modelli di confidenza esistenti negli LLM. Inoltre, IPC identifica candidati di codice affidabili attraverso meccanismi di auto-consistenza e stime della qualità basate sulla rappresentazione per addestrare UCoder (un generatore di codice con apprendimento non supervisionato). Convalidiamo l'approccio proposto su molteplici benchmark di codice, dimostrando che i metodi non supervisionati possono raggiungere prestazioni competitive rispetto agli approcci supervisionati, riducendo significativamente la dipendenza da dati etichettati e risorse computazionali. Esperimenti analitici rivelano che gli stati interni del modello contengono segnali ricchi riguardanti la qualità e la correttezza del codice, e che sfruttare adeguatamente questi segnali consente un apprendimento non supervisionato efficace per i compiti di generazione del codice, aprendo nuove direzioni per l'addestramento di LLM per il codice in scenari con risorse limitate.
L'addestramento di agenti basati su Large Language Model (LLM) capaci è fortemente limitato dall'elevato costo e dalla natura statica dei dati di interazione del mondo reale. Affrontiamo questo problema introducendo GenEnv, un framework che stabilisce un gioco co-evolutivo, allineato alla difficoltà, tra un agente e un simulatore di ambiente generativo e scalabile. A differenza dei metodi tradizionali che evolvono i modelli su dataset statici, GenEnv implementa un'evoluzione dei dati: il simulatore funge da politica di curriculum dinamico, generando continuamente compiti specificamente calibrati sulla "zona di sviluppo prossimale" dell'agente. Questo processo è guidato da un semplice ma efficace α-Curriculum Reward, che allinea la difficoltà del compito alle capacità attuali dell'agente. Valutiamo GenEnv su cinque benchmark, tra cui API-Bank, ALFWorld, BFCL, Bamboogle e TravelPlanner. In tutti questi compiti, GenEnv migliora le prestazioni dell'agente fino al +40,3% rispetto ai baseline da 7B di parametri e raggiunge o supera le prestazioni medie di modelli più grandi. Rispetto all'aumento dei dati offline basato su Gemini 2.5 Pro, GenEnv ottiene prestazioni migliori utilizzando 3,3 volte meno dati. Spostando la supervisione da statica ad adattiva tramite simulazione, GenEnv fornisce un percorso efficiente in termini di dati per scalare le capacità degli agenti.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno dimostrato un potenziale significativo per l'inferenza ad alta velocità. Tuttavia, le attuali strategie di decodifica guidate dalla confidenza sono limitate da un parallelismo ridotto, raggiungendo tipicamente solo 1-3 token per passaggio in avanti (TPF). In questo lavoro, identifichiamo che il grado di parallelismo durante l'inferenza dei dLLM è altamente sensibile all'Ordine di Riempimento dei Token (TFO). Introduciamo quindi Lookahead PArallel Decoding (LoPA), un algoritmo plug-and-play che non richiede addestramento, per identificare un TFO superiore e quindi accelerare l'inferenza. LoPA esplora contemporaneamente distinti candidati TFO tramite rami paralleli e seleziona quello con il maggior potenziale di parallelismo futuro in base alla confidenza del ramo. Applichiamo LoPA al modello D2F all'avanguardia e osserviamo un sostanziale miglioramento nell'efficienza di decodifica. In particolare, LoPA aumenta il TPF di D2F-Dream a 10,1 sul dataset GSM8K mantenendo prestazioni superiori alla baseline Dream. Inoltre, per facilitare questo grado di parallelismo senza precedenti, sviluppiamo un sistema di inferenza multi-dispositivo specializzato che utilizza il Parallelismo di Rami (BP), il quale raggiunge un throughput per singolo campione di 1073,9 token al secondo in uno scenario di deployment multi-GPU. Il codice è disponibile all'indirizzo https://github.com/zhijie-group/LoPA.
La narrazione visiva richiede la generazione di video multi-inquadratura con qualità cinematografica e coerenza a lungo raggio. Ispirati dalla memoria umana, proponiamo StoryMem, un paradigma che riformula la narrazione video di lunga durata come una sintesi iterativa di inquadrature condizionata da una memoria visiva esplicita, trasformando modelli di diffusione video pre-addestrati per singole inquadrature in narratori multi-inquadratura. Questo è ottenuto tramite un'innovativa progettazione Memory-to-Video (M2V), che mantiene un banco di memoria compatto e aggiornato dinamicamente contenente fotogrammi chiave dalle inquadrature generate storicamente. La memoria archiviata viene poi iniettata nei modelli di diffusione video per singola inquadratura mediante concatenazione latente e spostamenti RoPE negativi, con un fine-tuning limitato a LoRA. Una strategia di selezione semantica dei fotogrammi chiave, unita a un filtraggio basato su preferenze estetiche, garantisce ulteriormente una memoria informativa e stabile durante l'intera generazione. Inoltre, il framework proposto si presta naturalmente a transizioni fluide tra inquadrature e ad applicazioni di generazione di storie personalizzate. Per facilitare la valutazione, introduciamo ST-Bench, un benchmark diversificato per la narrazione video multi-inquadratura. Esperimenti estensivi dimostrano che StoryMem raggiunge una coerenza superiore tra le inquadrature rispetto ai metodi precedenti, preservando al contempo un'alta qualità estetica e l'aderenza al prompt, rappresentando un passo significativo verso la narrazione video coerente della durata di minuti.
La capacità di esplorazione influenza sia le prestazioni in fase di inferenza che l'addestramento con apprendimento per rinforzo (RL) per i grandi modelli linguistici (e visivo-linguistici), poiché il campionamento stocastico spesso produce percorsi di ragionamento ridondanti con scarsa diversità a livello alto. Questo articolo propone Reasoning Palette, un innovativo framework a modulazione latente che fornisce al modello una variabile latente stocastica per la contestualizzazione strategica, guidando la sua pianificazione interna prima della generazione dei token. Questo contesto latente viene inferito dall'embedding mediato per pooling di una coppia domanda-risposta tramite un autoencoder variazionale (VAE), dove ogni latente campionato codifica potenzialmente un contesto di ragionamento distinto. Durante l'inferenza, un latente campionato viene decodificato in prefissi di token apprendibili e preposto al prompt di input, modulando la traiettoria di ragionamento interna del modello. In questo modo, il modello esegue un campionamento interno sulle strategie di ragionamento prima della generazione dell'output, plasmando lo stile e la struttura dell'intera sequenza di risposta. Una breve fase di riscaldamento di fine-tuning supervisionato (SFT) consente al modello di adattarsi a questo condizionamento latente. Nell'ottimizzazione RL, Reasoning Palette facilita l'esplorazione strutturata consentendo l'iniezione on-demand di modalità di ragionamento diverse, migliorando significativamente l'efficienza esplorativa e la capacità di apprendimento sostenuto. Esperimenti su molteplici benchmark di ragionamento dimostrano che il nostro metodo consente un controllo interpretabile e controllabile sul comportamento strategico del modello (visivo-)linguistico, ottenendo così guadagni prestazionali consistenti rispetto ai metodi RL standard.
Tra i benchmark esistenti per l'utilizzo mobile online, AndroidWorld è emerso come punto di riferimento dominante grazie al suo ambiente riproducibile e alla valutazione deterministica; tuttavia, i recenti agenti che raggiungono tassi di successo superiori al 90% ne indicano la saturazione e motivano la necessità di un benchmark più impegnativo. Inoltre, il suo ambiente manca di categorie applicative chiave, come l'e-commerce e la comunicazione aziendale, e non riflette scenari realistici di utilizzo mobile, caratterizzati da istruzioni utente vaghe e utilizzo ibrido di strumenti. Per colmare questa lacuna, introduciamo MobileWorld, un benchmark sostanzialmente più impegnativo, progettato per riflettere meglio l'utilizzo mobile nel mondo reale, comprendente 201 task su 20 applicazioni, mantenendo lo stesso livello di valutazione riproducibile di AndroidWorld. La difficoltà di MobileWorld è duplice. In primo luogo, enfatizza task a lungo termine con interazioni cross-applicazione: MobileWorld richiede in media quasi il doppio dei passi per il completamento di un task (27,8 vs 14,3) e include una percentuale molto più elevata di task multi-applicazione (62,2% vs 9,5%) rispetto ad AndroidWorld. In secondo luogo, MobileWorld si estende oltre la manipuzione standard dell'interfaccia grafica introducendo nuove categorie di task, incluse l'interazione agente-utente e i task potenziati da MCP. Per garantire una valutazione robusta, forniamo un ambiente container basato su snapshot e verifiche funzionali precise, inclusa l'ispezione del database di backend e API di callback per i task. Abbiamo inoltre sviluppato un framework agentico planner-executor con spazi d'azione estesi per supportare le interazioni utente e le chiamate MCP. I nostri risultati rivelano un netto calo delle prestazioni rispetto ad AndroidWorld, con il miglior framework agentico e il modello end-to-end che raggiungono rispettivamente tassi di successo del 51,7% e del 20,9%. La nostra analisi mostra che i modelli attuali hanno notevoli difficoltà con l'interazione utente e le chiamate MCP, offrendo una roadmap strategica verso una prossima generazione di intelligenza mobile più robusta.
Prima della chiusura dei round di finanziamento venture capital, gli avvocati conducono attività di due diligence che includono la riconciliazione del quadro di capitalizzazione: verificare che ogni strumento finanziario (ad esempio azioni, opzioni, warrant) e termine di emissione (ad esempio piani di maturazione, trigger di accelerazione, restrizioni al trasferimento) sia supportato da ampi set di documentazione legale sottostante. Sebbene i LLM continuino a migliorare nei benchmark legali, flussi di lavoro giuridici specializzati, come la riconciliazione della capitalizzazione, rimangono fuori portata anche per i sistemi agentici più avanzati. Il compito richiede ragionamento su documenti multipli, tracciabilità rigorosa delle evidenze e output deterministici che gli approcci attuali non riescono a garantire in modo affidabile. Definiamo la riconciliazione della capitalizzazione come un esempio di benchmark reale per l'IA legale, analizziamo e confrontiamo le prestazioni dei sistemi agentici esistenti, e proponiamo un'architettura di modello del mondo finalizzata all'automazione della riconciliazione - e più in generale come fondamento per l'intelligenza legale applicata.
I recenti progressi nell'apprendimento robotico sono stati guidati da dataset su larga scala e da potenti architetture di policy visuomotorie, tuttavia la robustezza delle policy rimane limitata dal costo sostanziale della raccolta di dimostrazioni diversificate, in particolare per la generalizzazione spaziale nei compiti di manipolazione. Per ridurre la raccolta ripetitiva di dati, presentiamo Real2Edit2Real, un framework che genera nuove dimostrazioni colmando il divario tra l'editabilità 3D e i dati visivi 2D attraverso un'interfaccia di controllo 3D. Il nostro approccio ricostruisce dapprima la geometria della scena da osservazioni RGB multi-vista con un modello di ricostruzione 3D a scala metrica. Sulla base della geometria ricostruita, eseguiamo editing 3D affidabile in termini di profondità sulle nuvole di punti per generare nuove traiettorie di manipolazione, correggendo geometricamente le pose del robot per recuperare una profondità fisicamente consistente, che funge da condizione affidabile per sintetizzare nuove dimostrazioni. Infine, proponiamo un modello di generazione video multi-condizionale guidato dalla profondità come segnale di controllo primario, insieme a mappe di azione, edge e ray, per sintetizzare video di manipolazione multi-vista con aumento spaziale. Gli esperimenti su quattro compiti di manipolazione del mondo reale dimostrano che le policy addestrate su dati generati da sole 1-5 dimostrazioni sorgente possono eguagliare o superare quelle addestrate su 50 dimostrazioni reali, migliorando l'efficienza dei dati fino a 10-50 volte. Inoltre, i risultati sperimentali sull'editing di altezza e texture dimostrano la flessibilità e l'estensibilità del framework, indicandone il potenziale di fungere da framework unificato per la generazione di dati.
Affrontiamo il problema della segmentazione semantica di parti 3D: la scomposizione di oggetti in parti con nomi significativi. Sebbene esistano dataset con annotazioni di parti, le loro definizioni sono incoerenti tra i diversi dataset, limitando un addestramento robusto. I metodi precedenti producono scomposizioni prive di etichette o recuperano singole parti senza annotazioni complete della forma. Proponiamo ALIGN-Parts, che formula l'assegnazione di nomi alle parti come un compito diretto di allineamento di insiemi. Il nostro metodo scompone le forme in "partlet" - rappresentazioni implicite di parti 3D - abbinate alle descrizioni delle parti tramite assegnazione bipartita. Combiniamo indizi geometrici dai campi di parti 3D, l'aspetto visivo da caratteristiche di visione multi-vista e la conoscenza semantica da descrizioni di affordance generate da modelli linguistici. Una funzione di perdita di allineamento testuale garantisce che i partlet condividano lo spazio di incorporamento con il testo, abilitando una configurazione di matching teoricamente open-vocabulary, dati sufficienti dati. Il nostro metodo efficiente e innovativo, di segmentazione e denominazione di parti 3D one-shot, trova applicazione in diverse attività a valle, incluso l'uso come motore di annotazione scalabile. Poiché il nostro modello supporta il matching zero-shot a descrizioni arbitrarie e predizioni calibrate sulla confidenza per categorie note, con verifica umana, creiamo un'ontologia unificata che allinea PartNet, 3DCoMPaT++ e Find3D, composta da 1.794 parti 3D uniche. Mostriamo anche esempi dal nostro nuovo dataset Tex-Parts. Introduciamo inoltre 2 nuove metriche appropriate per il compito di segmentazione di parti 3D denominate.
I modelli visione-linguaggio (VLM) vengono comunemente addestrati inserendo token visivi provenienti da un encoder visivo preaddestrato nel flusso testuale di un modello linguistico. Ciò consente alle informazioni testuali e visive di interagire completamente all'interno del modello, ma risulta estremamente oneroso per immagini ad alta risoluzione, conversazioni lunghe o video in streaming, sia in termini di memoria che di potenza di calcolo. I VLM che sfruttano il cross-attention rappresentano un'alternativa efficiente all'inserimento di token, ma mostrano un evidente divario prestazionale, in particolare per compiti che coinvolgono dettagli visivi di fine granularità. Abbiamo riscontrato che una chiave per migliorare tali modelli è abilitare anche l'interazione locale testo-testo negli strati dedicati di cross-attention. Sulla base di ciò, proponiamo CASA, Cross-Attention via Self-Attention, un paradigma semplice ed efficiente che riduce sostanzialmente il divario con il pieno inserimento di token sui benchmark comuni di comprensione delle immagini, godendo al contempo della stessa scalabilità dei modelli a cross-attention quando applicati a compiti multimodali di contesto lungo come la descrizione di video in streaming. Per esempi e codice, consultare la nostra pagina del progetto all'indirizzo https://kyutai.org/casa.
Studiamo il ragionamento sillogistico nei LLM dalle prospettive logica e del linguaggio naturale. Nel processo, esploriamo le capacità di ragionamento fondamentali dei LLM e la direzione in cui questa ricerca si sta evolvendo. A supporto dei nostri studi, utilizziamo 14 grandi modelli linguistici e ne investigiamo le capacità di ragionamento sillogistico in termini di inferenze simboliche e di comprensione del linguaggio naturale. Sebbene questo meccanismo di ragionamento non sia una proprietà emergente uniforme tra tutti i LLM, le prestazioni simboliche perfette in alcuni modelli ci portano a chiederci se i LLM stiano diventando meccanismi di ragionamento sempre più formali, piuttosto che esplicitare le sfumature del ragionamento umano.
La modellazione manuale dei parametri materiali e della geometria 3D è un'operazione essenziale ma dispendiosa in termini di tempo nell'industria dei videogiochi e del cinema. Sebbene i recenti progressi nella ricostruzione 3D abbiano consentito approssimazioni accurate della geometria e dell'aspetto di una scena, questi metodi spesso risultano carenti negli scenari di re-illuminazione a causa della mancanza di parametri materiali precisi e spazialmente variabili. Allo stesso tempo, i modelli di diffusione che operano su immagini 2D hanno dimostrato elevate prestazioni nella previsione di proprietà di rendering fisicamente basato (PBR) come albedo, ruvidezza e metallicità. Tuttavia, il trasferimento di queste mappe materiali 2D sulla geometria 3D ricostruita rimane una sfida significativa. Proponiamo un framework per fondere dati materiali 2D in geometrie 3D utilizzando una combinazione di approcci innovativi basati sull'apprendimento e sulla proiezione. Iniziamo ricostruendo la geometria della scena tramite Gaussian Splatting. A partire dalle immagini di input, un modello di diffusione genera mappe 2D per i parametri di albedo, ruvidezza e metallicità. Qualsiasi modello di diffusione esistente in grado di convertire immagini o video in materiali PBR può essere applicato. Le previsioni vengono ulteriormente integrate nella rappresentazione 3D ottimizzando una loss basata sull'immagine o proiettando direttamente i parametri materiali sui Gaussian utilizzando il ray tracing gaussiano. Per migliorare la precisione su scala fine e la coerenza multi-vista, introduciamo inoltre una fase di raffinamento neurale leggera (Neural Merger), che prende come input le caratteristiche materiali calcolate con ray tracing e produce aggiustamenti dettagliati. I nostri risultati dimostrano che i metodi proposti superano le tecniche esistenti sia nelle metriche quantitative che nel realismo visivo percepito. Ciò consente rendering più accurati, re-illuminabili e fotorealistici da scene ricostruite, migliorando significativamente il realismo e l'efficienza dei flussi di lavoro di creazione degli asset nelle pipeline di produzione di contenuti.
Gli assistenti AI producono codice vulnerabile nel 45% degli scenari rilevanti per la sicurezza, introducendo difetti nei sistemi di produzione su larga scala. Tuttavia, i dataset esistenti per la codifica sicura sono carenti. Manca loro un ancoraggio a incidenti reali, non forniscono la scala richiesta dall'addestramento moderno e tralasciano il contesto di sicurezza operativa di cui gli sviluppatori hanno bisogno per le distribuzioni in produzione. Presentiamo SecureCode v2.0, un dataset di livello production-grade composto da 1.215 esempi di codifica focalizzati sulla sicurezza che hanno superato la validazione strutturale e una revisione di sicurezza esperta. Ogni esempio è collegato a incidenti di sicurezza reali documentati con riferimenti CVE, fornisce implementazioni vulnerabili e sicure, dimostra attacchi concreti e include linee guida operative per la difesa in profondità. Il dataset copre 11 categorie di vulnerabilità (la completa OWASP Top 10:2025 più le Minacce alla Sicurezza AI/ML) in 11 linguaggi (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin e YAML per l'infrastructure-as-code). Il nostro framework di garanzia della qualità assicura un completo ancoraggio agli incidenti. Ogni esempio include strategie di integrazione SIEM, raccomandazioni per l'hardening dell'infrastruttura (configurazioni Docker, AppArmor, WAF) e approcci di testing utilizzando framework appropriati per il linguaggio. Il dataset utilizza una struttura conversazionale a 4 turni che rispecchia le interazioni reali sviluppatore-AI, passando da implementazioni di base a considerazioni di sicurezza avanzate e linee guida per la difesa in profondità. I nostri contributi: (1) 1.215 esempi convalidati rigorosamente, suddivisi in 989 per il training, 122 per la validazione e 104 per il test, (2) un framework di validazione automatizzato che garantisce la coerenza del dataset, (3) una struttura conversazionale a 4 turni che cattura flussi di lavoro realistici sulla sicurezza, (4) una guida completa alla sicurezza operativa con strategie di integrazione SIEM, (5) una completa fedeltà implementativa specifica per linguaggio e (6) il rilascio open-source di dati, strumenti di validazione e protocolli di benchmarking.
Nei flussi di lavoro professionali di composizione video, gli artisti devono creare manualmente le interazioni ambientali - come ombre, riflessi, polvere e schizzi - tra i soggetti in primo piano e gli strati di sfondo. I modelli generativi video esistenti faticano a preservare il video di input mentre aggiungono tali effetti, e gli attuali metodi di video inpainting richiedono costose maschere per fotogramma o producono risultati inverosimili. Introduciamo l'augmented compositing, un nuovo compito che sintetizza effetti ambientali realistici e semitrasparenti condizionati da prompt testuali e strati video di input, preservando la scena originale. Per affrontare questo compito, presentiamo Over++, un framework per la generazione di effetti video che non fa assunzioni sulla posa della telecamera, la stazionarietà della scena o la supervisione della profondità. Costruiamo un dataset di effetti appaiati specifico per questo compito e introduciamo una strategia di augmentazione non appaiata che preserva l'editabilità guidata dal testo. Il nostro metodo supporta anche il controllo opzionale tramite maschere e la guida tramite keyframe senza richiedere annotazioni dense. Nonostante l'addestramento su dati limitati, Over++ produce effetti ambientali diversificati e realistici e supera le baseline esistenti sia nella generazione degli effetti che nella preservazione della scena.
I metodi di interpretabilità per i grandi modelli linguistici (LLM) derivano tipicamente le direzioni da supervisione testuale, che può mancare di ancoraggio esterno. Proponiamo di utilizzare l'attività cerebrale umana non come segnale di addestramento, ma come sistema di coordinate per leggere e orientare gli stati degli LLM. Utilizzando il dataset SMN4Lang MEG, costruiamo un atlante cerebrale a livello di parola dei modelli di valore di phase-locking (PLV) ed estraiamo assi latenti tramite ICA. Convalidiamo gli assi con lessici indipendenti ed etichette basate su NER (POS/frequenza-log usate come controlli di verifica), addestrando poi adattatori leggeri che mappano gli stati nascosti degli LLM su questi assi cerebrali senza fine-tuning del modello. L'orientamento lungo le direzioni derivate dal cervello produce un asse lessicale robusto (legato alla frequenza) in uno strato intermedio di TinyLlama, che sopravvive a controlli con perplexity abbinata, e un confronto tra sonda cerebrale e testuale mostra spostamenti maggiori nella frequenza-log (relativi alla sonda testuale) con perplexity inferiore per l'asse cerebrale. Un asse funzione/contenuto (asse 13) mostra un orientamento coerente in TinyLlama, Qwen2-0.5B e GPT-2, con corroborazione a livello testuale abbinata per PPL. Gli effetti nello strato 4 di TinyLlama sono ampi ma inconsistenti, quindi li consideriamo secondari (Appendice). La struttura dell'asse è stabile quando l'atlante viene ricostruito senza le feature di variazione degli embedding GPT o con embedding word2vec (|r|=0.64-0.95 tra assi abbinati), riducendo i problemi di circolarità. Un ancoraggio esplorativo con fMRI suggerisce un potenziale allineamento per la variazione degli embedding e la frequenza-log, ma gli effetti sono sensibili alle assunzioni di modellazione emodinamica e sono considerati solo come evidenza a livello di popolazione. Questi risultati supportano una nuova interfaccia: assi basati sulla neurofisiologia forniscono maniglie interpretabili e controllabili per il comportamento degli LLM.