Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo T-pro 2.0, un LLM russo open-weight per il ragionamento ibrido e l'inferenza efficiente. Il modello supporta la risposta diretta e la generazione di tracce di ragionamento, utilizzando un tokenizer denso in caratteri cirillici e una pipeline adattata di speculative decoding EAGLE per ridurre la latenza. Per consentire una ricerca riproducibile ed estensibile, rilasciamo i pesi del modello, il corpus di istruzioni T-Wix da 500k elementi, il benchmark di ragionamento T-Math e i pesi EAGLE su Hugging Face. Queste risorse permettono agli utenti di studiare il ragionamento in lingua russa e di estendere o adattare sia il modello che la pipeline di inferenza. Una demo web pubblica espone le modalità con e senza ragionamento e illustra i miglioramenti di velocità ottenuti dalla nostra stack di inferenza in diversi domini. T-pro 2.0 si propone quindi come un sistema aperto e accessibile per costruire e valutare applicazioni pratiche ed efficienti di LLM per la lingua russa.
I grandi modelli linguistici (LLM) hanno compiuto progressi significativi nella risoluzione di compiti di ragionamento complesso grazie al Reinforcement Learning con Ricompense Verificabili (RLVR). Questo avanzamento è altresì inseparabile dalla supervisione automatizzata fornita da verificatori affidabili. Tuttavia, gli attuali verificatori basati sul risultato (OV) non sono in grado di ispezionare i passaggi intermedi inaffidabili nelle lunghe catene di ragionamento (CoT). Nel frattempo, gli attuali verificatori basati sul processo (PV) incontrano difficoltà nell'individuare in modo affidabile gli errori nelle CoT lunghe e complesse, limitati dalla scarsità di annotazioni di alta qualità a causa dei costi proibitivi delle annotazioni umane. Pertanto, proponiamo il Verificatore di Processo Basato sul Risultato (OPV), che verifica il processo logico dei risultati sintetizzati da CoT lunghe per ottenere una verifica sia accurata che efficiente e consentire annotazioni su larga scala. Per potenziare il verificatore proposto, adottiamo un framework iterativo di active learning con annotazioni esperte per migliorare progressivamente la capacità di verifica dell'OPV con costi di annotazione inferiori. Nello specifico, in ogni iterazione, i casi più incerti del miglior OPV corrente vengono annotati e successivamente utilizzati per addestrare un nuovo OPV tramite Rejection Fine-Tuning (RFT) e RLVR per il round successivo. Esperimenti estensivi dimostrano le prestazioni superiori e l'ampia applicabilità dell'OPV. Esso raggiunge nuovi risultati state-of-the-art sul nostro benchmark \thisbench, superando modelli open-source molto più grandi come Qwen3-Max-Preview con un punteggio F1 di 83,1 rispetto a 76,3. Inoltre, l'OPV rileva efficacemente i falsi positivi all'interno di dataset sintetici, allineandosi strettamente alla valutazione esperta. Quando collabora con modelli policy, l'OPV produce costantemente miglioramenti delle prestazioni, ad esempio, aumentando l'accuratezza di DeepSeek-R1-Distill-Qwen-32B dal 55,2% al 73,3% su AIME2025 man mano che il budget computazionale scala.
L'apprendimento per rinforzo (RL), precedentemente dimostrato efficace per modelli linguistici di grandi dimensioni e multimodali, è stato recentemente esteso con successo per migliorare la generazione di immagini 2D. Tuttavia, l'applicazione del RL alla generazione 3D rimane in gran parte inesplorata a causa della maggiore complessità spaziale degli oggetti 3D, che richiedono una geometria globalmente coerente e trame locali a grana fine. Ciò rende la generazione 3D significativamente sensibile alla progettazione dei reward e agli algoritmi di RL. Per affrontare queste sfide, conduciamo il primo studio sistematico sul RL per la generazione autoregressiva da testo a 3D su diverse dimensioni. (1) Progettazione dei reward: Valutiamo dimensioni dei reward e scelte del modello, dimostrando che l'allineamento con le preferenze umane è cruciale e che i modelli multimodali generici forniscono un segnale robusto per gli attributi 3D. (2) Algoritmi di RL: Studiamo varianti del GRPO, evidenziando l'efficacia dell'ottimizzazione a livello di token, e investigiamo ulteriormente il scaling dei dati di addestramento e delle iterazioni. (3) Benchmark Text-to-3D: Poiché i benchmark esistenti non riescono a misurare le capacità di ragionamento implicito nei modelli di generazione 3D, introduciamo MME-3DR. (4) Paradigmi avanzati di RL: Motivati dalla gerarchia naturale della generazione 3D, proponiamo Hi-GRPO, che ottimizza la generazione 3D gerarchica dal globale al locale attraverso ensemble di reward dedicati. Sulla base di queste intuizioni, sviluppiamo AR3D-R1, il primo modello text-to-3D potenziato dal RL, esperto dalla forma approssimativa al perfezionamento della texture. Speriamo che questo studio fornisca spunti sul ragionamento guidato dal RL per la generazione 3D. Il codice è rilasciato su https://github.com/Ivan-Tang-3D/3DGen-R1.
I grandi modelli linguistici (LLM) hanno ottenuto progressi significativi nella risoluzione di compiti di ragionamento complesso grazie al Reinforcement Learning con Ricompense Verificabili (RLVR). Questo avanzamento è altresì inseparabile dalla supervisione automatizzata da parte di verificatori affidabili. Tuttavia, gli attuali verificatori basati sul risultato (OV) non sono in grado di ispezionare i passaggi intermedi inaffidabili nelle lunghe catene di ragionamento (CoT). Nel frattempo, gli attuali verificatori basati sul processo (PV) incontrano difficoltà nell'individuare in modo affidabile gli errori nelle CoT lunghe e complesse, limitati dalla scarsità di annotazioni di alta qualità a causa dei costi proibitivi delle annotazioni umane. Pertanto, proponiamo il Verificatore di Processo basato su Risultato (OPV), che verifica il processo logico dei risultati sintetizzati da CoT lunghe per ottenere una verifica sia accurata che efficiente e consentire annotazioni su larga scala. Per potenziare il verificatore proposto, adottiamo un framework iterativo di apprendimento attivo con annotazioni di esperti per migliorare progressivamente la capacità di verifica dell'OPV con costi di annotazione inferiori. Nello specifico, in ogni iterazione, i casi più incerti del miglior OPV corrente vengono annotati e successivamente utilizzati per addestrare un nuovo OPV attraverso Rejection Fine-Tuning (RFT) e RLVR per il round successivo. Esperimenti estensivi dimostrano le prestazioni superiori e l'ampia applicabilità di OPV. Ottiene nuovi risultati state-of-the-art sul nostro OPV-Bench riservato, superando modelli open-source molto più grandi come Qwen3-Max-Preview con un punteggio F1 di 83,1 rispetto a 76,3. Inoltre, OPV rileva efficacemente i falsi positivi all'interno di dataset sintetici, allineandosi strettamente alla valutazione degli esperti. Quando collabora con modelli policy, OPV produce costantemente miglioramenti delle prestazioni, ad esempio, aumentando l'accuratezza di DeepSeek-R1-Distill-Qwen-32B dal 55,2% al 73,3% su AIME2025 man mano che il budget computazionale aumenta.
I modelli linguistici di grandi dimensioni (LLM) come agenti dimostrano forti capacità di problem solving matematico e possono persino risolvere problemi di livello Olimpiade Internazionale della Matematica (IMO) con l'assistenza di sistemi di dimostrazione formale. Tuttavia, a causa di euristiche deboli per le costruzioni ausiliarie, l'IA per la risoluzione di problemi di geometria rimane dominata da modelli esperti come AlphaGeometry 2, che fanno ampio affidamento sulla sintesi di dati su larga scala e sulla ricerca sia per l'addestramento che per la valutazione. In questo lavoro, facciamo il primo tentativo di costruire un agente LLM di livello medaglia per la geometria e presentiamo InternGeometry. InternGeometry supera le limitazioni euristiche in geometria proponendo iterativamente proposizioni e costruzioni ausiliarie, verificandole con un motore simbolico e riflettendo sul feedback del motore per guidare le proposte successive. Un meccanismo di memoria dinamica consente a InternGeometry di condurre oltre duecento interazioni con il motore simbolico per problema. Per accelerare ulteriormente l'apprendimento, introduciamo il Reinforcement Learning a Complessità Crescente (CBRL), che aumenta gradualmente la complessità dei problemi sintetizzati attraverso le fasi di addestramento. Basato su InternThinker-32B, InternGeometry risolve 44 dei 50 problemi di geometria delle IMO (2000-2024), superando il punteggio medio del medalista d'oro (40.9), utilizzando solo 13K esempi di addestramento, appena lo 0.004% dei dati utilizzati da AlphaGeometry 2, dimostrando il potenziale degli agenti LLM su compiti di geometria di livello esperto. InternGeometry può anche proporre nuove costruzioni ausiliarie per problemi IMO che non compaiono nelle soluzioni umane. Rilasceremo il modello, i dati e il motore simbolico per supportare la ricerca futura.
La motion capture è oggi alla base della creazione di contenuti che va ben oltre gli umani digitali, eppure la maggior parte delle pipeline esistenti rimane specifica per specie o per modello. Formalizziamo questa lacuna come Motion Capture Agnostic alla Categoria (CAMoCap): dato un video monoculare e una risorsa 3D riggata arbitraria come prompt, l'obiettivo è ricostruire un'animazione basata su rotazioni, come il formato BVH, che animi direttamente l'asset specifico. Presentiamo MoCapAnything, un framework fattorizzato e guidato da riferimento che prima predice le traiettorie 3D dei giunti e poi recupera le rotazioni specifiche dell'asset tramite cinematica inversa consapevole dei vincoli. Il sistema contiene tre moduli addestrabili e una fase leggera di IK: (1) un Reference Prompt Encoder che estrae query per giunto dallo scheletro, dalla mesh e dalle immagini renderizzate dell'asset; (2) un Video Feature Extractor che calcola descrittori visivi densi e ricostruisce una mesh deformativa 4D approssimata per colmare il divario tra spazio video e spazio dei giunti; e (3) un Unified Motion Decoder che fonde questi segnali per produrre traiettorie temporalmente coerenti. Abbiamo anche curato Truebones Zoo con 1038 clip di movimento, ciascuna delle quali fornisce una triade standardizzata scheletro-mesh-render. Esperimenti su benchmark in-domain e su video in-the-wild mostrano che MoCapAnything fornisce animazioni scheletriche di alta qualità ed esibisce un retargeting significativo tra specie diverse su rig eterogenei, abilitando una motion capture 3D scalabile e guidata da prompt per asset arbitrari. Pagina del progetto: https://animotionlab.github.io/MoCapAnything/
Con il passaggio dei grandi modelli linguistici (LLM) da prototipi di ricerca a sistemi di produzione, i professionisti necessitano spesso di metodi affidabili per verificare che gli output del modello soddisfino i vincoli richiesti. Sebbene le stime basate sul campionamento forniscano un'intuizione del comportamento del modello, non offrono garanzie solide. Presentiamo BEAVER, il primo framework pratico per calcolare limiti di probabilità deterministici e solidi sulla soddisfazione dei vincoli per gli LLM. Dato un qualsiasi vincolo semantico chiuso rispetto al prefisso, BEAVER esplora sistematicamente lo spazio di generazione utilizzando nuove strutture di dati basate su trie di token e frontiere, mantenendo limiti provabilmente solidi a ogni iterazione. Formalizziamo il problema della verifica, dimostriamo la solidità del nostro approccio e valutiamo BEAVER su compiti di verifica della correttezza, verifica della privacy e generazione di codice sicuro su molteplici LLM all'avanguardia. BEAVER ottiene limiti di probabilità da 6 a 8 volte più stretti e identifica da 3 a 4 volte più istanze ad alto rischio rispetto ai metodi baseline con budget computazionali identici, consentendo una caratterizzazione precisa e una valutazione del rischio che limiti approssimativi o valutazioni empiriche non possono fornire.
Questo articolo introduce il concetto di Intelligenza Spaziale Microscopica (MiSI), ovvero la capacità di percepire e ragionare sulle relazioni spaziali di entità microscopiche invisibili, competenza fondamentale per la scoperta scientifica. Per valutare il potenziale dei Modelli Visione-Linguaggio (VLM) in questo ambito, proponiamo un benchmark sistematico denominato MiSI-Bench. Questo framework include oltre 163.000 coppie domanda-risposta e 587.000 immagini derivate da circa 4.000 strutture molecolari, coprendo nove compiti complementari che valutano abilità che spaziano dalle trasformazioni spaziali elementari alle identificazioni relazionali complesse. I risultati sperimentali rivelano che gli attuali VLM all'avanguardia ottengono prestazioni significativamente inferiori al livello umano su questo benchmark. Tuttavia, un modello da 7B addestrato in modo fine mostra un potenziale sostanziale, superando persino gli umani nei compiti di trasformazione spaziale, mentre le sue scarse prestazioni in compiti scientificamente fondati, come il riconoscimento dei legami a idrogeno, sottolineano la necessità di integrare conoscenze di dominio esplicite per progredire verso un'AGI scientifica. I dataset sono disponibili all'indirizzo https://huggingface.co/datasets/zongzhao/MiSI-bench.
L'unificazione della comprensione multimodale, della generazione e della rappresentazione della ricostruzione all'interno di un unico tokenizer rimane una sfida chiave nella costruzione di modelli unificati. La ricerca precedente ha tentato prevalentemente di affrontare questo problema nel paradigma del doppio encoder, ad esempio utilizzando encoder separati rispettivamente per la comprensione e la generazione, o bilanciando le rappresentazioni semantiche e le caratteristiche di basso livello con una loss contrastiva. In questo articolo, proponiamo VQRAE, una versione a Quantizzazione Vettoriale degli Autoencoder di Rappresentazione, che rappresenta la prima esplorazione pionieristica di una rappresentazione unificata per produrre *feature* semantiche continue per la comprensione delle immagini e token discreti per la generazione visiva all'interno di un tokenizer unificato. Nello specifico, partiamo da modelli fondazione visivi preaddestrati, aggiungendo un decoder ViT simmetrico e adottando una strategia di addestramento in due fasi: inizialmente, si congela l'encoder e si apprende un codebook VQ semantico ad alta dimensionalità con un obiettivo di ricostruzione pixel; successivamente, si ottimizza congiuntamente l'encoder con vincoli di auto-distillazione. Questo design consente di ottenere una perdita di informazione semantica trascurabile per mantenere l'abilità di comprensione multimodale, token discreti compatibili per la generazione e una ricostruzione fine dei dettagli. Inoltre, identifichiamo una proprietà intrigante nella quantizzazione di encoder semantici che si basano su un codebook ad alta dimensionalità, in contrasto con la comune pratica precedente di utilizzare codebook a bassa dimensionalità nella ricostruzione di immagini. Il codebook VQ semantico può raggiungere un tasso di utilizzo del 100% a una dimensione di 1536. VQRAE dimostra prestazioni competitive su diversi benchmark di comprensione, generazione e ricostruzione visiva, mostrando promettenti proprietà di scalabilità nel paradigma autoregressivo grazie ai suoi vantaggi discreti.
I paradigmi di "ragionamento con le immagini" (Thinking-with-images) hanno dimostrato notevoli capacità di ragionamento visivo integrando le informazioni visive come elementi dinamici nella Catena del Ragionamento (CoT). Tuttavia, l'ottimizzazione della CoT multimodale interlacciata (iMCoT) tramite apprendimento per rinforzo rimane complessa, poiché dipende da dati di ragionamento di alta qualità scarsi. In questo studio, proponiamo la Catena del Ragionamento con Auto-Chiamata (sCoT), un nuovo paradigma di ragionamento visivo che riformula l'iMCoT come una CoT puramente linguistica con auto-chiamata. Nello specifico, un agente principale scompone il complesso compito di ragionamento visivo in sottocompiti atomici e invoca le sue repliche virtuali, ovvero sub-agenti che condividono i parametri, per risolverli in un contesto isolato. sCoT offre una sostanziale efficacia ed efficienza di addestramento, poiché non richiede un interlacciamento esplicito tra le modalità. sCoT utilizza un'ottimizzazione delle politiche relativa al gruppo per rinforzare comportamenti di ragionamento efficaci e migliorare l'ottimizzazione. Esperimenti su HR-Bench 4K mostrano che sCoT migliora le prestazioni complessive di ragionamento fino all'1,9% con ~75% in meno di ore di GPU rispetto a solidi approcci baseline. Il codice è disponibile all'indirizzo https://github.com/YWenxi/think-with-images-through-self-calling.
I modelli generativi di mondi possiedono un potenziale significativo per simulare interazioni con politiche visuomotorie in ambienti variati. I modelli video all'avanguardia possono abilitare la generazione di osservazioni realistiche e interazioni ambientali in modo scalabile e generale. Tuttavia, l'uso dei modelli video in robotica è stato limitato principalmente a valutazioni *in-distribution*, ovvero scenari simili a quelli utilizzati per addestrare la politica o per effettuare il fine-tuning del modello video base. In questo rapporto, dimostriamo che i modelli video possono essere utilizzati per l'intero spettro dei casi d'uso della valutazione delle politiche in robotica: dalla valutazione delle prestazioni nominali alla generalizzazione *out-of-distribution* (OOD), fino all'analisi della sicurezza fisica e semantica. Introduciamo un sistema di valutazione generativo basato su un modello fondante video di frontiera (Veo). Il sistema è ottimizzato per supportare il condizionamento delle azioni robotiche e la coerenza multi-vista, integrando al contempo l'editing generativo di immagini e il completamento multi-vista per sintetizzare variazioni realistiche di scene del mondo reale lungo molteplici assi di generalizzazione. Dimostriamo che il sistema preserva le capacità di base del modello video, consentendo una simulazione accurata di scene che sono state modificate per includere oggetti di interazione nuovi, sfondi visivi nuovi e oggetti distraenti nuovi. Questa fedeltà permette di prevedere con precisione le prestazioni relative di diverse politiche sia in condizioni nominali che OOD, determinare l'impatto relativo dei diversi assi di generalizzazione sulle prestazioni della politica ed eseguire il *red teaming* delle politiche per esporre comportamenti che violano i vincoli di sicurezza fisica o semantica. Convalidiamo queste capacità attraverso oltre 1600 valutazioni nel mondo reale di otto checkpoint di politiche di Gemini Robotics e cinque compiti per un manipolatore bimanuale.
Introduciamo StereoSpace, un framework basato su diffusione per la sintesi monoculare-stereo che modella la geometria esclusivamente tramite condizionamento del punto di vista, senza l'uso esplicito di mappe di profondità o operazioni di warping. Uno spazio canonico rettificato e il condizionamento guidano il generatore a inferire le corrispondenze e a riempire le disocclusioni in modo end-to-end. Per garantire una valutazione equa e priva di leakage, introduciamo un protocollo end-to-end che esclude qualsiasi ground truth o stima proxy della geometria al momento del test. Il protocollo enfatizza metriche che riflettono la rilevanza per le applicazioni downstream: iSQoE per il comfort percettivo e MEt3R per la consistenza geometrica. StereoSpace supera altri metodi delle categorie warp & inpaint, latent-warping e warped-conditioning, raggiungendo un parallasse nitido e una forte robustezza su scene stratificate e non-Lambertiane. Ciò stabilisce il condizionamento del punto di vista nella diffusione come una soluzione scalabile e libera da profondità per la generazione stereo.
Sebbene gli strati di normalizzazione siano stati a lungo considerati componenti indispensabili delle architetture di deep learning, la recente introduzione della Dynamic Tanh (DyT) ha dimostrato che alternative sono possibili. La funzione puntuale DyT vincola i valori estremi per una convergenza stabile e raggiunge prestazioni paragonabili a quelle della normalizzazione; questo lavoro ricerca ulteriormente progetti di funzioni che possano superarla. Iniziamo studiando come le proprietà intrinseche delle funzioni puntuali influenzino l'addestramento e le prestazioni. Basandoci su questi risultati, conduciamo una ricerca su larga scala per un progetto di funzione più efficace. Attraverso questa esplorazione, introduciamo Derf(x) = erf(αx + s), dove erf(x) è la funzione di distribuzione cumulativa gaussiana riscalata, e la identifichiamo come il progetto più performante. Derf supera LayerNorm, RMSNorm e DyT in un'ampia gamma di domini, inclusi visione artificiale (riconoscimento e generazione di immagini), rappresentazione del parlato e modellazione di sequenze di DNA. I nostri risultati suggeriscono che i guadagni prestazionali di Derf derivino in gran parte dalla sua migliore generalizzazione piuttosto che da una maggiore capacità di adattamento. La sua semplicità e le prestazioni superiori rendono Derf una scelta pratica per architetture Transformer senza normalizzazione.
Il compito di Video Question Answering (VideoQA) rappresenta un ambito cruciale per valutare se i modelli fondazione possono percepire, comprendere e ragionare efficacemente su scenari dinamici del mondo reale. Tuttavia, gli attuali Modelli Linguistici Multimodali (MLLM) faticano a modellare simultaneamente le relazioni spaziali all'interno dei fotogrammi video e a comprendere le dinamiche causali dell'evoluzione temporale in compiti VideoQA complessi e ad alta intensità di ragionamento. In questo lavoro, dotiamo gli MLLM di un Toolkit Video completo ed estensibile, per potenziare le loro capacità di ragionamento spaziotemporale e garantire l'armonia tra quantità e diversità degli strumenti. Per controllare meglio la sequenza di invocazione degli strumenti ed evitare problemi di scorciatoie nella catena di strumenti, proponiamo un Framework di Ragionamento Spaziotemporale (STAR) che pianifica strategicamente gli strumenti temporali e spaziali, localizzando progressivamente l'area chiave nel video. Il nostro framework STAR potenzia GPT-4o utilizzando strumenti leggeri, ottenendo un miglioramento dell'8.2% su VideoMME e del 4.6% su LongVideoBench. Riteniamo che il nostro Toolkit Video e il framework STAR rappresentino un passo importante verso la costruzione di assistenti autonomi e intelligenti per l'analisi video. Il codice è pubblicamente disponibile all'indirizzo https://github.com/fansunqi/VideoTool.
I robot che apprendono abilità di manipolazione da video umani quotidiani potrebbero acquisire ampie capacità senza la noiosa raccolta di dati robotici. Proponiamo un framework di traduzione da video a video che converte comuni video di interazione uomo-oggetto in video di manipolazione robotica con movimenti coerenti e interazioni realistiche e fisicamente plausibili. Il nostro approccio non richiede video accoppiati uomo-robot per l'addestramento, ma solo un insieme di video robotici non accoppiati, rendendo il sistema facilmente scalabile. Introduciamo una rappresentazione trasferibile che colma il divario di embodiment: inpaintando il braccio robotico nei video di addestramento per ottenere uno sfondo pulito e sovrapponendo un semplice segnale visivo (un marcatore e una freccia che indicano la posizione e l'orientamento del gripper), possiamo condizionare un modello generativo per reinserire il braccio robotico nella scena. Al momento del test, applichiamo lo stesso processo ai video umani (inpaintando la persona e sovrapponendo segnali di posa umana) e generiamo video robotici di alta qualità che imitano le azioni umane. Addestriamo in modalità in-context learning un modello di diffusione video allo stato dell'arte (Wan 2.2) per garantire coerenza temporale e sfruttare la sua ricca conoscenza pregressa. I risultati empirici dimostrano che il nostro approccio produce movimenti robotici significativamente più realistici e plausibili rispetto ai baseline, indicando una direzione promettente per lo scale-up dell'apprendimento robotico da video umani non etichettati. Pagina del progetto: https://showlab.github.io/H2R-Grounder/
Introduciamo The FACTS Leaderboard, una suite di classifiche online e un insieme associato di benchmark che valuta in modo completo la capacità dei modelli linguistici di generare testi fattualmente accurati in diversi scenari. La suite fornisce una misura olistica della factualità aggregando le prestazioni dei modelli su quattro distinte sotto-classifiche: (1) FACTS Multimodale, che misura la factualità delle risposte a domande basate su immagini; (2) FACTS Parametrico, che valuta la conoscenza enciclopedica dei modelli facendo rispondere a domande fattuali a libro chiuso, attingendo dai parametri interni; (3) FACTS Ricerca, che valuta la factualità in scenari di ricerca di informazioni, in cui il modello deve utilizzare un'API di ricerca; e (4) FACTS Grounding (v2), che valuta se le risposte in forma estesa sono basate sui documenti forniti, caratterizzato da modelli di valutazione significativamente migliorati. Ogni sotto-classifica utilizza modelli di valutazione automatici per assegnare un punteggio alle risposte del modello, e il punteggio finale della suite è una media dei quattro componenti, progettata per fornire una valutazione robusta ed equilibrata della factualità complessiva di un modello. La suite FACTS Leaderboard sarà mantenuta attivamente e conterrà sia divisioni pubbliche che private per consentire la partecipazione esterna proteggendo al contempo la sua integrità. È disponibile all'indirizzo https://www.kaggle.com/benchmarks/google/facts.
I recenti progressi nel 4D Gaussian Splatting (4DGS) hanno esteso la capacità di rendering ad alta velocità del 3D Gaussian Splatting (3DGS) al dominio temporale, consentendo il rendering in tempo reale di scene dinamiche. Tuttavia, una delle principali sfide rimanenti risiede nella modellazione di video dinamici a lungo raggio contenenti movimento, dove una semplice estensione dei metodi esistenti porta a una grave esplosione della memoria, a uno sfarfallio temporale e all'incapacità di gestire le occlusioni che appaiono o scompaiono nel tempo. Per affrontare queste sfide, proponiamo una nuova struttura 4DGS caratterizzata da un meccanismo di Fusione Bidirezionale basato su Anchor Relay (ARBB), denominata MoRel, che consente una modellazione temporalmente coerente ed efficiente in termini di memoria di scene dinamiche a lungo raggio. Il nostro metodo costruisce progressivamente spazi canonici locali di ancoraggio (KfA) all'indice temporale dei fotogrammi chiave e modella le deformazioni inter-fotogramma a livello di ancoraggio, migliorando la coerenza temporale. Apprendendo deformazioni bidirezionali tra i KfA e fondendole in modo adattivo attraverso un controllo dell'opacità apprendibile, il nostro approccio mitiga le discontinuità temporali e gli artefatti di sfarfallio. Introduciamo inoltre uno schema di Densificazione Gerarchica guidata dalla Varianza delle Caratteristiche (FHD) che densifica efficacemente i KfA mantenendo la qualità del rendering, basandosi su un livello assegnato di varianza delle caratteristiche. Per valutare efficacemente la capacità del nostro modello di gestire il movimento 4D a lungo raggio nel mondo reale, abbiamo composto un nuovo dataset contenente movimento 4D a lungo raggio, chiamato SelfCap_{LR}. Rispetto ai precedenti dataset video dinamici, esso presenta una magnitudine media del moto dinamico più ampia, catturata in spazi spazialmente più estesi. Nel complesso, il nostro MoRel ottiene una ricostruzione 4D a lungo raggio temporalmente coerente e priva di sfarfallio, mantenendo un utilizzo della memoria limitato, dimostrando sia scalabilità che efficienza nelle rappresentazioni dinamiche basate su Gaussian.
I modelli video unificati mostrano forti capacità di comprensione e generazione, ma incontrano difficoltà nell'editing visivo basato sul ragionamento, anche quando dotati di potenti modelli visivo-linguistici (VLM) interni. Attribuiamo questo divario a due fattori: 1) i dataset esistenti sono inadeguati per addestrare e valutare l'editing video consapevole del ragionamento, e 2) una disconnessione intrinseca tra le capacità di ragionamento e di editing dei modelli, che impedisce alla ricca comprensione di guidare efficacemente il processo di editing. Colmare questo divario richiede un framework integrato che colleghi il ragionamento con la trasformazione visiva. Per affrontare questo problema, introduciamo il compito di Reason-Informed Video Editing (RVE), che richiede di ragionare sulla plausibilità fisica e sulle dinamiche causali durante l'editing. Per supportare una valutazione sistematica, costruiamo RVE-Bench, un benchmark completo con due sottoinsiemi complementari: Reasoning-Informed Video Editing e In-Context Video Generation. Questi sottoinsiemi coprono diverse dimensioni del ragionamento e scenari di editing del mondo reale. Sulla base di queste fondamenta, proponiamo ReViSE, un framework di Ragionamento Auto-Riflessivo (SRF) che unifica generazione e valutazione in un'unica architettura. Il VLM interno del modello fornisce un feedback intrinseco valutando se il video editato soddisfa logicamente l'istruzione data. Il feedback differenziale affina il comportamento reasoning del generatore durante l'addestramento. Esperimenti estensivi su RVE-Bench dimostrano che ReViSE migliora significativamente l'accuratezza dell'editing e la fedeltà visiva, raggiungendo un miglioramento del 32% del punteggio Overall nel sottoinsieme di editing video basato sul ragionamento rispetto ai metodi state-of-the-art.
La personalizzazione di concetti visivi mira a trasferire solo attributi specifici dell'immagine, come identità, espressione, illuminazione e stile, in contesti non visti. Tuttavia, i metodi esistenti si basano su embedding olistici provenienti da encoder di immagini generici, che intrecciano molteplici fattori visivi e rendono difficile isolare un singolo attributo. Ciò porta spesso a fughe di informazioni e sintesi incoerenti. Per affrontare questa limitazione, introduciamo Omni-Attribute, il primo encoder di attributi di immagini open-vocabulary progettato per apprendere rappresentazioni ad alta fedeltà e specifiche per attributo. Il nostro approccio progetta congiuntamente dati e modello: (i) curiamo coppie di immagini semanticamente collegate, annotate con attributi positivi e negativi, per insegnare esplicitamente all'encoder cosa preservare o sopprimere; e (ii) adottiamo un paradigma di addestramento a doppio obiettivo che bilancia la fedeltà generativa con la disentanglement contrastivo. Gli embedding risultanti si rivelano efficaci per il retrieval di attributi open-vocabulary, la personalizzazione e la generazione compositiva, raggiungendo prestazioni all'avanguardia su molteplici benchmark.
L'ingegneria del software AI nel mondo reale richiede agenti di programmazione in grado di ragionare su repository massicci, mantenere una memoria durevole tra e all'interno di sessioni lunghe e coordinare robustamente toolchain complesse durante i test. Gli agenti di programmazione open-source esistenti offrono trasparenza ma spesso risultano carenti quando sottoposti a questi carichi di lavoro di scala industriale, mentre gli agenti proprietari forniscono prestazioni pratiche solide ma limitata estensibilità, interpretabilità e controllabilità. Presentiamo il Confucius Code Agent (CCA), un ingegnere del software AI open-source in grado di operare su scala industriale. CCA è costruito sul Confucius SDK, una piattaforma di sviluppo per agenti open-source progettata attorno a tre prospettive complementari: Agent Experience (AX), User Experience (UX) e Developer Experience (DX). L'SDK introduce un orchestratore unificato con memoria di lavoro gerarchica per il ragionamento a contesto lungo, un sistema persistente di annotazione per l'apprendimento continuo cross-sessione e un modulo di estensione modulare per un utilizzo robusto degli strumenti. Inoltre, un meta-agente automatizza la sintesi, la valutazione e il raffinamento delle configurazioni dell'agente attraverso un ciclo build-test-improve, abilitando uno sviluppo rapido degli agenti su nuovi compiti, ambienti e stack di strumenti. Istantanato sul Confucius SDK con questi meccanismi, CCA fornisce prestazioni solide su compiti reali di ingegneria del software. Su SWE-Bench-Pro, CCA raggiunge una prestazione Resolve@1 state-of-the-art del 54,3%, migliorando sostanzialmente rispetto ai precedenti agenti di programmazione. Insieme, Confucius SDK e CCA forniscono una base trasparente, estensibile e riproducibile per gli agenti AI, colmano le lacune tra prototipi di ricerca e sistemi di grado production e supportano lo sviluppo e il deployment degli agenti su scala industriale.
Gli agenti LLM sono ampiamente impiegati in compiti interattivi complessi, sebbene i vincoli sulla privacy spesso impediscano un'ottimizzazione centralizzata e una co-evoluzione attraverso ambienti dinamici. Sebbene l'Apprendimento Federato (FL) si sia dimostrato efficace su dataset statici, la sua estensione all'auto-evoluzione aperta degli agenti rimane poco esplorata. Applicare direttamente il FL standard è complesso: compiti eterogenei e ricompense sparse a livello di traiettoria introducono gravi conflitti di gradiente, destabilizzando il processo di ottimizzazione globale. Per colmare questa lacuna, proponiamo Fed-SE, un framework di Auto-Evoluzione Federata per agenti LLM. Fed-SE stabilisce un paradigma di evoluzione locale-aggregazione globale. Localmente, gli agenti impiegano un fine-tuning efficiente in parametri su traiettorie filtrate ad alto rendimento per ottenere aggiornamenti di gradiente stabili. Globalmente, Fed-SE aggrega gli aggiornamenti all'interno di un sottospazio a basso rango che separa le dinamiche specifiche dell'ambiente, riducendo efficacemente il trasferimento negativo tra client. Esperimenti condotti in cinque ambienti eterogenei dimostrano che Fed-SE migliora i tassi di successo medi dei compiti di circa il 18% rispetto ai baseline federati, validandone l'efficacia nel trasferimento robusto di conoscenze cross-ambiente in implementazioni con vincoli di privacy.
Gli agenti di role-playing (RPA) devono padroneggiare simultaneamente molteplici abilità in conflitto tra loro: seguire istruzioni multi-turno, dimostrare conoscenza del dominio e adottare uno stile linguistico coerente. I lavori esistenti si basano o su un fine-tuning supervisionato (SFT) che sovradatta ai segnali superficiali e produce bassa diversità, o applicano l'apprendimento per rinforzo (RL) che non riesce ad apprendere molteplici dimensioni per un'ottimizzazione completa degli RPA. Presentiamo MOA (Multi-Objective Alignment), un framework di reinforcement learning che abilita un'ottimizzazione multidimensionale e granulare basata su rubriche per RPA generici. MOA introduce una nuova strategia di ottimizzazione multi-obiettivo che addestra simultaneamente su multiple rubriche granulari per potenziare le prestazioni di ottimizzazione. Inoltre, per affrontare i problemi della diversità e della qualità dell'output del modello, abbiamo impiegato un rollout aumentato dal ragionamento (thought-augmented) con guida off-policy. Esperimenti estesi su benchmark impegnativi come PersonaGym e RoleMRC mostrano che MOA permette a un modello da 8B di eguagliare o addirittura superare baseline robuste come GPT-4o e Claude in numerose dimensioni. Ciò dimostra il grande potenziale di MOA nella costruzione di RPA che possano soddisfare simultaneamente le richieste di conoscenza del ruolo, stile della persona, scenari diversificati e conversazioni complesse multi-turno.
L'avanzamento dell'IA incarnata ha sbloccato un potenziale significativo per i robot umanoidi intelligenti. Tuttavia, i progressi sia nei modelli Visione-Linguaggio-Azione (VLA) che nei modelli del mondo sono fortemente ostacolati dalla scarsità di dati di addestramento su larga scala e diversificati. Una soluzione promettente è "robotizzare" video umani del web, approccio che si è dimostrato efficace per l'addestramento delle politiche di controllo. Tuttavia, queste soluzioni si limitano principalmente a "sovrapporre" bracci robotici a video in prima persona, incapaci di gestire movimenti complessi del corpo intero e occlusioni della scena nei video in terza persona, rendendole inadatte a robotizzare esseri umani. Per colmare questa lacuna, introduciamo X-Humanoid, un approccio di editing video generativo che adatta il potente modello Wan 2.2 in una struttura video-to-video e lo specializza per il compito di traduzione da umano a umanoide. Questa specializzazione richiede video accoppiati umano-umanoide, quindi abbiamo progettato una pipeline scalabile per la creazione di dati, trasformando asset della community in oltre 17 ore di video sintetici accoppiati utilizzando Unreal Engine. Abbiamo quindi applicato il nostro modello addestrato a 60 ore di video di Ego-Exo4D, generando e rilasciando un nuovo dataset su larga scala di oltre 3,6 milioni di frame video "robotizzati" di umanoidi. L'analisi quantitativa e gli studi sugli utenti confermano la superiorità del nostro metodo rispetto ai benchmark esistenti: il 69% degli utenti lo ha valutato come il migliore per la coerenza del movimento e il 62,1% per la correttezza dell'incarnazione.
Gli approcci recenti basati su modelli visione-linguaggio (VLM) hanno ottenuto risultati impressionanti nella generazione di SVG. Tuttavia, poiché generano solo testo e mancano di segnali visivi durante la decodifica, spesso incontrano difficoltà con semantiche complesse e non riescono a produrre SVG visivamente accattivanti o geometricamente coerenti. Introduciamo DuetSVG, un modello multimodale unificato che genera congiuntamente token immagine e corrispondenti token SVG in maniera end-to-end. DuetSVG viene addestrato su dataset sia di immagini che di SVG. In fase di inferenza, applichiamo una nuova strategia di scaling al test time che sfrutta le predizioni visive native del modello come guida per migliorare la qualità della decodifica SVG. Esperimenti estensivi dimostrano che il nostro metodo supera i metodi esistenti, producendo SVG visivamente fedeli, semanticamente allineati e sintatticamente puliti in un'ampia gamma di applicazioni.