HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

18 papers found

AgentFly: Ottimizzazione degli Agenti LLM senza Ottimizzare gli LLM
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Aug 22

ByHuichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang

151

In questo articolo, introduciamo un nuovo paradigma di apprendimento per agenti adattivi basati su Large Language Model (LLM) che elimina la necessità di fine-tuning dei LLM sottostanti. Gli approcci esistenti sono spesso rigidi, basandosi su flussi di riflessione statici e manualmente progettati, o computazionalmente intensivi, richiedendo aggiornamenti dei gradienti dei parametri del modello LLM. Al contrario, il nostro metodo consente un adattamento continuo a basso costo attraverso l'apprendimento per rinforzo online basato sulla memoria. Formalizziamo questo come un Processo Decisionale di Markov Aumentato con Memoria (M-MDP), dotato di una politica neurale di selezione dei casi per guidare le decisioni sulle azioni. Le esperienze passate vengono memorizzate in una memoria episodica, differenziabile o non parametrica. La politica viene continuamente aggiornata in base ai feedback ambientali attraverso un meccanismo di riscrittura della memoria, mentre il miglioramento della politica viene ottenuto attraverso una lettura efficiente della memoria (recupero). Istanziamo il nostro modello di agente nel contesto della ricerca approfondita, denominato AgentFly, che raggiunge il primo posto nella validazione GAIA (87,88% Pass@3) e il 79,40% sul set di test. Ottiene il 66,6% F1 e l'80,4% PM sul dataset DeepResearcher, superando il metodo basato su addestramento più avanzato, mentre la memoria basata sui casi aggiunge dal 4,7% al 9,6% punti assoluti sui task fuori distribuzione. Il nostro approccio offre un percorso scalabile ed efficiente per sviluppare agenti LLM generalisti capaci di apprendimento continuo e in tempo reale senza aggiornamenti dei gradienti, avanzando verso l'acquisizione di competenze aperte e scenari di ricerca approfondita nel campo dell'apprendimento automatico. Il codice è disponibile all'indirizzo https://github.com/Agent-on-the-Fly/AgentFly.

Oltre Pass@1: L'auto-gioco con sintesi variazionale di problemi sostiene RLVR
Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

Aug 19

ByXiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

118

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso recentemente come un paradigma chiave per il post-addestramento di Modelli Linguistici di Grande Scala (LLMs), in particolare per compiti di ragionamento complesso. Tuttavia, è stato dimostrato che l'addestramento RLVR standard migliora le prestazioni Pass@1 a scapito dell'entropia della policy, portando a una riduzione della diversità nella generazione e limitando le prestazioni Pass@k, che tipicamente rappresentano il limite superiore della capacità di ragionamento degli LLMs. In questo articolo, analizziamo sistematicamente la diversità nella generazione della policy dal punto di vista dei problemi di addestramento e scopriamo che l'ampliamento e l'aggiornamento dei problemi di addestramento aiutano a mitigare il collasso dell'entropia durante l'addestramento. Sulla base di queste osservazioni, proponiamo una strategia online di Self-play con Sintesi Variazionale di Problemi (SvS) per l'addestramento RLVR, che utilizza le soluzioni corrette della policy per sintetizzare problemi variazionali garantendo che le risposte di riferimento rimangano identiche a quelle originali. Questa strategia di auto-miglioramento mantiene efficacemente l'entropia della policy durante l'addestramento e migliora sostanzialmente le prestazioni Pass@k rispetto all'RLVR standard, sostenendo miglioramenti prolungati e ottenendo guadagni assoluti del 18,3% e del 22,8% nelle prestazioni Pass@32 sui benchmark di livello competitivo AIME24 e AIME25. Esperimenti su 12 benchmark di ragionamento con dimensioni del modello variabili da 3B a 32B dimostrano costantemente la generalizzabilità e la robustezza di SvS.

AgentScope 1.0: Un Framework Orientato agli Sviluppatori per la Creazione di Applicazioni Agenti
AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

Aug 22

ByDawei Gao, Zitao Li, Yuexiang Xie, Weirui Kuang, Liuyi Yao, Bingchen Qian, Zhijian Ma, Yue Cui, Haohao Luo, Shen Li, Lu Yi, Yi Yu, Shiqi He, Zhiling Luo, Wenmeng Zhou, Zhicheng Zhang, Xuguang He, Ziqian Chen, Weikai Liao, Farruh Isakulovich Kushnazarov, Yaliang Li, Bolin Ding, Jingren Zhou

Guidati dai rapidi progressi dei Modelli Linguistici di Grande Dimensione (LLM), gli agenti sono potenziati per combinare conoscenza intrinseca con l'uso dinamico di strumenti, migliorando notevolmente la loro capacità di affrontare compiti del mondo reale. In linea con questa evoluzione, AgentScope introduce importanti miglioramenti in una nuova versione (1.0), mirando a supportare in modo completo e flessibile le interazioni agente-ambiente basate su strumenti per la costruzione di applicazioni agentiche. Nello specifico, astraiamo i componenti fondamentali essenziali per le applicazioni agentiche e forniamo interfacce unificate e moduli estensibili, consentendo agli sviluppatori di sfruttare facilmente i progressi più recenti, come nuovi modelli e MCP. Inoltre, ancoriamo i comportamenti degli agenti nel paradigma ReAct e offriamo un'infrastruttura avanzata a livello di agente basata su un design asincrono sistematico, che arricchisce sia i modelli di interazione uomo-agente che agente-agente, migliorando al contempo l'efficienza di esecuzione. Su questa base, integriamo diversi agenti predefiniti adattati a specifici scenari pratici. AgentScope include anche un solido supporto ingegneristico per esperienze di sviluppo user-friendly. Forniamo un modulo di valutazione scalabile con un'interfaccia di studio visivo, rendendo lo sviluppo di applicazioni agentiche a lunga traiettoria più gestibile e più facile da tracciare. Inoltre, AgentScope offre un sandbox di runtime per garantire un'esecuzione sicura degli agenti e facilita il rapido deployment in ambienti di produzione. Con questi miglioramenti, AgentScope fornisce una base pratica per la costruzione di applicazioni agentiche scalabili, adattive ed efficaci.

ODYSSEY: Esplorazione e Manipolazione di Quadrupedi in Mondi Aperti per Compiti a Lungo Orizzonte
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Aug 11

ByKaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen

La manipolazione mobile guidata dal linguaggio su orizzonti temporali lunghi è da tempo una grande sfida nel ragionamento semantico incarnato, nella manipolazione generalizzabile e nella locomozione adattiva. Tre limitazioni fondamentali ostacolano il progresso: in primo luogo, sebbene i grandi modelli linguistici abbiano migliorato il ragionamento spaziale e la pianificazione dei compiti attraverso priorità semantiche, le implementazioni esistenti rimangono confinate a scenari da tavolo, non riuscendo a affrontare la percezione limitata e i range di azionamento ristretti delle piattaforme mobili. In secondo luogo, le attuali strategie di manipolazione mostrano una generalizzazione insufficiente quando si confrontano con le diverse configurazioni di oggetti incontrate negli ambienti del mondo reale. In terzo luogo, sebbene cruciale per il dispiegamento pratico, il duplice requisito di mantenere un'elevata manovrabilità della piattaforma insieme a un controllo preciso dell'end-effector in ambienti non strutturati rimane poco studiato. In questo lavoro, presentiamo ODYSSEY, un framework unificato per la manipolazione mobile di robot quadrupedi agili equipaggiati con manipolatori, che integra in modo fluido la pianificazione di compiti di alto livello con il controllo di basso livello dell'intero corpo. Per affrontare la sfida della percezione egocentrica nei compiti condizionati dal linguaggio, introduciamo un pianificatore gerarchico alimentato da un modello visione-linguaggio, che consente la scomposizione di istruzioni a lungo termine e l'esecuzione precisa delle azioni. A livello di controllo, la nostra innovativa politica di controllo dell'intero corpo raggiunge una coordinazione robusta su terreni impegnativi. Presentiamo inoltre il primo benchmark per la manipolazione mobile a lungo termine, valutando diversi scenari interni ed esterni. Attraverso un trasferimento riuscito da simulazione a realtà, dimostriamo la generalizzazione e la robustezza del sistema nei dispiegamenti nel mondo reale, sottolineando la praticità dei manipolatori su zampe in ambienti non strutturati. Il nostro lavoro avanza la fattibilità di assistenti robotici generalizzati capaci di compiti complessi e dinamici. La nostra pagina del progetto: https://kaijwang.github.io/odyssey.github.io/

EgoTwin: Sognare il corpo e la visuale in prima persona
EgoTwin: Dreaming Body and View in First Person

Aug 18

ByJingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu

Mentre la sintesi video esocentrica ha compiuto notevoli progressi, la generazione di video egocentrici rimane in gran parte inesplorata, richiedendo la modellazione di contenuti in prima persona insieme ai modelli di movimento della camera indotti dai movimenti corporei dell'utilizzatore. Per colmare questa lacuna, introduciamo un nuovo compito di generazione congiunta di video egocentrici e movimento umano, caratterizzato da due sfide principali: 1) Allineamento del Punto di Vista: la traiettoria della camera nel video generato deve allinearsi accuratamente con la traiettoria della testa derivata dal movimento umano; 2) Interazione Causale: il movimento umano sintetizzato deve allinearsi causalmente con le dinamiche visive osservate tra i fotogrammi video adiacenti. Per affrontare queste sfide, proponiamo EgoTwin, un framework di generazione congiunta video-movimento basato sull'architettura del trasformatore a diffusione. Nello specifico, EgoTwin introduce una rappresentazione del movimento centrata sulla testa che ancorra il movimento umano all'articolazione della testa e incorpora un meccanismo di interazione ispirato alla cibernetica che cattura esplicitamente l'interazione causale tra video e movimento all'interno delle operazioni di attenzione. Per una valutazione completa, curiamo un ampio dataset del mondo reale di triplette sincronizzate testo-video-movimento e progettiamo nuove metriche per valutare la coerenza video-movimento. Esperimenti estensivi dimostrano l'efficacia del framework EgoTwin.

CRISP: Disapprendimento Persistente di Concetti tramite Autoencoder Sparse
CRISP: Persistent Concept Unlearning via Sparse Autoencoders

Aug 19

ByTomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov

Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in applicazioni reali, la necessità di rimuovere selettivamente conoscenze indesiderate preservando l'utilità del modello è diventata fondamentale. Recenti lavori hanno esplorato l'uso di autoencoder sparsi (SAE) per eseguire interventi precisi su feature monosematiche. Tuttavia, la maggior parte dei metodi basati su SAE opera al momento dell'inferenza, il che non crea cambiamenti persistenti nei parametri del modello. Tali interventi possono essere aggirati o invertiti da attori malevoli con accesso ai parametri. Introduciamo CRISP, un metodo efficiente in termini di parametri per la rimozione persistente di concetti utilizzando SAE. CRISP identifica automaticamente le feature salienti degli SAE su più livelli e ne sopprime le attivazioni. Sperimentiamo con due LLM e dimostriamo che il nostro metodo supera approcci precedenti in compiti critici di rimozione di conoscenze dal benchmark WMDP, rimuovendo con successo conoscenze dannose preservando al contempo capacità generali e specifiche del dominio. L'analisi a livello di feature rivela che CRISP ottiene una separazione semanticamente coerente tra concetti target e benigni, consentendo una soppressione precisa delle feature target.

AetherCode: Valutazione della Capacità dei Modelli Linguistici di Vincere nelle Principali Competizioni di Programmazione
AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

Aug 22

ByZihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding

La programmazione competitiva è emersa come un punto di riferimento cruciale per valutare le capacità di ragionamento e codifica dei Large Language Model (LLM). Nonostante i progressi impressionanti sui benchmark esistenti, sosteniamo che le valutazioni attuali sopravvalutino la competenza dei modelli, nascondendo un divario sostanziale tra gli LLM e i programmatori umani d'élite. Questo divario deriva da due limitazioni chiave: l'insufficiente difficoltà e portata dei problemi proposti nei benchmark, e il bias di valutazione dovuto a casi di test di bassa qualità. Per affrontare queste carenze, presentiamo AetherCode, un nuovo benchmark che attinge problemi da competizioni di programmazione di alto livello come l'IOI e l'ICPC, offrendo una copertura più ampia e una difficoltà maggiore. AetherCode incorpora inoltre suite di test complete e validate da esperti, costruite attraverso un approccio ibrido di generazione automatica e curatela umana, garantendo una valutazione rigorosa e affidabile. Combinando una progettazione di problemi impegnativa con una valutazione robusta, AetherCode fornisce una misura più fedele delle capacità degli LLM e stabilisce un nuovo standard per la ricerca futura nel ragionamento sul codice.

Addestramento End-to-End di Sistemi RAG Agenti per il Ragionamento Diagnostico Tracciabile
End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

Aug 21

ByQiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

Una diagnosi accurata con i modelli linguistici di grandi dimensioni in ambito medico è ostacolata da lacune conoscitive e allucinazioni. I metodi di recupero e di potenziamento con strumenti esterni aiutano, ma il loro impatto è limitato da un uso debole della conoscenza esterna e da una scarsa tracciabilità del ragionamento basato sul feedback. Per affrontare queste sfide, introduciamo Deep-DxSearch, un sistema RAG agentico addestrato end-to-end con apprendimento per rinforzo (RL) che abilita un ragionamento potenziato dal recupero tracciabile per la diagnosi medica. In Deep-DxSearch, costruiamo prima un corpus di recupero medico su larga scala che comprende cartelle cliniche e fonti di conoscenza medica affidabili per supportare il ragionamento consapevole del recupero in vari scenari diagnostici. Ancora più crucialmente, incorniciamo il LLM come agente centrale e il corpus di recupero come suo ambiente, utilizzando ricompense personalizzate su formato, recupero, struttura del ragionamento e accuratezza diagnostica, evolvendo così la politica RAG agentica da dati su larga scala attraverso l'RL. Gli esperimenti dimostrano che il nostro framework di addestramento agentico RL end-to-end supera costantemente gli approcci RAG basati su prompt engineering e privi di addestramento in più centri dati. Dopo l'addestramento, Deep-DxSearch ottiene miglioramenti sostanziali nell'accuratezza diagnostica, superando baseline diagnostici robusti come GPT-4o, DeepSeek-R1 e altri framework specifici per la medicina sia per la diagnosi di malattie comuni che rare, in contesti di distribuzione interna ed esterna. Inoltre, studi di ablazione sul design delle ricompense e sui componenti del corpus di recupero confermano il loro ruolo critico, sottolineando l'unicità e l'efficacia del nostro approccio rispetto alle implementazioni tradizionali. Infine, studi di caso e analisi di interpretabilità evidenziano miglioramenti nella politica diagnostica di Deep-DxSearch, fornendo una comprensione più profonda dei suoi guadagni di prestazioni e supportando i clinici nel fornire diagnosi preliminari più affidabili e precise. Vedi https://github.com/MAGIC-AI4Med/Deep-DxSearch.

Apprendimento Contrastivo Selettivo per il Grounding di Affordance con Supervisione Debole
Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Aug 11

ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo

Facilitare l'interazione di un'entità con gli oggetti richiede l'identificazione accurata delle parti che consentono azioni specifiche. Il grounding degli affordance con supervisione debole (WSAG) mira a imitare l'apprendimento umano da dimostrazioni in terza persona, in cui gli esseri umani colgono intuitivamente le parti funzionali senza necessitare di annotazioni a livello di pixel. Per raggiungere questo obiettivo, il grounding viene tipicamente appreso utilizzando un classificatore condiviso tra immagini provenienti da diverse prospettive, insieme a strategie di distillazione che incorporano il processo di scoperta delle parti. Tuttavia, poiché le parti rilevanti per l'affordance non sono sempre facilmente distinguibili, i modelli si basano principalmente sulla classificazione, spesso concentrandosi su pattern specifici della classe che non sono correlati all'affordance. Per affrontare questa limitazione, andiamo oltre l'apprendimento isolato a livello di parte introducendo obiettivi prototipici selettivi e contrastivi a livello di pixel che apprendono in modo adattivo i segnali rilevanti per l'affordance sia a livello di parte che di oggetto, a seconda della granularità delle informazioni disponibili. Inizialmente, individuiamo gli oggetti associati all'azione sia nelle immagini egocentriche (centrate sull'oggetto) che in quelle eccentriche (esempi in terza persona) sfruttando CLIP. Quindi, incrociando gli oggetti scoperti nelle viste complementari, estraiamo i precisi indizi di affordance a livello di parte in ciascuna prospettiva. Apprendendo in modo coerente a distinguere le regioni rilevanti per l'affordance dal contesto di sfondo irrilevante, il nostro approccio sposta efficacemente l'attivazione dalle aree irrilevanti verso i segnali significativi di affordance. I risultati sperimentali dimostrano l'efficacia del nostro metodo. I codici sono disponibili su github.com/hynnsk/SelectiveCL.

Fare cosa? Insegnare ai modelli visione-linguaggio-azione a rifiutare l'impossibile
Do What? Teaching Vision-Language-Action Models to Reject the Impossible

Aug 22

ByWen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan

Recentemente, i modelli Vision-Language-Action (VLA) hanno dimostrato prestazioni elevate in una gamma di compiti robotici. Questi modelli si basano su input multimodali, con le istruzioni linguistiche che svolgono un ruolo cruciale — non solo nella previsione delle azioni, ma anche nell'interpretazione robusta dell'intento dell'utente, anche quando le richieste sono impossibili da soddisfare. In questo lavoro, indaghiamo come i VLA possano riconoscere, interpretare e rispondere a istruzioni con premesse false: comandi in linguaggio naturale che fanno riferimento a oggetti o condizioni assenti nell'ambiente. Proponiamo Instruct-Verify-and-Act (IVA), un framework unificato che (i) rileva quando un'istruzione non può essere eseguita a causa di una premessa falsa, (ii) si impegna in chiarimenti o correzioni basati sul linguaggio e (iii) radica alternative plausibili nella percezione e nell'azione. A tal fine, costruiamo un'impostazione su larga scala per il tuning delle istruzioni con prompt linguistici strutturati e addestriamo un modello VLA in grado di gestire sia richieste accurate che errate. Il nostro approccio sfrutta un dataset semi-sintetico arricchito contestualmente contenente istruzioni positive e con premesse false accoppiate, consentendo un rilevamento robusto e una correzione in linguaggio naturale. I nostri esperimenti mostrano che IVA migliora l'accuratezza del rilevamento delle premesse false del 97,56% rispetto ai baseline, aumentando del 50,78% le risposte riuscite negli scenari con premesse false.

Distilled-3DGS: Distillazione di Splatting Gaussiano 3D
Distilled-3DGS:Distilled 3D Gaussian Splatting

Aug 19

ByLintao Xiang, Xinkai Chen, Jianhuang Lai, Guangcong Wang

Il 3D Gaussian Splatting (3DGS) ha dimostrato un'efficacia notevole nella sintesi di nuove viste (NVS). Tuttavia, presenta un significativo svantaggio: il raggiungimento di rendering ad alta fedeltà richiede tipicamente un numero elevato di Gaussiane 3D, con conseguente consumo di memoria e requisiti di archiviazione sostanziali. Per affrontare questa sfida, proponiamo il primo framework di distillazione della conoscenza per il 3DGS, che include vari modelli insegnanti, tra cui il 3DGS standard, varianti con rumore aggiunto e versioni regolarizzate con dropout. Gli output di questi insegnanti vengono aggregati per guidare l'ottimizzazione di un modello studente leggero. Per distillare la struttura geometrica nascosta, proponiamo una funzione di perdita basata sulla similarità strutturale per migliorare la coerenza delle distribuzioni geometriche spaziali tra il modello studente e quello insegnante. Attraverso valutazioni quantitative e qualitative approfondite su diversi dataset, il nostro Distilled-3DGS, un framework semplice ma efficace privo di elementi superflui, ottiene risultati di rendering promettenti sia in termini di qualità che di efficienza di archiviazione rispetto ai metodi all'avanguardia. Pagina del progetto: https://distilled3dgs.github.io. Codice: https://github.com/lt-xiang/Distilled-3DGS.

TPLA: Attenzione Latente con Parallelismo Tensoriale per un'Inferenza Efficiente di Prefill e Decodifica Disaggregata
TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill \& Decode Inference

Aug 21

ByXiaojuan Tang, Fanxu Meng, Pingzhi Tang, Yuxuan Wang, Di Yin, Xing Sun, Muhan Zhang

Multi-Head Latent Attention (MLA), introdotta in DeepSeek-V2, comprime gli stati chiave-valore in un vettore latente a basso rango, memorizzando solo questo vettore per ridurre l'uso di memoria. Tuttavia, nel parallelismo tensoriale (TP), le teste di attenzione vengono calcolate su più dispositivi, e ciascun dispositivo deve caricare l'intera cache, riducendo il vantaggio di MLA rispetto a Grouped Query Attention (GQA). Proponiamo Tensor-Parallel Latent Attention (TPLA): uno schema che partiziona sia la rappresentazione latente che la dimensione di input di ciascuna testa tra i dispositivi, esegue l'attenzione in modo indipendente per ciascuna partizione e poi combina i risultati con un'operazione all-reduce. TPLA preserva i benefici di una cache KV compressa sbloccando l'efficienza del TP. A differenza di Grouped Latent Attention (GLA), ogni testa in TPLA continua a sfruttare l'intera rappresentazione latente, mantenendo una capacità rappresentativa più forte. TPLA è compatibile con modelli pre-addestrati utilizzando MLA: supporta il prefilling in stile MLA e abilita il decoding efficiente in parallelo tensoriale senza bisogno di riaddestramento. Applicando semplici trasformazioni ortogonali -- ad esempio, la trasformata di Hadamard o PCA -- prima del partizionamento TP si mitiga ulteriormente l'interferenza tra partizioni, ottenendo un degrado minimo dell'accuratezza. Riducendo la cache KV per dispositivo in DeepSeek-V3 e Kimi-K2, otteniamo rispettivamente accelerazioni di 1.79x e 1.93x, con una lunghezza di contesto di 32K token, mantenendo le prestazioni sui benchmark di commonsense e LongBench. TPLA può essere implementata con FlashAttention-3, consentendo un'accelerazione pratica end-to-end.

Sketch3DVE: Modifica di video di scene 3D basata su schizzi
Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

Aug 19

ByFeng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao

I recenti metodi di editing video ottengono risultati attraenti nel trasferimento di stile o nella modifica dell'aspetto. Tuttavia, modificare il contenuto strutturale di scene 3D nei video rimane una sfida, specialmente quando si affrontano cambiamenti significativi del punto di vista, come grandi rotazioni della telecamera o zoom. Le principali difficoltà includono la generazione di contenuti per nuove visualizzazioni che rimangano coerenti con il video originale, la preservazione delle regioni non modificate e la traduzione di input 2D sparsi in output video 3D realistici. Per affrontare questi problemi, proponiamo Sketch3DVE, un metodo di editing video basato su schizzi e consapevole della 3D, che consente una manipolazione locale dettagliata di video con significativi cambiamenti del punto di vista. Per risolvere la sfida posta dagli input sparsi, utilizziamo metodi di editing delle immagini per generare risultati modificati per il primo fotogramma, che vengono poi propagati ai fotogrammi rimanenti del video. Utilizziamo lo schizzo come strumento di interazione per un controllo preciso della geometria, mentre sono supportati anche altri metodi di editing delle immagini basati su maschere. Per gestire i cambiamenti del punto di vista, eseguiamo un'analisi dettagliata e una manipolazione delle informazioni 3D nel video. Nello specifico, utilizziamo un metodo stereo denso per stimare una nuvola di punti e i parametri della telecamera del video di input. Proponiamo quindi un approccio di editing della nuvola di punti che utilizza mappe di profondità per rappresentare la geometria 3D dei componenti appena modificati, allineandoli efficacemente con la scena 3D originale. Per fondere in modo fluido il contenuto appena modificato con il video originale preservando le caratteristiche delle regioni non modificate, introduciamo una strategia di propagazione delle maschere consapevole della 3D e utilizziamo un modello di diffusione video per produrre video modificati realistici. Esperimenti estensivi dimostrano la superiorità di Sketch3DVE nell'editing video. Homepage e codice: http://geometrylearning.com/Sketch3DVE/

InMind: Valutazione delle LLM nella cattura e applicazione degli stili di ragionamento individuali umani
InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

Aug 22

ByZizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang

I LLM hanno dimostrato prestazioni solide nei compiti di ragionamento incentrati sull'uomo. Mentre le valutazioni precedenti hanno esplorato se i LLM possano dedurre intenzioni o rilevare inganni, spesso trascurano gli stili di ragionamento individualizzati che influenzano come le persone interpretano e agiscono in contesti sociali. I giochi di deduzione sociale (SDG) offrono un terreno di prova naturale per valutare gli stili di ragionamento individualizzati, dove diversi giocatori possono adottare strategie di ragionamento diverse ma contestualmente valide in condizioni identiche. Per affrontare questo problema, introduciamo InMind, un framework di valutazione cognitivamente fondato progettato per valutare se i LLM possono catturare e applicare stili di ragionamento personalizzati negli SDG. InMind arricchisce i dati strutturati di gioco con tracce strategiche a livello di turno e riflessioni post-partita, raccolti sia in modalità Osservatore che Partecipante. Supporta quattro compiti motivati cognitivamente che valutano congiuntamente sia l'allineamento statico che l'adattamento dinamico. Come caso di studio, applichiamo InMind al gioco Avalon, valutando 11 LLM all'avanguardia. I LLM generici, persino GPT-4o, si affidano frequentemente a indizi lessicali, faticando ad ancorare le riflessioni nel gameplay temporale o ad adattarsi a strategie in evoluzione. Al contrario, LLM potenziati nel ragionamento come DeepSeek-R1 mostrano segni precoci di ragionamento sensibile allo stile. Questi risultati rivelano limitazioni chiave nella capacità dei LLM attuali di ragionamento individualizzato e adattivo, e posizionano InMind come un passo verso l'interazione uomo-IA allineata cognitivamente.

SMPLify Apprendibile: Una Soluzione Neurale per la Cinematica Inversa della Postura Umana Senza Ottimizzazione
Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics

Aug 19

ByYuchen Yang, Linfeng Dong, Wei Wang, Zhihang Zhong, Xiao Sun

Nella stima della posa e della forma umana in 3D, SMPLify rimane un solido punto di riferimento che risolve la cinematica inversa (IK) attraverso un'ottimizzazione iterativa. Tuttavia, il suo elevato costo computazionale ne limita l'utilizzo pratico. Recenti progressi in vari ambiti hanno dimostrato che sostituire l'ottimizzazione iterativa con reti neurali guidate dai dati può portare a significativi miglioramenti nei tempi di esecuzione senza compromettere l'accuratezza. Seguendo questa tendenza, proponiamo Learnable SMPLify, un framework neurale che sostituisce il processo di adattamento iterativo di SMPLify con un modello di regressione a singolo passaggio. Il design del nostro framework affronta due sfide fondamentali nella IK neurale: la costruzione dei dati e la generalizzazione. Per abilitare un addestramento efficace, proponiamo una strategia di campionamento temporale che costruisce coppie di inizializzazione-obiettivo da frame sequenziali. Per migliorare la generalizzazione su movimenti diversi e pose non viste, proponiamo uno schema di normalizzazione centrato sull'umano e l'apprendimento residuo per ridurre lo spazio delle soluzioni. Learnable SMPLify supporta sia l'inferenza sequenziale che il post-processing plug-in per affinare gli stimatori basati su immagini esistenti. Esperimenti estensivi dimostrano che il nostro metodo si afferma come un punto di riferimento pratico e semplice: raggiunge un tempo di esecuzione quasi 200 volte più veloce rispetto a SMPLify, generalizza bene su 3DPW e RICH non visti, e opera in modo agnostico rispetto al modello quando utilizzato come strumento plug-in su LucidAction. Il codice è disponibile all'indirizzo https://github.com/Charrrrrlie/Learnable-SMPLify.

CARFT: Potenziamento del Ragionamento nei LLM attraverso l'Apprendimento Contrastivo con Fine-Tuning Rafforzato basato su Catena di Pensiero Annotata
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

Aug 21

ByWenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang

La capacità di ragionamento svolge un ruolo estremamente critico nelle ampie applicazioni dei Large Language Models (LLM). Per migliorare le prestazioni di ragionamento degli LLM, sono stati proposti diversi approcci di fine-tuning basati sul Reinforcement Learning (RL) per affrontare la limitata capacità di generalizzazione degli LLM addestrati esclusivamente tramite Supervised Fine-Tuning (SFT). Nonostante la loro efficacia, due principali limitazioni ostacolano il progresso degli LLM. In primo luogo, gli approcci RL tradizionali ignorano le annotazioni della Catena di Pensiero (CoT) e incorporano un campionamento instabile del percorso di ragionamento, che tipicamente porta al collasso del modello, a un processo di addestramento instabile e a prestazioni subottimali. In secondo luogo, gli approcci SFT esistenti generalmente enfatizzano eccessivamente le CoT annotate, potenzialmente portando a un degrado delle prestazioni a causa di uno sfruttamento insufficiente delle potenziali CoT. In questo articolo, proponiamo un approccio di Fine-Tuning Rinforzato basato su apprendimento contrastivo con CoT annotate, denominato , per migliorare le prestazioni di ragionamento degli LLM affrontando le limitazioni sopra menzionate. Nello specifico, proponiamo di apprendere una rappresentazione per ogni CoT. Basandoci su questa rappresentazione, progettiamo nuovi segnali contrastivi per guidare il processo di fine-tuning. Il nostro approccio non solo sfrutta appieno le CoT annotate disponibili, ma stabilizza anche la procedura di fine-tuning incorporando un segnale di apprendimento non supervisionato aggiuntivo. Condurremo esperimenti completi e analisi approfondite con tre approcci di base, due modelli fondamentali e due dataset per dimostrare i significativi vantaggi di in termini di robustezza, prestazioni (fino al 10,15%) ed efficienza (fino al 30,62%). Il codice è disponibile all'indirizzo https://github.com/WNQzhu/CARFT.

RotaTouille: Apprendimento Profondo Equivariante alla Rotazione per Contorni
RotaTouille: Rotation Equivariant Deep Learning for Contours

Aug 22

ByOdin Hoff Gardaa, Nello Blaser

I contorni o le curve piane chiuse sono comuni in molti ambiti. Ad esempio, compaiono come bordi di oggetti nella visione artificiale, come isolette in meteorologia e come orbite di macchinari rotanti. In molti casi, quando si apprende da dati di contorno, le rotazioni piane dell'input produrranno output corrispondentemente ruotati. È quindi auspicabile che i modelli di deep learning siano equivarianti rispetto alle rotazioni. Inoltre, i contorni sono tipicamente rappresentati come una sequenza ordinata di punti di bordo, dove la scelta del punto di partenza è arbitraria. È quindi anche desiderabile che i metodi di deep learning siano equivarianti rispetto agli spostamenti ciclici. Presentiamo RotaTouille, un framework di deep learning per l'apprendimento da dati di contorno che raggiunge sia l'equivarianza rispetto alle rotazioni che agli spostamenti ciclici attraverso la convoluzione circolare a valori complessi. Introduciamo inoltre e caratterizziamo non linearità equivarianti, strati di coarsening e strati di pooling globale per ottenere rappresentazioni invarianti per compiti downstream. Infine, dimostriamo l'efficacia di RotaTouille attraverso esperimenti di classificazione di forme, ricostruzione e regressione di contorni.

Violazione dei modelli linguistici commerciali black-box mediante prompt esplicitamente dannosi
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

Aug 14

ByChiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

Valutare gli attacchi di jailbreak è complesso quando i prompt non sono apertamente dannosi o non inducono output nocivi. Purtroppo, molti dataset esistenti per il red-teaming contengono prompt inadeguati di questo tipo. Per valutare gli attacchi in modo accurato, questi dataset devono essere analizzati e ripuliti dalla presenza di contenuti malevoli. Tuttavia, i metodi esistenti per il rilevamento di contenuti dannosi si basano su annotazioni manuali, che richiedono un notevole sforzo, o su modelli linguistici di grandi dimensioni (LLM), che presentano un'accuratezza inconsistente nel rilevare tipi specifici di dannosità. Per bilanciare precisione ed efficienza, proponiamo un framework di valutazione ibrido denominato MDH (Rilevamento di Contenuti Dannosi basato su LLM con Assistenza Umana), che combina annotazioni basate su LLM con un minimo controllo umano, e lo applichiamo alla pulizia dei dataset e al rilevamento di risposte jailbroken. Inoltre, abbiamo osservato che messaggi ben strutturati da parte degli sviluppatori possono aumentare significativamente il successo degli attacchi di jailbreak, portandoci a proporre due nuove strategie: D-Attack, che sfrutta la simulazione del contesto, e DH-CoT, che incorpora catene di pensiero dirottate. I codici, i dataset, le valutazioni e i risultati di rilevamento saranno rilasciati nel repository GitHub: https://github.com/AlienZhang1996/DH-CoT.

ODYSSEY: Esplorazione e Manipolazione di Quadrupedi in Mondi Aperti per Compiti a Lungo Orizzonte
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Aug 11

ByKaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen