Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo la Drivelologia, un fenomeno linguistico unico caratterizzato come "nonsense con profondità", ovvero espressioni che sono sintatticamente coerenti ma pragmaticamente paradossali, emotivamente cariche o retoricamente sovversive. Sebbene tali espressioni possano assomigliare a un nonsense superficiale, codificano significati impliciti che richiedono inferenza contestuale, ragionamento morale o interpretazione emotiva. Scopriamo che gli attuali modelli linguistici di grandi dimensioni (LLM), nonostante eccellano in molti compiti di elaborazione del linguaggio naturale (NLP), falliscono costantemente nel cogliere la semantica stratificata del testo Drivelologico. Per indagare questo aspetto, abbiamo costruito un piccolo ma diversificato dataset di riferimento composto da oltre 1.200 esempi accuratamente curati, con istanze selezionate in inglese, mandarino, spagnolo, francese, giapponese e coreano. L'annotazione è stata particolarmente impegnativa: ciascuno degli esempi ha richiesto un'attenta revisione da parte di esperti per verificare che riflettesse veramente le caratteristiche della Drivelologia. Il processo ha coinvolto più round di discussione e arbitraggio per risolvere i disaccordi, evidenziando la natura sottile e soggettiva della Drivelologia. Valutiamo una gamma di LLM su compiti di classificazione, generazione e ragionamento. I nostri risultati rivelano chiare limitazioni degli LLM: i modelli spesso confondono la Drivelologia con un nonsense superficiale, producono giustificazioni incoerenti o perdono del tutto la funzione retorica implicita. Questi risultati evidenziano un divario rappresentativo più profondo nella comprensione pragmatica degli LLM e mettono in discussione l'assunzione che la fluidità statistica implichi la comprensione cognitiva. Rilasciamo il nostro dataset e il codice per facilitare ulteriori ricerche sulla modellazione della profondità linguistica oltre la coerenza superficiale.
Sfruttare i prior visivi provenienti da modelli generativi pre-addestrati testo-immagine (T2I) ha dimostrato successo nella predizione densa. Tuttavia, la predizione densa è intrinsecamente un compito immagine-immagine, suggerendo che i modelli di editing di immagini, piuttosto che i modelli generativi T2I, possano rappresentare una base più adatta per il fine-tuning. Spinti da questa considerazione, conduciamo un'analisi sistematica del comportamento di fine-tuning sia degli editor che dei generatori per la stima della geometria densa. I nostri risultati mostrano che i modelli di editing possiedono prior strutturali intrinseci, che consentono loro di convergere in modo più stabile "affinando" le loro caratteristiche innate, raggiungendo infine prestazioni superiori rispetto alle loro controparti generative. Sulla base di queste scoperte, introduciamo FE2E, un framework che adatta in modo pionieristico un avanzato modello di editing basato sull'architettura Diffusion Transformer (DiT) per la predizione della geometria densa. Nello specifico, per adattare l'editor a questo compito deterministico, riformuliamo la funzione di perdita originale di flow matching dell'editor nell'obiettivo di addestramento "velocità consistente". Utilizziamo inoltre la quantizzazione logaritmica per risolvere il conflitto di precisione tra il formato nativo BFloat16 dell'editor e l'elevata richiesta di precisione dei nostri compiti. Inoltre, sfruttiamo l'attenzione globale del DiT per una stima congiunta gratuita di profondità e normali in un singolo passaggio in avanti, consentendo ai loro segnali di supervisione di rafforzarsi reciprocamente. Senza aumentare i dati di addestramento, FE2E ottiene miglioramenti impressionanti nelle prestazioni di stima zero-shot della profondità monoculare e delle normali su più dataset. In particolare, raggiunge un guadagno di prestazioni superiore al 35% sul dataset ETH3D e supera la serie DepthAnything, addestrata su 100 volte più dati. La pagina del progetto è accessibile {qui} https://amap-ml.github.io/FE2E/.
Esistono due principali fonti di dati di addestramento per il post-training dei moderni modelli linguistici: dati online (rollout generati dal modello) e dati offline (dimostrazioni umane o di altri modelli). Questi due tipi di dati sono tipicamente utilizzati da approcci come il Reinforcement Learning (RL) e il Supervised Fine-Tuning (SFT), rispettivamente. In questo articolo, dimostriamo che questi approcci non sono in contraddizione, ma sono istanze di un singolo processo di ottimizzazione. Deriviamo un Unified Policy Gradient Estimator e presentiamo i calcoli di un ampio spettro di approcci di post-training come il gradiente di un obiettivo comune sotto diverse ipotesi di distribuzione dei dati e vari compromessi bias-varianza. Lo stimatore del gradiente è costruito con quattro parti intercambiabili: maschera di stabilizzazione, denominatore della politica di riferimento, stima del vantaggio e gradiente della verosimiglianza. Motivati dai nostri risultati teorici, proponiamo l'Hybrid Post-Training (HPT), un algoritmo che seleziona dinamicamente diversi segnali di addestramento. L'HPT è progettato per ottenere sia un'efficace sfruttamento delle dimostrazioni che un'esplorazione stabile senza sacrificare i modelli di ragionamento appresi. Forniamo ampi esperimenti e studi di ablazione per verificare l'efficacia del nostro quadro teorico unificato e dell'HPT. Attraverso sei benchmark di ragionamento matematico e due suite out-of-distribution, l'HPT supera costantemente forti baseline su modelli di varie scale e famiglie.
I modelli linguistici di grandi dimensioni (LLM) ottengono prestazioni elevate su un'ampia gamma di compiti, ma spesso manifestano inerzia cognitiva, trovando difficoltà nel seguire istruzioni che confliggono con gli schemi standardizzati appresi durante l'addestramento supervisionato (SFT). Per valutare questa limitazione, proponiamo Inverse IFEval, un benchmark che misura la capacità controintuitiva dei modelli—la loro abilità di sovrascrivere i bias indotti dall'addestramento e conformarsi a istruzioni avversariali. Inverse IFEval introduce otto tipi di sfide, tra cui Correzione delle Domande, Errori Testuali Intenzionali, Codice senza Commenti e Risposte Controfattuali. Utilizzando una pipeline con un umano nel ciclo, abbiamo costruito un dataset di 1012 domande di alta qualità in cinese e inglese, distribuite su 23 domini, valutate attraverso un framework ottimizzato LLM-as-a-Judge. Gli esperimenti condotti sui principali LLM esistenti dimostrano la necessità del nostro benchmark Inverse IFEval. I risultati evidenziano che i futuri sforzi di allineamento non dovrebbero perseguire solo la fluidità e la correttezza fattuale, ma anche considerare l'adattabilità in contesti non convenzionali. Auspichiamo che Inverse IFEval serva sia come strumento diagnostico sia come base per sviluppare metodi che mitigano l'inerzia cognitiva, riducono l'overfitting su schemi ristretti e, in ultima analisi, migliorano l'affidabilità dei LLM nel seguire istruzioni in scenari reali diversificati e imprevedibili.
Gli agenti di ricerca avanzata hanno attirato un'attenzione crescente per il loro potenziale di orchestrare flussi di lavoro di ricerca multi-stadio, che spaziano dalla sintesi della letteratura, alla progettazione metodologica, fino alla verifica empirica. Nonostante questi progressi, valutare fedelmente la loro capacità di ricerca è piuttosto impegnativo a causa della difficoltà di raccogliere domande di ricerca all'avanguardia che catturino genuinamente l'attenzione e la curiosità intellettuale dei ricercatori. Per colmare questa lacuna, introduciamo DeepResearch Arena, un benchmark basato su seminari accademici che catturano un ricco discorso e interazione tra esperti, riflettendo meglio gli ambienti di ricerca reali e riducendo il rischio di perdita di dati. Per costruire automaticamente DeepResearch Arena, proponiamo un sistema di Generazione Gerarchica di Compiti Multi-Agente (MAHTG) che estrae ispirazioni degne di ricerca dalle trascrizioni dei seminari. Il sistema MAHTG traduce ulteriormente queste ispirazioni in compiti di ricerca di alta qualità, garantendo la tracciabilità della formulazione dei compiti di ricerca mentre filtra il rumore. Con il sistema MAHTG, abbiamo curato DeepResearch Arena con oltre 10.000 compiti di ricerca di alta qualità provenienti da più di 200 seminari accademici, che coprono 12 discipline, come letteratura, storia e scienza. La nostra valutazione estensiva mostra che DeepResearch Arena presenta sfide sostanziali per gli attuali agenti all'avanguardia, con evidenti differenze di prestazione osservate tra i diversi modelli.
Presentiamo NER Retriever, un framework di recupero zero-shot per il Named Entity Retrieval ad-hoc, una variante del Named Entity Recognition (NER), in cui i tipi di interesse non sono forniti in anticipo e una descrizione del tipo definita dall'utente viene utilizzata per recuperare documenti che menzionano entità di quel tipo. Invece di affidarsi a schemi fissi o modelli fine-tuned, il nostro metodo si basa sulle rappresentazioni interne di grandi modelli linguistici (LLM) per incorporare sia le menzioni di entità che le descrizioni aperte dei tipi fornite dall'utente in uno spazio semantico condiviso. Dimostriamo che le rappresentazioni interne, in particolare i vettori di valore provenienti dai blocchi intermedi dei trasformatori, codificano informazioni sui tipi a grana fine in modo più efficace rispetto agli embedding comunemente utilizzati negli strati superiori. Per affinare queste rappresentazioni, addestriamo una rete di proiezione contrastiva leggera che allinea le entità compatibili con il tipo separando i tipi non correlati. Gli embedding risultanti delle entità sono compatti, consapevoli del tipo e ben adatti per la ricerca del vicino più prossimo. Valutato su tre benchmark, NER Retriever supera significativamente sia le baseline lessicali che quelle dense a livello di frase. I nostri risultati forniscono supporto empirico per la selezione delle rappresentazioni all'interno degli LLM e dimostrano una soluzione pratica per il recupero scalabile di entità senza schema. Il codice di NER Retriever è disponibile pubblicamente all'indirizzo https://github.com/ShacharOr100/ner_retriever.
Un dilemma fondamentale nella modellazione generativa persiste: i modelli di diffusione iterativa raggiungono una fedeltà eccezionale, ma a un costo computazionale significativo, mentre alternative efficienti a pochi passi sono limitate da un tetto rigido di qualità. Questo conflitto tra passi di generazione e qualità dell'output deriva da obiettivi di addestramento restrittivi che si concentrano esclusivamente su dinamiche infinitesimali (PF-ODEs) o sulla previsione diretta del punto finale. Affrontiamo questa sfida introducendo un'equazione esatta della dinamica in tempo continuo che definisce analiticamente le transizioni di stato su qualsiasi intervallo di tempo finito. Ciò porta a un nuovo paradigma generativo, i Modelli di Transizione (TiM), che si adattano a transizioni con un numero arbitrario di passi, attraversando senza soluzione di continuità la traiettoria generativa da salti singoli a raffinamenti granulari con più passi. Nonostante abbia solo 865 milioni di parametri, TiM raggiunge prestazioni all'avanguardia, superando modelli leader come SD3.5 (8 miliardi di parametri) e FLUX.1 (12 miliardi di parametri) in tutte le valutazioni del numero di passi. È importante sottolineare che, a differenza dei precedenti generatori a pochi passi, TiM dimostra un miglioramento monotono della qualità all'aumentare del budget di campionamento. Inoltre, quando si utilizza la nostra strategia a risoluzione nativa, TiM offre una fedeltà eccezionale a risoluzioni fino a 4096x4096.
I recenti progressi nei Large Language Models (LLM) hanno dimostrato che le loro capacità di ragionamento possono essere significativamente migliorate attraverso il Reinforcement Learning con Ricompensa Verificabile (RLVR), in particolare in domini come la matematica e la programmazione, dove la correttezza rispetto alla verità di base può essere valutata automaticamente. Tuttavia, estendere questo successo ad altri domini ad alta intensità di ragionamento rimane una sfida a causa della scarsità di dataset di alta qualità e verificabili e dell'elevato costo della supervisione umana. In questo lavoro, presentiamo il Progetto Loong: un framework open-source per la generazione e verifica scalabile di dati sintetici in un'ampia gamma di domini ad alta intensità di ragionamento. Il framework è composto da due componenti chiave: (1) LoongBench, un dataset seed curato contenente 8.729 esempi verificati da esseri umani in 12 domini (ad esempio, Matematica Avanzata, Chimica, Logica), ciascuno associato a codice eseguibile e metadati ricchi; e (2) LoongEnv, un ambiente modulare per la generazione di dati sintetici che supporta molteplici strategie di prompting per produrre nuove triple domanda-risposta-codice. Insieme, questi componenti formano un ciclo agente-ambiente che abilita il reinforcement learning, in cui un agente basato su LLM viene premiato per generare soluzioni Chain-of-Thought (CoT) che si allineano con le risposte eseguite dal codice. Empiricamente, valutiamo LoongBench su un'ampia suite di LLM sia open-source che proprietari per valutare la copertura dei domini e rivelare i colli di bottiglia delle prestazioni. Inoltre, conduciamo un'analisi completa dei dati sintetici generati da LoongEnv, esaminando correttezza, difficoltà e diversità. Il codice e la documentazione sono disponibili all'indirizzo https://github.com/camel-ai/loong.
La comprensione di video di lunga durata, caratterizzata da dipendenze temporali a lungo raggio e da eventi multipli, rimane una sfida. I metodi esistenti spesso si basano su ragionamenti statici o su modelli visivo-linguistici (VLMs) esterni, che affrontano problemi come la complessità e prestazioni sub-ottimali a causa della mancanza di un addestramento end-to-end. In questo articolo, proponiamo Video-MTR, un framework di ragionamento multi-turn rinforzato progettato per abilitare la selezione iterativa di segmenti video chiave e la comprensione delle domande. A differenza della tradizionale pipeline di ragionamento video, che genera previsioni in un singolo turno, Video-MTR esegue il ragionamento in più turni, selezionando progressivamente i segmenti video in base alla comprensione evoluta dei segmenti precedentemente elaborati e della domanda corrente. Questo processo iterativo consente un'analisi più raffinata e contestualmente consapevole del video. Per garantire un processo di ragionamento intermedio, introduciamo un nuovo sistema di ricompensa bi-livello a gate, che combina ricompense a livello di traiettoria basate sulla correttezza delle risposte e ricompense a livello di turno che enfatizzano la rilevanza frame-query. Questo sistema ottimizza sia la selezione dei segmenti video che la comprensione delle domande, eliminando la necessità di VLMs esterni e consentendo un addestramento end-to-end. Esperimenti estesi su benchmark come VideoMME, MLVU ed EgoSchema dimostrano che Video-MTR supera i metodi esistenti sia in accuratezza che in efficienza, avanzando lo stato dell'arte nella comprensione di video di lunga durata.
I modelli di generazione 3D basati su flussi richiedono tipicamente dozzine di passaggi di campionamento durante l'inferenza. Sebbene i metodi di distillazione a pochi passaggi, in particolare i Modelli di Consistenza (CMs), abbiano ottenuto progressi significativi nell'accelerazione dei modelli di diffusione 2D, rimangono poco esplorati per le più complesse attività di generazione 3D. In questo studio, proponiamo un nuovo framework, MDT-dist, per la distillazione di flussi 3D a pochi passaggi. Il nostro approccio si basa su un obiettivo principale: distillare il modello pre-addestrato per apprendere il Trasporto Marginali-Dati. Apprendere direttamente questo obiettivo richiede l'integrazione dei campi di velocità, ma questo integrale è intrattabile da implementare. Pertanto, proponiamo due obiettivi ottimizzabili, Abbinamento della Velocità (VM) e Distillazione della Velocità (VD), per convertire equivalentemente il target di ottimizzazione dal livello di trasporto rispettivamente alla velocità e al livello di distribuzione. L'Abbinamento della Velocità (VM) apprende a stabilmente abbinare i campi di velocità tra lo studente e il docente, ma fornisce inevitabilmente stime di gradiente distorte. La Distillazione della Velocità (VD) migliora ulteriormente il processo di ottimizzazione sfruttando i campi di velocità appresi per eseguire la distillazione della densità di probabilità. Quando valutato sul pionieristico framework di generazione 3D TRELLIS, il nostro metodo riduce i passaggi di campionamento di ogni trasformatore di flusso da 25 a 1 o 2, raggiungendo una latenza di 0.68s (1 passaggio x 2) e 0.94s (2 passaggi x 2) con un'accelerazione di 9.0x e 6.5x su A800, preservando al contempo un'elevata fedeltà visiva e geometrica. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente i metodi di distillazione CM esistenti e consente a TRELLIS di ottenere prestazioni superiori nella generazione 3D a pochi passaggi.
Presentiamo Durian, il primo metodo per generare video di animazione ritrattistica con trasferimento di attributi facciali da un'immagine di riferimento a un ritratto target in modalità zero-shot. Per abilitare un trasferimento di attributi ad alta fedeltà e spazialmente coerente tra i fotogrammi, introduciamo reti di riferimento duali che iniettano caratteristiche spaziali sia dall'immagine del ritratto che da quella degli attributi nel processo di denoising di un modello di diffusione. Addestriamo il modello utilizzando una formulazione di auto-ricostruzione, in cui due fotogrammi vengono campionati dallo stesso video ritrattistico: uno viene trattato come riferimento per gli attributi e l'altro come ritratto target, mentre i fotogrammi rimanenti vengono ricostruiti condizionati su questi input e sulle relative maschere. Per supportare il trasferimento di attributi con estensione spaziale variabile, proponiamo una strategia di espansione delle maschere utilizzando la generazione di immagini condizionata da punti chiave per l'addestramento. Inoltre, aumentiamo ulteriormente le immagini degli attributi e del ritratto con trasformazioni a livello spaziale e di aspetto per migliorare la robustezza al disallineamento posizionale tra di esse. Queste strategie consentono al modello di generalizzare efficacemente su attributi diversi e combinazioni di riferimento in contesti reali, nonostante sia stato addestrato senza una supervisione esplicita a triplette. Durian raggiunge prestazioni all'avanguardia nell'animazione ritrattistica con trasferimento di attributi e, in particolare, il suo design a riferimento duale consente la composizione di multi-attributi in un'unica passata di generazione senza ulteriore addestramento.
La modellazione generativa assistita da computer (CAD) sta guidando significative innovazioni in ambito industriale. Recenti lavori hanno mostrato progressi notevoli nella creazione di modelli solidi a partire da vari input come nuvole di punti, mesh e descrizioni testuali. Tuttavia, questi metodi divergono fondamentalmente dai flussi di lavoro industriali tradizionali che iniziano con disegni ingegneristici 2D. La generazione automatica di modelli CAD parametrici a partire da questi disegni vettoriali 2D rimane poco esplorata nonostante rappresenti un passaggio cruciale nel design ingegneristico. Per colmare questa lacuna, la nostra intuizione chiave è riformulare la generazione CAD come un problema di apprendimento sequenza-a-sequenza, in cui le primitive dei disegni vettoriali informano direttamente la generazione di operazioni CAD parametriche, preservando la precisione geometrica e l'intento progettuale durante tutto il processo di trasformazione. Proponiamo Drawing2CAD, un framework con tre componenti tecniche chiave: una rappresentazione delle primitive vettoriali compatibile con le reti neurali che preserva le informazioni geometriche precise, un'architettura transformer a doppio decodificatore che disaccoppia la generazione del tipo di comando e dei parametri mantenendo una corrispondenza precisa, e una funzione di perdita con distribuzione di target soft che si adatta alla flessibilità intrinseca dei parametri CAD. Per addestrare e valutare Drawing2CAD, abbiamo creato CAD-VGDrawing, un dataset di disegni ingegneristici e modelli CAD parametrici accoppiati, e condotto esperimenti approfonditi per dimostrare l'efficacia del nostro metodo. Codice e dataset sono disponibili all'indirizzo https://github.com/lllssc/Drawing2CAD.
Il successo dei potenti modelli linguistici su larga scala (LLM) open source ha permesso alla comunità di creare una vasta raccolta di modelli post-addestrati adattati a compiti e domini specifici. Tuttavia, navigare e comprendere questi modelli rimane una sfida a causa di metadati incoerenti e repository non strutturati. Introduciamo Delta Activations, un metodo per rappresentare i modelli fine-tunati come embedding vettoriali misurando gli spostamenti nelle loro attivazioni interne rispetto a un modello di base. Questa rappresentazione consente un clustering efficace per dominio e compito, rivelando una struttura nel panorama dei modelli. Delta Activations dimostra inoltre proprietà desiderabili: è robusto in diverse configurazioni di fine-tuning e mostra una proprietà additiva quando i dataset di fine-tuning sono mescolati. Inoltre, dimostriamo che Delta Activations può incorporare compiti tramite fine-tuning con pochi esempi e ne esploriamo ulteriormente l'uso per la selezione e la fusione di modelli. Speriamo che Delta Activations possa facilitare la pratica di riutilizzare modelli pubblicamente disponibili. Il codice è disponibile all'indirizzo https://github.com/OscarXZQ/delta_activations.
I Large Language Model (LLM) possono conformarsi a istruzioni dannose, sollevando serie preoccupazioni in termini di sicurezza nonostante le loro impressionanti capacità. Recenti lavori hanno sfruttato approcci basati sul probing per studiare la separabilità degli input malevoli e benigni nelle rappresentazioni interne degli LLM, e i ricercatori hanno proposto di utilizzare tali metodi di probing per il rilevamento della sicurezza. Noi esaminiamo sistematicamente questo paradigma. Motivati dalle scarse prestazioni fuori distribuzione, ipotizziamo che le sonde apprendano pattern superficiali piuttosto che la dannosità semantica. Attraverso esperimenti controllati, confermiamo questa ipotesi e identifichiamo i pattern specifici appresi: pattern di istruzione e parole chiave. La nostra indagine segue un approccio sistematico, passando dalla dimostrazione di prestazioni comparabili con metodi semplici basati su n-grammi, a esperimenti controllati con dataset semanticamente ripuliti, fino a un'analisi dettagliata delle dipendenze dei pattern. Questi risultati rivelano un falso senso di sicurezza riguardo agli attuali approcci basati sul probing e sottolineano la necessità di ridisegnare sia i modelli che i protocolli di valutazione, per i quali forniamo ulteriori discussioni con l'obiettivo di suggerire ricerche responsabili in questa direzione. Abbiamo reso open-source il progetto all'indirizzo https://github.com/WangCheng0116/Why-Probe-Fails.