Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il ragionamento è al cuore dell'intelligenza, plasmando la capacità di prendere decisioni, trarre conclusioni e generalizzare attraverso diversi domini. Nell'intelligenza artificiale, man mano che i sistemi operano sempre più in ambienti aperti, incerti e multimodali, il ragionamento diventa essenziale per abilitare comportamenti robusti e adattivi. I Large Multimodal Reasoning Models (LMRMs) sono emersi come un paradigma promettente, integrando modalità come testo, immagini, audio e video per supportare capacità di ragionamento complesse e mirando a raggiungere una percezione completa, una comprensione precisa e un ragionamento profondo. Con l'avanzare della ricerca, il ragionamento multimodale si è rapidamente evoluto da pipeline modulari e guidate dalla percezione a framework unificati e centrati sul linguaggio, che offrono una comprensione cross-modale più coerente. Sebbene l'instruction tuning e il reinforcement learning abbiano migliorato il ragionamento dei modelli, rimangono sfide significative nella generalizzazione omni-modale, nella profondità del ragionamento e nel comportamento agentico. Per affrontare queste questioni, presentiamo una rassegna strutturata e completa della ricerca sul ragionamento multimodale, organizzata attorno a una roadmap di sviluppo in quattro fasi che riflette i cambiamenti nelle filosofie di progettazione e le capacità emergenti del campo. In primo luogo, esaminiamo i primi sforzi basati su moduli specifici per task, dove il ragionamento era implicitamente incorporato nelle fasi di rappresentazione, allineamento e fusione. Successivamente, analizziamo approcci recenti che unificano il ragionamento nei multimodal LLMs, con progressi come il Multimodal Chain-of-Thought (MCoT) e il reinforcement learning multimodale che abilitano catene di ragionamento più ricche e strutturate. Infine, basandoci su intuizioni empiriche provenienti da benchmark impegnativi e casi sperimentali come OpenAI O3 e O4-mini, discutiamo la direzione concettuale dei native large multimodal reasoning models (N-LMRMs), che mirano a supportare ragionamento e pianificazione scalabili, agentici e adattivi in ambienti complessi e reali.
Proponiamo Flow-GRPO, il primo metodo che integra l'apprendimento per rinforzo online (RL) nei modelli di flusso di corrispondenza. Il nostro approccio utilizza due strategie chiave: (1) una conversione ODE-to-SDE che trasforma un'Equazione Differenziale Ordinaria (ODE) deterministica in un'Equazione Differenziale Stocastica (SDE) equivalente, che corrisponde alla distribuzione marginale del modello originale in tutti i passaggi temporali, abilitando il campionamento statistico per l'esplorazione RL; e (2) una strategia di Riduzione del Denoising che riduce i passaggi di denoising durante l'addestramento mantenendo invariato il numero di passaggi temporali durante l'inferenza, migliorando significativamente l'efficienza del campionamento senza compromettere le prestazioni. Empiricamente, Flow-GRPO si dimostra efficace in molteplici task di generazione da testo a immagine. Per composizioni complesse, SD3.5 ottimizzato con RL genera conteggi di oggetti, relazioni spaziali e attributi dettagliati quasi perfetti, aumentando l'accuratezza di GenEval dal 63% al 95%. Nel rendering di testo visivo, la sua accuratezza migliora dal 59% al 92%, migliorando significativamente la generazione di testo. Flow-GRPO ottiene anche sostanziali guadagni nell'allineamento alle preferenze umane. È importante notare che si è verificato poco o nessun reward hacking, il che significa che i reward non sono aumentati a scapito della qualità o della diversità delle immagini, e entrambi sono rimasti stabili nei nostri esperimenti.
Presentiamo LegoGPT, il primo approccio per generare modelli di mattoncini LEGO fisicamente stabili a partire da prompt testuali. Per raggiungere questo obiettivo, abbiamo costruito un dataset su larga scala di design LEGO fisicamente stabili, accompagnati dalle relative didascalie, e abbiamo addestrato un modello linguistico autoregressivo di grandi dimensioni a prevedere il prossimo mattoncino da aggiungere tramite la previsione del token successivo. Per migliorare la stabilità dei design risultanti, utilizziamo un controllo di validità efficiente e un rollback consapevole della fisica durante l'inferenza autoregressiva, che elimina le previsioni di token non fattibili utilizzando le leggi della fisica e i vincoli di assemblaggio. I nostri esperimenti dimostrano che LegoGPT produce design LEGO stabili, diversificati e esteticamente piacevoli che si allineano strettamente ai prompt testuali in ingresso. Abbiamo anche sviluppato un metodo di texturing basato su testo per generare design colorati e con texture. Mostriamo che i nostri design possono essere assemblati manualmente da esseri umani e automaticamente da bracci robotici. Rilasciamo inoltre il nostro nuovo dataset, StableText2Lego, contenente oltre 47.000 strutture LEGO di più di 28.000 oggetti 3D unici accompagnati da didascalie dettagliate, insieme al nostro codice e ai modelli sul sito del progetto: https://avalovelace1.github.io/LegoGPT/.
Valutare quanto bene un modello linguistico di grandi dimensioni (LLM) comprenda l'essere umano, piuttosto che semplicemente il testo, rimane una sfida aperta. Per colmare questa lacuna, introduciamo Sentient Agent as a Judge (SAGE), un framework di valutazione automatizzato che misura la cognizione sociale di ordine superiore di un LLM. SAGE istanzia un Agente Sentiente che simula cambiamenti emotivi e pensieri interiori simili a quelli umani durante l'interazione, fornendo una valutazione più realistica del modello testato in conversazioni a più turni. Ad ogni turno, l'agente ragiona su (i) come cambiano le sue emozioni, (ii) come si sente e (iii) come dovrebbe rispondere, producendo una traiettoria emotiva numerica e pensieri interiori interpretabili. Esperimenti su 100 scenari di dialogo di supporto mostrano che il punteggio emotivo finale dell'Agente Sentiente è fortemente correlato con le valutazioni del Barrett-Lennard Relationship Inventory (BLRI) e con le metriche di empatia a livello di enunciato, validando la fedeltà psicologica. Costruiamo inoltre una classifica pubblica Sentient Leaderboard che copre 18 modelli commerciali e open-source, rivelando divari sostanziali (fino a 4 volte) tra i sistemi all'avanguardia (GPT-4o-Latest, Gemini2.5-Pro) e i precedenti baseline, divari non riflessi nelle classifiche convenzionali (ad esempio, Arena). SAGE fornisce quindi uno strumento principiato, scalabile e interpretabile per monitorare i progressi verso agenti linguistici veramente empatici e socialmente abili.
I grandi modelli di ragionamento (LRM) hanno ottenuto progressi significativi su compiti complessi generando catene di pensiero (CoT) estese. Tuttavia, le loro lunghezze di output non controllate pongono sfide importanti per il dispiegamento nel mondo reale, dove i budget di inferenza su token, latenza o calcolo sono rigorosamente vincolati. Proponiamo Elastic Reasoning, un nuovo framework per catene di pensiero scalabili che separa esplicitamente il ragionamento in due fasi—pensiero e soluzione—con budget allocati in modo indipendente. Al momento del test, Elastic Reasoning dà priorità alla completezza dei segmenti di soluzione, migliorando significativamente l'affidabilità sotto vincoli di risorse stringenti. Per addestrare modelli robusti al pensiero troncato, introduciamo una strategia di rollout leggera vincolata al budget, integrata in GRPO, che insegna al modello a ragionare in modo adattivo quando il processo di pensiero viene interrotto e generalizza efficacemente a vincoli di budget non visti senza ulteriore addestramento. I risultati empirici su benchmark matematici (AIME, MATH500) e di programmazione (LiveCodeBench, Codeforces) dimostrano che Elastic Reasoning si comporta in modo robusto sotto vincoli di budget rigorosi, con costi di addestramento significativamente inferiori rispetto ai metodi di base. In modo notevole, il nostro approccio produce anche ragionamenti più concisi ed efficienti anche in contesti non vincolati. Elastic Reasoning offre una soluzione principiata e pratica alla pressante sfida del ragionamento controllabile su larga scala.
La generazione di scene 3D mira a sintetizzare ambienti strutturati spazialmente, semanticamente significativi e fotorealistici per applicazioni come i media immersivi, la robotica, la guida autonoma e l'intelligenza artificiale incarnata. I metodi iniziali basati su regole procedurali offrivano scalabilità ma una diversità limitata. I recenti progressi nei modelli generativi profondi (ad esempio, GAN, modelli di diffusione) e nelle rappresentazioni 3D (ad esempio, NeRF, Gaussiane 3D) hanno permesso l'apprendimento delle distribuzioni di scene del mondo reale, migliorando fedeltà, diversità e coerenza visiva. I recenti progressi come i modelli di diffusione collegano la sintesi di scene 3D e il fotorealismo riformulando la generazione come problemi di sintesi di immagini o video. Questa rassegna fornisce una panoramica sistematica degli approcci all'avanguardia, organizzandoli in quattro paradigmi: generazione procedurale, generazione basata su reti neurali 3D, generazione basata su immagini e generazione basata su video. Analizziamo le loro basi tecniche, i compromessi e i risultati rappresentativi, e rivediamo i dataset comunemente utilizzati, i protocolli di valutazione e le applicazioni a valle. Concludiamo discutendo le principali sfide nella capacità di generazione, nella rappresentazione 3D, nei dati e nelle annotazioni, e nella valutazione, e delineiamo direzioni promettenti tra cui una maggiore fedeltà, generazione consapevole della fisica e interattiva, e modelli unificati di percezione-generazione. Questa rassegna organizza i recenti progressi nella generazione di scene 3D e mette in luce direzioni promettenti all'intersezione tra intelligenza artificiale generativa, visione 3D e intelligenza incarnata. Per monitorare gli sviluppi in corso, manteniamo una pagina di progetto aggiornata: https://github.com/hzxie/Awesome-3D-Scene-Generation.
Il Contrastive Language-Image Pre-training (CLIP) eccelle in compiti multimodali come il recupero immagine-testo e la classificazione zero-shot, ma incontra difficoltà nella comprensione fine-granularità a causa del suo focus su didascalie brevi e grossolane. Per affrontare questo problema, proponiamo Fine-Grained CLIP (FG-CLIP), che migliora la comprensione fine-granularità attraverso tre innovazioni chiave. Innanzitutto, sfruttiamo grandi modelli multimodali per generare 1,6 miliardi di coppie didascalia-immagine lunghe, al fine di catturare dettagli semantici a livello globale. In secondo luogo, viene costruito un dataset di alta qualità con 12 milioni di immagini e 40 milioni di bounding box specifici per regione, allineati con didascalie dettagliate, per garantire rappresentazioni precise e ricche di contesto. Terzo, vengono incorporati 10 milioni di campioni negativi hard fine-granularità per migliorare la capacità del modello di distinguere sottili differenze semantiche. I corrispondenti metodi di addestramento sono stati progettati meticolosamente per questi dati. Esperimenti estensivi dimostrano che FG-CLIP supera il CLIP originale e altri metodi all'avanguardia in vari compiti downstream, tra cui la comprensione fine-granularità, la rilevazione di oggetti a vocabolario aperto, il recupero immagine-testo e benchmark multimodali generali. Questi risultati evidenziano l'efficacia di FG-CLIP nel catturare dettagli fini delle immagini e nel migliorare le prestazioni complessive del modello. I dati, il codice e i modelli correlati sono disponibili all'indirizzo https://github.com/360CVGroup/FG-CLIP.
I recenti modelli proprietari (ad esempio, o3) hanno iniziato a dimostrare forti capacità di ragionamento multimodale. Tuttavia, la maggior parte della ricerca open-source esistente si concentra sull'addestramento di modelli di ragionamento esclusivamente testuali, con valutazioni limitate principalmente a compiti matematici e di dominio generale. Pertanto, rimane poco chiaro come estendere efficacemente le capacità di ragionamento oltre l'input testuale e i domini generali. Questo articolo esplora una questione di ricerca fondamentale: il ragionamento è generalizzabile tra modalità e domini? I nostri risultati supportano una risposta affermativa: il post-training basato su testo di dominio generale può abilitare un ragionamento così fortemente generalizzabile. Sfruttando questa scoperta, introduciamo X-Reasoner, un modello visione-linguaggio post-addestrato esclusivamente su testo di dominio generale per il ragionamento generalizzabile, utilizzando un approccio in due fasi: una prima fase di fine-tuning supervisionato con catene di pensiero lunghe distillate, seguita da apprendimento per rinforzo con ricompense verificabili. Gli esperimenti mostrano che X-Reasoner trasferisce con successo le capacità di ragionamento sia a contesti multimodali che fuori dominio, superando i modelli state-of-the-art esistenti addestrati con dati in dominio e multimodali su vari benchmark generali e medici (Figura 1). Inoltre, scopriamo che le prestazioni di X-Reasoner in domini specializzati possono essere ulteriormente migliorate attraverso un addestramento continuo su dati testuali specifici del dominio. Basandoci su questo, introduciamo X-Reasoner-Med, una variante specializzata in ambito medico che raggiunge nuovi stati dell'arte su numerosi benchmark medici sia testuali che multimodali.
Presentiamo StreamBridge, un framework semplice ma efficace che trasforma in modo fluido i Video-LLM offline in modelli capaci di operare in streaming. Affronta due sfide fondamentali nell'adattare i modelli esistenti a scenari online: (1) la capacità limitata di comprensione in tempo reale su più turni e (2) la mancanza di meccanismi di risposta proattiva. Nello specifico, StreamBridge incorpora (1) un buffer di memoria combinato con una strategia di compressione a decadimento circolare, che supporta interazioni multi-turno a contesto lungo, e (2) un modello di attivazione leggero e disaccoppiato che può essere integrato senza sforzo nei Video-LLM esistenti, abilitando risposte proattive continue. Per supportare ulteriormente StreamBridge, abbiamo costruito Stream-IT, un dataset su larga scala progettato per la comprensione di video in streaming, caratterizzato da sequenze video-testo intercalate e formati di istruzione diversificati. Esperimenti estensivi dimostrano che StreamBridge migliora significativamente le capacità di comprensione in streaming dei Video-LLM offline su vari task, superando persino modelli proprietari come GPT-4o e Gemini 1.5 Pro. Allo stesso tempo, raggiunge prestazioni competitive o superiori sui benchmark standard di comprensione video.
Introduciamo il nuovo compito del Posizionamento di Oggetti Guidato dal Linguaggio in Scene 3D Reali. Il nostro modello riceve una nuvola di punti di una scena 3D, un asset 3D e un prompt testuale che descrive in modo generico dove l'asset 3D dovrebbe essere posizionato. Il compito consiste nel trovare un posizionamento valido per l'asset 3D che rispetti il prompt. Rispetto ad altri compiti di localizzazione guidata dal linguaggio in scene 3D, come il grounding, questo compito presenta sfide specifiche: è ambiguo perché ammette più soluzioni valide e richiede un ragionamento sulle relazioni geometriche 3D e sullo spazio libero. Inauguriamo questo compito proponendo un nuovo benchmark e un protocollo di valutazione. Introduciamo inoltre un nuovo dataset per addestrare modelli LLM 3D su questo compito, nonché il primo metodo che funge da baseline non banale. Crediamo che questo compito impegnativo e il nostro nuovo benchmark possano diventare parte della suite di benchmark utilizzati per valutare e confrontare modelli LLM 3D generalisti.
La selezione dei dati per il fine-tuning delle istruzioni è essenziale per migliorare le prestazioni dei Large Language Models (LLM) e ridurre i costi di addestramento. Tuttavia, i metodi di selezione automatizzati esistenti si basano su misure computazionalmente costose basate sui gradienti o su euristiche progettate manualmente, che potrebbero non sfruttare appieno gli attributi intrinseci dei dati. In questo articolo, proponiamo In-context Learning for Contribution Measurement (ICon), un nuovo metodo senza gradienti che sfrutta la natura implicita del fine-tuning dell'in-context learning (ICL) per misurare il contributo dei campioni senza calcoli di gradienti o progettazione manuale di indicatori. ICon offre un'alternativa computazionalmente efficiente ai metodi basati sui gradienti e riduce il bias induttivo umano insito negli approcci basati su euristiche. ICon è composto da tre componenti e identifica i dati ad alto contributo valutando gli spostamenti delle prestazioni sotto l'apprendimento implicito attraverso l'ICL. Esperimenti estesi su tre LLM attraverso 12 benchmark e 5 set di valutazione a coppie dimostrano l'efficacia di ICon. In modo significativo, su LLaMA3.1-8B, i modelli addestrati sul 15% dei dati selezionati da ICon superano i dataset completi di 5,42 punti percentuali e superano la migliore prestazione dei metodi di selezione ampiamente utilizzati di 2,06 punti percentuali. Analizziamo ulteriormente i campioni ad alto contributo selezionati da ICon, che mostrano sia compiti diversificati che livelli di difficoltà appropriati, piuttosto che solo i più difficili.
I metodi prevalenti di apprendimento per rinforzo~(RL) per il fine-tuning dei ragionatori LLM, come GRPO o Leave-one-out PPO, abbandonano la funzione di valore appresa a favore di rendimenti stimati empiricamente. Ciò ostacola la scalabilità computazionale al momento del test che si basa sull'uso della funzione di valore per la verifica. In questo lavoro, proponiamo RL^V che potenzia qualsiasi metodo RL "senza valore" addestrando congiuntamente l'LLM sia come ragionatore che come verificatore generativo utilizzando dati generati da RL, aggiungendo capacità di verifica senza un sovraccarico significativo. Empiricamente, RL^V aumenta l'accuratezza su MATH di oltre il 20\% con campionamento parallelo e consente una scalabilità computazionale al momento del test da 8 a 32 volte più efficiente rispetto al metodo RL di base. RL^V mostra anche forti capacità di generalizzazione sia per compiti da facili a difficili che per compiti fuori dominio. Inoltre, RL^V raggiunge prestazioni da 1,2 a 1,6 volte superiori quando si scala congiuntamente il calcolo parallelo e sequenziale al momento del test con un modello di ragionamento lungo R1.
Le capacità di ragionamento dei modelli linguistici di grandi dimensioni sono principalmente studiate per l'inglese, anche quando i modelli pre-addestrati sono multilingue. In questo lavoro, indaghiamo fino a che punto il fine-tuning del ragionamento in inglese con lunghe catene di pensiero (CoT) possa generalizzarsi attraverso le lingue. In primo luogo, scopriamo che aumentare la potenza di calcolo per l'inferenza nei modelli linguistici di ragionamento (RLM) centrati sull'inglese migliora il ragionamento matematico multilingue in molte lingue, comprese quelle a bassa risorsa, fino al punto in cui superano modelli di dimensioni doppie. In secondo luogo, riveliamo che, sebbene le CoT degli RLM centrati sull'inglese siano naturalmente prevalentemente in inglese, seguono costantemente uno schema "cita-e-pensa" per ragionare su input non in inglese citati. In terzo luogo, scopriamo una strategia efficace per controllare la lingua delle lunghe CoT di ragionamento e osserviamo che i modelli ragionano meglio e in modo più efficiente nelle lingue ad alta risorsa. Infine, osserviamo una scarsa generalizzazione del ragionamento fuori dominio, in particolare dalle discipline STEM alla conoscenza culturale di senso comune, anche per l'inglese. Nel complesso, dimostriamo i potenziali, studiamo i meccanismi e delineiamo i limiti della generalizzazione cross-linguistica del ridimensionamento al momento del test del ragionamento in inglese. Concludiamo che i professionisti dovrebbero far ragionare gli RLM centrati sull'inglese in lingue ad alta risorsa, mentre è necessario ulteriore lavoro per migliorare il ragionamento nelle lingue a bassa risorsa e in contesti fuori dominio.
La rimozione di informazioni (unlearning) nei grandi modelli linguistici (LLM) è cruciale nelle applicazioni reali, dove è necessario rimuovere in modo efficiente l'influenza di dati privati, protetti da copyright o dannosi per alcuni utenti. Tuttavia, le metriche esistenti focalizzate sull'utilità del modello (basate sull'utilità del modello) potrebbero non valutare accuratamente l'entità della rimozione in contesti realistici, come quando (a) l'insieme di dati da dimenticare e quello da conservare hanno contenuti semanticamente simili, (b) riaddestrare il modello da zero sull'insieme da conservare è impraticabile, e/o (c) il proprietario del modello può migliorare la metrica di rimozione senza eseguire direttamente la rimozione sul LLM. Questo articolo presenta la prima metrica di rimozione centrata sui dati per i LLM, chiamata WaterDrum, che sfrutta il watermarking robusto del testo per superare queste limitazioni. Introduciamo anche nuovi dataset di benchmark per la rimozione nei LLM che contengono diversi livelli di punti dati simili e possono essere utilizzati per valutare rigorosamente gli algoritmi di rimozione utilizzando WaterDrum. Il nostro codice è disponibile all'indirizzo https://github.com/lululu008/WaterDrum e i nostri nuovi dataset di benchmark sono rilasciati all'indirizzo https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
La catena di pensieri (Chain-of-Thoughts, CoT) richiede che i grandi modelli linguistici (Large Language Models, LLMs) generino passaggi intermedi prima di arrivare alla risposta finale, ed è stato dimostrato efficace per aiutare gli LLMs a risolvere compiti di ragionamento complessi. Tuttavia, il meccanismo interno della CoT rimane in gran parte poco chiaro. In questo articolo, studiamo empiricamente il ruolo dei token CoT negli LLMs su due compiti composizionali: la moltiplicazione a più cifre e la programmazione dinamica. Sebbene la CoT sia essenziale per risolvere questi problemi, scopriamo che preservare solo i token che memorizzano risultati intermedi permetterebbe di ottenere prestazioni comparabili. Inoltre, osserviamo che memorizzare i risultati intermedi in una forma latente alternativa non influisce sulle prestazioni del modello. Interveniamo anche casualmente su alcuni valori nella CoT, e notiamo che i token CoT successivi e la risposta finale cambiano di conseguenza. Questi risultati suggeriscono che i token CoT potrebbero funzionare come variabili nei programmi per computer, ma con potenziali svantaggi come scorciatoie non intenzionali e limiti di complessità computazionale tra i token. Il codice e i dati sono disponibili all'indirizzo https://github.com/solitaryzero/CoTs_are_Variables.
I modelli Vision-Language-Action (VLA) rappresentano un progresso trasformativo nell'intelligenza artificiale, mirando a unificare percezione, comprensione del linguaggio naturale e azione incarnata all'interno di un unico framework computazionale. Questa revisione fondazionale presenta una sintesi completa dei recenti progressi nei modelli VLA, organizzati sistematicamente attraverso cinque pilastri tematici che strutturano il panorama di questo campo in rapida evoluzione. Iniziamo stabilendo le basi concettuali dei sistemi VLA, tracciando la loro evoluzione dalle architetture di apprendimento cross-modale agli agenti generalisti che integrano strettamente modelli vision-language (VLM), pianificatori di azioni e controllori gerarchici. La nostra metodologia adotta un rigoroso framework di revisione della letteratura, coprendo oltre 80 modelli VLA pubblicati negli ultimi tre anni. Le aree chiave di progresso includono innovazioni architetturali, strategie di formazione efficienti in termini di parametri e accelerazioni dell'inferenza in tempo reale. Esploriamo diversi domini applicativi come la robotica umanoide, i veicoli autonomi, la robotica medica e industriale, l'agricoltura di precisione e la navigazione in realtà aumentata. La revisione affronta inoltre le principali sfide legate al controllo in tempo reale, alla rappresentazione multimodale delle azioni, alla scalabilità del sistema, alla generalizzazione a compiti non visti e ai rischi etici del dispiegamento. Attingendo dallo stato dell'arte, proponiamo soluzioni mirate tra cui l'adattamento dell'AI agentica, la generalizzazione cross-embodiment e la pianificazione neuro-simbolica unificata. Nella nostra discussione prospettica, delineiamo una roadmap futura in cui i modelli VLA, i VLM e l'AI agentica convergono per alimentare agenti incarnati adattivi, general-purpose e allineati socialmente. Questo lavoro serve come riferimento fondazionale per avanzare verso una robotica intelligente nel mondo reale e verso l'intelligenza artificiale generale. >Vision-language-action, Agentic AI, AI Agents, Vision-language Models
Il matching robusto ed efficiente di feature locali svolge un ruolo cruciale in applicazioni come SLAM e localizzazione visiva per la robotica. Nonostante i notevoli progressi, rimane molto complesso estrarre feature visive robuste e discriminative in scenari con drastici cambiamenti di illuminazione, aree a bassa texture o pattern ripetitivi. In questo articolo, proponiamo una nuova rete leggera chiamata LiftFeat, che migliora la robustezza dei descrittori grezzi aggregando feature geometriche 3D. Nello specifico, adottiamo prima un modello pre-addestrato di stima della profondità monoculare per generare etichette pseudo-normali di superficie, supervisionando l'estrazione di feature geometriche 3D in termini di normali di superficie predette. Successivamente, progettiamo un modulo di sollevamento delle feature consapevole della geometria 3D per fondere le feature delle normali di superficie con le feature dei descrittori 2D grezzi. L'integrazione di tali feature geometriche 3D potenzia la capacità discriminativa della descrizione delle feature 2D in condizioni estreme. I risultati sperimentali estesi su stime di posa relativa, stime di omografia e compiti di localizzazione visiva dimostrano che il nostro LiftFeat supera alcuni metodi leggeri all'avanguardia. Il codice sarà rilasciato su: https://github.com/lyp-deeplearning/LiftFeat.
L'allineamento dei modelli linguistici con le preferenze umane si basa su dataset di preferenze a coppie. Mentre alcuni studi suggeriscono che i dati on-policy superano costantemente i dati off-policy per l'apprendimento delle preferenze, altri indicano che i vantaggi dei dati on-policy potrebbero dipendere dal compito, evidenziando la necessità di un'esplorazione sistematica della loro interazione. In questo lavoro, dimostriamo che i dati on-policy e off-policy offrono punti di forza complementari nell'ottimizzazione delle preferenze: i dati on-policy sono particolarmente efficaci per compiti di ragionamento come la matematica e la codifica, mentre i dati off-policy performano meglio su compiti aperti come la scrittura creativa e la formulazione di raccomandazioni personalizzate. Guidati da questi risultati, introduciamo SIMPLEMIX, un approccio che combina i punti di forza complementari dell'apprendimento delle preferenze on-policy e off-policy semplicemente mescolando queste due fonti di dati. I nostri risultati empirici su vari compiti e benchmark dimostrano che SIMPLEMIX migliora significativamente l'allineamento dei modelli linguistici. Nello specifico, SIMPLEMIX supera il DPO on-policy e il DPO off-policy di una media del 6,03% su Alpaca Eval 2.0. Inoltre, supera approcci precedenti molto più complessi nel combinare dati on-policy e off-policy, come HyPO e DPO-Mix-P, di una media del 3,05%.
Man mano che i grandi modelli linguistici (LLM) si evolvono in agenti che utilizzano strumenti, la capacità di navigare sul web in tempo reale è diventata un criterio fondamentale per misurare la loro competenza nel ragionamento e nel recupero delle informazioni. Benchmark esistenti come BrowseComp si concentrano principalmente sull'inglese e trascurano le complessità linguistiche, infrastrutturali e legate alla censura di altri importanti ecosistemi informativi, in particolare quello cinese. Per colmare questa lacuna, introduciamo BrowseComp-ZH, un benchmark ad alta difficoltà progettato specificamente per valutare in modo completo gli agenti LLM sul web cinese. BrowseComp-ZH è composto da 289 domande multi-hop che coprono 11 domini diversi. Ogni domanda è stata ricostruita a partire da una risposta breve, oggettiva e facilmente verificabile (ad esempio, una data, un numero o un nome proprio). Un protocollo di controllo qualità in due fasi è stato applicato per garantire un'elevata difficoltà delle domande e l'unicità delle risposte. Abbiamo testato oltre 20 modelli linguistici e sistemi di ricerca agentici all'avanguardia sul nostro benchmark BrowseComp-ZH. Nonostante le loro forti capacità conversazionali e di recupero delle informazioni, la maggior parte dei modelli ha difficoltà significative: molti raggiungono tassi di accuratezza inferiori al 10%, e solo pochi superano il 20%. Anche il sistema con le migliori prestazioni, DeepResearch di OpenAI, raggiunge solo il 42,9%. Questi risultati dimostrano la notevole difficoltà di BrowseComp-ZH, dove il successo richiede non solo strategie di recupero efficaci, ma anche un ragionamento sofisticato e una riconciliazione delle informazioni — capacità che i modelli attuali faticano ancora a padroneggiare. Il nostro dataset, le linee guida per la costruzione e i risultati del benchmark sono stati pubblicamente rilasciati su https://github.com/PALIN2018/BrowseComp-ZH.