Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli Agenti di Intelligenza Artificiale Generale sono sempre più riconosciuti come framework fondamentali per la prossima generazione di intelligenza artificiale, abilitando ragionamenti complessi, interazioni web, codifica e capacità di ricerca autonoma. Tuttavia, gli attuali sistemi di agenti sono o chiusi o fortemente dipendenti da una varietà di API a pagamento e strumenti proprietari, limitando l'accessibilità e la riproducibilità per la comunità di ricerca. In questo lavoro, presentiamo Cognitive Kernel-Pro, un framework multi-modulo per agenti completamente open-source e (nella massima misura possibile) gratuito, progettato per democratizzare lo sviluppo e la valutazione di agenti di IA avanzati. All'interno di Cognitive Kernel-Pro, investigiamo sistematicamente la cura di dati di addestramento di alta qualità per i Modelli Fondamentali degli Agenti, concentrandoci sulla costruzione di query, traiettorie e risposte verificabili in quattro domini chiave: web, file, codice e ragionamento generale. Inoltre, esploriamo nuove strategie per la riflessione e il voto in fase di test degli agenti, al fine di migliorarne la robustezza e le prestazioni. Valutiamo Cognitive Kernel-Pro su GAIA, ottenendo risultati all'avanguardia tra gli agenti open-source e gratuiti. In particolare, il nostro modello open-source da 8 miliardi di parametri supera i precedenti sistemi leader come WebDancer e WebSailor, stabilendo un nuovo standard di prestazione per agenti di IA accessibili e ad alte capacità. Il codice è disponibile all'indirizzo https://github.com/Tencent/CognitiveKernel-Pro.
I Modelli Linguistici di Grande Dimensione basati su Diffusione (DLLMs) stanno emergendo come una potente alternativa ai dominanti Modelli Linguistici di Grande Dimensione Autoregressivi, offrendo una generazione parallela efficiente e una capacità di modellazione del contesto globale. Tuttavia, l'applicazione pratica dei DLLMs è ostacolata da un vincolo architetturale critico: la necessità di una lunghezza di generazione predefinita staticamente. Questa allocazione statica della lunghezza porta a un compromesso problematico: lunghezze insufficienti compromettono le prestazioni su compiti complessi, mentre lunghezze eccessive comportano un significativo sovraccarico computazionale e talvolta un degrado delle prestazioni. Sebbene il framework di inferenza sia rigido, osserviamo che il modello stesso possiede segnali interni che correlano con la lunghezza ottimale della risposta per un determinato compito. Per colmare questa lacuna, sfruttiamo questi segnali latenti e introduciamo DAEDAL, una nuova strategia di denoising senza addestramento che abilita l'Espansione Dinamica Adattiva della Lunghezza per i Modelli Linguistici di Grande Dimensione basati su Diffusione. DAEDAL opera in due fasi: 1) Prima del processo di denoising, DAEDAL parte da una lunghezza iniziale breve e la espande iterativamente a una lunghezza approssimativa adeguata al compito, guidata da una metrica di completamento della sequenza. 2) Durante il processo di denoising, DAEDAL interviene dinamicamente individuando e espandendo le regioni di generazione insufficienti attraverso l'inserimento di token di maschera, assicurando che l'output finale sia completamente sviluppato. Esperimenti estesi sui DLLMs dimostrano che DAEDAL raggiunge prestazioni comparabili, e in alcuni casi superiori, a baseline a lunghezza fissa meticolosamente ottimizzate, migliorando simultaneamente l'efficienza computazionale attraverso un rapporto di token effettivo più elevato. Risolvendo il vincolo della lunghezza statica, DAEDAL sblocca nuovo potenziale per i DLLMs, colmando una lacuna critica rispetto alle loro controparti Autoregressive e aprendo la strada a una generazione più efficiente e capace.
Il successo attuale dei transformer di diffusione dipende fortemente dallo spazio latente compresso modellato dall'autoencoder variazionale (VAE) pre-addestrato. Tuttavia, questo paradigma di addestramento in due fasi introduce inevitabilmente errori accumulati e artefatti di decodifica. Per affrontare i problemi menzionati, i ricercatori sono tornati allo spazio dei pixel al costo di pipeline a cascata complesse e di una maggiore complessità dei token. In contrasto con i loro sforzi, proponiamo di modellare la decodifica patch-wise con il campo neurale e presentiamo una soluzione end-to-end efficiente, a singola scala e a singolo stadio, denominata pixel neural field diffusion (PixelNerd). Grazie alla rappresentazione efficiente del campo neurale in PixNerd, abbiamo direttamente raggiunto un FID di 2.15 su ImageNet 256x256 e un FID di 2.84 su ImageNet 512x512 senza alcuna complessa pipeline a cascata o VAE. Abbiamo anche esteso il nostro framework PixNerd alle applicazioni di testo-immagine. Il nostro PixNerd-XXL/16 ha ottenuto un punteggio complessivo competitivo di 0.73 sul benchmark GenEval e un punteggio complessivo di 80.9 sul benchmark DPG.
I grandi modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nelle attività di comprensione visiva 2D, suscitando interesse nell'estendere queste capacità alla comprensione di scene 3D. Tuttavia, gli attuali VLMs 3D spesso faticano a dimostrare un ragionamento robusto e una buona generalizzazione a causa delle limitazioni nei dati spaziali di alta qualità e della natura statica delle assunzioni sul punto di vista. Per affrontare queste sfide, proponiamo 3D-R1, un modello di base che potenzia le capacità di ragionamento dei VLMs 3D. Nello specifico, costruiamo inizialmente un dataset sintetico di alta qualità con CoT, denominato Scene-30K, sfruttando i dataset 3D-VL esistenti e un motore di dati basato su Gemini 2.5 Pro. Questo serve come dati di inizializzazione a freddo per 3D-R1. Inoltre, utilizziamo una politica RLHF come GRPO nel processo di addestramento con apprendimento per rinforzo per migliorare le capacità di ragionamento e introduciamo tre funzioni di ricompensa: una ricompensa percettiva, una ricompensa di similarità semantica e una ricompensa di formato per mantenere l'accuratezza del rilevamento e la precisione semantica delle risposte. Inoltre, introduciamo una strategia di selezione dinamica della vista che sceglie in modo adattivo le prospettive più informative per la comprensione delle scene 3D. Esperimenti estensivi dimostrano che 3D-R1 offre un miglioramento medio del 10% su vari benchmark di scene 3D, evidenziando la sua efficacia nel potenziare il ragionamento e la generalizzazione nella comprensione delle scene 3D. Codice: https://github.com/AIGeeksGroup/3D-R1. Sito web: https://aigeeksgroup.github.io/3D-R1.
I recenti progressi negli agenti basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato notevoli miglioramenti nella risoluzione di problemi software, sfruttando tecniche avanzate come la collaborazione multi-agente e la ricerca ad albero Monte Carlo (MCTS). Tuttavia, gli agenti attuali agiscono come esploratori senza memoria, trattando ogni problema separatamente senza conservare o riutilizzare le conoscenze acquisite dalle esperienze di riparazione precedenti. Ciò porta a un'esplorazione ridondante di traiettorie fallite e a opportunità mancate di adattare metodi di risoluzione di successo a problemi simili. Per affrontare questo problema, introduciamo SWE-Exp, un approccio potenziato dall'esperienza che estrae conoscenze concise e applicabili dalle traiettorie precedenti degli agenti, consentendo un apprendimento continuo tra i vari problemi. Il nostro metodo introduce una banca dell'esperienza multifaccetata che cattura sia i tentativi di riparazione riusciti che quelli falliti. Nello specifico, estrae conoscenze riutilizzabili per la risoluzione dei problemi a diversi livelli, dalla comprensione ad alto livello del problema alle modifiche specifiche del codice. Gli esperimenti dimostrano che SWE-Exp raggiunge un tasso di risoluzione all'avanguardia (41,6% Pass@1) su SWE-bench-Verified nell'ambito di framework di agenti open-source. Il nostro approccio stabilisce un nuovo paradigma in cui gli agenti di ingegneria del software automatizzati accumulano e sfruttano sistematicamente l'esperienza di riparazione, passando fondamentalmente da un'esplorazione per tentativi ed errori a una risoluzione strategica e guidata dall'esperienza.
La risoluzione dei problemi ha compiuto progressi significativi grazie alle avanzate capacità di ragionamento dei grandi modelli linguistici (LLM). Recentemente, framework basati su agenti come SWE-agent hanno ulteriormente spinto questi progressi, consentendo a agenti autonomi e dotati di strumenti di affrontare complessi compiti di ingegneria del software. Sebbene gli approcci esistenti alla risoluzione dei problemi basati su agenti si fondino principalmente su esplorazioni indipendenti degli agenti, questi spesso rimangono bloccati in soluzioni locali e non riescono a identificare pattern di problemi che si estendono su diverse parti della codebase. Per affrontare questa limitazione, proponiamo SWE-Debate, un framework competitivo di dibattito multi-agente che incoraggia percorsi di ragionamento diversificati e raggiunge una localizzazione dei problemi più consolidata. SWE-Debate crea innanzitutto molteplici tracce di propagazione degli errori come proposte di localizzazione, attraversando un grafo di dipendenze del codice. Successivamente, organizza un dibattito in tre round tra agenti specializzati, ciascuno dei quali incarna prospettive di ragionamento distinte lungo la traccia di propagazione degli errori. Questa competizione strutturata consente agli agenti di convergere collaborativamente su un piano di risoluzione consolidato. Infine, questo piano di risoluzione consolidato viene integrato in un agente di modifica del codice basato su MCTS per la generazione di patch. Esperimenti condotti sul benchmark SWE-bench dimostrano che SWE-Debate raggiunge nuovi risultati all'avanguardia nei framework di agenti open-source e supera di gran lunga i baseline.
I recenti progressi nei modelli linguistici di grandi dimensioni hanno catalizzato lo sviluppo di MLLM (Multimodal Large Language Models) che integrano testo, parlato e visione all'interno di framework unificati. Man mano che gli MLLM evolvono da sistemi ristretti, monolingue e specifici per compiti a modelli general-purpose in grado di seguire istruzioni, una frontiera chiave risiede nella valutazione delle loro capacità multilingue e multimodali sia in contesti lunghi che brevi. Tuttavia, i benchmark esistenti non sono sufficienti per valutare congiuntamente queste dimensioni: sono spesso limitati all'inglese, si concentrano principalmente su una singola modalità alla volta, si basano su contesti brevi o mancano di annotazioni umane, ostacolando una valutazione completa delle prestazioni dei modelli attraverso lingue, modalità e complessità dei compiti. Per colmare queste lacune, introduciamo MCIF (Multimodal Crosslingual Instruction Following), il primo benchmark multilingue annotato da esseri umani basato su conferenze scientifiche, progettato per valutare il seguire istruzioni in contesti crosslingue e multimodali su input sia brevi che lunghi. MCIF abbraccia tre modalità principali — parlato, visione e testo — e quattro lingue diverse (inglese, tedesco, italiano e cinese), consentendo una valutazione completa delle capacità degli MLLM di interpretare istruzioni attraverso lingue e di combinarle con informazioni contestuali multimodali. MCIF è rilasciato con licenza CC-BY 4.0 per incoraggiare la ricerca aperta e il progresso nello sviluppo degli MLLM.
Valutare le capacità conversazionali dei grandi modelli linguistici (LLM) rimane un compito impegnativo. Gli approcci attuali si basano principalmente sul paradigma "LLM-as-a-judge", in cui un LLM viene sollecitato a fungere da valutatore per giudicare la qualità del dialogo. Tuttavia, tali metodi spesso soffrono di vari bias, che minano l'affidabilità e la coerenza dei risultati della valutazione. Per mitigare questi bias, i metodi recenti impiegano più LLM come giudici e aggregano i loro giudizi per selezionare la valutazione ottimale. Sebbene efficace, questo approccio multi-giudice comporta un significativo sovraccarico computazionale durante l'inferenza. In questo articolo, proponiamo un valutatore efficiente per dialoghi multi-turn che cattura la saggezza collettiva di più giudici LLM aggregando le loro conoscenze di preferenza in un unico modello. Il nostro approccio preserva i vantaggi del feedback diversificato di più giudici riducendo drasticamente il costo della valutazione, consentendo una valutazione rapida e flessibile della qualità del dialogo. Esperimenti estesi su sette benchmark di valutazione del dialogo, sia con rating singolo che con confronti a coppie, dimostrano che il nostro metodo supera le baseline esistenti in diversi scenari, mostrando la sua efficienza e robustezza.
La segmentazione multimodale basata su riferimenti mira a segmentare oggetti target in scene visive, come immagini, video e scene 3D, basandosi su espressioni di riferimento in formato testuale o audio. Questo compito svolge un ruolo cruciale nelle applicazioni pratiche che richiedono una percezione accurata degli oggetti in base alle istruzioni dell'utente. Nell'ultimo decennio, ha attirato una significativa attenzione nella comunità multimodale, grazie ai progressi nelle reti neurali convoluzionali, nei transformer e nei modelli linguistici di grandi dimensioni, che hanno notevolmente migliorato le capacità di percezione multimodale. Questo articolo fornisce una rassegna completa della segmentazione multimodale basata su riferimenti. Iniziamo introducendo il contesto di questo campo, incluse le definizioni del problema e i dataset comunemente utilizzati. Successivamente, riassumiamo una meta-architettura unificata per la segmentazione basata su riferimenti e rivediamo i metodi rappresentativi in tre principali tipi di scene visive, tra cui immagini, video e scene 3D. Discutiamo inoltre i metodi di Espressione di Riferimento Generalizzata (GREx) per affrontare le sfide della complessità del mondo reale, insieme a compiti correlati e applicazioni pratiche. Vengono inoltre forniti ampi confronti delle prestazioni su benchmark standard. Monitoriamo continuamente i lavori correlati su https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato una notevole capacità nel generare testi che assomigliano strettamente alla scrittura umana. Tuttavia, spesso producono affermazioni fattualmente errate, un problema comunemente definito come "allucinazione". Affrontare le allucinazioni è cruciale per migliorare l'affidabilità e l'efficacia degli LLM. Mentre gran parte della ricerca si è concentrata sulle allucinazioni in inglese, il nostro studio estende questa indagine ai dati conversazionali in tre lingue: hindi, farsi e mandarino. Offriamo un'analisi completa di un dataset per esaminare sia gli errori fattuali che linguistici in queste lingue per GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 e Qwen-3. Abbiamo riscontrato che gli LLM producono pochissime risposte allucinate in mandarino, ma generano un numero significativamente maggiore di allucinazioni in hindi e farsi.
La generazione di video guidata dall'audio mira a sintetizzare video realistici che si allineano con registrazioni audio in ingresso, simile alla capacità umana di visualizzare scene a partire da input uditivi. Tuttavia, gli approcci esistenti si concentrano prevalentemente sull'esplorazione di informazioni semantiche, come le classi delle sorgenti sonore presenti nell'audio, limitando la loro capacità di generare video con contenuti accurati e composizione spaziale. Al contrario, noi esseri umani non solo possiamo identificare naturalmente le categorie semantiche delle sorgenti sonore, ma anche determinarne gli attributi spaziali profondamente codificati, inclusi posizioni e direzioni di movimento. Queste informazioni utili possono essere chiarite considerando indicatori spaziali specifici derivati dalle proprietà fisiche intrinseche del suono, come il volume o la frequenza. Poiché i metodi precedenti ignorano largamente questo fattore, presentiamo SpA2V, il primo framework che sfrutta esplicitamente questi indizi uditivi spaziali dagli audio per generare video con una corrispondenza semantica e spaziale elevata. SpA2V scompone il processo di generazione in due fasi: 1) Pianificazione del Video Guidata dall'Audio: Adattiamo meticolosamente un MLLM all'avanguardia per un nuovo compito di sfruttamento degli indizi spaziali e semantici dall'audio in ingresso per costruire Layout di Scene Video (VSL). Questo serve come rappresentazione intermedia per colmare il divario tra le modalità audio e video. 2) Generazione del Video Basata sul Layout: Sviluppiamo un approccio efficiente ed efficace per integrare in modo fluido i VSL come guida condizionale in modelli di diffusione pre-addestrati, consentendo la generazione di video basata sui VSL in modo privo di addestramento. Esperimenti estensivi dimostrano che SpA2V eccelle nella generazione di video realistici con allineamento semantico e spaziale rispetto agli audio in ingresso.
La navigazione visiva con un'immagine come obiettivo è un problema fondamentale e impegnativo. I metodi convenzionali si basano sull'apprendimento RL end-to-end o su politiche modulari con grafi topologici o mappe BEV come memoria, che non riescono a modellare completamente la relazione geometrica tra l'ambiente 3D esplorato e l'immagine obiettivo. Per localizzare in modo efficiente e accurato l'immagine obiettivo nello spazio 3D, costruiamo il nostro sistema di navigazione sulla rappresentazione renderizzabile di gaussiane 3D (3DGS). Tuttavia, a causa dell'intensità computazionale dell'ottimizzazione 3DGS e del vasto spazio di ricerca della posa della camera a 6 gradi di libertà, sfruttare direttamente la 3DGS per la localizzazione dell'immagine durante il processo di esplorazione dell'agente è eccessivamente inefficiente. A tal fine, proponiamo IGL-Nav, un framework di localizzazione incrementale di gaussiane 3D per una navigazione efficiente e consapevole del 3D con immagine obiettivo. Nello specifico, aggiorniamo incrementalmente la rappresentazione della scena man mano che arrivano nuove immagini con previsione monoscopica feed-forward. Quindi localizziamo approssimativamente l'obiettivo sfruttando le informazioni geometriche per il matching di spazio discreto, che può essere equivalente a una convoluzione 3D efficiente. Quando l'agente è vicino all'obiettivo, risolviamo infine la posa precisa del target con l'ottimizzazione tramite rendering differenziabile. Il proposto IGL-Nav supera di gran lunga i metodi state-of-the-art esistenti in diverse configurazioni sperimentali. Può anche gestire l'impostazione più impegnativa dell'immagine obiettivo con vista libera e può essere implementato su una piattaforma robotica del mondo reale utilizzando uno smartphone per catturare l'immagine obiettivo da una posa arbitraria. Pagina del progetto: https://gwxuan.github.io/IGL-Nav/.
Mentre l'IA eccelle nella generazione di testo, audio, immagini e video, la creazione di contenuti audiovisivi interattivi come i videogiochi rimane una sfida. Gli attuali LLM possono generare giochi e animazioni in JavaScript, ma mancano di metriche di valutazione automatizzate e faticano con contenuti complessi che normalmente richiedono team di esseri umani che lavorano per molti mesi (multi-shot, multi-agenti) utilizzando asset creati da artisti. Per affrontare questi problemi, abbiamo sviluppato una nuova metrica e un sistema multi-agente. Proponiamo AVR-Eval, una metrica relativa per la qualità dei contenuti multimediali che utilizza registrazioni audiovisive (AVR). Un modello omni-modale (che elabora testo, video e audio) confronta le AVR di due contenuti, con un modello di testo che revisiona le valutazioni per determinare la superiorità. Dimostriamo che AVR-Eval identifica correttamente i contenuti buoni da quelli rotti o non corrispondenti. Abbiamo costruito AVR-Agent, un sistema multi-agente che genera codice JavaScript da una banca di asset multimediali (audio, immagini, modelli 3D). L'agente di codifica seleziona gli asset rilevanti, genera più codici iniziali, utilizza AVR-Eval per identificare la versione migliore e la migliora iterativamente attraverso il feedback omni-modale dell'agente basato sull'AVR. Abbiamo condotto esperimenti su giochi e animazioni con AVR-Eval (tasso di vittoria del contenuto A contro B). Scopriamo che i contenuti generati da AVR-Agent hanno un tasso di vittoria significativamente più alto rispetto ai contenuti creati attraverso la generazione one-shot. Tuttavia, i modelli faticano a sfruttare efficacemente asset personalizzati e feedback AVR, mostrando nessun aumento del tasso di vittoria. Ciò rivela un divario critico: mentre gli esseri umani beneficiano di asset di alta qualità e feedback audiovisivi, gli attuali modelli di codifica non sembrano utilizzare queste risorse in modo altrettanto efficace, evidenziando differenze fondamentali tra gli approcci di creazione di contenuti umani e macchina.