Articoli di ricerca IA selezionati quotidianamente con traduzioni
Esploriamo una strategia di ricerca evolutiva per scalare il calcolo del tempo di inferenza nei Grandi Modelli Linguistici. L'approccio proposto, Evoluzione Mentale, utilizza un modello linguistico per generare, ricombinare e perfezionare le risposte candidate. L'approccio proposto evita la necessità di formalizzare il problema di inferenza sottostante ogni volta che è disponibile un valutatore di soluzioni. Controllando il costo dell'inferenza, scopriamo che l'Evoluzione Mentale supera significativamente altre strategie di inferenza come il Migliore-di-N e la Revisione Sequenziale nei compiti di pianificazione del linguaggio naturale. Nei benchmark TravelPlanner e Natural Plan, l'Evoluzione Mentale risolve più del 98% delle istanze del problema utilizzando Gemini 1.5 Pro senza l'uso di un risolutore formale.
Presentiamo PaSa, un avanzato agente di ricerca di articoli alimentato da grandi modelli linguistici. PaSa può autonomamente prendere una serie di decisioni, tra cui invocare strumenti di ricerca, leggere articoli e selezionare riferimenti rilevanti, per ottenere infine risultati completi e accurati per complesse interrogazioni accademiche. Ottimizziamo PaSa utilizzando il reinforcement learning con un dataset sintetico, AutoScholarQuery, che include 35k interrogazioni accademiche dettagliate e relativi articoli provenienti dalle pubblicazioni delle conferenze AI di alto livello. Inoltre, sviluppiamo RealScholarQuery, un benchmark che raccoglie interrogazioni accademiche reali per valutare le prestazioni di PaSa in scenari più realistici. Nonostante sia stato addestrato su dati sintetici, PaSa supera significativamente i baselines esistenti su RealScholarQuery, inclusi Google, Google Scholar, Google con GPT-4 per interrogazioni parafrasate, chatGPT (GPT-4o abilitato alla ricerca), GPT-o1 e PaSa-GPT-4o (PaSa implementato tramite GPT-4o sollecitato). In particolare, PaSa-7B supera il miglior baseline basato su Google, Google con GPT-4o, del 37,78% in recall@20 e del 39,90% in recall@50. Supera anche PaSa-GPT-4o del 30,36% in recall e del 4,25% in precisione. Il modello, i dataset e il codice sono disponibili su https://github.com/bytedance/pasa.
Uno dei metodi più ampiamente utilizzati per valutare i Modelli Linguaggio con Ampia Visione (LLM) sono i test a scelta multipla (MCQ). I benchmark MCQ consentono di testare la conoscenza dei LLM su quasi ogni argomento su larga scala poiché i risultati possono essere elaborati automaticamente. Per aiutare il LLM a rispondere, possono essere inclusi alcuni esempi chiamati poche istanze nella richiesta. Inoltre, al LLM può essere chiesto di rispondere direttamente con l'opzione selezionata o di fornire prima la motivazione e poi la risposta selezionata, noto come catena di pensiero. Oltre a verificare se la risposta selezionata è corretta, la valutazione può esaminare la probabilità stimata dal LLM della sua risposta come indicazione della fiducia del LLM nella risposta. In questo articolo, studiamo come la fiducia del LLM nella sua risposta dipende dal fatto che al modello sia stato chiesto di rispondere direttamente o di fornire la motivazione prima di rispondere. I risultati della valutazione delle domande su una vasta gamma di argomenti in sette modelli diversi mostrano che i LLM sono più fiduciosi nelle loro risposte quando forniscono la motivazione prima della risposta. Ciò avviene indipendentemente dal fatto che la risposta selezionata sia corretta. La nostra ipotesi è che questo comportamento sia dovuto alla motivazione che modifica la probabilità della risposta selezionata, poiché il LLM predice la risposta in base alla domanda di input e alla motivazione che supporta la selezione effettuata. Pertanto, le probabilità stimate dai LLM sembrano avere limitazioni intrinseche che dovrebbero essere comprese per poterle utilizzare nelle procedure di valutazione. È interessante notare che lo stesso comportamento è stato osservato negli esseri umani, per i quali spiegare una risposta aumenta la fiducia nella sua correttezza.
Lo stile cartoon 2D è una forma d'arte prominente nella creazione digitale di personaggi, particolarmente popolare tra il pubblico più giovane. Mentre i progressi nella tecnologia digitale umana hanno stimolato una vasta ricerca sui personaggi digitali fotorealistici e in 3D, i personaggi interattivi in stile cartoon 2D hanno ricevuto relativamente meno attenzione. A differenza dei corrispettivi in 3D, che richiedono una costruzione sofisticata e un rendering intensivo delle risorse, Live2D, un formato ampiamente utilizzato per i personaggi in stile cartoon 2D, offre un'alternativa più efficiente, che consente di animare i personaggi 2D in modo che simulino il movimento in 3D senza la necessità di costruire un modello 3D completo. Inoltre, Live2D utilizza un rendering leggero in HTML5 (H5), migliorando sia l'accessibilità che l'efficienza. In questo rapporto tecnico, presentiamo Textoon, un metodo innovativo per generare diversi personaggi in stile cartoon 2D nel formato Live2D basato su descrizioni testuali. Il Textoon sfrutta modelli linguistici e visivi all'avanguardia per comprendere le intenzioni testuali e generare l'aspetto 2D, in grado di creare una vasta gamma di personaggi in stile cartoon 2D sorprendenti e interattivi in un minuto. La homepage del progetto è https://human3daigc.github.io/Textoon_webpage/.
Potenziare i grandi modelli linguistici (LLM) con API in tempo reale può aiutare a generare risposte più accurate e aggiornate. Tuttavia, valutare le capacità di chiamata di funzione dei LLM in scenari reali rimane poco esplorato a causa della complessità della raccolta e valutazione dei dati. In questo lavoro, presentiamo ComplexFuncBench, un benchmark per la chiamata di funzioni complesse in cinque scenari reali. Rispetto ai benchmark esistenti, ComplexFuncBench include la chiamata di funzioni multi-step e vincolate, che richiede il completamento di parametri lunghi, la ragionamento sui valori dei parametri e un contesto lungo 128k. Inoltre, proponiamo un framework automatico, ComplexEval, per valutare quantitativamente compiti di chiamata di funzioni complesse. Attraverso esperimenti esaustivi, dimostriamo le carenze dei LLM all'avanguardia nella chiamata di funzioni e suggeriamo direzioni future per ottimizzare queste capacità. I dati e il codice sono disponibili su https://github.com/THUDM/ComplexFuncBench.
Introduciamo X-Dyna, un nuovo pipeline basato sulla diffusione per animare un'immagine umana singola utilizzando espressioni facciali e movimenti del corpo derivati da un video di guida, che genera dinamiche realistiche e consapevoli del contesto sia per il soggetto che per l'ambiente circostante. Basandoci su approcci precedenti centrati sul controllo della postura umana, X-Dyna affronta le principali carenze che causano la perdita di dettagli dinamici, migliorando le qualità realistiche delle animazioni video umane. Al centro del nostro approccio si trova il Dynamics-Adapter, un modulo leggero che integra efficacemente il contesto dell'aspetto di riferimento nelle attenzioni spaziali della struttura di diffusione preservando la capacità dei moduli di movimento nella sintesi di dettagli dinamici fluidi e intricati. Oltre al controllo della postura del corpo, collegiamo un modulo di controllo locale al nostro modello per catturare espressioni facciali disentangled dall'identità, facilitando il trasferimento preciso delle espressioni per un realismo potenziato nelle scene animate. Insieme, questi componenti formano un framework unificato in grado di apprendere il movimento fisico umano e le dinamiche naturali della scena da una variegata miscela di video umani e di scena. Valutazioni qualitative e quantitative esaustive dimostrano che X-Dyna supera i metodi all'avanguardia, creando animazioni altamente realistiche ed espressive. Il codice è disponibile su https://github.com/bytedance/X-Dyna.
Questo articolo indaga le sfide dello sviluppo di grandi modelli linguistici (LLM) competenti sia nella comprensione multilingue che nella conoscenza medica. Dimostriamo che semplicemente tradurre dati medici non garantisce prestazioni elevate in compiti clinici nella lingua di destinazione. I nostri esperimenti rivelano che la combinazione ottimale di lingue nei dati di addestramento varia significativamente tra diversi compiti medici. Scopriamo che modelli più grandi con proporzioni linguistiche attentamente calibrate raggiungono prestazioni superiori nei compiti clinici nella lingua madre. Inoltre, i nostri risultati suggeriscono che fare affidamento esclusivamente sul fine-tuning potrebbe non essere l'approccio più efficace per incorporare nuove conoscenze linguistiche nei LLM. Invece, potrebbero essere ancora necessari metodi di preaddestramento intensivi in termini di dati e calcolo per ottenere prestazioni ottimali in contesti medici multilingue. Queste scoperte forniscono indicazioni preziose per la costruzione di sistemi AI medici efficaci e inclusivi per diverse comunità linguistiche.
L'applicazione delle reti generative avversarie (GAN) ha recentemente avanzato la super risoluzione del parlato (SR) basata su rappresentazioni intermedie come i mel-spettrogrammi. Tuttavia, i metodi SR esistenti che di solito si basano su reti addestrate in modo indipendente e concatenate possono portare a rappresentazioni inconsistenti e a una scarsa qualità del parlato, specialmente in scenari fuori dominio. In questo lavoro, proponiamo HiFi-SR, una rete unificata che sfrutta l'addestramento avversario end-to-end per raggiungere una super risoluzione del parlato ad alta fedeltà. Il nostro modello presenta un generatore trasformatore-convoluzionale unificato progettato per gestire senza soluzione di continuità sia la previsione delle rappresentazioni latenti che la loro conversione in forme d'onda nel dominio del tempo. La rete trasformatore funge da potente codificatore, convertendo i mel-spettrogrammi a bassa risoluzione in rappresentazioni nello spazio latente, mentre la rete convoluzionale ingrandisce queste rappresentazioni in forme d'onda ad alta risoluzione. Per migliorare la fedeltà alle alte frequenze, incorporiamo un discriminatore tempo-frequenza multi-banda e multi-scala, insieme a una perdita di ricostruzione mel multi-scala nel processo di addestramento avversario. HiFi-SR è versatile, in grado di ingrandire qualsiasi segnale vocale in ingresso tra 4 kHz e 32 kHz a un tasso di campionamento di 48 kHz. I risultati sperimentali dimostrano che HiFi-SR supera significativamente i metodi SR del parlato esistenti sia in termini di metriche oggettive che di test di preferenza ABX, sia per scenari in-dominio che fuori dominio (https://github.com/modelscope/ClearerVoice-Studio).
Introduciamo GaussianAvatar-Editor, un innovativo framework per la modifica guidata dal testo di avatar animabili a testa Gaussiana che possono essere completamente controllati nell'espressione, nella posa e nel punto di vista. A differenza della modifica 3D Gaussiana statica, la modifica di avatar Gaussiani animabili 4D presenta sfide legate all'occlusione del movimento e all'incoerenza spazio-temporale. Per affrontare questi problemi, proponiamo l'Equazione di Miscelazione Alpha Ponderata (WABE). Questa funzione potenzia il peso della miscelazione delle Gaussiane visibili mentre sopprime l'influenza sulle Gaussiane non visibili, gestendo efficacemente l'occlusione del movimento durante la modifica. Inoltre, per migliorare la qualità della modifica e garantire la coerenza 4D, incorporiamo l'apprendimento avversario condizionale nel processo di modifica. Questa strategia aiuta a perfezionare i risultati modificati e a mantenere la coerenza durante l'animazione. Integrando questi metodi, il nostro GaussianAvatar-Editor raggiunge risultati fotorealistici e coerenti nella modifica animabile Gaussiana 4D. Conduciamo esperimenti approfonditi su vari soggetti per convalidare l'efficacia delle tecniche proposte, dimostrando la superiorità del nostro approccio rispetto ai metodi esistenti. Ulteriori risultati e codice sono disponibili su: [Link al Progetto](https://xiangyueliu.github.io/GaussianAvatar-Editor/).