Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.

Grandi modelli linguistici orchestrando ragionamento strutturato raggiungono il livello di Grandmaster su Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

Introduciamo l'Agente K v1.0, un agente autonomo end-to-end di data science progettato per automatizzare, ottimizzare e generalizzare su diverse attività di data science. Completamente automatizzato, l'Agente K v1.0 gestisce l'intero ciclo di vita della data science apprendendo dall'esperienza. Sfrutta un framework di ragionamento strutturato altamente flessibile che gli consente di elaborare dinamicamente la memoria in una struttura nidificata, imparando efficacemente dall'esperienza accumulata memorizzata per gestire compiti di ragionamento complessi. Ottimizza la memoria a lungo e breve termine memorizzando e recuperando selettivamente informazioni chiave, guidando le decisioni future basate su ricompense ambientali. Questo approccio iterativo gli consente di perfezionare le decisioni senza aggiustamenti fini o backpropagation, raggiungendo un miglioramento continuo attraverso l'apprendimento esperienziale. Valutiamo le capacità del nostro agente utilizzando le competizioni Kaggle come caso di studio. Seguendo un protocollo completamente automatizzato, l'Agente K v1.0 affronta sistematicamente compiti complessi e multimodali di data science, utilizzando l'ottimizzazione bayesiana per l'ottimizzazione degli iperparametri e l'ingegneria delle caratteristiche. Il nostro nuovo framework di valutazione valuta rigorosamente le capacità end-to-end dell'Agente K v1.0 per generare ed inviare sottoposizioni a partire da un URL di competizione Kaggle. I risultati dimostrano che l'Agente K v1.0 raggiunge un tasso di successo del 92,5\% su compiti che spaziano tra domini tabulari, computer vision, NLP e multimodali. Nel confronto con 5.856 concorrenti umani Kaggle calcolando i punteggi Elo-MMR per ciascuno, l'Agente K v1.0 si posiziona nel 38\% superiore, dimostrando un livello di competenza complessivo paragonabile agli utenti di livello Esperto. Inoltre, il suo punteggio Elo-MMR si colloca tra il primo e il terzo quartile dei punteggi ottenuti dai Grandmasters umani. Inoltre, i nostri risultati indicano che l'Agente K v1.0 ha raggiunto un livello di prestazioni equivalente a quello di un Kaggle Grandmaster, con un record di 6 medaglie d'oro, 3 d'argento e 7 di bronzo, come definito dal sistema di progressione di Kaggle.

Sia il testo che le immagini sono trapelati! Un'Analisi Sistematica della Contaminazione dei Dati Multimodali LLM
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

La rapida progressione dei modelli linguistici multimodali di grandi dimensioni (MLLM) ha dimostrato prestazioni superiori su vari benchmark multimodali. Tuttavia, la questione della contaminazione dei dati durante l'addestramento crea sfide nell'valutazione delle prestazioni e nel confronto. Sebbene esistano numerosi metodi per rilevare la contaminazione del dataset nei grandi modelli linguistici (LLM), sono meno efficaci per i MLLM a causa delle loro varie modalità e delle molteplici fasi di addestramento. In questo studio, presentiamo un framework di rilevamento della contaminazione dei dati multimodale, MM-Detect, progettato per i MLLM. I nostri risultati sperimentali indicano che MM-Detect è sensibile a diversi gradi di contaminazione e può evidenziare significativi miglioramenti delle prestazioni dovuti alla fuoriuscita del set di addestramento dei benchmark multimodali. Inoltre, esploriamo anche la possibilità che la contaminazione possa originare dalla fase di pre-addestramento dei LLM utilizzati dai MLLM e dalla fase di raffinamento dei MLLM, offrendo nuove prospettive sulle fasi in cui la contaminazione potrebbe essere introdotta.

Attivazioni di Composizione Polinomiale: Liberare la Dinamica dei Grandi Modelli Linguistici
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

I transformer hanno trovato ampie applicazioni in vari settori grazie alle potenti capacità di adattamento. Questo successo può essere parzialmente attribuito alla loro intrinseca non linearità. Pertanto, oltre alla funzione ReLU impiegata nella struttura originale del transformer, i ricercatori hanno esplorato moduli alternativi come GeLU e SwishGLU per potenziare la non linearità e quindi aumentare la capacità rappresentativa. In questo articolo, proponiamo una nuova categoria di attivazioni a composizione polinomiale (PolyCom), progettate per ottimizzare la dinamica dei transformer. Teoricamente, forniamo un'analisi matematica esaustiva di PolyCom, evidenziando la sua espressività e efficacia potenziate rispetto ad altre funzioni di attivazione. In particolare, dimostriamo che le reti che incorporano PolyCom raggiungono il tasso di approssimazione ottimale, indicando che le reti PolyCom richiedono un numero minimo di parametri per approssimare funzioni lisce generali negli spazi di Sobolev. Conduciamo esperimenti empirici sulle configurazioni di pre-training di grandi modelli linguistici (LLM), includendo sia architetture dense che sparse. Sostituendo le funzioni di attivazione convenzionali con PolyCom, consentiamo ai LLM di catturare interazioni di ordine superiore all'interno dei dati, migliorando così le metriche di prestazione in termini di accuratezza e tassi di convergenza. Estesi risultati sperimentali dimostrano l'efficacia del nostro metodo, mostrando miglioramenti sostanziali rispetto ad altre funzioni di attivazione. Il codice è disponibile su https://github.com/BryceZhuo/PolyCom.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Video generation models are revolutionizing content creation, with image-to-video models drawing increasing attention due to their enhanced controllability, visual consistency, and practical applications. However, despite their popularity, these models rely on user-provided text and image prompts, and there is currently no dedicated dataset for studying these prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of over 1.70 million unique user-provided Text and Image Prompts specifically for Image-to-Video generation. Additionally, we provide the corresponding generated videos from five state-of-the-art image-to-video models. We begin by outlining the time-consuming and costly process of curating this large-scale dataset. Next, we compare TIP-I2V to two popular prompt datasets, VidProM (text-to-video) and DiffusionDB (text-to-image), highlighting differences in both basic and semantic information. This dataset enables advancements in image-to-video research. For instance, to develop better models, researchers can use the prompts in TIP-I2V to analyze user preferences and evaluate the multi-dimensional performance of their trained models; and to enhance model safety, they may focus on addressing the misinformation issue caused by image-to-video models. The new research inspired by TIP-I2V and the differences with existing datasets emphasize the importance of a specialized image-to-video prompt dataset. The project is publicly available at https://tip-i2v.github.io.

Ottimizzazione delle Preferenze di Auto-Consistenza
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

L'auto-allineamento, mediante il quale i modelli imparano a migliorarsi senza annotazioni umane, è un'area di ricerca in rapida crescita. Tuttavia, le tecniche esistenti spesso falliscono nel migliorare compiti di ragionamento complessi a causa della difficoltà nell'assegnare ricompense corrette. Un approccio ortogonale noto per migliorare la correttezza è l'auto-coerenza, un metodo applicato al momento dell'infenza basato su campionamenti multipli per trovare la risposta più coerente. In questo lavoro, estendiamo il concetto di auto-coerenza per aiutare ad addestrare i modelli. Introduciamo quindi l'ottimizzazione delle preferenze di auto-coerenza (ScPO), che addestra iterativamente risposte coerenti a essere preferite rispetto a quelle incoerenti su nuovi problemi non supervisionati. Mostrando che ScPO porta a miglioramenti significativi rispetto all'addestramento del modello con ricompense convenzionali in compiti di ragionamento come GSM8K e MATH, riducendo il divario con l'addestramento supervisionato con risposte o preferenze corrette, e che combinare ScPO con l'apprendimento supervisionato standard migliora ulteriormente i risultati. Su ZebraLogic, ScPO ottimizza Llama-3 8B per essere superiore a Llama-3 70B, Gemma-2 27B e Claude-3 Haiku.

Da Medprompt a o1: Esplorazione delle Strategie in Tempo di Esecuzione per Problemi Sfida Medica e Oltre
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

Strategie di guida in tempo di esecuzione come Medprompt sono preziose per guidare grandi modelli linguistici (LLM) verso prestazioni di alto livello su compiti impegnativi. Medprompt dimostra che un LLM generale può essere focalizzato per ottenere prestazioni all'avanguardia in domini specializzati come la medicina utilizzando un prompt per suscitare una strategia in tempo di esecuzione che coinvolge il ragionamento a catena e l'ensemble. Il modello o1-preview di OpenAI rappresenta un nuovo paradigma, in cui un modello è progettato per eseguire un ragionamento in tempo di esecuzione prima di generare risposte finali. Cerchiamo di comprendere il comportamento di o1-preview su un insieme diversificato di benchmark di sfide mediche. Seguendo lo studio Medprompt con GPT-4, valutiamo sistematicamente il modello o1-preview su vari benchmark medici. In particolare, anche senza tecniche di prompting, o1-preview supera ampiamente la serie GPT-4 con Medprompt. Studiamo inoltre sistematicamente l'efficacia delle classiche strategie di ingegneria dei prompt, rappresentate da Medprompt, all'interno del nuovo paradigma dei modelli di ragionamento. Abbiamo riscontrato che il prompting a pochi esempi ostacola le prestazioni di o1, suggerendo che l'apprendimento in contesto potrebbe non essere più un approccio efficace per i modelli nativi di ragionamento. Sebbene l'ensemble rimanga valido, è intensivo in termini di risorse e richiede un'ottimizzazione attenta dei costi e delle prestazioni. La nostra analisi dei costi e dell'accuratezza tra le strategie in tempo di esecuzione rivela una frontiera di Pareto, con GPT-4o che rappresenta un'opzione più conveniente e o1-preview che raggiunge prestazioni all'avanguardia a un costo più elevato. Anche se o1-preview offre prestazioni di alto livello, GPT-4o con strategie di guida come Medprompt conserva valore in contesti specifici. Inoltre, notiamo che il modello o1-preview ha raggiunto una quasi saturazione su molti benchmark medici esistenti, sottolineando la necessità di nuovi benchmark impegnativi. Concludiamo con riflessioni sulle direzioni generali per il calcolo in tempo di inferenza con LLM.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Grandi modelli linguistici orchestrando ragionamento strutturato raggiungono il livello di Grandmaster su Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

Sia il testo che le immagini sono trapelati! Un'Analisi Sistematica della Contaminazione dei Dati Multimodali LLM
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

Attivazioni di Composizione Polinomiale: Liberare la Dinamica dei Grandi Modelli Linguistici
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Ottimizzazione delle Preferenze di Auto-Consistenza
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

Da Medprompt a o1: Esplorazione delle Strategie in Tempo di Esecuzione per Problemi Sfida Medica e Oltre
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz