AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.

Grote taalmodellen die gestructureerd redeneren orchestreren bereiken het niveau van Kaggle Grandmaster.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

We introduceren Agent K v1.0, een end-to-end autonome data science agent ontworpen om diverse data science taken te automatiseren, optimaliseren en generaliseren. Volledig geautomatiseerd beheert Agent K v1.0 de gehele levenscyclus van data science door te leren van ervaring. Het maakt gebruik van een zeer flexibel gestructureerd redeneerkader om dynamisch geheugen te verwerken in een geneste structuur, waarbij effectief wordt geleerd van opgeslagen opgebouwde ervaring om complexe redeneertaken aan te pakken. Het optimaliseert het lange- en korte termijngeheugen door selectief belangrijke informatie op te slaan en op te halen, waardoor toekomstige beslissingen worden geleid op basis van omgevingsbeloningen. Deze iteratieve benadering stelt het in staat beslissingen te verfijnen zonder fijnafstemming of backpropagatie, wat leidt tot continue verbetering door ervaringsleren. We evalueren de mogelijkheden van onze agent met behulp van Kaggle-competities als casestudy. Volgens een volledig geautomatiseerd protocol adresseert Agent K v1.0 systematisch complexe en multimodale data science taken, waarbij Bayesian optimalisatie wordt toegepast voor hyperparameterafstemming en functie-engineering. Ons nieuwe evaluatiekader beoordeelt rigoureus de end-to-end mogelijkheden van Agent K v1.0 om inzendingen te genereren en te verzenden vanaf een Kaggle-competitie-URL. De resultaten tonen aan dat Agent K v1.0 een succespercentage van 92,5\% behaalt over taken, variërend van tabulaire, computer vision, NLP en multimodale domeinen. Bij benchmarking tegen 5.856 menselijke Kaggle-deelnemers door Elo-MMR-scores te berekenen voor elk, rangschikt Agent K v1.0 in de top 38\%, wat een algeheel vaardigheidsniveau aantoont dat vergelijkbaar is met gebruikers op expertniveau. Opmerkelijk is dat zijn Elo-MMR-score tussen het eerste en derde kwartiel van scores van menselijke Grandmasters valt. Bovendien geven onze resultaten aan dat Agent K v1.0 een prestatieniveau heeft bereikt dat equivalent is aan Kaggle Grandmaster, met een record van 6 gouden, 3 zilveren en 7 bronzen medailles, zoals gedefinieerd door het voortgangssysteem van Kaggle.

Zowel tekst als afbeeldingen gelekt! Een systematische analyse van multimodale LLM-gegevensverontreiniging.
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

De snelle vooruitgang van multimodale grote taalmodellen (MLLM's) heeft superieure prestaties aangetoond op verschillende multimodale benchmarks. Echter, het probleem van gegevensverontreiniging tijdens training zorgt voor uitdagingen bij prestatie-evaluatie en vergelijking. Hoewel er talrijke methoden bestaan voor het detecteren van datasetverontreiniging in grote taalmodellen (LLM's), zijn ze minder effectief voor MLLM's vanwege hun verschillende modaliteiten en meerdere trainingsfasen. In deze studie introduceren we een multimodale gegevensverontreinigingsdetectiekader, MM-Detect, ontworpen voor MLLM's. Onze experimentele resultaten geven aan dat MM-Detect gevoelig is voor verschillende gradaties van verontreiniging en significante prestatieverbeteringen kan aantonen als gevolg van lekkage van de trainingsset van multimodale benchmarks. Verder onderzoeken we ook de mogelijkheid van verontreiniging die voortkomt uit de pre-trainingsfase van LLM's die worden gebruikt door MLLM's en de fine-tuningfase van MLLM's, wat nieuwe inzichten biedt in de fasen waarin verontreiniging kan worden geïntroduceerd.

Polynomiale Compositie Activaties: Het Ontketenen van de Dynamiek van Grote Taalmodellen
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

Transformers hebben uitgebreide toepassingen gevonden in verschillende domeinen vanwege hun krachtige aanpassingsvermogen. Dit succes kan gedeeltelijk worden toegeschreven aan hun inherente niet-lineariteit. Daarom hebben onderzoekers, naast de ReLU-functie die wordt gebruikt in de oorspronkelijke transformer-architectuur, alternatieve modules zoals GeLU en SwishGLU verkend om de niet-lineariteit te verbeteren en daarmee de representatiecapaciteit te vergroten. In dit artikel stellen we een nieuwe categorie van polynomiale samenstellingsactivaties (PolyCom) voor, ontworpen om de dynamiek van transformers te optimaliseren. Theoretisch bieden we een uitgebreide wiskundige analyse van PolyCom, waarbij de verbeterde expressiviteit en effectiviteit ten opzichte van andere activatiefuncties worden benadrukt. Opmerkelijk is dat we aantonen dat netwerken met PolyCom de optimale benaderingssnelheid bereiken, wat aangeeft dat PolyCom-netwerken minimale parameters nodig hebben om algemene gladde functies in Sobolev-ruimten te benaderen. We voeren empirische experimenten uit op de pre-training configuraties van grote taalmodellen (LLMs), inclusief zowel dichte als schaarse architecturen. Door conventionele activatiefuncties te vervangen door PolyCom, stellen we LLMs in staat om interacties van hogere orde binnen de gegevens vast te leggen, waardoor prestatie-indicatoren op het gebied van nauwkeurigheid en convergentiesnelheden verbeteren. Uitgebreide experimentele resultaten tonen de effectiviteit van onze methode aan, met aanzienlijke verbeteringen ten opzichte van andere activatiefuncties. De code is beschikbaar op https://github.com/BryceZhuo/PolyCom.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Video generation models are revolutionizing content creation, with image-to-video models drawing increasing attention due to their enhanced controllability, visual consistency, and practical applications. However, despite their popularity, these models rely on user-provided text and image prompts, and there is currently no dedicated dataset for studying these prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of over 1.70 million unique user-provided Text and Image Prompts specifically for Image-to-Video generation. Additionally, we provide the corresponding generated videos from five state-of-the-art image-to-video models. We begin by outlining the time-consuming and costly process of curating this large-scale dataset. Next, we compare TIP-I2V to two popular prompt datasets, VidProM (text-to-video) and DiffusionDB (text-to-image), highlighting differences in both basic and semantic information. This dataset enables advancements in image-to-video research. For instance, to develop better models, researchers can use the prompts in TIP-I2V to analyze user preferences and evaluate the multi-dimensional performance of their trained models; and to enhance model safety, they may focus on addressing the misinformation issue caused by image-to-video models. The new research inspired by TIP-I2V and the differences with existing datasets emphasize the importance of a specialized image-to-video prompt dataset. The project is publicly available at https://tip-i2v.github.io.

Optimalisatie van Voorkeur voor Zelf-Consistentie
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

Zelfuitlijning, waarbij modellen leren zichzelf te verbeteren zonder menselijke annotatie, is een snelgroeiend onderzoeksgebied. Bestaande technieken falen echter vaak om complexe redeneertaken te verbeteren vanwege de moeilijkheid om juiste beloningen toe te wijzen. Een orthogonale benadering die bekend staat om het verbeteren van juistheid is zelfconsistentie, een methode die wordt toegepast op inferentietijd op basis van meerdere steekproeven om het meest consistente antwoord te vinden. In dit werk breiden we het concept van zelfconsistentie uit om modellen te helpen trainen. We introduceren daarom zelfconsistentievoorkeursoptimalisatie (ScPO), die iteratief traint om consistente antwoorden te verkiezen boven inconsistente op ongesuperviseerde nieuwe problemen. We tonen aan dat ScPO leidt tot grote verbeteringen ten opzichte van conventionele modeltraining met beloningen op redeneertaken zoals GSM8K en MATH, waarmee het gat met supervisietraining met gouden antwoorden of voorkeuren wordt gedicht, en dat het combineren van ScPO met standaard supervisie het resultaat nog verder verbetert. Op ZebraLogic finetunet ScPO Llama-3 8B om superieur te zijn aan Llama-3 70B, Gemma-2 27B en Claude-3 Haiku.

Van Medprompt tot o1: Verkenning van Run-Time Strategieën voor Medische Uitdagingen en Verder
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

Run-time stuurstrategieën zoals Medprompt zijn waardevol voor het begeleiden van grote taalmodellen (LLM's) naar topprestaties op uitdagende taken. Medprompt toont aan dat een algemeen LLM gericht kan worden om state-of-the-art prestaties te leveren op gespecialiseerde domeinen zoals geneeskunde door een prompt te gebruiken om een run-time strategie te activeren met redeneren in ketens en ensembling. Het o1-preview model van OpenAI vertegenwoordigt een nieuw paradigma, waarbij een model is ontworpen om run-time redeneren uit te voeren voordat het definitieve antwoorden genereert. We streven ernaar het gedrag van o1-preview te begrijpen op een divers scala van medische uitdaging problemen. Voortbouwend op de Medprompt studie met GPT-4, evalueren we systematisch het o1-preview model over verschillende medische benchmarks. Opmerkelijk is dat zelfs zonder prompting technieken, o1-preview grotendeels beter presteert dan de GPT-4 serie met Medprompt. We bestuderen verder systematisch de effectiviteit van klassieke prompt engineering strategieën, zoals vertegenwoordigd door Medprompt, binnen het nieuwe paradigma van redenerende modellen. We hebben vastgesteld dat few-shot prompting de prestaties van o1 belemmert, wat suggereert dat in-context leren mogelijk niet langer een effectieve stuurstrategie is voor redenerende modellen. Hoewel ensembling haalbaar blijft, is het resource-intensief en vereist het zorgvuldige optimalisatie van kosten en prestaties. Onze kosten- en nauwkeurigheidsanalyse over run-time strategieën onthult een Pareto-frontier, waarbij GPT-4o een betaalbaardere optie vertegenwoordigt en o1-preview state-of-the-art prestaties behaalt tegen een hogere kostprijs. Hoewel o1-preview top prestaties biedt, behoudt GPT-4o met stuurstrategieën zoals Medprompt waarde in specifieke contexten. Bovendien merken we op dat het o1-preview model bij veel bestaande medische benchmarks bijna verzadigd is, wat benadrukt dat er behoefte is aan nieuwe, uitdagende benchmarks. We sluiten af met overwegingen over algemene richtingen voor inferentie-tijd berekeningen met LLM's.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Grote taalmodellen die gestructureerd redeneren orchestreren bereiken het niveau van Kaggle Grandmaster.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

Zowel tekst als afbeeldingen gelekt! Een systematische analyse van multimodale LLM-gegevensverontreiniging.
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

Polynomiale Compositie Activaties: Het Ontketenen van de Dynamiek van Grote Taalmodellen
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Optimalisatie van Voorkeur voor Zelf-Consistentie
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

Van Medprompt tot o1: Verkenning van Run-Time Strategieën voor Medische Uitdagingen en Verder
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz