AI研究論文每日精選

每日精選AI研究論文及翻譯

ReCapture：使用遮罩式影片微調的生成式攝影機控制用戶提供的影片
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

最近，影片建模方面的突破使得在生成的影片中實現可控制的相機軌跡成為可能。然而，這些方法無法直接應用於非由影片模型生成的用戶提供的影片。本文提出了一種名為 ReCapture 的方法，用於從單個用戶提供的影片生成具有新相機軌跡的新影片。我們的方法允許我們以截然不同的角度和具有電影相機運動重新生成參考影片，並保留所有現有場景運動。值得注意的是，使用我們的方法，我們還可以合理地幻想出參考影片中未能觀察到的場景部分。我們的方法通過以下步驟實現：(1) 使用多視圖擴散模型或基於深度的點雲渲染生成具有新相機軌跡的噪聲錨點影片，然後 (2) 利用我們提出的遮罩式影片微調技術，將錨點影片再生為乾淨且時間上一致的重新角度影片。

大型語言模型結合結構化推理，達到 Kaggle 冠軍水平
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

我們介紹 Agent K v1.0，一個端對端的自主數據科學代理，旨在自動化、優化和泛化各種數據科學任務。Agent K v1.0 是完全自動化的，通過從經驗中學習，管理整個數據科學生命周期。它利用高度靈活的結構推理框架，使其能夠動態處理記憶，以巢狀結構有效地從積累的經驗中學習，以應對複雜的推理任務。它通過有選擇性地存儲和檢索關鍵信息，優化長期和短期記憶，並基於環境獎勵指導未來決策。這種迭代方法使其能夠在不需要微調或反向傳播的情況下完善決策，通過體驗學習實現持續改進。我們使用 Kaggle 競賽作為案例研究來評估我們代理的能力。按照完全自動化的協議，Agent K v1.0 系統地處理複雜和多模態的數據科學任務，利用貝葉斯優化進行超參數調整和特徵工程。我們的新評估框架嚴格評估 Agent K v1.0 的端對端能力，從 Kaggle 競賽 URL 開始生成並提交結果。結果表明，Agent K v1.0 在各種任務中實現了 92.5\% 的成功率，涵蓋表格、計算機視覺、自然語言處理和多模態領域。通過計算每個參賽者的 Elo-MMR 分數，與 5,856 名人類 Kaggle 參賽者進行基準測試，Agent K v1.0 在排名中位於前 38\%，展示出與專家級用戶相當的整體技能水平。值得注意的是，其 Elo-MMR 分數介於人類特級大師所獲得分數的第一和第三四分位數之間。此外，我們的結果表明，Agent K v1.0 已達到了與 Kaggle 特級大師相當的表現水平，憑藉 6 枚金牌、3 枚銀牌和 7 枚銅牌的成績，符合 Kaggle 的晉級制度定義。

文本和圖像都被洩露了！對多模態LLM的數據污染進行系統分析
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

多模式大型語言模型（MLLMs）的快速發展在各種多模式基準測試中展現出卓越的性能。然而，在訓練過程中出現的數據污染問題對性能評估和比較構成挑戰。儘管存在許多用於檢測大型語言模型（LLMs）中數據集污染的方法，但由於多模式和多個訓練階段，這些方法對於MLLMs的效果較差。在本研究中，我們引入了一個針對MLLMs設計的多模式數據污染檢測框架MM-Detect。我們的實驗結果表明，MM-Detect對不同程度的污染具有敏感性，並且能夠突顯由於多模式基準測試的訓練集泄漏而帶來的顯著性能改進。此外，我們還探討了污染可能源於MLLMs使用的LLMs的預訓練階段以及MLLMs的微調階段，從而提供了有關污染可能引入的階段的新見解。

多項式組合激活：釋放大型語言模型的動態
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

由於其強大的擬合能力，Transformer 在各個領域中已經找到廣泛的應用。這種成功部分歸因於它們固有的非線性。因此，除了原始 Transformer 結構中使用的 ReLU 函數外，研究人員還探索了諸如 GeLU 和 SwishGLU 等替代模塊，以增強非線性，從而擴大表示能力。在本文中，我們提出了一種新類別的多項式組合激活函數（PolyCom），旨在優化 Transformer 的動態特性。從理論上講，我們對 PolyCom 進行了全面的數學分析，突出了相對於其他激活函數的增強表達能力和有效性。值得注意的是，我們證明了集成 PolyCom 的網絡實現了最佳的逼近速率，這表明 PolyCom 網絡需要最少的參數來逼近 Sobolev 空間中的一般平滑函數。我們對大型語言模型（LLM）的預訓練配置進行了實證實驗，包括密集和稀疏結構。通過將傳統激活函數替換為 PolyCom，我們使 LLM 能夠捕捉數據中的高階交互作用，從而在準確性和收斂速率方面改善性能指標。廣泛的實驗結果證明了我們方法的有效性，顯示相對於其他激活函數，取得了顯著的改進。程式碼可在 https://github.com/BryceZhuo/PolyCom 找到。

TIP-I2V：用於圖像生成視頻的百萬規模真實文本和圖像提示數據集
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

影片生成模型正在革新內容創作，其中圖像到影片模型因其增強的可控性、視覺一致性和實際應用而受到越來越多的關注。然而，儘管這些模型很受歡迎，但它們仍依賴用戶提供的文本和圖像提示，目前還沒有專門用於研究這些提示的數據集。在本文中，我們介紹了 TIP-I2V，這是第一個大規模數據集，包含超過 170 萬個獨特的用戶提供的文本和圖像提示，專門用於圖像到影片生成。此外，我們提供了來自五種最先進的圖像到影片模型生成的相應影片。我們首先概述了策劃這一大規模數據集的耗時和昂貴過程。接下來，我們將 TIP-I2V 與兩個流行的提示數據集 VidProM（文本到影片）和DiffusionDB（文本到圖像）進行比較，突出了基本和語義信息方面的差異。該數據集促進了圖像到影片研究的進步。例如，為了開發更好的模型，研究人員可以使用 TIP-I2V 中的提示來分析用戶偏好並評估其訓練模型的多維性能；為了增強模型的安全性，他們可以專注於解決由圖像到影片模型引起的信息錯誤問題。TIP-I2V 激發的新研究以及與現有數據集的差異突顯了專門的圖像到影片提示數據集的重要性。該項目可在 https://tip-i2v.github.io 公開獲取。

自洽性偏好優化
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

自我對齊是一個快速發展的研究領域，模型在沒有人類標註的情況下學習改進自身。然而，由於難以確定正確的獎勵，現有技術通常無法改進複雜的推理任務。一種已知能提高正確性的正交方法是自我一致性，在推論時應用多次取樣，以找到最一致的答案。在這項工作中，我們將自我一致性概念擴展到幫助訓練模型。因此，我們引入自我一致性偏好優化（ScPO），通過迭代訓練一致的答案，使其優於不一致的答案，應用於無監督的新問題。我們展示了ScPO在推理任務（如GSM8K和MATH）上比傳統的獎勵模型訓練取得了巨大改進，縮小了與帶有黃金答案或偏好的監督訓練之間的差距，並且將ScPO與標準監督學習結合可以進一步改善結果。在ZebraLogic上，ScPO微調Llama-3 8B，使其優於Llama-3 70B、Gemma-2 27B和Claude-3 Haiku。

從Medprompt到o1：探索醫學挑戰問題及更多情境下的運行時策略
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

像Medprompt這樣的運行時導向策略對引導大型語言模型（LLMs）在具有挑戰性任務上取得頂尖表現非常有價值。Medprompt展示了通用LLM可以通過使用提示來引出涉及思維鏈推理和集成的運行時策略，從而實現在醫學等專業領域提供最先進表現。OpenAI的o1-preview模型代表了一種新範式，其中一個模型被設計為在生成最終回應之前進行運行時推理。我們致力於了解o1-preview在各種醫學挑戰問題基準上的行為。在Medprompt與GPT-4的研究基礎上，我們系統評估o1-preview模型在各種醫學基準上的表現。值得注意的是，即使沒有提示技術，o1-preview在很大程度上優於具有Medprompt的GPT-4系列。我們進一步系統研究了經典提示工程策略的有效性，如Medprompt所代表的，在推理模型的新範式中。我們發現少量提示阻礙了o1的表現，這表明在場景內學習可能不再是推理本地模型的有效導向方法。雖然集成仍然可行，但它需要大量資源並需要仔細的成本效能優化。我們在運行時策略上的成本和準確性分析顯示了帕累托前沿，GPT-4o代表了一個更經濟實惠的選擇，而o1-preview在更高成本下實現了最先進的表現。儘管o1-preview提供了頂尖表現，但像Medprompt這樣的導向策略使GPT-4o在特定情境中仍具有價值。此外，我們注意到o1-preview模型在許多現有醫學基準上已接近飽和，突顯了對新的具有挑戰性的基準的需求。我們最後對與LLMs的推理時計算的一般方向進行反思。

AI研究論文每日精選

每日精選AI研究論文及翻譯

ReCapture：使用遮罩式影片微調的生成式攝影機控制用戶提供的影片
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

大型語言模型結合結構化推理，達到 Kaggle 冠軍水平
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

文本和圖像都被洩露了！對多模態LLM的數據污染進行系統分析
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

多項式組合激活：釋放大型語言模型的動態
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

TIP-I2V：用於圖像生成視頻的百萬規模真實文本和圖像提示數據集
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

自洽性偏好優化
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

從Medprompt到o1：探索醫學挑戰問題及更多情境下的運行時策略
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz