AI研究論文每日精選

每日精選AI研究論文及翻譯

STIV：可擴展的文本和圖像條件視頻生成
STIV: Scalable Text and Image Conditioned Video Generation

Dec 10

ByZongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang

在影片生成領域取得了顯著的進展，但仍迫切需要一個清晰、系統化的配方，來引導強健且可擴展模型的開發。在這項工作中，我們提出了一項全面研究，系統地探索了模型架構、訓練配方和數據整理策略之間的相互作用，最終形成了一種簡單且可擴展的文本-圖像條件影片生成方法，名為STIV。我們的框架通過幀替換將圖像條件整合到擴散Transformer（DiT）中，同時通過聯合圖像-文本條件無分類器指導來整合文本條件。這種設計使STIV能夠同時執行文本到影片（T2V）和文本-圖像到影片（TI2V）任務。此外，STIV可以輕鬆擴展到各種應用，如影片預測、幀插補、多視角生成和長影片生成等。通過對T2I、T2V和TI2V進行全面的消融研究，STIV表現出強大的性能，儘管其設計簡單。一個具有512分辨率的87億模型在VBench T2V上達到83.1的分數，超越了CogVideoX-5B、Pika、Kling和Gen-3等領先的開源和封閉源模型。相同大小的模型在512分辨率下還實現了VBench I2V任務的最新成果90.1。通過提供一個透明且可擴展的配方來構建尖端影片生成模型，我們旨在賦予未來研究更多的能量，並加速朝著更多功能和可靠的影片生成解決方案的進展。

評估並校準 CodeLLMs 以符合人類偏好
Evaluating and Aligning CodeLLMs on Human Preference

Dec 6

ByJian Yang, Jiaxi Yang, Ke Jin, Yibo Miao, Lei Zhang, Liqun Yang, Zeyu Cui, Yichang Zhang, Binyuan Hui, Junyang Lin

大型語言模型（codeLLMs）在程式碼生成方面取得了重大進展。先前的程式碼相關基準測試，包括各種程式設計練習和相應的測試案例，被用作評估程式碼LLMs性能和能力的共同標準。然而，目前的程式碼LLMs專注於合成正確的程式碼片段，忽略了與人類偏好的一致性，其中查詢應該來自實際應用場景，而模型生成的回應應滿足人類偏好。為了彌合模型生成的回應與人類偏好之間的差距，我們提出了一個嚴謹的人工策劃基準CodeArena，以模擬現實世界編碼任務的複雜性和多樣性，其中包括來自用戶查詢的397個高質量樣本，涵蓋40個類別和44種程式語言。此外，我們提出了一個多樣化的合成指令語料庫SynCode-Instruct（近20B個標記），通過從網站擴展指令來驗證大規模合成指令微調的有效性，其中完全在合成指令數據上訓練的Qwen2.5-SynCoder可以實現開源程式碼LLMs的頂尖性能。研究結果發現執行基準測試和CodeArena之間的性能差異。我們對40多個LLMs的CodeArena進行系統性實驗，揭示了開源SOTA程式碼LLMs（例如Qwen2.5-Coder）和專有LLMs（例如OpenAI o1）之間的顯著性能差距，突顯了人類偏好一致性的重要性。

DiffSensei：連接多模式LLM和擴散模型以進行定制漫畫生成
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Dec 10

ByJianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong

故事視覺化是從文字描述中創建視覺敘事的任務，隨著文本到圖像生成模型的進展而有所進步。然而，這些模型通常缺乏對角色外觀和互動的有效控制，特別是在多角色場景中。為了應對這些限制，我們提出了一個新任務：定制漫畫生成，並引入DiffSensei，一個專門設計用於生成具有動態多角色控制的漫畫的創新框架。DiffSensei將基於擴散的圖像生成器與多模態大型語言模型（MLLM）相結合，後者充當文本兼容的身份適配器。我們的方法採用遮罩交叉注意力，無縫地融入角色特徵，實現精確的布局控制，而無需直接像素傳輸。此外，基於MLLM的適配器調整角色特徵以與面板特定的文本提示對齊，從而允許在角色表情、姿勢和動作中進行靈活調整。我們還介紹了MangaZero，這是一個針對此任務量身定制的大規模數據集，包含43,264頁漫畫和427,147個帶注釋的面板，支持在連續幀中可視化各種角色互動和動作。廣泛的實驗表明，DiffSensei優於現有模型，在漫畫生成方面取得了重大進展，實現了可通過文本調整的角色定制。項目頁面為https://jianzongwu.github.io/projects/diffsensei/。

ACDiT：插值自回歸條件建模與擴散Transformer
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

Dec 10

ByJinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun

近來對綜合多模型的興趣激增，迫使各種模態得以統一。然而，這種統一受到不同方法論的影響。持續的視覺生成需要全序列擴散式方法，儘管這與文本領域中的自回歸建模有所不同。我們認為自回歸建模，即基於過去確定性經驗來預測未來，對於發展視覺生成模型和潛在的統一多模型至關重要。本文探討了自回歸建模和全參數擴散之間的插值，以建模視覺信息。在核心部分，我們提出了ACDiT，一種自回歸分塊條件擴散Transformer，其中擴散的區塊大小，即自回歸單元的大小，可以靈活調整，以在標記級自回歸和全序列擴散之間進行插值。ACDiT易於實現，只需在訓練期間創建Skip-Causal Attention Mask（SCAM）即可。在推論期間，該過程在擴散去噪和自回歸解碼之間迭代，可以充分利用KV-Cache。我們驗證了ACDiT在圖像和視頻生成任務上的有效性。我們還展示了得益於自回歸建模，ACDiT可以無縫地應用於視覺理解任務，儘管是在擴散目標上進行訓練。對自回歸建模和擴散之間的權衡進行分析，展示了ACDiT在長時間視覺生成任務中的潛力。這些優勢使其有望成為未來統一模型的骨幹。

隱藏在噪音中：圖像的兩階段強健浮水印技術
Hidden in the Noise: Two-Stage Robust Watermarking for Images

Dec 5

ByKasra Arabi, Benjamin Feuer, R. Teal Witter, Chinmay Hegde, Niv Cohen

隨著影像生成器的品質不斷提高，Deepfakes 已成為一個引起社會廣泛討論的話題。影像浮水印技術讓負責的模型擁有者能夠檢測並標記其由人工智慧生成的內容，進而減輕損害。然而，目前在影像浮水印技術方面的最先進方法仍然容易受到偽造和移除攻擊的影響。這種弱點部分原因在於浮水印會扭曲生成的影像分佈，無意中透露了有關浮水印技術的信息。在這項研究中，我們首先展示了一種基於擴散模型初始噪聲的無失真浮水印方法。然而，檢測浮水印需要將為一幅影像重建的初始噪聲與先前使用的所有初始噪聲進行比較。為了減輕這些問題，我們提出了一種兩階段浮水印框架以實現高效的檢測。在生成過程中，我們利用生成的傅立葉模式來擴充初始噪聲，以嵌入有關我們使用的初始噪聲組的信息。在檢測過程中，我們 (i) 檢索相關的噪聲組，並 (ii) 在給定組中尋找可能與我們的影像匹配的初始噪聲。這種浮水印方法實現了對偽造和移除的最先進抵抗能力，抵禦了各種攻擊。

UniReal：通過學習真實世界動態的方式進行通用圖像生成和編輯
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Dec 10

ByXi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao

我們介紹UniReal，這是一個統一框架，旨在應對各種圖像生成和編輯任務。現有解決方案通常根據任務而有所不同，但共享基本原則：在捕捉視覺變化的同時保持輸入和輸出之間的一致性。受到最近有效平衡幀間一致性和變化的視頻生成模型的啟發，我們提出了一種統一方法，將圖像級任務視為不連續的視頻生成。具體而言，我們將不同數量的輸入和輸出圖像視為幀，從而無縫支持圖像生成、編輯、定制、合成等任務。儘管設計用於圖像級任務，但我們利用視頻作為通用監督的可擴展來源。UniReal從大規模視頻中學習世界動態，展示了處理陰影、反射、姿勢變化和物體交互的高級能力，同時還展現了對新應用的新興能力。

FiVA：用於文本到圖像擴散模型的精細視覺屬性數據集
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

Dec 10

ByTong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein

最近在文本到圖像生成方面取得的進展使得創建具有多樣應用的高質量圖像成為可能。然而，準確描述所需的視覺特徵可能具有挑戰性，尤其對於藝術和攝影非專家而言。一個直觀的解決方案是從源圖像中採用有利的特徵。目前的方法試圖從源圖像中提煉身份和風格。然而，“風格”是一個廣泛的概念，包括紋理、顏色和藝術元素，但並不涵蓋其他重要的屬性，如燈光和動態。此外，簡化的“風格”適應會阻礙將來自不同源的多個屬性結合到一個生成的圖像中。在這項工作中，我們制定了一種更有效的方法，將圖片的美學分解為特定的視覺屬性，使用戶能夠從不同圖像應用照明、紋理和動態等特徵。為了實現這一目標，我們構建了我們所知的第一個細粒度視覺屬性數據集（FiVA）。這個FiVA數據集具有為視覺屬性組織良好的分類法，包括約1百萬張帶有視覺屬性標註的高質量生成圖像。利用這個數據集，我們提出了一個細粒度視覺屬性適應框架（FiVA-Adapter），它將一個或多個源圖像中的視覺屬性解耦並適應到生成的圖像中。這種方法增強了用戶友好的定製功能，使用戶能夠選擇性地應用所需的屬性，創建符合其獨特偏好和具體內容要求的圖像。

移動視頻傳播
Mobile Video Diffusion

Dec 10

ByHaitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian

影片擴散模型已經取得了令人印象深刻的逼真性和可控性，但受到高計算需求的限制，限制了它們在移動設備上的應用。本文介紹了第一個針對移動設備優化的影片擴散模型。從穩定影片擴散（SVD）的時空UNet開始，我們通過降低幀分辨率、融入多尺度時序表示，並引入兩種新的剪枝模式來降低通道數和時序塊的數量，從而降低內存和計算成本。此外，我們採用對抗微調來將去噪減少到一個步驟。我們的模型，被稱為MobileVD，在效率上提高了523倍（1817.2 vs. 4.34 TFLOPs），並且僅有輕微的質量下降（FVD 149 vs. 171），在小米14 Pro上在1.7秒內為一個14x512x256像素的片段生成潛像。我們的結果可在https://qualcomm-ai-research.github.io/mobile-video-diffusion/上查看。

3DTrajMaster：在影片生成中掌握多實體運動的3D軌跡
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Dec 10

ByXiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin

本文旨在操控多實體的三維運動以生成影片。先前在可控影片生成方面的方法主要利用二維控制信號來操控物體運動，並取得了顯著的合成結果。然而，二維控制信號在表達物體運動的三維性質方面存在固有的限制。為了克服這個問題，我們引入了3DTrajMaster，這是一個強大的控制器，根據用戶所需的實體六自由度姿勢（位置和旋轉）序列來調節三維空間中的多實體動態。我們方法的核心是一個即插即用的三維運動基礎物體注入器，通過閘控自注意機制將多個輸入實體與它們各自的三維軌跡融合在一起。此外，我們利用一個注入器架構來保留影片擴散先驗，這對於泛化能力至關重要。為了減輕影片質量下降問題，我們在訓練期間引入了一個域適配器，並在推論期間採用一種退火取樣策略。為了解決缺乏合適訓練數據的問題，我們構建了一個360-Motion數據集，首先將收集的三維人類和動物資產與GPT生成的軌跡相關聯，然後在不同的三維虛擬環境平台上使用12個均勻分布的攝像機捕捉它們的運動。大量實驗表明，3DTrajMaster在控制多實體的三維運動方面在準確性和泛化能力上設立了新的技術水準。項目頁面：http://fuxiao0719.github.io/projects/3dtrajmaster

花崗岩守衛
Granite Guardian

Dec 10

ByInkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri

我們介紹Granite Guardian模型，這是一套旨在為提示和回應提供風險檢測的保護措施，可與任何大型語言模型（LLM）結合使用，以確保安全和負責任的使用。這些模型在多個風險維度上提供全面覆蓋，包括社會偏見、粗話、暴力、性內容、不道德行為、越獄和與幻覺相關的風險，如上下文相關性、基礎性和檢索增強生成（RAG）的答案相關性。Granite Guardian模型是通過結合來自多個來源的人類標註和合成數據訓練而成，解決了傳統風險檢測模型通常忽視的風險，例如越獄和RAG特定問題。在有害內容和RAG幻覺相關基準上的AUC分別為0.871和0.854，Granite Guardian是當前空間中最具泛化性和競爭力的模型。Granite Guardian作為開源發布，旨在促進社區內負責任的AI開發。 https://github.com/ibm-granite/granite-guardian

MoViE：行動式視頻編輯的擴散
MoViE: Mobile Diffusion for Video Editing

Dec 9

ByAdil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian

最近在基於擴散的影片編輯方面取得了顯著的進展，展現了實際應用的巨大潛力。然而，這些方法仍然價格昂貴且難以在移動設備上部署。在本研究中，我們介紹了一系列優化方案，使移動影片編輯成為可能。我們在現有的圖像編輯模型基礎上進行優化，並加入了輕量級自編碼器。隨後，我們將無分類器指導蒸餾擴展到多個模態，實現了三倍的設備內加速。最後，我們通過引入一種新穎的對抗式蒸餾方案，將採樣步驟數量減少到一個，從而保留了編輯過程的可控性。總的來說，這些優化方案使得在移動設備上以每秒12幀的速度進行影片編輯成為可能，同時保持高質量。我們的研究結果可在https://qualcomm-ai-research.github.io/mobile-video-editing/ 上查閱。

使用擴散Transformer進行視頻動作轉移
Video Motion Transfer with Diffusion Transformers

Dec 10

ByAlexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati

我們提出了 DiTFlow，一種用於將參考影片的動作轉移到新合成影片的方法，專門設計用於擴散Transformer（DiT）。我們首先使用預先訓練的DiT處理參考影片，以分析跨幀注意力地圖並提取稱為注意力運動流（AMF）的分區式運動信號。我們通過優化潛在變量與我們的AMF損失來引導基於優化的無需訓練的潛在去噪過程，以生成重現參考影片動作的影片。我們還將我們的優化策略應用於Transformer位置嵌入，使我們在零樣本運動轉移能力上獲得提升。我們通過多個指標和人類評估對DiTFlow進行評估，優於最近發表的方法。

框架表示假設：多標記LLM可解釋性與概念導向文本生成
Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation

Dec 10

ByPedro H. V. Valois, Lincon S. Souza, Erica K. Shimomoto, Kazuhiro Fukui

在促進大型語言模型（LLMs）建立信任方面，可解釋性是一個關鍵挑戰，其根源於從模型參數中提取推理的複雜性。我們提出了框架表示假說，這是一個理論上堅固的框架，基於線性表示假說（LRH），用於解釋和控制LLMs，通過對多標記詞進行建模。先前的研究探索了LRH以將LLM表示與語言概念相連接，但僅限於單標記分析。由於大多數詞語由多個標記組成，我們將LRH擴展到多標記詞，從而使其能夠應用於包含數千個概念的任何文本數據。為此，我們提出詞語可以被解釋為框架，即更好地捕捉標記-詞語關係的向量有序序列。然後，概念可以被表示為共享相同概念的詞框架平均值。我們通過頂部-k概念引導解碼展示這些工具，該工具可以直觀地使用所選概念引導文本生成。我們在Llama 3.1、Gemma 2和Phi 3系列上驗證了這些想法，展示了性別和語言偏見，揭示了有害內容，但也展示了改善它們的潛力，從而使LLMs更安全和更透明。代碼可在https://github.com/phvv-me/frame-representation-hypothesis.git 上找到。

感知標記增強多模式語言模型中的視覺推理
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Dec 4

ByMahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna

多模式語言模型（MLMs）在基本視覺感知任務上仍面臨挑戰，而專門模型表現出色。需要推理三維結構的任務受益於深度估計，而需要推理二維物件實例的任務受益於物件檢測。然而，MLMs 無法生成中間深度或框來進行推理。在相關數據上微調 MLMs 並不能很好地泛化，而將計算外包給專門的視覺工具則過於計算密集且記憶效率低下。為了應對這一問題，我們引入了感知標記（Perception Tokens），這是一種設計用於協助語言無法涵蓋的推理任務的內在圖像表示。感知標記充當輔助推理標記，類似於語言模型中的思維鏈提示。例如，在與深度相關的任務中，增強了感知標記的 MLM 可以通過生成深度圖作為標記來進行推理，從而有效地解決問題。我們提出了 AURORA，一種訓練方法，通過感知標記來增強 MLMs 對視覺輸入的推理能力。AURORA 利用 VQVAE 將中間圖像表示轉換為標記化格式和邊界框標記，然後應用於多任務訓練框架。AURORA 在計數基準上實現了顯著的改進：在 BLINK 上提高了 +10.8%，在 CVBench 上提高了 +11.3%，在 SEED-Bench 上提高了 +8.3%，在跨數據集泛化方面優於微調方法。它還改進了相對深度：在 BLINK 上提高了超過 +6%。憑藉感知標記，AURORA 擴展了 MLMs 的範疇，超越基於語言的推理，為更有效的視覺推理能力鋪平了道路。

EMOv2：拓展500萬視覺模型前沿
EMOv2: Pushing 5M Vision Model Frontier

Dec 9

ByJiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao

本研究旨在開發參數高效且輕量級的模型，用於密集預測，同時在參數、FLOPs和性能之間取得平衡。我們的目標是在各種下游任務中建立新的5M量級輕量級模型的前沿。反向殘差塊（IRB）作為輕量級CNN的基礎，但基於注意力的設計中尚未確認相應的對應物。我們重新思考了高效IRB的輕量級基礎架構以及Transformer中的實用組件，從統一的角度擴展基於CNN的IRB到基於注意力的模型，並提煉出一個單殘差元移動塊（MMBlock）用於輕量級模型設計。遵循簡潔而有效的設計標準，我們推導出現代化的改進反向殘差移動塊（i2RMB），並通過沒有繁瑣複雜結構來改進分層高效模型（EMOv2）。考慮到在4G/5G頻寬下載模型時對移動用戶的不可察覺的延遲，並確保模型性能，我們研究了具有5M量級的輕量級模型的性能上限。對各種視覺識別、密集預測和圖像生成任務的大量實驗證明了我們的EMOv2相對於最先進的方法的優越性，例如，EMOv2-1M/2M/5M實現了72.3、75.8和79.4的Top-1，明顯超越了同等級別的CNN-/基於注意力的模型。同時，配備RetinaNet的EMOv2-5M實現了41.5的物體檢測任務的mAP，超越了之前的EMO-5M +2.6。當應用更強大的訓練配方時，我們的EMOv2-5M最終實現了82.9的Top-1準確率，將5M量級模型的性能提升到一個新水平。代碼可在https://github.com/zhangzjn/EMOv2找到。

LoRA.rar：通過超網絡學習合併主題風格條件圖像生成的LoRA
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Dec 6

ByDonald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli

最近在圖像生成模型方面的進展使得個性化圖像創作成為可能，用戶可以定義主題（內容）和風格。先前的研究通過將相應的低秩適應參數（LoRAs）通過基於優化的方法進行合併，實現了個性化，但這些方法在資源受限的設備（如智能手機）上無法實時使用，因為計算量大。為了解決這個問題，我們提出了LoRA.rar方法，不僅提高了圖像質量，還在合併過程中實現了超過4000倍的顯著加速。LoRA.rar在多樣的內容-風格LoRA對上預先訓練一個超網絡，學習了一種高效的合併策略，可以泛化到新的、未見過的內容-風格對，實現快速、高質量的個性化。此外，我們發現現有的內容-風格質量評估指標存在局限性，並提出了一個新的協議，使用多模態大語言模型（MLLM）進行更準確的評估。我們的方法在內容和風格的忠實度方面明顯優於當前的最新技術水平，經過MLLM評估和人類評估的驗證。

ILLUME：照亮您的LLMs，看見、繪製和自我增強
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

Dec 9

ByChunwei Wang, Guansong Lu, Junwei Yang, Runhui Huang, Jianhua Han, Lu Hou, Wei Zhang, Hang Xu

本文介紹了 ILLUME，一個統一的多模式大型語言模型（MLLM），通過統一的下一倗預測公式，在單一大型語言模型中無縫集成多模式理解和生成能力。為了應對通常需要大型數據集大小的圖像-文本對齊問題，我們提出通過設計一個包含語義信息的視覺分詞器和一個漸進式多階段訓練程序來增強數據效率。這種方法將預訓練的數據集大小減少到僅 15M，比通常需要的數據集大小少四倍以上，同時實現了與現有統一 MLLMs（如 Janus）相當甚至更優越的性能。此外，為了促進理解和生成能力之間的協同增強，這在先前的研究中尚未得到充分探索，我們引入了一種新穎的自我增強多模式對齊方案。該方案監督 MLLM 自我評估文本描述和自生成圖像之間的一致性，幫助模型更準確地解釋圖像，避免由於圖像生成中的不對齊而導致的不現實和不正確的預測。通過大量實驗，我們提出的 ILLUME 在各種多模式理解、生成和編輯的基準測試中脫穎而出，與最先進的統一 MLLMs 和專用模型競爭。

Moxin-7B 完全開源技術報告
Fully Open Source Moxin-7B Technical Report

Dec 8

ByPu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Xingchen Xu, Yu Huang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang

近來，大型語言模型（LLMs）經歷了顯著的轉變，其受歡迎程度和功能都迅速提升。主導這一演進的是像GPT-4和GPT-o1這樣的專有LLMs，由於其卓越的性能和多功能性，在人工智慧社區中引起廣泛關注。與此同時，像LLaMA和Mistral這樣的開源LLMs，由於易於定制和部署模型到各種應用中，對LLMs日益增長的受歡迎度做出了巨大貢獻。儘管開源LLMs為創新和研究提供了前所未有的機會，但LLMs的商業化也引發了關於透明度、可重現性和安全性的擔憂。許多開源LLMs未能滿足基本的透明度要求，因為他們隱瞞了訓練代碼和數據等基本組件，有些使用限制性許可證，同時聲稱是“開源”的，這可能阻礙對LLMs的進一步創新。為了解決這個問題，我們介紹了Moxin 7B，這是一個完全按照模型開放框架（MOF）開發的開源LLM，MOF是一個根據模型完整性和開放性評估AI模型的排名分類系統，遵循開放科學、開源、開放數據和開放訪問的原則。我們的模型通過全面公開預訓練代碼和配置、訓練和微調數據集，以及中間和最終檢查點，實現了“開放科學”的最高MOF分類級別。實驗表明，我們的模型在零-shot評估中相比流行的7B模型表現出優越性能，並在少-shot評估中具有競爭力。

Chimera：利用領域專家來改進通用模型
Chimera: Improving Generalist Model with Domain-Specific Experts

Dec 8

ByTianshuo Peng, Mingsheng Li, Hongbin Zhou, Renqiu Xia, Renrui Zhang, Lei Bai, Song Mao, Bin Wang, Conghui He, Aojun Zhou, Botian Shi, Tao Chen, Bo Zhang, Xiangyu Yue

最近在大型多模型模型（LMMs）方面的進展凸顯了通過增加圖像-文本配對數據來進行規模化的重要性，在通用任務上取得了令人印象深刻的性能。儘管這些通用模型在廣泛應用中非常有效，但它們主要是在以自然圖像為主導的網絡規模數據集上訓練的，這導致了對需要大量領域先驗知識的特定領域任務的專業能力的犧牲。此外，由於通用模型和專家模型之間的表示差距和不平衡優化，直接整合針對特定領域量身定制的專家模型是具有挑戰性的。為了應對這些挑戰，我們引入了Chimera，這是一個可擴展且低成本的多模管道，旨在通過領域專家來增強現有LMMs的能力。具體來說，我們設計了一種漸進式訓練策略，將專家模型的特徵集成到通用LMM的輸入中。為了應對由良好對齊的通用視覺編碼器引起的不平衡優化問題，我們引入了一種新穎的通用-專家協作遮罩（GSCM）機制。這導致了一個多才多藝的模型，在圖表、表格、數學和文檔領域表現出色，在多模推理和視覺內容提取任務上取得了最先進的性能，這兩個任務對於評估現有LMMs來說都是具有挑戰性的。

ObjCtrl-2.5D：使用相機姿態的無需訓練物體控制
ObjCtrl-2.5D: Training-free Object Control with Camera Poses

Dec 10

ByZhouxia Wang, Yushi Lan, Shangchen Zhou, Chen Change Loy

本研究旨在實現在影像到影片（I2V）生成中更精確且多功能的物件控制。目前的方法通常使用2D軌跡來表示目標物件的空間移動，但這往往無法捕捉用戶意圖，並且經常產生不自然的結果。為了增強控制能力，我們提出了ObjCtrl-2.5D，這是一種無需訓練的物件控制方法，它使用一個包含深度信息的3D軌跡，作為控制信號，擴展自2D軌跡。通過將物件移動建模為相機移動，ObjCtrl-2.5D將3D軌跡表示為一系列相機姿勢，從而使得可以使用現有的相機運動控制I2V生成模型（CMC-I2V）來控制物件運動，而無需進行訓練。為了使最初設計用於全局運動控制的CMC-I2V模型能夠處理局部物件運動，我們引入了一個模塊來從背景中分離目標物件，實現獨立的局部控制。此外，我們設計了一種有效的方法，通過在幀之間共享物件區域內的低頻變形潛在，來實現更準確的物件控制。大量實驗表明，與無需訓練的方法相比，ObjCtrl-2.5D顯著提高了物件控制的準確性，並且比使用2D軌跡的基於訓練的方法提供了更多樣化的控制能力，從而實現諸如物件旋轉等複雜效果。代碼和結果可在https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/找到。

HARP：在Transformer 推論過程中考慮猶豫的重新構架
HARP: Hesitation-Aware Reframing in Transformer Inference Pass

Dec 10

ByRomain Storaï, Seung-won Hwang

本文旨在改善大型語言模型的性能，針對推論步驟中存在的可變計算需求進行處理，其中一些標記需要比其他標記更多的計算資源。我們提出了HARP，這是對“現成”Transformer前向傳遞的簡單修改。借鑒於決策中的猶豫和框架效應，HARP在模型在標記生成過程中遇到不確定性時選擇性地應用額外的計算。我們的方法通過在困難的決策點暫停並重新構思輸入以獲得不同的視角，模仿人類的認知過程。與其他方法不同，HARP是與模型無關、無需訓練且易於實施的。我們在各種下游任務和模型大小上進行了全面評估，展示了高達+5.16%的性能改進。值得注意的是，HARP實現了這些增益，同時推論時間比束搜索快兩倍。HARP既簡單又具有顯著的增益，為改善基於Transformer的語言模型的性能提供了一個實用的解決方案，並對計算影響最小。

GraPE：一個用於組合式T2I合成的生成-規劃-編輯框架
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

Dec 8

ByAshish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla

文本到圖像（T2I）生成在擴散模型的幫助下取得了顯著進展，使得可以從文本提示生成逼真的圖像。儘管取得了這一進展，現有方法在遵循複雜文本提示方面仍然面臨挑戰，特別是那些需要組合和多步推理的提示。在面對這樣複雜的指令時，最先進的模型往往在忠實地建模物體屬性和它們之間的關係方面出現錯誤。在這項工作中，我們提出了一種用於T2I合成的替代範式，將複雜多步生成任務分解為三個步驟：（a）生成：我們首先使用現有的擴散模型生成圖像；（b）規劃：我們利用多模態LLM（MLLM）來識別生成圖像中表達為個別物體及其屬性的錯誤，並生成一系列糾正步驟，形成編輯計劃；（c）編輯：我們利用現有的文本引導圖像編輯模型來按照編輯計劃順序執行，以獲得符合原始指令的所需圖像。我們的方法之所以強大，是因為它具有模塊化的特性，無需訓練，並且可以應用於任何組合的圖像生成和編輯模型。作為一項額外的貢獻，我們還開發了一個能夠進行組合編輯的模型，進一步有助於改善我們提出的方法的整體準確性。我們的方法靈活地在推理時間計算和組合文本提示性能之間進行交易。我們在3個基準測試和10個T2I模型（包括DALLE-3和最新的SD-3.5-Large）上進行了廣泛的實驗評估。我們的方法不僅提高了SOTA模型的性能，最高提升了3個百分點，還縮小了較弱和較強模型之間的性能差距。

一個抵抗梯度反轉攻擊的新聯邦學習框架
A New Federated Learning Framework Against Gradient Inversion Attacks

Dec 10

ByPengxin Guo, Shuang Zeng, Wenhao Chen, Xiaodan Zhang, Weihong Ren, Yuyin Zhou, Liangqiong Qu

聯邦學習（FL）旨在保護數據隱私，使客戶能夠共同訓練機器學習模型，而無需共享原始數據。然而，最近的研究表明，在FL期間交換的信息容易受到梯度反轉攻擊（GIA）的影響，因此在FL中已整合了各種保護隱私的方法來防止此類攻擊，例如安全多方計算（SMC）、同態加密（HE）和差分隱私（DP）。儘管這些方法能夠保護數據隱私，但它們固有地涉及相當大的隱私-效用平衡。通過重新檢視FL在GIA下的隱私曝光關鍵，即在包含私人數據的模型梯度之間進行頻繁共享，我們採用新的角度設計了一個新穎的隱私保護FL框架，有效地“切斷”了共享參數與本地私人數據之間的直接聯繫，以抵禦GIA。具體而言，我們提出了一個利用超網絡生成本地模型參數的Hypernetwork Federated Learning（HyperFL）框架，只有超網絡參數被上傳到伺服器進行聚合。理論分析展示了所提出的HyperFL的收斂速度，而大量的實驗結果顯示了HyperFL的保護隱私能力和可比擬的性能。程式碼可在https://github.com/Pengxin-Guo/HyperFL找到。

情境化對抗言論：適應、個人化和評估策略
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation

Dec 10

ByLorenzo Cima, Alessio Miaschi, Amaury Trujillo, Marco Avvenuti, Felice Dell'Orletta, Stefano Cresci

AI生成的對話反制提供了一種有前途且可擴展的策略，通過直接回覆來促進文明對話，以遏制網絡毒性。然而，目前的對話反制是一刀切的，缺乏對調節上下文和參與用戶的適應性。我們提出並評估了多種生成定制對話反制策略，這些策略適應了調節上下文並為被調節用戶量身定制。我們指導一個LLaMA2-13B模型生成對話反制，通過基於不同上下文信息和微調策略的各種配置進行實驗。我們通過預先註冊的混合設計眾包實驗，通過定量指標和人類評估的結合，確定生成具有說服力的對話反制的配置。結果顯示，情境化的對話反制在適當性和說服力方面可以顯著優於最先進的通用對話反制，而不會影響其他特徵。我們的研究還揭示了定量指標和人類評估之間的差異，表明這些方法評估了不同的方面，並突出了對細緻評估方法的需求。情境化AI生成的對話反制的有效性以及人類和算法評估之間的分歧突顯了在內容調節中增加人工智能與人類合作的重要性。

最大化對齊性並以最少反饋為目標：有效學習視覺運動機器人政策對齊的獎勵
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

Dec 6

ByRan Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy

視覺運動機器人策略在大規模數據集上逐漸預先訓練，承諾在機器人領域取得顯著進展。然而，將這些策略與最終用戶偏好對齊仍然是一個挑戰，特別是當這些偏好難以明確指定時。儘管從人類反饋中進行強化學習（RLHF）已成為在非具體領域（如大型語言模型）中對齊的主要機制，但由於需要大量人類反饋才能學習視覺獎勵函數，它在對齊視覺運動策略方面並沒有取得同樣成功。為了解決這一限制，我們提出了基於表示對齊的基於偏好學習（RAPL），這是一種僅通過觀察學習視覺獎勵的方法，需要遠少於人類偏好反饋的數據。與傳統的RLHF不同，RAPL將人類反饋集中在微調預先訓練的視覺編碼器上，以使其與最終用戶的視覺表示對齊，然後在這個對齊的表示空間中通過特徵匹配構建密集的視覺獎勵。我們首先通過在X-Magical基準和Franka Panda機器人操作的模擬實驗中驗證了RAPL，展示它能夠學習與人類偏好對齊的獎勵，更有效地使用偏好數據，並且在機器人實體之間具有泛化能力。最後，我們通過硬件實驗對三個物體操作任務的預先訓練擴散策略進行對齊。我們發現RAPL可以通過比真實人類偏好數據少5倍的方式微調這些策略，從而邁出了最大程度對齊視覺運動機器人策略的步伐，同時最大程度地減少人類反饋。

AI研究論文每日精選

每日精選AI研究論文及翻譯

STIV：可擴展的文本和圖像條件視頻生成
STIV: Scalable Text and Image Conditioned Video Generation

Dec 10

評估並校準 CodeLLMs 以符合人類偏好
Evaluating and Aligning CodeLLMs on Human Preference

Dec 6

ByJian Yang, Jiaxi Yang, Ke Jin, Yibo Miao, Lei Zhang, Liqun Yang, Zeyu Cui, Yichang Zhang, Binyuan Hui, Junyang Lin

DiffSensei：連接多模式LLM和擴散模型以進行定制漫畫生成
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Dec 10

ByJianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong

ACDiT：插值自回歸條件建模與擴散Transformer
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

Dec 10

ByJinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun

隱藏在噪音中：圖像的兩階段強健浮水印技術
Hidden in the Noise: Two-Stage Robust Watermarking for Images

Dec 5

ByKasra Arabi, Benjamin Feuer, R. Teal Witter, Chinmay Hegde, Niv Cohen

UniReal：通過學習真實世界動態的方式進行通用圖像生成和編輯
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Dec 10

ByXi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao

FiVA：用於文本到圖像擴散模型的精細視覺屬性數據集
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

Dec 10

ByTong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein

移動視頻傳播
Mobile Video Diffusion

Dec 10

ByHaitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian

3DTrajMaster：在影片生成中掌握多實體運動的3D軌跡
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Dec 10

ByXiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin

花崗岩守衛
Granite Guardian

Dec 10

MoViE：行動式視頻編輯的擴散
MoViE: Mobile Diffusion for Video Editing

Dec 9

ByAdil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian

使用擴散Transformer進行視頻動作轉移
Video Motion Transfer with Diffusion Transformers

Dec 10

ByAlexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati

框架表示假設：多標記LLM可解釋性與概念導向文本生成
Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation

Dec 10

ByPedro H. V. Valois, Lincon S. Souza, Erica K. Shimomoto, Kazuhiro Fukui

感知標記增強多模式語言模型中的視覺推理
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Dec 4

ByMahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna

EMOv2：拓展500萬視覺模型前沿
EMOv2: Pushing 5M Vision Model Frontier

Dec 9

ByJiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao

LoRA.rar：通過超網絡學習合併主題風格條件圖像生成的LoRA
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Dec 6

ByDonald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli

最大化對齊性並以最少反饋為目標：有效學習視覺運動機器人政策對齊的獎勵
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

Dec 6

ByRan Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy