AI研究論文每日精選

每日精選AI研究論文及翻譯

Jina CLIP：您的 CLIP 模型也是您的文本檢索器
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

May 30

ByAndreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao

對比式語言-圖像預訓練（CLIP）被廣泛應用於訓練模型，將圖像和文本對齊到共同的嵌入空間，將它們映射為固定大小的向量。這些模型對於多模態信息檢索和相關任務至關重要。然而，與專門的文本模型相比，CLIP模型通常在僅文本任務中表現不佳。這導致信息檢索系統在保留獨立的嵌入和模型用於僅文本和多模態任務時存在效率問題。我們提出了一種新穎的多任務對比訓練方法來解決這個問題，我們使用該方法來訓練jina-clip-v1模型，在文本-圖像和文本-文本檢索任務上實現了最先進的性能。

相似性並非唯一所需：賦予檢索增強生成具有多層思維
Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts

May 30

ByChunjing Gan, Dan Yang, Binbin Hu, Hanxiao Zhang, Siyuan Li, Ziqi Liu, Yue Shen, Lin Ju, Zhiqiang Zhang, Jinjie Gu, Lei Liang, Jun Zhou

近年來，大型語言模型（LLMs）在各個領域取得了顯著的成就。然而，LLMs 的知識更新不及時且成本高昂，再加上存在幻覺問題，限制了它們在知識密集任務中的應用，而檢索增強生成（RAG）可以提供幫助。然而，現有的檢索增強模型通常使用相似度作為查詢和文檔之間的橋樑，並遵循檢索然後閱讀的程序。在這項工作中，我們認為相似度並非總是萬靈丹，完全依賴相似度有時會降低檢索增強生成的性能。為此，我們提出了MetRag，一個多層思維增強檢索增強生成框架。首先，除了現有的相似度導向思維，我們採用一個小規模效用模型，從LLM中獲得監督以獲得效用導向思維，並通過全面結合相似度和效用導向思維提出更智能的模型。此外，考慮到檢索到的文檔集往往龐大，單獨使用它們很難捕捉它們之間的共同點和特徵，我們提出將LLM作為任務自適應摘要生成器，賦予檢索增強生成以緊湊導向思維。最後，在前述階段的多層思維的基礎上，需要一個LLM進行知識增強生成。對知識密集型任務的大量實驗證明了MetRag的優越性。

MotionLLM：從人類動作和影片中理解人類行為
MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30

ByLing-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang

本研究探討利用大型語言模型（LLMs）的強大能力，深入研究多模態（即視頻和動作模態）人類行為理解領域。與最近專為僅視頻或僅動作理解而設計的LLMs不同，我們認為理解人類行為需要從視頻和動作序列（例如SMPL序列）共同建模，以有效捕捉微妙的身體部位動態和語義。基於此，我們提出MotionLLM，這是一個直觀而有效的人體動作理解、標註和推理框架。具體而言，MotionLLM採用統一的視頻-動作訓練策略，利用現有粗糙的視頻-文本數據和細粒度的動作-文本數據的互補優勢，獲取豐富的時空洞察。此外，我們收集了一個龐大的數據集MoVid，其中包括多樣的視頻、動作、標題和指示。此外，我們提出了MoVid-Bench，配有精心編製的手動標註，以更好地評估視頻和動作上的人類行為理解。大量實驗表明MotionLLM在標題、時空理解和推理能力方面的優越性。

Xwin-LM：LLM 模型的強大且可擴展的對齊實踐
Xwin-LM: Strong and Scalable Alignment Practice for LLMs

May 30

ByBolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu

在這份工作中，我們提出了 Xwin-LM，一套針對大型語言模型（LLMs）的全面對齊方法。這套方法包含幾個關鍵技術，包括監督微調（SFT）、獎勵建模（RM）、拒絕抽樣微調（RS）和直接偏好優化（DPO）。主要組件如下：（1）Xwin-LM-SFT，最初使用高質量指導數據進行微調的模型；（2）Xwin-Pair，一個大規模、多輪偏好數據集，使用 GPT-4 精心注釋；（3）Xwin-RM，在 Xwin-Pair 上訓練的獎勵模型，規模分別為 7B、13B 和 70B 參數；（4）Xwin-Set，一個多方偏好數據集，其中每個提示與由 Xwin-LM-SFT 生成並由 Xwin-RM 評分的 64 個獨特回應相關聯；（5）Xwin-LM-RS，使用 Xwin-Set 中得分最高的回應進行微調的模型；（6）Xwin-LM-DPO，使用 DPO 算法在 Xwin-Set 上進行進一步優化的模型。我們在 AlpacaEval 和 MT-bench 上的評估表明，在整個流程中持續且顯著地改進，展示了 Xwin-LM 的強大性和可擴展性。該存儲庫 https://github.com/Xwin-LM/Xwin-LM 將持續更新以促進社區研究。

MOFA-Video：通過生成運動場控制圖像動畫凍結圖像到視頻擴散模型的改進
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

May 30

ByMuyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng

我們提出了 MOFA-Video，一種先進的可控圖像動畫方法，它利用各種額外的可控信號（如人類地標參考、手動軌跡，以及其他提供的視頻）或它們的組合從給定的圖像生成視頻。這與先前的方法不同，先前的方法只能在特定運動領域工作，或者在擴散先驗中表現出薄弱的控制能力。為了實現我們的目標，我們設計了幾個領域感知運動場適配器（即 MOFA-Adapters）來控制視頻生成管道中的生成運動。對於 MOFA-Adapters，我們考慮視頻的時間運動一致性，首先從給定的稀疏控制條件生成密集運動流，然後，將給定圖像的多尺度特徵包裹為穩定的視頻擴散生成的引導特徵。我們分別為手動軌跡和人類地標訓練了兩個運動適配器，因為它們都包含有關控制的稀疏信息。在訓練後，不同領域的 MOFA-Adapters 也可以一起工作，以進行更可控的視頻生成。

GECO：SECOnd 內的生成式圖像至 3D
GECO: Generative Image-to-3D within a SECOnd

May 30

ByChen Wang, Jiatao Gu, Xiaoxiao Long, Yuan Liu, Lingjie Liu

近年來，3D生成技術取得了顯著進展。現有的技術，如得分蒸餾方法，產生了顯著的結果，但需要進行大量的場景優化，影響了時間效率。相反，基於重建的方法優先考慮效率，但由於對不確定性的處理有限，會影響質量。我們介紹了GECO，一種新穎的高質量3D生成建模方法，操作時間僅需一秒。我們的方法通過兩階段方法解決了當前方法中普遍存在的不確定性和低效率問題。在初始階段，我們使用得分蒸餾訓練單步多視圖生成模型。然後，對多視圖預測中的視圖不一致性進行第二階段蒸餾。這個兩階段過程確保了對3D生成的平衡處理，優化了質量和效率。我們的全面實驗表明，GECO實現了具有前所未有效率水平的高質量圖像到3D生成。

DITTO-2：音樂生成的蒸餾擴散推理時間T優化
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

May 30

ByZachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan

對於以人為中心的基於人工智慧的音樂創作來說，可控的音樂生成方法至關重要，但目前受限於速度、質量和控制設計的取捨。其中，擴散推論時間 T 優化（DITTO）提供了最先進的結果，但比實時慢了超過 10 倍，限制了實際應用。我們提出了蒸餾擴散推論時間 T 優化（或稱為 DITTO-2），這是一種新方法，用於加速基於推論時間優化的控制，並實現比實時更快的生成，適用於音樂修補、擴展、強度、旋律和音樂結構控制等各種應用。我們的方法通過以下步驟實現：（1）通過高效的修改一致性或一致性軌跡蒸餾過程，對預先訓練的擴散模型進行蒸餾，以實現快速抽樣；（2）使用我們的蒸餾模型進行推論時間優化，將單步抽樣作為一個高效的替代優化任務；（3）使用我們估計的噪聲潛變數進行最佳質量、快速、可控的生成的最終多步抽樣生成（解碼）。通過深入評估，我們發現我們的方法不僅使生成速度提高了 10-20 倍，同時還同時提高了控制遵循性和生成質量。此外，我們將我們的方法應用於最大化文本遵循性（CLAP 分數）的新應用，並展示我們可以將無條件的擴散模型轉換為能產生最先進文本控制的模型。聲音示例可在 https://ditto-music.github.io/ditto2/ 找到。

DevEval：與真實世界的程式庫對齊的手動標註程式碼生成基準。
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

May 30

ByJia Li, Ge Li, Yunfei Zhao, Yongmin Li, Huanyu Liu, Hao Zhu, Lecheng Wang, Kaibo Liu, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yuqi Zhu, Yihong Dong, Zhi Jin, Binhua Li, Fei Huang, Yongbin Li

如何評估大型語言模型（LLMs）的編碼能力仍然是一個懸而未決的問題。我們發現現有的基準測試與真實世界的程式庫不夠對齊，也無法充分評估LLMs的編碼能力。為了彌補這一知識缺口，我們提出了一個名為DevEval的新基準測試，具有三個優勢。 (1) DevEval在多個維度上與真實世界的程式庫對齊，例如程式碼分佈和依賴分佈。 (2) DevEval由13位開發人員進行標註，包含全面的標註（例如需求、原始程式庫、參考程式碼和參考依賴項）。 (3) DevEval包含來自117個程式庫的1,874個測試樣本，涵蓋10個熱門領域（例如互聯網、數據庫）。基於DevEval，我們提出了基於程式庫的程式碼生成，並在DevEval上評估了8個熱門的LLMs（例如gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa）。我們的實驗揭示了這些LLMs在真實世界程式庫中的編碼能力。例如，在我們的實驗中，gpt-4-turbo的最高Pass@1僅為53.04%。我們還分析了LLMs的失敗案例並總結了它們的不足之處。我們希望DevEval能促進LLMs在真實程式庫中的發展。DevEval、提示和LLMs的預測已經發布。

PLA4D：用於文本到4D高斯塗抹的像素級對齊
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

May 30

ByQiaowei Miao, Yawei Luo, Yi Yang

隨著以文字為條件的擴散模型（DMs）在圖像、視頻和3D生成方面取得突破，研究界的焦點已轉向更具挑戰性的任務，即文字到4D合成，這引入了時間維度以生成動態3D物體。在這個背景下，我們確定了得分蒸餾取樣（SDS），這是一種廣泛應用於文字到3D合成的技術，由於其具有雙面性和不真實紋理問題，以及高計算成本，成為限制文字到4D性能的重要障礙。在本文中，我們提出了用於文字到4D高斯飛濺（PLA4D）的像素級對齊，這是一種新穎方法，利用文字到視頻幀作為明確的像素對齊目標，生成靜態3D物體並將運動注入其中。具體來說，我們引入了焦點對齊來校準用於渲染的相機姿勢，並引入了GS-Mesh對比學習，以從像素級別的渲染圖像對比中提煉幾何先驗。此外，我們開發了運動對齊，使用變形網絡來驅動高斯變化，並實現參考細化，以獲得平滑的4D物體表面。這些技術使4D高斯飛濺能夠在像素級別上將幾何、紋理和運動與生成的視頻對齊。與以前的方法相比，PLA4D在更短的時間內產生了具有更好紋理細節的合成輸出，並有效地緩解了雙面問題。PLA4D完全使用開源模型實現，為4D數字內容創作提供了一個可訪問、用戶友好且有前途的方向。我們的項目頁面：https://github.com/MiaoQiaowei/PLA4D.github.io。

DeMamba：在百萬規模的GenVideo基準測試上進行的AI生成視頻檢測
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

May 30

ByHaoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li

近年來，影片生成技術迅速發展。考慮到社交媒體平台上影片內容的普及，這些模型加劇了人們對虛假信息傳播的擔憂。因此，對於能夠區分假的 AI 生成影片並減輕虛假信息可能帶來的損害的檢測器需求日益增加。然而，來自最先進的影片生成器的大規模數據集的缺乏阻礙了這些檢測器的發展。為了彌補這一差距，我們介紹了第一個 AI 生成影片檢測數據集 GenVideo。它具有以下特點：(1) 包括超過一百萬個 AI 生成和真實影片的大量影片；(2) 包含豐富多樣的生成內容和方法，涵蓋廣泛的影片類別和生成技術。我們對數據集進行了廣泛研究，並提出了兩種針對現實場景設計的評估方法來評估檢測器的性能：跨生成器影片分類任務評估了訓練過的檢測器在生成器上的泛化能力；降質影片分類任務評估了檢測器處理在傳播過程中質量下降的影片的韌性。此外，我們引入了一個即插即用的模塊，名為 Detail Mamba（DeMamba），旨在通過分析時間和空間維度的不一致性來增強檢測器，以識別 AI 生成影片。我們的廣泛實驗表明，與現有的檢測器相比，DeMamba 在 GenVideo 上具有卓越的泛化能力和韌性。我們相信 GenVideo 數據集和 DeMamba 模塊將顯著推動 AI 生成影片檢測領域的發展。我們的代碼和數據集將在 https://github.com/chenhaoxing/DeMamba 上提供。

Parrot：具有語義變量的基於LLM的應用程序的高效服務
Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

May 30

ByChaofan Lin, Zhenhua Han, Chengruidong Zhang, Yuqing Yang, Fan Yang, Chen Chen, Lili Qiu

大型語言模型（LLM）的崛起使LLM應用（又稱AI代理或共同飛行員）成為可能，這是一種結合LLM和傳統軟件優勢的新軟件範式。來自不同租戶的多樣化LLM應用可以使用多個LLM請求設計複雜的工作流程來完成一個任務。然而，它們必須使用當今公共LLM服務提供的過度簡化的請求級API，從而失去了重要的應用程序級信息。公共LLM服務必須盲目優化個別的LLM請求，導致LLM應用的端到端性能次優。本文介紹了Parrot，一個專注於LLM應用端到端體驗的LLM服務系統。Parrot提出了語義變量，這是一種統一的抽象，用於向公共LLM服務公開應用程序級知識。語義變量在請求的提示中為輸入/輸出變量進行註釋，並在連接多個LLM請求時創建數據管道，提供了一種自然的方式來編程LLM應用。將語義變量公開給公共LLM服務使其能夠執行傳統數據流分析，以揭示多個LLM請求之間的相關性。這種相關性為LLM應用的端到端性能開啟了全新的優化空間。廣泛的評估表明，Parrot可以為LLM應用的熱門和實用用例實現高達一個數量級的改進。