每日精選AI研究論文及翻譯
我們推出了CameraBench,這是一個大規模的數據集和基準測試,旨在評估和提升對相機運動的理解。CameraBench包含約3,000個多樣化的網絡視頻,這些視頻經過專家通過嚴格的多階段質量控制流程進行註釋。我們的一個貢獻是與電影攝影師合作設計的相機運動基本元素分類法。我們發現,例如“跟隨”(或追蹤)等某些運動需要理解場景內容,如移動的主體。我們進行了一項大規模的人類研究,以量化人類註釋的表現,揭示了領域專業知識和基於教程的培訓可以顯著提高準確性。例如,新手可能會將“放大”(內在參數的變化)與“向前平移”(外在參數的變化)混淆,但可以通過培訓來區分這兩者。利用CameraBench,我們評估了結構從運動(SfM)和視頻語言模型(VLMs),發現SfM模型難以捕捉依賴於場景內容的語義基本元素,而VLMs則難以捕捉需要精確估計軌跡的幾何基本元素。然後,我們在CameraBench上微調了一個生成式VLM,以實現兩者的最佳結合,並展示了其應用,包括運動增強的字幕生成、視頻問答和視頻文本檢索。我們希望我們的分類法、基準測試和教程將推動未來努力,實現理解任何視頻中相機運動的最終目標。
我們隆重推出Skywork R1V2,這是一款次世代多模態推理模型,相較於前代Skywork R1V實現了重大飛躍。R1V2的核心創新在於引入了一種混合強化學習範式,該範式巧妙融合了獎勵模型指導與基於規則的策略,從而有效解決了在保持複雜推理能力與廣泛泛化性之間長期存在的平衡難題。為進一步提升訓練效率,我們提出了選擇性樣本緩衝(SSB)機制,該機制通過在優化過程中優先處理高價值樣本,有效應對了群體相對策略優化(GRPO)中固有的“優勢消失”困境。值得注意的是,我們觀察到過度的強化信號可能引發視覺幻覺——這一現象我們通過在訓練過程中設置校準的獎勵閾值進行系統監控與緩解。實證結果充分證明了R1V2的卓越能力,其在多項基準測試中均取得領先成績,如OlympiadBench上的62.6分、AIME2024上的79.0分、LiveCodeBench上的63.6分以及MMMU上的74.0分。這些成果不僅彰顯了R1V2相較於現有開源模型的優勢,更展示了其在縮小與頂級專有系統(如Gemini 2.5和OpenAI o4-mini)性能差距方面的顯著進展。為促進開放性與可重現性,Skywork R1V2的模型權重已公開發布於https://huggingface.co/Skywork/Skywork-R1V2-38B。
1位元大型語言模型(LLMs)的高效部署受到激活異常值的阻礙,這使得量化至低位元寬度變得複雜。我們引入了BitNet v2,這是一個新穎的框架,能夠實現1位元LLMs的原生4位元激活量化。為了解決注意力機制和前饋網路激活中的異常值問題,我們提出了H-BitLinear模組,該模組在激活量化之前應用線上哈達瑪變換。此變換將尖銳的激活分佈平滑為更接近高斯分佈的形式,適合低位元表示。實驗顯示,使用8位元激活從頭訓練的BitNet v2與BitNet b1.58的性能相當。關鍵在於,BitNet v2在使用原生4位元激活訓練時,性能下降極小,顯著降低了批量推理的記憶體佔用和計算成本。
評估多模態AI系統的視頻理解能力,能有效衡量其理解與推理能力。現有的視頻評估基準大多局限於單一語言,通常為英語,且主要基於西方文化背景的視頻。本文介紹了VideoVista-CulturalLingo,這是首個旨在跨越文化、語言及領域鴻溝的視頻理解評估基準。我們的工作與現有基準有以下不同之處:1)文化多樣性,涵蓋中國、北美及歐洲文化;2)多語言性,問題以中文和英文這兩種最廣泛使用的語言呈現;3)廣泛領域,視頻來源於數百個人類創建的領域。VideoVista-CulturalLingo包含1,389個視頻和3,134個問答對,並已對24個近期開源或專有的視頻大模型進行了評估。從實驗結果中,我們觀察到:1)現有模型在中國中心問題上的表現遜於西方中心問題,尤其是涉及中國歷史的問題;2)當前開源模型在時間理解上仍存在局限,特別是在事件定位任務中,最高得分僅為45.2%;3)主流模型在一般科學問題上表現強勁,而開源模型在數學問題上表現較弱。
我們推出Kimi-Audio,這是一款開源的音頻基礎模型,在音頻理解、生成與對話方面表現卓越。本文詳細介紹了構建Kimi-Audio的實踐過程,涵蓋模型架構、數據整理、訓練方案、推理部署及評估方法。具體而言,我們採用12.5Hz的音頻標記器,設計了一種新穎的基於大語言模型(LLM)的架構,該架構以連續特徵作為輸入,離散標記作為輸出,並開發了基於流匹配的分塊流式解碼器。我們精心整理了一個預訓練數據集,包含超過1300萬小時的音頻數據,覆蓋語音、聲音和音樂等多種模態,並構建了高質量、多樣化的後訓練數據管道。Kimi-Audio從預訓練的LLM初始化,通過多項精心設計的任務在音頻和文本數據上進行持續預訓練,隨後進行微調以支持多種音頻相關任務。廣泛的評估表明,Kimi-Audio在語音識別、音頻理解、音頻問答及語音對話等一系列音頻基準測試中達到了業界領先水平。我們在https://github.com/MoonshotAI/Kimi-Audio上公開了代碼、模型檢查點以及評估工具包。
多模態語言分析是一個快速發展的領域,它利用多種模態來增強對人類對話語句中高層次語義的理解。儘管其重要性不言而喻,但鮮有研究探討多模態大語言模型(MLLMs)在理解認知層面語義方面的能力。本文中,我們引入了MMLA,這是一個專門為填補這一空白而設計的綜合基準。MMLA包含了超過61K條來自模擬與真實場景的多模態語句,涵蓋了多模態語義的六個核心維度:意圖、情感、對話行為、情感傾向、說話風格和溝通行為。我們通過三種方法評估了八個主流的大語言模型和多模態大語言模型分支:零樣本推理、監督微調和指令微調。大量實驗表明,即便是經過微調的模型,其準確率也僅在60%~70%之間,這凸顯了當前MLLMs在理解複雜人類語言方面的侷限性。我們相信,MMLA將為探索大語言模型在多模態語言分析中的潛力奠定堅實基礎,並為推動這一領域的發展提供寶貴資源。數據集和代碼已在https://github.com/thuiar/MMLA開源。
預訓練大型語言模型(LLMs)的數量正穩步增長,然而其中大多數主要針對英語設計。儘管最先進的LLMs能夠處理其他語言,這得益於語言混雜或一定程度的多語言預訓練數據,但它們並未針對非英語語言進行優化,導致編碼效率低下(高詞元“生育率”)和推理速度較慢。在本研究中,我們全面比較了多種詞彙適應技術,以優化英語LLMs用於意大利語,並提出了一種新方法——語義對齊詞彙適應(SAVA),該方法利用神經映射進行詞彙替換。SAVA在多個下游任務中表現出色,增強了基於對齊的策略。我們對兩個LLMs進行了適應:Mistral-7b-v0.1,將詞元生育率降低了25%,以及Llama-3.1-8B,優化了詞彙並減少了10億個參數。我們展示了在詞彙適應後,這些模型能夠通過在目標語言上進行相對有限的持續訓練階段恢復其性能。最後,我們測試了適應模型在各種多選和生成任務上的能力。
稀疏注意力為擴展Transformer大型語言模型(LLMs)的長上下文處理能力提供了一種有前景的策略,但其可行性、效率與準確性的權衡,以及系統性的規模化研究仍未被充分探索。為填補這一空白,我們在不同模型規模、序列長度和稀疏度水平上,對無需訓練的稀疏注意力方法進行了細緻比較,涵蓋了多樣化的長序列任務——包括依賴自然語言但仍可控且易於評估的新任務。基於實驗,我們報告了一系列關鍵發現:1)isoFLOPS分析顯示,對於極長序列,更大且高度稀疏的模型優於更小且密集的模型。2)在解碼階段,能夠在統計上保證準確性保持的稀疏度水平高於預填充階段,且前者與模型規模相關。3)沒有一種策略能在所有任務和階段中表現最佳,不同場景需要不同的稀疏化單元或預算適應性。即便是中等稀疏度,也常常導致至少一個任務上的顯著性能下降,這表明稀疏注意力並非通用解決方案。4)我們提出並驗證了專門針對稀疏注意力的新穎規模化定律,提供了證據表明我們的發現很可能超越實驗範圍而成立。通過這些洞見,我們證明了稀疏注意力是增強Transformer LLMs處理更長序列能力的關鍵工具,但在性能敏感的應用中需要仔細評估其權衡。
我們推出新一代小型推理模型,專為RAG(檢索增強生成)、搜索及來源摘要而設計。Pleias-RAG-350m和Pleias-RAG-1B在一個大型合成數據集上進行了中期訓練,該數據集模擬了從Common Corpus中檢索多種多語言開放來源的過程。這些模型原生支持引用和基於字面引用的基礎驗證,並重新整合了與RAG工作流相關的多項功能,如查詢路由、查詢重構和來源重新排序。在標準化的RAG基準測試(如HotPotQA、2wiki)中,Pleias-RAG-350m和Pleias-RAG-1B的表現優於參數低於40億的小型語言模型(SLMs),並與包括Qwen-2.5-7B、Llama-3.1-8B和Gemma-3-4B在內的流行大型模型競爭。它們是迄今為止唯一能在主要歐洲語言中保持一致的RAG性能,並確保對陳述進行系統性參考基礎驗證的SLMs。由於其體積小巧、易於在受限基礎設施上部署,以及設計上更高的真實性,這些模型為生成式AI開闢了一系列新的應用場景。
我們提出了一種無需額外調校即可訓練主題驅動的定制視頻生成模型的方法,該方法通過將特定主題的學習與時間動態解耦來實現零樣本學習。傳統的無需調校的視頻定制方法通常依賴於大型、帶註釋的視頻數據集,這些數據集計算成本高昂且需要大量註釋。與以往方法不同,我們直接將圖像定制數據集用於訓練視頻定制模型,將視頻定制分解為兩個方面:(1) 通過圖像定制數據集進行身份注入,以及 (2) 通過圖像到視頻的訓練方法,利用少量未註釋的視頻保持時間建模。此外,我們在圖像到視頻的微調過程中採用隨機圖像令牌丟棄和隨機圖像初始化,以緩解複製粘貼問題。為了進一步增強學習效果,我們在特定主題特徵和時間特徵的聯合優化中引入了隨機切換,從而減輕災難性遺忘。我們的方法在零樣本設置下實現了強烈的主題一致性和可擴展性,超越了現有的視頻定制模型,展示了我們框架的有效性。
在金融領域,有效的推理仍然是大型語言模型(LLMs)面臨的核心挑戰,這些任務通常需要領域特定的知識、精確的數值計算以及嚴格遵守合規規則。我們提出了DianJin-R1,這是一個推理增強框架,旨在通過推理增強的監督和強化學習來應對這些挑戰。我們方法的核心是DianJin-R1-Data,這是一個高質量數據集,構建自CFLUE、FinQA和一個專有的合規語料庫(中國合規檢查,CCC),結合了多樣化的金融推理場景與經過驗證的註釋。我們的模型,DianJin-R1-7B和DianJin-R1-32B,是從Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct微調而來,使用了一種結構化格式,生成推理步驟和最終答案。為了進一步提升推理質量,我們應用了群組相對策略優化(GRPO),這是一種強化學習方法,結合了雙重獎勵信號:一個鼓勵結構化輸出,另一個獎勵答案的正確性。我們在五個基準上評估了我們的模型:三個金融數據集(CFLUE、FinQA和CCC)和兩個通用推理基準(MATH-500和GPQA-Diamond)。實驗結果顯示,DianJin-R1模型在複雜金融任務上持續超越其非推理對應模型。此外,在現實世界的CCC數據集上,我們的單次調用推理模型匹配甚至超越了需要顯著更多計算成本的多代理系統的性能。這些發現展示了DianJin-R1通過結構化監督和獎勵對齊學習來增強金融推理的有效性,為現實世界應用提供了一個可擴展且實用的解決方案。
給定單一標註樣本,上下文分割旨在分割對應的物體。這一設定,在少樣本學習中被稱為一次性分割,探索了分割模型的泛化能力,並已應用於多種視覺任務,包括場景理解與圖像/視頻編輯。儘管近期的Segment Anything Models在交互式分割中取得了頂尖成果,這些方法並不能直接應用於上下文分割。本研究中,我們基於提示調優提出了雙一致性SAM(DC-SAM)方法,以適應SAM和SAM2進行圖像與視頻的上下文分割。我們的核心洞見是通過提供高質量的視覺提示來增強SAM提示編碼器在分割中的特徵。在生成掩碼先驗時,我們融合SAM特徵以更好地對齊提示編碼器。隨後,我們設計了一種基於融合特徵與初始視覺提示的循環一致性交叉注意力機制。接著,通過在提示編碼器中使用區分性正負提示,提供了一種雙分支設計。此外,我們設計了一種簡單的掩碼管訓練策略,將提出的雙一致性方法應用於掩碼管中。雖然DC-SAM主要針對圖像設計,但在SAM2的支持下,它能無縫擴展至視頻領域。鑑於視頻領域缺乏上下文分割,我們從現有視頻分割數據集中手動整理並構建了首個基準,命名為上下文視頻物體分割(IC-VOS),以更好地評估模型的上下文能力。大量實驗表明,我們的方法在COCO-20i上達到了55.5(+1.4)的mIoU,在PASCAL-5i上達到了73.0(+1.1)的mIoU,並在提出的IC-VOS基準上獲得了71.52的J&F分數。我們的源代碼與基準可在https://github.com/zaplm/DC-SAM獲取。