每日精選AI研究論文及翻譯
東南亞(SEA)是一個語言與文化極具多樣性的地區,然而在視覺-語言(VL)研究領域中卻顯著地代表性不足。這種情況往往導致人工智慧(AI)模型無法捕捉到東南亞文化的細微差異。為填補這一空白,我們推出了SEA-VL,這是一項致力於開發高質量、文化相關的東南亞語言資料的開源計畫。透過邀請來自東南亞國家的貢獻者參與,SEA-VL旨在確保更好的文化相關性與多樣性,促進在VL研究中對代表性不足語言的更大包容性。除了眾包之外,我們的計畫更進一步探索了透過爬取與圖像生成自動收集文化相關圖像的方法。首先,我們發現圖像爬取在達到約85%文化相關性的同時,比眾包更具成本與時間效益。其次,儘管生成視覺模型取得了顯著進展,合成圖像在準確反映東南亞文化方面仍不可靠,生成的圖像往往未能體現該地區細膩的傳統與文化背景。總計,我們收集了128萬張東南亞文化相關圖像,規模超過現有其他資料集的50倍。透過SEA-VL,我們期望縮小東南亞在代表性上的差距,推動開發更具包容性的AI系統,真實地呈現東南亞多元文化的面貌。
提升大型多模态模型(LMMs)的推理能力面临独特挑战,这源于视觉感知与逻辑推理之间复杂的相互作用,尤其是在紧凑的30亿参数架构中,架构限制制约了推理能力和模态对齐。尽管基于规则的强化学习(RL)在纯文本领域表现出色,但其多模态扩展却面临两大关键障碍:(1)由于答案模糊和复杂推理示例稀缺导致的数据限制,(2)多模态预训练引发的基础推理能力下降。 为应对这些挑战,我们提出了\method,一个两阶段框架,通过基础推理增强(FRE)随后进行多模态泛化训练(MGT),将基于规则的RL适应于多模态推理。FRE阶段首先利用纯文本数据和基于规则的RL强化推理能力,接着MGT阶段将这些推理能力泛化至多模态领域。 在Qwen2.5-VL-Instruct-3B上的实验表明,\method在多模态和纯文本基准测试中分别实现了4.83%和4.5%的平均提升,在复杂的足球比赛任务中获得了3.63%的增益。这些结果验证了基于文本的推理增强能够实现有效的多模态泛化,提供了一种数据高效的范式,绕过了昂贵的高质量多模态训练数据需求。
我們致力於解決長篇音樂生成任務——尤其是極具挑戰性的歌詞轉歌曲問題——通過引入YuE,這是一個基於LLaMA2架構的開放基礎模型家族。具體而言,YuE能夠擴展至處理萬億級別的數據量,並生成長達五分鐘的音樂,同時保持歌詞對齊、連貫的音樂結構以及引人入勝的聲樂旋律與恰當的伴奏。它實現這一目標依賴於:(1) 軌道解耦的下一個令牌預測,以克服密集混合信號的難題;(2) 結構漸進條件化,確保長上下文中的歌詞對齊;(3) 多任務、多階段的預訓練策略,促進模型的收斂與泛化。此外,我們重新設計了音樂生成中的上下文學習技術,實現了多樣化的風格轉換(例如,將日本城市流行轉化為英語說唱,同時保留原伴奏)以及雙向生成。通過廣泛的評估,我們證明YuE在音樂性和聲樂靈活性方面與甚至超越了一些專有系統。此外,對YuE進行微調能夠實現額外的控制並增強對小眾語言的支援。更進一步,除了生成功能,我們展示了YuE學習到的表徵在音樂理解任務上表現出色,在MARBLE基準測試中,YuE的結果與或超過了現有的最先進方法。關鍵詞:歌詞轉歌曲、歌曲生成、長篇、基礎模型、音樂生成
訓練模型以有效利用測試時計算資源,對於提升大型語言模型(LLMs)的推理性能至關重要。當前的方法主要通過對搜索軌跡進行微調或使用0/1結果獎勵進行強化學習(RL)來實現,但這些方法是否高效地利用了測試時計算資源?隨著預算增加,這些方法是否仍能持續擴展?本文試圖回答這些問題。我們將優化測試時計算資源的問題形式化為一個元強化學習(meta-RL)問題,這為如何分配測試時計算資源提供了一個原則性的視角。這一視角使我們能夠將LLM產生的長輸出流視為在測試時運行的多個片段,並引導我們使用輸出標記上的累積遺憾作為衡量測試時計算資源效能的指標。類似於RL算法在訓練中如何最佳地權衡探索與利用,最小化累積遺憾也能在標記流中提供探索與利用之間的最佳平衡。雖然我們展示了最先進的模型並未最小化遺憾,但可以通過最大化密集獎勵獎金與0/1結果獎勵RL相結合來實現這一點。這一獎金是輸出流中每個後續區塊所取得的「進展」,通過最終成功概率的變化來量化。基於這些洞見,我們開發了元強化微調(Meta Reinforcement Fine-Tuning, MRT),這是一類用於優化測試時計算資源的新微調方法。與結果獎勵RL相比,MRT在數學推理任務上帶來了2-3倍的相對性能提升,並在標記效率上實現了約1.5倍的增益。
在本報告中,我們介紹了Gemini Embedding,這是一款最先進的嵌入模型,它充分利用了Google最強大的大型語言模型Gemini的能力。憑藉Gemini固有的多語言和代碼理解能力,Gemini Embedding能夠為涵蓋多種語言和文本模式的文本生成高度泛化的嵌入表示。由Gemini Embedding生成的表示可以預先計算並應用於各種下游任務,包括分類、相似性、聚類、排序和檢索。在包含超過250種語言、一百多項任務的大規模多語言文本嵌入基準(MMTEB)上進行評估時,Gemini Embedding顯著超越了先前的最先進模型,展示了嵌入質量的顯著提升。在MMTEB的多語言、英語和代碼基準測試中均達到最先進性能,我們的統一模型在廣泛的任務選擇中展現出強大的能力,並超越了專門的領域特定模型。
擴散模型的快速發展極大地推動了圖像生成領域的顯著進步。然而,諸如Flux、SD3.5和Midjourney等主流模型,仍面臨模型偏差、文本渲染能力有限以及對中國文化細微之處理解不足等問題。為解決這些限制,我們推出了Seedream 2.0,這是一款原生中英雙語圖像生成基礎模型,在多個維度上表現卓越,能夠熟練處理中英文文本提示,支持雙語圖像生成與文本渲染。我們開發了一個強大的數據系統,促進知識整合,以及一個平衡圖像描述準確性與豐富性的標題系統。特別地,Seedream整合了自研的雙語大語言模型作為文本編碼器,使其能直接從海量數據中學習原生知識,從而生成高保真圖像,精確捕捉中英文描述的文化細微差異與美學表達。此外,應用Glyph-Aligned ByT5實現靈活的字符級文本渲染,而Scaled ROPE則能很好地泛化到未經訓練的分辨率。多階段後訓練優化,包括SFT和RLHF迭代,進一步提升了整體能力。通過大量實驗,我們證明Seedream 2.0在多個方面達到了最先進的性能,包括提示跟隨、美學、文本渲染和結構正確性。此外,Seedream 2.0經過多次RLHF迭代優化,使其輸出與人類偏好高度一致,這從其出色的ELO得分中可見一斑。此外,它還能輕鬆適應基於指令的圖像編輯模型,如SeedEdit,具備強大的編輯能力,在指令遵循與圖像一致性之間取得平衡。
我們推出MagicInfinite,這是一種新穎的擴散Transformer(DiT)框架,它克服了傳統肖像動畫的限制,能夠在多樣化的角色類型——包括寫實人類、全身像以及風格化動漫角色——上實現高保真效果。該框架支持多種面部姿態,包括背對視角,並能根據輸入遮罩對單個或多個角色進行動畫處理,以便在多角色場景中精確指定發言者。我們的方法通過三項創新解決了關鍵挑戰:(1)採用3D全注意力機制與滑動窗口去噪策略,實現了具有時間連貫性和視覺質量的無限視頻生成,適用於多種角色風格;(2)實施兩階段課程學習方案,整合音頻以實現唇形同步,文本以增強表現力動態,以及參考圖像以保持身份特徵,從而實現對長序列的靈活多模態控制;(3)利用區域特定遮罩與自適應損失函數來平衡全局文本控制與局部音頻引導,支持特定發言者的動畫生成。通過我們創新的統一步驟和cfg蒸餾技術,效率得到顯著提升,相比基礎模型實現了20倍的推理速度提升:在8個H100 GPU上,10秒內生成10秒540x540p視頻或30秒內生成720x720p視頻,且無質量損失。在我們的新基準測試中,MagicInfinite在音頻-唇形同步、身份保持及動作自然度等方面展現出卓越性能,適用於多種場景。該框架已公開於https://www.hedra.com/,並在https://magicinfinite.github.io/提供示例。
兩位個體在執行相同動作時有何差異?在本研究中,我們提出了視頻動作差異識別(VidDiff)這一新穎任務,旨在識別相同動作視頻間的細微差別,此任務在教練指導與技能學習等領域具有廣泛應用。為推動這一新任務的發展,我們首先構建了VidDiffBench,這是一個包含549對視頻的基準數據集,其中包含4,469條精細動作差異的人類標註以及2,075個標明這些差異發生位置的時間戳。我們的實驗表明,VidDiffBench對GPT-4o和Qwen2-VL等最先進的大型多模態模型(LMMs)構成了顯著挑戰。通過分析LMMs在VidDiffBench上的失敗案例,我們揭示了該任務的兩大關鍵挑戰:跨兩視頻定位相關子動作以及精細幀級比較。為克服這些挑戰,我們提出了VidDiff方法,這是一種將任務分解為三個階段的代理工作流程:動作差異提議、關鍵幀定位及幀間差異分析,每個階段均利用專門的基礎模型。為促進這一新任務的未來研究,我們在https://huggingface.co/datasets/jmhb/VidDiffBench發布了基準數據集,並在http://jmhb0.github.io/viddiff提供了代碼。
統一多模態模型(Unified Multimodal Models, UMMs)已成為基礎計算機視覺研究中的一個強大範式,在圖像理解和生成方面展現出顯著潛力。然而,現有人臉領域的研究主要集中在粗粒度的人臉屬性理解上,處理細粒度人臉屬性的能力有限,且未涉及生成能力。為克服這些限制,我們提出了UniF^2ace,這是首個專門針對細粒度人臉理解與生成設計的UMM。總體而言,我們利用兩種互補的擴散技術和一個兩級專家混合架構,在自建的專用數據集上訓練UniF^2ace。具體來說,我們首先構建了一個大規模的人臉數據集UniF^2ace-130K,其中包含13萬個圖像-文本對及一百萬個問答對,涵蓋了廣泛的人臉屬性。其次,我們建立了離散擴散分數匹配與掩碼生成模型之間的理論聯繫,同時優化兩者的證據下界,這顯著提升了模型合成面部細節的能力。最後,我們引入了令牌級和序列級的專家混合,使得模型在理解和生成任務中都能高效地進行細粒度表示學習。在UniF^2ace-130K上的大量實驗表明,UniF^2ace在理解和生成任務上均超越了現有的UMMs和生成模型,取得了優異的性能。
尽管多模态大语言模型(MLLMs)已展现出足够的图像理解能力,它们在像素级理解方面仍存在困难,这限制了其实际应用。当前的评估任务,如视觉问答(VQA)和视觉定位,仍过于粗糙,无法准确评估细粒度的像素理解。虽然分割是像素级理解的基础,但现有方法通常要求MLLMs生成隐含的标记,并通过外部像素解码器进行解码。这种方法扰乱了MLLM的文本输出空间,可能损害其语言能力,并降低灵活性和可扩展性,同时未能反映模型内在的像素级理解能力。 因此,我们引入了类人掩码标注任务(HLMAT),这是一种新范式,MLLMs通过交互式分割工具模仿人类标注者。将分割建模为多步马尔可夫决策过程,HLMAT使MLLMs能够迭代生成基于文本的点击点,从而在不改变架构或使用隐含标记的情况下实现高质量掩码。通过这一设置,我们开发了SegAgent,一个在类人标注轨迹上微调的模型,其性能可与最先进(SOTA)方法相媲美,并支持掩码精炼和标注过滤等附加任务。 HLMAT为评估MLLMs的细粒度像素理解提供了一种协议,并引入了一个以视觉为中心的多步决策任务,有助于探索MLLMs的视觉推理能力。我们对策略改进方法StaR和PRM引导的树搜索的进一步适配,增强了模型在复杂分割任务中的鲁棒性,为未来在细粒度视觉感知和多步决策方面的MLLMs进步奠定了基础。
儘管近期文本到視頻擴散模型的進步使得從單一提示生成高質量的短視頻成為可能,但在單次生成中生成現實世界的長視頻仍然具有挑戰性,這主要受限於數據不足和高昂的計算成本。為解決這一問題,多項研究提出了無需調優的方法,即擴展現有模型以生成長視頻,特別是使用多個提示來實現動態且可控的內容變化。然而,這些方法主要集中於確保相鄰幀之間的平滑過渡,往往導致內容漂移和語義連貫性在較長序列中的逐漸喪失。為應對這一問題,我們提出了同步耦合採樣(SynCoS),這是一種新穎的推理框架,通過同步整個視頻的去噪路徑,確保相鄰和遠距離幀之間的長程一致性。我們的方法結合了兩種互補的採樣策略:反向採樣和基於優化的採樣,分別確保無縫的局部過渡和強制全局一致性。然而,直接交替使用這些採樣會導致去噪軌跡錯位,破壞提示引導並引入非預期的內容變化,因為它們是獨立運行的。為解決這一問題,SynCoS通過固定的時間步長和基準噪聲來同步它們,確保完全耦合的採樣和對齊的去噪路徑。大量實驗表明,SynCoS顯著改善了多事件長視頻的生成,實現了更平滑的過渡和更優的長程一致性,在定量和定性上均超越了先前的方法。
測試時計算正逐漸成為增強語言模型複雜多步推理能力的新範式,這一點在OpenAI的o1和o3以及DeepSeek的R1的成功中得到了體現。與測試時計算中的顯式推理相比,隱式推理在推理效率上更為高效,所需的生成標記更少。然而,為何這種先進的推理能力未能出現在隱式推理風格中?在本研究中,我們從頭開始訓練GPT-2,使用精心挑選的多步數學推理數據集,並進行分析性實驗,以探討語言模型在多步任務中如何執行隱式推理。我們的研究發現揭示:1)語言模型能夠通過隱式推理進行逐步推理,並在域內和域外測試中達到高準確率。然而,這種能力僅在訓練於固定模式數據時才會出現。2)相反,從非固定模式數據訓練中出現的隱式推理能力往往會過度擬合特定模式,無法進一步泛化。值得注意的是,這種限制在最先進的大型語言模型中也觀察到了。這些發現表明,語言模型通過捷徑學習獲得隱式推理能力,使其在具有相似模式的任務上表現出色,但缺乏泛化能力。
近期,文本到圖像生成領域的進展主要依賴於龐大的數據集和參數密集的架構。這些要求嚴重限制了缺乏充足計算資源的研究者和從業者的可及性。本文介紹了\model,一種高效的圖像生成模型訓練範式,該範式利用知識蒸餾(KD)和直接偏好優化(DPO)。受多模態大型語言模型(MLLMs)中廣泛採用的數據KD技術成功的啟發,LightGen將最先進(SOTA)的文本到圖像模型的知識蒸餾到僅有0.7B參數的緊湊掩碼自迴歸(MAR)架構中。使用僅由多樣化標題生成的2M高質量圖像的緊湊合成數據集,我們證明數據多樣性在決定模型性能方面遠超數據量。這一策略大幅降低了計算需求,並將預訓練時間從可能的上千GPU天減少至僅88GPU天。此外,為解決合成數據固有的缺陷,特別是高頻細節不足和空間不準確性,我們整合了DPO技術,以精煉圖像的保真度和位置準確性。全面的實驗證實,LightGen在顯著減少計算資源的同時,達到了與SOTA模型相當的圖像生成質量,並擴展了資源受限環境下的可及性。代碼可在https://github.com/XianfengWu01/LightGen獲取。
近期,统一多模态理解与视觉生成(或多模态生成)模型的发展,受限于其二次方的计算复杂度及对大规模训练数据的依赖。我们提出了OmniMamba,首个基于线性架构的多模态生成模型,通过统一的下一标记预测范式,同时生成文本与图像。该模型充分利用了Mamba-2的高计算与内存效率,将其能力从文本生成扩展至多模态生成。针对现有统一模型的数据效率低下问题,我们提出了两项关键创新:(1) 解耦词汇表以指导特定模态的生成,(2) 任务特定的LoRA实现参数高效适配。此外,我们引入了解耦的两阶段训练策略,以缓解两项任务间的数据不平衡。配备这些技术后,OmniMamba在仅训练2百万图文对的情况下,性能与JanusFlow相当,并在多个基准测试中超越Show-o,而Show-o的训练数据量是其1000倍。尤为突出的是,OmniMamba在推理效率上表现卓越,与基于Transformer的模型相比,在长序列生成上实现了高达119.2倍的加速和63%的GPU内存节省。代码与模型已发布于https://github.com/hustvl/OmniMamba。
指令遵循型检索器已与大型语言模型(LLM)一同广泛应用于现实世界的应用中,但鲜有研究探讨其日益增强的搜索能力所带来的安全风险。我们通过实证研究,探讨了检索器在直接使用及在基于检索增强生成(RAG)的配置下满足恶意查询的能力。具体而言,我们调查了包括NV-Embed和LLM2Vec在内的六种领先检索器,发现面对恶意请求时,大多数检索器能够(针对超过50%的查询)筛选出相关的有害段落。例如,LLM2Vec在我们的恶意查询中正确选择了61.35%的段落。我们进一步揭示了指令遵循型检索器的一个新兴风险,即通过利用其指令遵循能力,可以暴露出高度相关的有害信息。最后,我们展示,即使是经过安全对齐的LLM,如Llama3,在上下文中提供有害检索段落的情况下,也能满足恶意请求。总之,我们的发现强调了随着检索器能力提升而伴随的恶意滥用风险。
代码定位——精确识别代码库中需要修改的位置——是软件维护中一项基础而具有挑战性的任务。现有方法在识别相关代码段时,难以高效地导航复杂的代码库。这一挑战的核心在于如何将自然语言的问题描述与相应的代码元素相连接,通常需要跨越层次结构和多重依赖关系进行推理。我们引入了LocAgent,一个通过基于图的表示来解决代码定位问题的框架。通过将代码库解析为有向异构图,LocAgent创建了一个轻量级的表示,捕捉代码结构(文件、类、函数)及其依赖关系(导入、调用、继承),使LLM代理能够通过强大的多跳推理有效地搜索和定位相关实体。在真实世界基准测试中的实验结果表明,我们的方法显著提高了代码定位的准确性。值得注意的是,使用微调后的Qwen-2.5-Coder-Instruct-32B模型,我们的方法在显著降低成本(约减少86%)的同时,达到了与SOTA专有模型相当的结果,在文件级定位上达到了92.7%的准确率,并将下游GitHub问题解决成功率在多尝试(Pass@10)情况下提升了12%。我们的代码可在https://github.com/gersteinlab/LocAgent获取。
人類與外部世界的互動本質上涉及個人記憶的交換,無論是與他人、網站、應用程式,還是在未來與人工智慧代理的互動。這種互動中有很大一部分是重複的,要求用戶在不同情境下反覆提供相同的資訊。現有的解決方案,如瀏覽器存儲的憑證、自動填充機制和統一認證系統,旨在通過作為存儲和檢索常用用戶數據的中介來減少這種重複性。大型語言模型(LLMs)的出現為重新定義記憶管理提供了機會,通過一種AI原生的範式:SECOND ME。SECOND ME作為一個智能、持久的記憶卸載系統,能夠保留、組織並動態利用用戶特定的知識。通過在用戶互動中擔任中介角色,它能夠自主生成情境感知的回應、預填所需資訊,並促進與外部系統的無縫溝通,從而顯著降低認知負擔和互動摩擦。與傳統的記憶存儲解決方案不同,SECOND ME利用基於LLM的記憶參數化,超越了靜態數據保留,實現了結構化組織、情境推理和適應性知識檢索,促進了更系統化和智能化的記憶管理方法。隨著像SECOND ME這樣的AI驅動個人代理日益融入數位生態系統,SECOND ME進一步代表了向增強人與世界互動邁出的關鍵一步,這種互動具有持久性、情境感知和自我優化的記憶系統。我們已在GitHub上開源了完全可本地化的部署系統:https://github.com/Mindverse/Second-Me。
我們提出了一種新穎的視覺標記化框架,該框架將可證明的類PCA結構嵌入到潛在標記空間中。現有的視覺標記化方法主要優化重建保真度,但往往忽略了潛在空間的結構特性——這對於可解釋性和下游任務至關重要。我們的方法為圖像生成一維因果標記序列,其中每個後續標記貢獻不重疊的信息,並具有數學上保證的遞減解釋方差,類似於主成分分析。這種結構約束確保標記化器首先提取最顯著的視覺特徵,每個後續標記則添加遞減但互補的信息。此外,我們識別並解決了語義-頻譜耦合效應,該效應導致高層語義內容和低層頻譜細節在標記中產生不必要的糾纏,通過利用擴散解碼器來實現。實驗表明,我們的方法達到了最先進的重建性能,並實現了更好的可解釋性,與人類視覺系統保持一致。此外,在我們的標記序列上訓練的自回歸模型達到了與當前最先進方法相當的性能,同時在訓練和推理過程中需要更少的標記。
隨著多模態基礎模型開始在自駕車中進行實驗性部署,我們不禁要問:這些系統在特定駕駛情境下的反應與人類有多相似——尤其是在那些分佈外(out-of-distribution)的情境中?為此,我們創建了Robusto-1數據集,該數據集使用了來自秘魯的行車記錄儀視頻數據。秘魯是全球駕駛行為最為激進的國家之一,交通指數高,且街道上出現的奇特物體與非奇特物體的比例極高,這些物體很可能從未在訓練中出現。特別地,為了初步測試基礎視覺語言模型(VLMs)在駕駛情境中與人類在認知層面的比較,我們摒棄了邊界框、分割圖、佔用圖或軌跡估計等方法,轉而採用多模態視覺問答(VQA),並通過系統神經科學中常用的表徵相似性分析(RSA)來比較人類與機器的表現。根據我們提出的問題類型以及這些系統給出的答案,我們將展示在哪些情況下VLMs與人類會趨同或分歧,從而探討它們的認知對齊程度。我們發現,對齊程度會根據向每種類型系統(人類與VLMs)提出的問題類型而顯著變化,這凸顯了它們在對齊上的差距。
在本論文中,我們介紹了CineBrain,這是首個在動態視聽刺激下同步記錄腦電圖(EEG)和功能性磁共振成像(fMRI)的大規模數據集。認識到EEG的高時間分辨率與fMRI的深層腦部空間覆蓋的互補優勢,CineBrain為六名參與者提供了來自熱門電視劇《生活大爆炸》的約六小時敘事驅動內容。基於這一獨特數據集,我們提出了CineSync,這是一種創新的多模態解碼框架,它將多模態融合編碼器與基於擴散的神經潛在解碼器相結合。我們的方法有效地融合了EEG和fMRI信號,顯著提升了複雜視聽刺激的重建質量。為了促進嚴謹的評估,我們引入了Cine-Benchmark,這是一個全面的評估協議,從語義和感知維度評估重建效果。實驗結果表明,CineSync在視頻重建性能上達到了最先進的水平,並凸顯了我們在結合fMRI和EEG重建視頻和音頻刺激方面的初步成功。項目頁面:https://jianxgao.github.io/CineBrain。
大型視覺語言模型(LVLMs)已展現出卓越的成就,然而在事實尋求問答(QA)中,生成非事實性回應的現象仍然普遍存在。當前的多模態事實尋求基準主要集中於比較模型輸出與標準答案,這對於模態特定模組的性能提供了有限的洞察。為彌補這一差距,我們引入了VisualSimpleQA,這是一個具有兩大關鍵特點的多模態事實尋求基準。首先,它能夠對LVLMs在視覺和語言模態上進行簡化且分離的評估。其次,它整合了明確的難度標準,以指導人工標註,並便於提取出具有挑戰性的子集——VisualSimpleQA-hard。對15個LVLMs的實驗顯示,即便是如GPT-4o這樣的頂尖模型,在VisualSimpleQA上的多模態事實尋求QA中僅達到60%以上的正確率,而在VisualSimpleQA-hard上則僅有30%以上。此外,這些模型的分離評估揭示了視覺和語言模組均有顯著的改進空間。該數據集可於https://huggingface.co/datasets/WYLing/VisualSimpleQA獲取。
基准测试对于一致评估和可复现性至关重要。人工智能与软件工程的融合(AI4SE)催生了众多针对代码生成和缺陷修复等任务的基准测试。然而,这一激增也带来了挑战:(1)基准测试知识分散于不同任务之间,(2)选择相关基准测试的难度,(3)缺乏统一的基准测试开发标准,以及(4)现有基准测试的局限性。本文回顾了173项研究,识别出204个AI4SE基准测试。我们对这些基准测试进行了分类,分析了它们的局限性,并揭示了实践中的空白。基于我们的综述,我们开发了BenchScout,一个通过自动聚类相关研究上下文来寻找相关基准测试的语义搜索工具。我们进行了包含22名参与者的用户研究,评估了BenchScout的可用性、有效性和直观性,分别获得了4.5、4.0和4.1的平均评分(满分5分)。为了推进基准测试标准,我们提出了BenchFrame,一种提升基准测试质量的统一方法。作为案例研究,我们将BenchFrame应用于HumanEval基准测试,解决了其主要限制。这促成了HumanEvalNext的诞生,其特点包括(1)错误修正,(2)语言转换改进,(3)测试覆盖范围扩大,以及(4)难度提升。随后,我们在HumanEval、HumanEvalPlus和HumanEvalNext上评估了十种最先进的代码语言模型。在HumanEvalNext上,模型的pass@1得分相较于HumanEval和HumanEvalPlus分别降低了31.22%和19.94%。
大型語言模型中的神經元往往表現出多義性,同時編碼多個不相關的概念,從而模糊了可解釋性。我們提出了MoE-X,這是一種專為內在可解釋性設計的混合專家(Mixture-of-Experts, MoE)語言模型,而非依賴於事後方法。我們的方法基於這樣的觀察:在語言模型中,具有稀疏激活的寬網絡更有可能捕捉到可解釋的因素。然而,直接訓練如此大規模的稀疏網絡在計算上是不可行的。MoE架構通過僅為任何給定輸入激活一部分專家,提供了一種可擴展的替代方案,這與可解釋性目標本質上是一致的。在MoE-X中,我們通過將MoE層重寫為等效的稀疏大型多層感知器(MLP)來建立這種聯繫。這種方法能夠在保持稀疏性的同時高效地擴展隱藏層大小。為了進一步增強可解釋性,我們在每個專家內部強制實施稀疏激活,並重新設計路由機制,以優先選擇激活稀疏度最高的專家。這些設計確保了只有最顯著的特徵才會被路由並由專家處理。我們在國際象棋和自然語言任務上評估了MoE-X,結果顯示它在保持與密集模型相當的性能的同時,顯著提高了可解釋性。MoE-X的困惑度優於GPT-2,其可解釋性甚至超越了基於稀疏自編碼器(SAE)的方法。
聯合音視頻(AV)生成在生成式人工智慧領域仍是一大挑戰,主要歸因於三個關鍵需求:生成樣本的質量、無縫的多模態同步與時間一致性(即音頻軌與視覺數據相互匹配),以及無限的視頻時長。本文提出了一種新穎的基於Transformer的架構,旨在解決AV生成中的所有關鍵難題。我們探討了三種不同的跨模態交互模塊,其中我們輕量級的時間融合模塊被證明是對齊音頻與視覺模態最為有效且計算效率最高的方法。實驗結果表明,在多模態AV生成任務中,該模型超越了現有的最先進模型。我們的代碼與檢查點已公開於https://github.com/ErgastiAlex/R-FLAV。
儘管基於學習的運動插值技術近期取得了進展,但一個關鍵限制卻被忽視了:對角色特定數據集的需求。在本研究中,我們提出了AnyMoLe,這是一種新穎的方法,通過利用視頻擴散模型來生成任意角色的運動插值幀,無需外部數據,從而解決了這一限制。我們的方法採用兩階段幀生成過程來增強上下文理解。此外,為了彌合現實世界與渲染角色動畫之間的領域差距,我們引入了ICAdapt,這是一種針對視頻擴散模型的微調技術。同時,我們提出了一種“運動-視頻模仿”優化技術,使得利用2D和3D感知特徵為具有任意關節結構的角色實現無縫運動生成成為可能。AnyMoLe在生成平滑且逼真的過渡效果時,顯著降低了數據依賴性,使其適用於廣泛的運動插值任務。
先前的研究已證實,語言模型會表現出刻板偏見。現有的去偏策略,如使用反事實數據重新訓練模型、表示投影和提示等,往往無法有效消除偏見或直接改變模型內部的偏見表徵。為解決這些問題,我們提出了BiasEdit,這是一種高效的模型編輯方法,通過輕量級網絡作為編輯器生成參數更新,從而移除語言模型中的刻板偏見。BiasEdit採用去偏損失指導編輯網絡對語言模型的部分參數進行局部編輯以實現去偏,同時通過保留損失在編輯過程中保持語言建模能力。在StereoSet和Crows-Pairs上的實驗表明,與切線去偏基線相比,BiasEdit在消除偏見方面具有高效性、有效性和魯棒性,且對語言模型的通用能力影響甚微或無影響。此外,我們進行了偏見追蹤,以探測各模塊中的偏見,並探索了偏見編輯對語言模型不同組件的影響。
在计算机视觉领域,人类无疑是最重要的参与者,而根据自然语言描述检测任何个体的能力——我们将其定义为指向任何人的任务——具有重要的实用价值。然而,我们发现现有模型普遍未能实现实际应用中的可用性,且当前的基准测试因局限于一对一的指向任务而阻碍了该领域的进展。在本研究中,我们从三个关键视角重新审视这一任务:任务定义、数据集设计和模型架构。首先,我们识别了可指向实体的五个方面及该任务的三个显著特征。接着,我们引入了HumanRef,一个旨在应对这些挑战并更好地反映现实世界应用场景的新颖数据集。从模型设计的角度出发,我们将多模态大语言模型与目标检测框架相结合,构建了一个名为RexSeek的稳健指向模型。实验结果表明,在RefCOCO/+/g等常用基准测试上表现优异的先进模型,由于无法检测多个个体,在HumanRef上表现欠佳。相比之下,RexSeek不仅在人类指向任务中表现出色,还能有效泛化至常见物体的指向任务,使其在多种感知任务中具有广泛适用性。代码可在https://github.com/IDEA-Research/RexSeek获取。
擴散模型和流匹配方法雖能生成高品質樣本,但在推理時速度緩慢,且將其蒸餾為少步模型常導致不穩定性和大量調參需求。為解決這些權衡問題,我們提出了歸納矩匹配(Inductive Moment Matching, IMM),這是一種新型生成模型,適用於單步或少量步數的採樣,並採用單階段訓練程序。與蒸餾不同,IMM無需預訓練初始化及優化兩個網絡;與一致性模型相比,IMM保證了分佈層面的收斂性,並在多種超參數和標準模型架構下保持穩定。IMM在ImageNet-256x256上僅用8步推理便以1.99的FID超越了擴散模型,並在CIFAR-10上從零開始訓練的模型中,達到了2步FID為1.98的頂尖水平。
先前的研究發現,基於預訓練語言模型(PLM)的檢索模型對大型語言模型(LLM)生成的內容表現出偏好,即使這些文檔的語義質量與人類撰寫的相當,仍會給予更高的相關性評分。這一現象被稱為來源偏差,威脅著信息獲取生態系統的可持續發展。然而,來源偏差的根本原因尚未被探討。在本文中,我們通過因果圖解釋了信息檢索的過程,並發現基於PLM的檢索器學習了困惑度特徵來進行相關性估計,從而通過將低困惑度的文檔排名更高來引發來源偏差。理論分析進一步揭示,這一現象源於語言建模任務和檢索任務中損失函數梯度之間的正相關性。基於此分析,我們提出了一種因果啟發的推理時間去偏方法,稱為因果診斷與校正(CDC)。CDC首先診斷困惑度的偏差效應,然後將偏差效應從整體估計的相關性評分中分離出來。跨三個領域的實驗結果展示了CDC卓越的去偏效果,強調了我們提出的解釋框架的有效性。源代碼可在https://github.com/WhyDwelledOnAi/Perplexity-Trap獲取。
擴散模型在多個領域取得了顯著成功。然而,其生成速度緩慢仍然是一個關鍵挑戰。現有的加速方法雖然旨在減少步驟,但往往會犧牲樣本質量、可控性,或引入訓練複雜性。因此,我們提出了RayFlow,這是一種新穎的擴散框架,旨在解決這些限制。與以往方法不同,RayFlow引導每個樣本沿著一條獨特的路徑朝向特定實例的目標分佈。這種方法在最小化採樣步驟的同時,保持了生成的多樣性和穩定性。此外,我們引入了時間採樣器,這是一種重要性採樣技術,通過專注於關鍵時間步來提高訓練效率。大量實驗表明,與現有的加速技術相比,RayFlow在生成高質量圖像方面具有更快的速度、更好的控制和更高的訓練效率。
隨著大型語言模型(LLMs)的出現,神經機器翻譯(NMT)領域發生了變化。近年來,自然語言處理(NLP)的重點大多集中在使用單一預訓練的Transformer解碼器來建模機器翻譯及其他多種問題,而早期NMT模型中作為標準的編碼器-解碼器架構則相對受到較少關注。本文探討了如何將LLMs與NMT結合,構建通用、高效且易於優化的翻譯模型。我們將LLMs應用於NMT編碼,並保持NMT解碼器不變。同時,我們開發了使LLMs更好地與NMT解碼器協同工作的方法。此外,我們構建了一個包含多任務的新數據集,以評估機器翻譯系統在各種任務中的泛化能力。在WMT及我們數據集上的評估結果顯示,使用我們方法在翻譯質量上與多種基線模型相當或更優,且推理速度提升了2.4至6.5倍,KV緩存的內存佔用減少了75%。該方法還展現了在各種翻譯相關任務中的強大泛化能力。
近期長視頻理解領域的進展,通常基於注意力分佈來進行視覺標記剪枝,從而減少視覺冗餘。然而,現有方法雖在解碼器層採用事後低響應標記剪枝,卻忽略了視覺標記與指令(查詢)之間在輸入層面的語義關聯。本文提出QuoTA,一種無需訓練的模組化方法,它擴展了現有的大型視頻語言模型(LVLMs),基於查詢導向的幀級重要性評估來進行視覺標記分配。查詢導向的標記選擇至關重要,因為它使視覺處理與任務特定需求對齊,在保持語義相關內容的同時,優化標記預算的使用。具體而言,(i) QuoTA根據查詢相關性策略性地分配幀級重要性分數,使得在解碼器層進行跨模態交互前一次性完成視覺標記分配,(ii) 我們通過思維鏈推理解耦查詢,以促進更精確的基於LVLM的幀重要性評分,以及(iii) QuoTA提供即插即用功能,可擴展至現有的LVLMs。大量實驗結果表明,在LLaVA-Video-7B上實施QuoTA,在六個基準測試(包括Video-MME和MLVU)中平均性能提升3.2%,同時在與基線相同的視覺標記預算內運行。代碼已開源於https://github.com/MAC-AutoML/QuoTA。
看似簡單,將圖像中的物體移動到另一個位置實際上是一項具有挑戰性的圖像編輯任務,需要重新調和光照、根據透視調整姿態、準確填補被遮擋區域,並確保陰影和反射的同步協調,同時保持物體的身份特徵。在本文中,我們提出了ObjectMover,這是一個能夠在極具挑戰性的場景中執行物體移動的生成模型。我們的關鍵洞見是將此任務建模為序列到序列的問題,並微調一個視頻生成模型,以利用其在視頻幀間一致物體生成方面的知識。我們展示了通過這種方法,我們的模型能夠適應複雜的現實世界場景,處理極端的光照調和與物體效果移動。由於缺乏大規模的物體移動數據,我們使用現代遊戲引擎構建了一個數據生成管道,以合成高質量的數據對。我們進一步提出了一種多任務學習策略,使模型能夠在現實世界視頻數據上進行訓練,從而提高模型的泛化能力。通過大量實驗,我們證明ObjectMover取得了卓越的成果,並能很好地適應現實世界場景。
專家混合模型(Mixture of Experts, MoE)是一種通過利用稀疏專家激活來擴展大型語言模型的有效架構,優化了性能與效率之間的權衡。然而,在專家並行機制下,MoE因令牌到專家分配不均而面臨推理效率低下的問題,部分專家過載而其他專家則未被充分利用。這種不平衡導致資源利用率低下和延遲增加,因為負擔最重的專家決定了整體的延遲,這一現象我們稱之為\textit{拖尾效應}。為緩解此問題,我們提出了容量感知推理,包含兩項關鍵技術:(1) \textit{容量感知令牌丟棄},通過丟棄過載的令牌來調節MoE的最大延遲;(2) \textit{容量感知令牌重定向},將溢出的令牌重新分配到未被充分利用的專家,平衡令牌分佈。這些技術共同優化了高負載和低負載專家的利用率,從而實現了更高效的MoE推理流程。大量實驗證明了我們方法的有效性,顯示出推理效率的顯著提升,例如在Mixtral-8×7B-Instruct上實現了0.2%的平均性能提升和1.94倍的推理加速。
密集檢索模型在資訊檢索(IR)應用中廣泛使用,例如檢索增強生成(RAG)。由於它們通常作為這些系統的第一步,其穩健性對於避免失敗至關重要。在本研究中,我們通過重新利用一個關係抽取數據集(如Re-DocRED),設計了控制實驗來量化啟發式偏見(如偏好較短文檔)對檢索器(如Dragon+和Contriever)的影響。我們的研究揭示了顯著的脆弱性:檢索器往往依賴於表面模式,如過度優先考慮文檔開頭、較短文檔、重複實體和字面匹配。此外,它們往往忽略了文檔是否包含查詢的答案,缺乏深層的語義理解。值得注意的是,當多種偏見結合時,模型表現出災難性的性能下降,在不到3%的情況下選擇了包含答案的文檔,而不是沒有答案的偏見文檔。此外,我們還展示了這些偏見對下游應用(如RAG)的直接影響,其中檢索偏好的文檔可能會誤導大型語言模型(LLM),導致性能下降34%,甚至比不提供任何文檔更差。
智慧是物種在有限次數的試錯過程中找到解決方案的關鍵特質。基於這一理念,我們引入了「生存遊戲」作為一個框架,通過試錯過程中的失敗次數來評估智慧水平。失敗次數越少,表明智慧越高。當失敗次數的期望值和方差均為有限值時,這標誌著能夠持續找到應對新挑戰的解決方案,我們將其定義為「自主智慧水平」。利用「生存遊戲」,我們全面評估了現有的AI系統。結果顯示,雖然AI系統在簡單任務中達到了自主智慧水平,但在更複雜的任務中,如視覺、搜索、推薦和語言處理,它們仍遠未達到這一水平。儘管擴展現有的AI技術可能有所幫助,但這將帶來天文數字的成本。預測表明,實現通用任務的自主智慧水平將需要10^{26}個參數。為了更直觀地理解這一規模,加載如此龐大的模型所需的H100 GPU總價值將是蘋果公司市值的10^{7}倍。即使按照摩爾定律,支持這樣的參數規模也需要70年。這一驚人的成本凸顯了人類任務的複雜性以及當前AI技術的不足。為了進一步探究這一現象,我們對「生存遊戲」及其實驗結果進行了理論分析。我們的研究表明,人類任務具有臨界性特質。因此,達到自主智慧水平需要深入理解任務的底層機制。然而,當前的AI系統並未完全掌握這些機制,而是依賴於表面的模仿,這使得它們難以達到自主水平。我們相信,「生存遊戲」不僅能指導AI的未來發展,還能為人類智慧提供深刻的洞見。
語言模型產生的幻覺輸出在醫療領域存在風險,尤其對於做出健康相關決策的非專業受眾而言。現有的真實性評估方法,如基於蘊含和問答(QA)的方法,在處理通俗語言摘要(PLS)生成時面臨困難,這是由於解釋性現象的引入,即為了增強理解而添加了源文件中未包含的外部內容(例如定義、背景、示例)。為解決這一問題,我們引入了PlainQAFact框架,該框架基於精細的人類註釋數據集PlainFact進行訓練,用於評估源簡化和解釋性句子的真實性。PlainQAFact首先對真實性類型進行分類,然後使用基於檢索增強QA的評分方法評估真實性。我們的方法輕量且計算效率高。實驗結果表明,現有的真實性指標無法有效評估PLS中的真實性,尤其是對於解釋性內容,而PlainQAFact則達到了最先進的性能。我們進一步分析了其在不同外部知識來源、答案提取策略、重疊度量和文檔粒度層次上的有效性,從而完善了其整體的真實性評估。
在當今數位時代,隨著攝像頭數量的不斷增加,隱私問題日益受到關注。儘管現有的匿名化方法能夠隱藏身份信息,但它們往往難以保持圖像的實用性。在本研究中,我們提出了一種無需訓練的面部匿名化方法,該方法能夠保留關鍵的非身份相關屬性。我們的方法利用預訓練的文本到圖像擴散模型,無需進行優化或訓練。首先,通過反轉輸入圖像來恢復其初始噪聲。然後,通過身份條件擴散過程對噪聲進行去噪,其中修改後的身份嵌入確保匿名化面部與原始身份不同。我們的方法還支持局部匿名化,讓用戶能夠控制哪些面部區域被匿名化或保持原樣。與最先進方法的全面評估顯示,我們的方法在匿名化、屬性保留和圖像質量方面表現優異。其靈活性、魯棒性和實用性使其非常適合實際應用。代碼和數據可在 https://github.com/hanweikung/nullface 找到。
近年來,通過生成式預訓練,基礎模型取得了顯著進展,然而這一領域的算法創新在很大程度上停滯於離散信號的自回歸模型和連續信號的擴散模型。這種停滯形成了一個瓶頸,阻礙了我們充分釋放豐富多模態數據的潛力,從而限制了多模態智能的發展。我們認為,採用一種「推理優先」的視角,即在推理階段優先考慮序列長度和精煉步驟的擴展效率,能夠激發新的生成式預訓練算法。以歸納矩匹配(IMM)為具體例證,我們展示了如何通過針對性修改來解決擴散模型推理過程中的局限性,從而得到一個穩定的單階段算法,該算法不僅實現了更優的樣本質量,還將推理效率提升了一個數量級以上。
視覺-語言-動作(VLA)模型旨在基於視覺觀察和語言指令預測機器人動作。現有方法需要對預訓練的視覺語言模型(VLM)進行微調,因為視覺和語言特徵被獨立輸入下游策略,這會降低預訓練的語義對齊效果。我們提出了OTTER,一種新穎的VLA架構,它通過顯式的、文本感知的視覺特徵提取來利用這些現有的對齊關係。OTTER並非處理所有視覺特徵,而是選擇性地提取並僅傳遞與語言指令語義對齊的任務相關視覺特徵給策略變換器。這使得OTTER能夠保持預訓練的視覺語言編碼器凍結不變。因此,OTTER保留並利用了從大規模預訓練中學到的豐富語義理解,實現了強大的零樣本泛化能力。在模擬和真實世界的實驗中,OTTER顯著優於現有的VLA模型,展示了對新物體和環境的強大零樣本泛化能力。視頻、代碼、檢查點和數據集:https://ottervla.github.io/。