每日精選AI研究論文及翻譯
本文通过分析大型语言模型(LLMs)对具有冲突国家视角(美国、英国、苏联和中国)的历史事件的解读,评估了这些模型在不同国家间的地缘政治偏见。我们引入了一个包含中立事件描述及各国对立观点的新数据集。研究发现,模型存在显著的地缘政治偏见,倾向于特定国家的叙事。此外,简单的去偏见提示在减少这些偏见方面效果有限。通过操控参与者标签的实验揭示了模型对归属的敏感性,有时会放大偏见或识别出不一致性,尤其是在标签互换的情况下。本研究凸显了LLMs中的国家叙事偏见,挑战了简单去偏见方法的有效性,并为未来的地缘政治偏见研究提供了框架和数据集。
典型的大型視覺語言模型(LVLMs)僅對文本序列應用自迴歸監督,未能充分將視覺模態融入學習過程。這導致了三個主要限制:(1)無法利用沒有伴隨標題的圖像,(2)標題可能遺漏關鍵視覺細節的風險,以及(3)某些以視覺為核心的內容無法通過文本充分傳達。因此,當前的LVLMs往往優先考慮視覺到語言的對齊,而可能忽略了細粒度的視覺信息。雖然一些先前的工作探索了自迴歸圖像生成,但有效利用自迴歸視覺監督來增強圖像理解仍是一個未解決的挑戰。在本論文中,我們引入了自迴歸語義視覺重建(ASVR),它能在統一的自迴歸框架內實現視覺和文本模態的聯合學習。我們展示,自迴歸地重建圖像的原始視覺外觀並不會增強,甚至可能損害多模態理解。相反,自迴歸地重建圖像的語義表示則能持續提升理解能力。值得注意的是,我們發現即使模型接收的是連續的圖像特徵作為輸入,它們也能有效地重建離散的語義標記,從而在廣泛的多模態理解基準測試中帶來穩定且一致的改進。我們的方法在不同數據規模(556k-2M)和不同類型的大型語言模型(LLM)骨架上均實現了顯著的性能提升。具體而言,ASVR在14個多模態基準測試中,將LLaVA-1.5的平均得分提高了5%。代碼可在https://github.com/AlenjandroWang/ASVR獲取。
基於規則的推理已被公認為推理中的基本問題之一,然而現實應用中規則格式、類型及複雜性的偏差帶來了嚴峻挑戰。近期研究表明,大型推理模型(LRMs)展現出卓越的推理能力,且其性能通過強化學習(RL)得到顯著提升。然而,小型推理模型(SRMs)能否有效學習基於規則的推理,並在多樣化任務與領域間展現出穩健的泛化能力,仍是一個未解之謎。為此,我們提出了強化規則推理法,即RuleReasoner,這是一種通過廣泛收集的任務集與新穎的領域感知動態採樣策略來執行基於規則推理的簡潔而高效的方法。具體而言,RuleReasoner通過基於歷史獎勵更新不同領域的採樣權重,對每一訓練批次進行重採樣。這促進了領域擴展及RL的靈活在線學習計劃,無需依賴現有方法中預先設計的人為混合訓練方案。在分佈內(ID)與分佈外(OOD)基準上的實證評估顯示,RuleReasoner在八項ID任務上平均領先前沿LRMs達4.1個百分點,在三項OOD任務上相較OpenAI-o1平均高出10.4個百分點。值得注意的是,與先前的RL動態採樣方法相比,我們的方法還展現出更高的計算效率。
從專業電影製作到用戶生成內容,創作者與觀眾早已認識到,視頻的力量在於我們所聽(視頻的音頻軌)與我們所見(視頻的圖像序列)之間的和諧統一。當前的視頻生成方法要么忽視聲音,專注於通用但無聲的圖像序列生成,要么同時處理視覺與音頻元素,但局限於特定應用領域,如重新配音。我們介紹了Mirage,這是一種音頻到視頻的基礎模型,擅長於根據音頻輸入從零開始生成逼真且富有表現力的輸出圖像。當與現有的語音合成方法(文本到語音,或TTS)結合時,Mirage能夠產生引人入勝的多模態視頻。當以人物講話的音視頻素材(A-roll)進行訓練,並以包含語音的音頻為條件時,Mirage能夠生成人物根據輸入音頻中隱含的表演進行可信詮釋的視頻。我們的核心技術貢獻是一種統一的訓練方法,用於基於自注意力機制的音頻到視頻生成模型,無論是從零開始還是基於現有權重。這一方法論使Mirage在保持作為音頻到視頻生成方法的通用性的同時,產生的輸出在主觀質量上優於那些融合了特定於音頻的架構或針對人物、語音、圖像或音頻捕捉細節的特定損失組件的方法。我們鼓勵讀者親自觀看和聆聽Mirage的成果(詳見論文及評論中的鏈接)。
擴散模型的進步顯著提升了視頻質量,促使研究焦點轉向細粒度可控性。然而,許多現有方法依賴於針對特定任務微調大規模視頻模型,隨著模型規模持續增長,這種做法變得越來越不切實際。在本研究中,我們提出了幀引導(Frame Guidance),這是一種基於幀級信號(如關鍵幀、風格參考圖像、草圖或深度圖)的無訓練可控視頻生成引導方法。為實現實用的無訓練引導,我們提出了一種簡單的潛在處理方法,大幅降低了內存使用,並應用了一種新穎的潛在優化策略,旨在生成全局連貫的視頻。幀引導能夠在多樣化任務中實現有效控制,包括關鍵幀引導、風格化及循環生成,無需任何訓練,且兼容於任何視頻模型。實驗結果表明,幀引導能夠為廣泛的任務和輸入信號生成高質量的可控視頻。
創造能夠以三維視角理解世界的機器,對於協助設計師構建與編輯三維環境,以及機器人在三維空間中的導航與互動至關重要。受到語言與圖像建模進展的啟發,我們探索了自回歸模型在一個新領域——結構化三維場景中的潛力。為此,我們提出了一個統一的LLM框架,該框架對齊了語言、圖像與三維場景,並提供了一份詳盡的“操作指南”,闡述了實現最佳訓練與性能的關鍵設計選擇,涵蓋了數據表示、模態特定目標等核心問題。我們在四個核心三維任務——渲染、識別、指令遵循與問答——以及四個三維數據集(包括合成與真實世界數據)上評估了性能。我們通過量化形狀編碼豐富了三維模態,從而擴展了我們的方法以重建複雜的三維物體形狀,並展示了模型在真實世界三維物體識別任務中的有效性。項目網頁:https://glab-caltech.github.io/kyvo/
我們提出了一種名為自我強制(Self Forcing)的新穎訓練範式,專為自迴歸視頻擴散模型設計。該方法旨在解決長期存在的曝光偏差問題,即在推理過程中,基於真實上下文訓練的模型必須根據其自身不完美的輸出來生成序列。與以往基於真實上下文幀去噪未來幀的方法不同,自我強制通過在訓練期間執行帶有鍵值(KV)緩存的自迴歸展開,將每一幀的生成條件設定為先前自我生成的輸出。這一策略使得監督能夠通過視頻層面的整體損失來實現,直接評估整個生成序列的質量,而非僅僅依賴於傳統的逐幀目標。為了確保訓練效率,我們採用了少步擴散模型結合隨機梯度截斷策略,有效平衡了計算成本與性能。此外,我們引入了一種滾動KV緩存機制,實現了高效的自迴歸視頻外推。大量實驗表明,我們的方法在單個GPU上實現了亞秒級延遲的實時流視頻生成,同時在生成質量上匹配甚至超越了顯著更慢且非因果的擴散模型。項目網站:http://self-forcing.github.io/
不等式證明,作為跨越多個科學與數學領域的關鍵技能,考驗著發現緊密界限和策略性定理應用等高級推理能力。這使其成為大型語言模型(LLMs)一個獨特且具挑戰性的前沿領域,提供了超越一般數學問題解決的洞見。然而,現有數據集往往稀缺、合成或過於形式化,阻礙了這一領域的進展。為此,我們提出了一種非正式但可驗證的任務框架,將不等式證明重新表述為兩個可自動檢查的子任務:界限估計與關係預測。基於此,我們發布了IneqMath,這是一個由專家精心策劃的奧林匹克級不等式數據集,包含測試集和訓練語料庫,並附有逐步解答和定理註釋。此外,我們開發了一種新穎的LLM-as-judge評估框架,結合了最終答案評判與四個旨在檢測常見推理缺陷的逐步評判。對29個領先LLMs在IneqMath上的系統評估揭示了一個令人驚訝的事實:即使在逐步審查下,頂級模型如o1的總體準確率也不足10%;與僅考慮最終答案等價性時的準確率相比,下降了高達65.5%。這一差異暴露了脆弱的推理鏈,以及當前LLMs在僅僅找到答案與構建嚴密證明之間存在的關鍵差距。擴大模型規模和增加測試時計算量對整體證明正確性的提升有限。相反,我們的研究結果指出了定理引導推理和自我精煉等有前景的研究方向。代碼和數據可在https://ineqmath.github.io/獲取。
近年來,多模態大型語言模型(MLLMs)已被廣泛應用於多模態推理任務,包括圖形用戶界面(GUI)自動化。與一般的離線多模態任務不同,GUI自動化是在線交互環境中執行的,需要根據環境的實時狀態進行逐步決策。這項任務對每一步決策錯誤的容忍度較低,因為任何錯誤都可能累積性地破壞流程,並可能導致不可逆的結果,如刪除或支付。為了解決這些問題,我們引入了一種預操作批評機制,通過推理行動的潛在結果和正確性,在實際執行前提供有效反饋。具體而言,我們提出了一種建議感知梯度相對策略優化(S-GRPO)策略,構建了我們的預操作批評模型GUI-Critic-R1,並引入了一種新穎的建議獎勵來增強模型反饋的可靠性。此外,我們開發了一種基於推理引導的數據收集管道,創建了GUI-Critic-Train和GUI-Critic-Test,填補了現有GUI批評數據的空白。在GUI-Critic-Test上進行的靜態實驗顯示,我們的GUI-Critic-R1在移動和網頁領域的批評準確性上相比現有的MLLMs具有顯著優勢。在GUI自動化基準上的動態評估進一步凸顯了我們模型的有效性和優越性,這體現在成功率和操作效率的提升上。
我們提出Squeeze3D,這是一種新穎的框架,利用現有預訓練三維生成模型所學到的隱含先驗知識,以極高的壓縮比來壓縮三維數據。我們的方法通過可訓練的映射網絡,將預訓練編碼器與預訓練生成模型之間的潛在空間連接起來。任何以網格、點雲或輻射場表示的三維模型,首先由預訓練編碼器進行編碼,然後轉換(即壓縮)為高度緊湊的潛在代碼。此潛在代碼可有效用作網格或點雲的極度壓縮表示。映射網絡將壓縮後的潛在代碼轉換至強大生成模型的潛在空間,隨後根據此空間條件重建原始三維模型(即解壓縮)。Squeeze3D完全在生成的合成數據上進行訓練,無需任何三維數據集。Squeeze3D架構可靈活地與現有預訓練三維編碼器及生成模型配合使用,並能靈活支持不同格式,包括網格、點雲和輻射場。我們的實驗表明,Squeeze3D在保持視覺質量與多種現有方法相當的同時,對紋理網格實現了高達2187倍的壓縮比,對點雲實現了55倍,對輻射場實現了619倍的壓縮比。由於Squeeze3D不涉及訓練特定於物體的網絡來壓縮物體,因此僅產生極小的壓縮與解壓縮延遲。
大型语言模型(LLMs)在开放域问答(ODQA)任务中,通过检索增强生成(RAG)技术利用外部文档,展现了卓越的性能。为降低RAG在处理较长上下文时的开销,上下文压缩成为必要。然而,先前的压缩方法未能专注于滤除非证据性信息,这限制了基于LLM的RAG性能。因此,我们提出了证据导向的RAG,即ECoRAG框架。ECoRAG通过依据证据性对检索到的文档进行压缩,确保答案生成得到正确证据的支持,从而提升LLM性能。作为额外步骤,ECoRAG评估压缩内容是否提供了充分证据,若不足,则继续检索直至满足条件。实验表明,ECoRAG在ODQA任务上提升了LLM的表现,超越了现有的压缩方法。此外,ECoRAG具有极高的成本效益,不仅减少了延迟,还通过仅保留生成正确答案所需的信息,最小化了令牌使用量。代码可在https://github.com/ldilab/ECoRAG获取。
檢索增強生成(Retrieval Augmented Generation, RAG)是一種常用於提升大型語言模型(LLMs)獲取相關且最新資訊能力的方法。然而,檢索到的來源往往可能包含相互矛盾的資訊,而模型應如何處理此類分歧仍不明確。在本研究中,我們首先提出了一種新穎的RAG知識衝突類型分類法,並針對每種類型闡述了模型應有的行為模式。隨後,我們引入了CONFLICTS,這是一個在現實RAG場景下,由專家對衝突類型進行註解的高質量基準測試集。CONFLICTS是首個能夠追蹤模型在處理廣泛知識衝突方面進展的基準測試集。我們在該基準上進行了廣泛的實驗,結果顯示LLMs在恰當解決來源間衝突方面常遇困難。儘管提示LLMs明確推理檢索文檔中潛在的衝突顯著提高了其回應的質量與適切性,但未來研究仍有大幅改進的空間。
圖像生成技術的快速發展加劇了對可解釋且穩健的檢測方法的需求。儘管現有方法通常能達到高準確率,但它們往往作為黑箱運作,無法提供人類可理解的解釋。多模態大型語言模型(MLLMs)雖然最初並非為偽造檢測設計,但展現出強大的分析和推理能力。經過適當微調後,它們能有效識別AI生成的圖像並提供有意義的解釋。然而,現有的MLLMs仍存在幻覺問題,且其視覺解釋往往無法與實際圖像內容及人類推理保持一致。為彌合這一差距,我們構建了一個包含AI生成圖像的數據集,並標註了邊界框和描述性標題,以突出合成偽影,為人類對齊的視覺-文本基礎推理奠定基礎。隨後,我們通過多階段優化策略對MLLMs進行微調,逐步平衡準確檢測、視覺定位和連貫文本解釋的目標。最終模型在檢測AI生成圖像和定位視覺缺陷方面均表現優異,顯著超越了基線方法。
大型语言模型(LLMs)通过数据学习世界知识,以生成有意义的关联与预测。因此,用于训练这些模型或在推理阶段支持其工作的数据集的性质、规模、质量及多样性,直接影响着模型的质量。随着不同质量LLMs的迅速开发与应用,高质量公开训练数据的稀缺性愈发凸显,亟需将这些数据的管理建立在具有明确来源链的可持续实践基础之上。为此,本技术报告介绍了“机构图书1.0”,这是一个大型公共领域图书集合,最初通过哈佛图书馆自2006年起参与谷歌图书项目进行数字化。我们与哈佛图书馆合作,提取、分析并处理这些卷册,形成了一个详尽记录的历史文本数据集。此分析涵盖了哈佛图书馆作为该项目一部分扫描的全部藏书,最初包含1,075,899卷,涉及超过250种语言,总计约2500亿个词元。作为首次发布的一部分,已公开983,004卷(2420亿词元)被确认为公共领域的OCR提取文本(原始及后处理版本)以及元数据(书目、来源及生成信息)。本报告阐述了该项目的目标与方法,以及我们所执行分析的结果,旨在使这一历史收藏更易于人类与机器访问、筛选、阅读及使用。
當前測試時規模化的範式依賴於在生成回應前產生長推理軌跡(即“多思考”)。在需要互動的代理問題中,這可以通過在行動前生成思考軌跡來實現。然而,這一過程並不允許代理從環境中獲取新信息或隨時間調整其行為。在本研究中,我們提出擴展測試時互動,這是一個尚未開發的測試時規模化維度,它通過增加代理的互動視野來實現單次運行中豐富行為的執行,如探索、回溯和動態重新規劃。為了展示這一規模化維度的潛力,我們研究了網絡代理領域。我們首先表明,即使沒有任何訓練的基於提示的互動規模化也能在網絡基準測試中顯著提高任務成功率。基於此,我們引入了TTI(測試時互動),這是一種基於課程的在線強化學習(RL)方法,通過自適應調整代理的運行長度來訓練代理。使用Gemma 3 12B模型,TTI在WebVoyager和WebArena基準測試中產生了最先進的開源、開放數據網絡代理。我們進一步展示,TTI使代理能夠自適應地平衡探索與利用。我們的結果確立了互動規模化作為與每步計算規模化互補的強大軸線,為訓練自適應代理提供了新的途徑。
圖像-文本預訓練模型CLIP在視頻-文本檢索中的參數高效適應是一個重要的研究領域。雖然CLIP專注於圖像層面的視覺-語言匹配,但視頻-文本檢索則要求在視頻層面進行全面理解。從圖像層面轉移到視頻層面時,出現了三個關鍵差異:視覺、語言和對齊。然而,現有方法主要關注視覺,而忽略了語言和對齊。本文提出了視覺、語言和對齊差異減少(DiscoVLA),同時緩解了這三個差異。具體而言,我們引入了圖像-視頻特徵融合,以整合圖像層面和視頻層面的特徵,有效解決視覺和語言差異。此外,我們生成偽圖像標題以學習細粒度的圖像層面對齊。為了緩解對齊差異,我們提出了圖像到視頻對齊蒸餾,利用圖像層面的對齊知識來增強視頻層面的對齊。大量實驗證明了我們DiscoVLA的優越性。特別是在使用CLIP(ViT-B/16)的MSRVTT數據集上,DiscoVLA在R@1上比之前的方法提高了1.5%,最終達到50.5%的R@1分數。代碼可在https://github.com/LunarShen/DsicoVLA獲取。
近期研究整合了低秩適應(LoRA)與專家混合(MoE)技術,以進一步提升大型語言模型(LLM)應用中參數高效微調(PEFT)方法的性能。現有方法採用同質的MoE-LoRA架構,這些架構由結構與能力相似或相同的LoRA專家組成。然而,這些方法常遭遇表徵崩潰與專家負載不均的問題,對LLM的潛力造成負面影響。為應對這些挑戰,我們提出了一種異質的適配器混合(MoA)方法。該方法動態整合具有多樣結構的PEFT適配器專家,利用其互補的表徵能力促進專家專業化,從而增強預訓練知識向下游任務的有效遷移。MoA支持兩種變體:(i)軟性MoA通過對所有專家輸出進行加權融合實現細粒度整合;(ii)稀疏MoA根據專家的貢獻稀疏激活適配器專家,在幾乎不影響性能的情況下實現此目標。實驗結果表明,異質MoA在性能與參數效率上均優於同質的MoE-LoRA方法。我們的項目已發佈於https://github.com/DCDmllm/MoA。
近期大型語言模型的進展展現了在形式推理方面的巨大潛力。然而,大多數基於LLM的定理證明器長期以來受限於需要專家撰寫的形式化陳述作為輸入,這限制了它們在處理以自然語言表達的現實世界問題時的適用性。我們通過Mathesis來解決這一差距,這是第一個處理非正式問題陳述的端到端定理證明流程。它貢獻了Mathesis-Autoformalizer,這是首個利用強化學習來增強自然語言問題形式化能力的自動形式化工具,並輔以我們新穎的LeanScorer框架進行細緻的形式化質量評估。此外,它還提出了Mathesis-Prover,用於從形式化陳述生成形式化證明。為了評估端到端形式定理證明的實際應用性,我們引入了Gaokao-Formal,這是一個包含488道來自中國高考的複雜問題的基準測試集。我們的方法經過精心設計,對每個組件進行了深入研究。實驗證明了Mathesis的有效性,其中自動形式化工具在Gaokao-Formal上的通過率比最佳基線高出22%。整個系統超越了其他模型組合,在MiniF2F上以pass@32達到了64%的準確率,並在Gaokao-Formal上取得了18%的領先水平。
近期大型語言模型(LLMs)的進展為金融應用帶來了巨大潛力,但同時在數字監管報告(DRR)領域引入了關鍵的準確性和合規性挑戰。為解決這些問題,我們提出了RKEFino1,這是一個基於Fino1構建的、融合了XBRL、CDM和MOF領域知識的監管知識增強型金融推理模型。我們設計了兩類問答任務——基於知識的推理和數學推理,並引入了一種新穎的數值命名實體識別(NER)任務,涵蓋了句子和表格中的金融實體。實驗結果證明了RKEFino1在合規性關鍵金融任務中的有效性和泛化能力。我們已將模型發佈於Hugging Face平台。
本文介紹了MMRefine,一個多模態精煉基準,旨在評估多模態大型語言模型(MLLMs)的錯誤精煉能力。隨著研究重點轉向推理過程中的能力提升,MMRefine提供了一個框架,不僅比較精煉前後的最終準確率,還評估MLLMs在六種不同情境下檢測和糾正錯誤的能力。此外,該基準通過將錯誤分類為六種錯誤類型來分析精煉性能。對多種開源和閉源MLLMs的實驗揭示了阻礙精煉性能的瓶頸和因素,突出了在有效推理增強方面的改進空間。我們的代碼和數據集公開於https://github.com/naver-ai/MMRefine。
基於評論的產品問答(PQA)使電子商務平台能夠利用用戶評論的洞察來自動回應顧客查詢。然而,現有的PQA系統僅生成單一視角的答案,未能捕捉到顧客意見的多樣性。本文中,我們引入了一項新任務——定量查詢聚焦摘要(QQSUM),旨在將多樣的顧客意見總結成具有代表性的關鍵點(KPs),並量化其普遍性,以有效回答用戶查詢。儘管檢索增強生成(RAG)在PQA中顯示出潛力,但其生成的答案仍未能全面捕捉觀點的多樣性。為應對這一挑戰,我們的模型QQSUM-RAG,作為RAG的擴展,採用少樣本學習聯合訓練一個面向KP的檢索器和一個KP摘要生成器,從而實現基於KP的摘要,捕捉多樣且具代表性的意見。實驗結果表明,QQSUM-RAG在文本質量和意見量化準確性方面均優於最先進的RAG基線模型。我們的源代碼可在以下網址獲取:https://github.com/antangrocket1312/QQSUMM