每日精選AI研究論文及翻譯
構建具備強大描述能力的最先進視覺-語言模型(VLMs),通常需要對數十億高質量圖像-文本對進行訓練,耗費數百萬GPU小時。本文介紹了視覺-語言-視覺(VLV)自動編碼器框架,該框架策略性地利用了關鍵的預訓練組件:視覺編碼器、文本到圖像(T2I)擴散模型的解碼器,以及隨後的大型語言模型(LLM)。具體而言,我們通過凍結預訓練的T2I擴散解碼器,在語言表示空間中建立信息瓶頸,實現了對該空間的正則化。我們的VLV管道有效地從文本條件擴散模型中提取知識,使用連續嵌入展示了全面的語義理解,並通過高質量重建得以體現。此外,通過微調預訓練的LLM以將中間語言表示解碼為詳細描述,我們構建了一個與GPT-4o和Gemini 2.0 Flash等領先模型相媲美的最先進(SoTA)描述生成器。我們的方法展示了卓越的成本效益,並顯著降低了數據需求;主要利用單模態圖像進行訓練,並最大化現有預訓練模型(圖像編碼器、T2I擴散模型和LLM)的效用,從而避免了對大規模配對圖像-文本數據集的需求,使總訓練成本保持在1,000美元以下。
本技術報告介紹了EXAONE 4.0,該版本整合了非推理模式與推理模式,旨在同時實現EXAONE 3.5的卓越易用性與EXAONE Deep的先進推理能力。為迎接代理型AI時代的到來,EXAONE 4.0引入了關鍵特性,如代理工具的使用,並將其多語言能力擴展至支援西班牙語,除原有的英語和韓語外。EXAONE 4.0模型系列包含兩種規模:一個是針對高效能優化的中型32B模型,另一個是專為設備端應用設計的小型1.2B模型。EXAONE 4.0在同等級開源模型中展現出卓越性能,即便與前沿級別模型相比也保持競爭力。這些模型已公開供研究用途,可通過https://huggingface.co/LGAI-EXAONE輕鬆下載。
大型基础模型通常基于多领域数据进行训练,其中数据混合比例——即各领域数据所占比重——对模型性能起着至关重要的作用。传统上,选择这一混合比例依赖于试错法,然而在大规模预训练场景下,这种方法显得不切实际。我们提出了一种系统方法,利用缩放定律来确定针对任何目标领域的最优数据混合比例。该方法能够精确预测在模型规模为N、训练数据量为D个标记以及特定领域权重向量h的条件下,模型的损失值。我们通过在三个截然不同且规模庞大的场景——大型语言模型(LLM)、原生多模态模型(NMM)及大型视觉模型(LVM)的预训练中,展示了这些缩放定律的预测能力,从而验证了其普适性。进一步地,我们证明这些缩放定律能够外推至新的数据混合比例及跨尺度应用:其参数可通过少量小规模训练运行准确估计,并用于预估更大规模及未见过的领域权重下的性能表现。基于这些缩放定律,可以在给定训练预算(N,D)下,为任何目标领域推导出最优的领域权重,为昂贵的试错法提供了一种有理论依据的替代方案。
本文介紹了MISS-QA,這是首個專門設計來評估模型在科學文獻中解讀示意圖能力的基準測試。MISS-QA包含465篇科學論文中的1,500個專家註釋範例。在此基準測試中,模型的任務是解讀展示研究概覽的示意圖,並基於論文的更廣泛背景回答相應的信息查詢問題。我們評估了包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL在內的18個前沿多模態基礎模型的表現。我們揭示了這些模型與人類專家在MISS-QA上的顯著性能差距。我們對模型在無法回答問題上的表現分析以及詳細的錯誤分析進一步凸顯了當前模型的優勢與局限,為提升模型理解多模態科學文獻的能力提供了關鍵見解。
大型語言模型(LLMs)已展現出強大的問題解決能力,尤其是在多代理系統中的組織應用。然而,這類系統的出現也引發了關於複雜代理網絡能否有效自我組織與協作的諸多疑問。雖然在標準推理基準上的性能測量能反映多代理系統解決推理任務的能力,但這些系統是否能有效利用其拓撲結構仍不明確。為此,我們提出了AgentsNet,一個新的多代理推理基準。借鑒分佈式系統和圖論中的經典問題,AgentsNet旨在衡量多代理系統在給定網絡拓撲下,協作制定問題解決策略、自我組織及有效溝通的能力。我們在AgentsNet上評估了多種基線方法,包括首先需就組織與通信基本協議達成一致的同質代理網絡。我們發現,一些前沿的LLMs在小型網絡中已表現出強勁性能,但隨網絡規模擴大,其表現開始下滑。現有的多代理基準最多涵蓋2至5個代理,而AgentsNet在規模上幾乎無限制,可隨新一代LLMs的發展而擴展。因此,我們還在包含多達100個代理的設置中探測了前沿模型的能力。
近期,基於推理的大型語言模型(LLMs)的進展,尤其是通過測試時擴展所展現的潛力,為代碼生成與審查中的蒸餾技術開創了重要機遇。然而,這兩方面的進展根本上依賴於大規模、高質量的數據集。在本研究中,我們引入了OpenCodeReasoning-II,這是一個包含250萬個問題-解決方案-審查三元組(約3.5萬個獨特編程問題)的數據集,使其規模幾乎是先前最大公開代碼推理數據集的兩倍。本研究採用了一種兩階段的有監督微調策略:第一階段專注於代碼生成的微調,而第二階段則涉及代碼生成與審查模型的聯合訓練。我們最終微調的Qwen2.5-Instruct模型在代碼生成上的表現,無論是超越還是持平,都達到了此前最佳開源權重蒸餾模型的水平。值得注意的是,將我們的代碼生成與審查模型相結合,顯著提升了競技編程的表現。此外,我們還擴展了LiveCodeBench基準,特別增加了對C++編程語言的支持,從而利用該基準促進了更全面的LLM評估。
從視頻中提取光流仍然是計算機視覺領域的核心問題。受到大型通用模型成功的啟發,我們探討了僅為未來幀預測訓練的凍結自監督視頻模型是否能在不進行微調的情況下被提示輸出光流。先前從視頻生成器中讀取深度或光照的工作需要進行微調,這對於光流來說是不切實際的,因為光流的標籤稀缺且合成數據集存在模擬與現實之間的差距。受反事實世界模型(CWM)範式的啟發,該範式可以通過在下一幀預測器中注入一個小的追蹤擾動並跟踪其傳播來獲得點對點對應關係,我們將這一想法擴展到生成式視頻模型中。我們探索了幾種流行的架構,發現以這種方式成功進行零樣本光流提取得益於三個模型特性:(1)未來幀的分佈預測(避免模糊或噪聲輸出);(2)將每個時空補丁獨立處理的分解潛變量;(3)可以基於任何未來像素子集進行條件化的隨機訪問解碼。這些特性在最近的局部隨機訪問序列(LRAS)架構中獨特地存在。基於LRAS,我們提出了KL追蹤:一種新穎的測試時程序,該程序在第一幀中注入局部擾動,將模型推進一步,並計算擾動與未擾動預測分佈之間的Kullback-Leibler散度。在沒有任何光流特定微調的情況下,我們的方法在真實世界的TAP-Vid DAVIS數據集(端點誤差相對提高了16.6%)和合成的TAP-Vid Kubric數據集(相對提高了4.7%)上超越了最先進的模型。我們的結果表明,對於高質量光流,可控生成式視頻模型的反事實提示是一種可擴展且有效的替代方案,相較於監督或光度損失方法。
知识图谱问答(KGQA)因输入图谱的结构与语义多样性而面临显著挑战。现有研究依赖大型语言模型(LLM)代理进行图谱遍历与检索,此方法对遍历初始化敏感,易受实体链接错误影响,且难以良好泛化至自定义(“自带”)知识图谱。我们提出了BYOKG-RAG框架,通过协同结合LLM与专用图谱检索工具,增强KGQA能力。在BYOKG-RAG中,LLM生成关键图谱要素(问题实体、候选答案、推理路径及OpenCypher查询),图谱工具则将这些要素与知识图谱链接并检索相关图谱上下文。检索到的上下文使LLM能在最终答案生成前,迭代优化其图谱链接与检索。通过从不同图谱工具检索上下文,BYOKG-RAG为自定义知识图谱上的问答提供了更为通用且稳健的解决方案。在涵盖多种知识图谱类型的五个基准测试中,BYOKG-RAG较次优图谱检索方法提升了4.5个百分点,同时展现出对自定义知识图谱更好的泛化能力。BYOKG-RAG框架已开源,地址为https://github.com/awslabs/graphrag-toolkit。
音頻修復(Audio inpainting)指的是重建受損音頻錄音中缺失片段的一項任務。雖然先前的方法——包括基於波形和頻譜圖的擴散模型——在處理短暫缺失時已展現出良好的效果,但當缺失超過100毫秒(ms)時,其質量往往會下降。在本研究中,我們提出了一種基於離散擴散建模的新穎修復方法,該方法操作於由預訓練音頻標記器生成的標記化音頻表示之上。我們的方法直接在離散潛在空間中模擬生成過程,從而實現了缺失音頻的穩定且語義連貫的重建。我們在MusicNet數據集上使用客觀和感知指標對該方法進行了評估,涵蓋了長達300毫秒的缺失時長。此外,我們還在MTG數據集上對我們的方法進行了評估,將缺失時長擴展至500毫秒。實驗結果表明,與現有基線相比,我們的方法實現了競爭性或更優的性能,特別是在處理較長缺失時,為恢復受損音樂錄音提供了一個穩健的解決方案。我們所提出方法的音頻示例可在https://iftach21.github.io/找到。
大型语言模型(LLMs)已彻底改变了软件开发和自动化代码生成的领域。受这些进展的启发,本文探讨了利用LLMs修改恶意软件源代码以生成变种的可行性。我们引入了LLMalMorph,一个半自动化框架,它通过LLMs对代码的语义和句法理解来生成新的恶意软件变种。LLMalMorph从恶意软件源代码中提取函数级信息,并采用定制设计的提示与策略性定义的代码转换相结合,指导LLM生成变种,而无需进行资源密集型的微调。为了评估LLMalMorph,我们收集了10种类型、复杂性和功能各异的Windows恶意软件样本,并生成了618个变种。我们详尽的实验表明,可以在一定程度上降低这些恶意软件变种在反病毒引擎中的检测率,同时保持恶意软件的功能。此外,尽管未针对任何基于机器学习(ML)的恶意软件检测器进行优化,多个变种也在对抗基于ML的恶意软件分类器时取得了显著的攻击成功率。我们还讨论了当前LLM在从源代码生成恶意软件变种方面的能力限制,并评估了这一新兴技术在更广泛的恶意软件变种生成背景下的地位。
大型語言模型(LLMs)展現出認知偏誤——即系統性的非理性決策傾向,與人類所見相似。先前的研究發現,這些偏誤在不同模型間存在差異,並可能因指令微調而加劇。然而,這些偏誤差異究竟源於預訓練、微調,還是訓練隨機性帶來的隨機噪聲,尚不明確。我們提出了一種兩步因果實驗方法來區分這些因素。首先,我們使用不同的隨機種子多次微調模型,以研究訓練隨機性如何影響超過30種認知偏誤。其次,我們引入了交叉微調——在模型間交換指令數據集,以隔離偏誤來源。這種交換使用導致不同偏誤模式的數據集,直接測試偏誤是否依賴於數據集。我們的研究結果表明,雖然訓練隨機性引入了一定的變異性,但偏誤主要由預訓練塑造:擁有相同預訓練骨幹的模型比僅共享微調數據的模型展現出更相似的偏誤模式。這些見解表明,理解微調模型中的偏誤需要考慮其預訓練起源,而不僅僅是微調效應。這一視角可指導未來開發評估和減輕LLMs偏誤的原則性策略。
现代人工智能(AI)日益依赖融合视觉与语言理解的多智能体架构。然而,一个紧迫的挑战依然存在:我们如何能在无需微调的零样本场景下信任这些智能体?我们提出了一种新颖的模块化Agentic AI视觉分类框架,该框架整合了通用多模态智能体、非视觉推理协调器以及检索增强生成(RAG)模块。应用于苹果叶病害诊断,我们对比了三种配置:(I)基于置信度协调的零样本配置,(II)性能提升的微调智能体配置,以及(III)通过CLIP图像检索与重评估循环增强的信任校准协调配置。利用置信度校准指标(ECE, OCR, CCC),协调器调节各智能体间的信任度。我们的结果显示,在零样本设置下,采用信任感知协调与RAG,准确率提升了77.94%,整体达到85.63%。GPT-4o展现出更好的校准性,而Qwen-2.5-VL则表现出过度自信。此外,基于图像RAG的预测通过视觉相似案例进行验证,通过迭代重评估纠正了智能体的过度自信。所提出的系统将感知(视觉智能体)与元推理(协调器)分离,实现了可扩展且可解释的多智能体AI。这一蓝图可扩展至诊断、生物学及其他对信任要求严格的领域。所有模型、提示、结果及系统组件,包括完整的软件源代码,均已公开发布于Github以支持可重复性、透明性及社区基准测试:https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust。
現實世界中用戶生成的視頻,尤其是在TikTok等平台上,通常包含豐富且交織的視聽內容。然而,現有的視頻字幕生成基準和模型仍然主要依賴視覺信息,忽視了音頻在傳達場景動態、說話者意圖和敘事背景中的關鍵作用。缺乏全面的數據集和輕量級、能力強的模型,阻礙了精細多模態視頻理解的進展。為應對這些挑戰,我們引入了UGC-VideoCap,這是一個專門為短格式用戶生成視頻的詳細全模態字幕生成而設計的新基準和模型框架。與之前的數據集不同,UGC-VideoCap強調音頻和視覺模態的平衡整合,包含1000個TikTok視頻,通過一個結構化的三階段人機協作流程進行註釋,涵蓋僅音頻、僅視覺以及聯合音頻視覺語義。該基準還包括4000個精心設計的問答對,探討單模態和跨模態理解。與數據集一起,我們提出了UGC-VideoCaptioner(3B),這是一個從Gemini 2.5 Flash蒸餾而來的3B參數字幕生成模型。通過新穎的兩階段訓練策略——監督微調後接組相對策略優化(GRPO),我們的方法能夠在有限數據下實現高效適應,同時保持競爭性能。我們的基準和模型共同為在無約束的現實世界UGC環境中推進全模態視頻字幕生成提供了高質量的基礎和數據高效的解決方案。