每日精選AI研究論文及翻譯
影片生成技術已取得顯著進展,有望成為互動式世界探索的基石。然而,現有的影片生成數據集並不適合用於世界探索的訓練,因為它們存在一些限制:地點有限、時長短暫、場景靜態,以及缺乏關於探索和世界的註解。在本論文中,我們介紹了Sekai(日語中意為「世界」),這是一個高品質的第一人稱視角全球影片數據集,具有豐富的世界探索註解。它包含來自100多個國家和地區、750個城市的超過5,000小時的步行或無人機視角(FPV和UVA)影片。我們開發了一個高效且有效的工具箱,用於收集、預處理和註解影片,包括位置、場景、天氣、人群密度、字幕和相機軌跡。實驗證明了數據集的品質。並且,我們使用一個子集來訓練一個互動式影片世界探索模型,名為YUME(日語中意為「夢」)。我們相信Sekai將有益於影片生成和世界探索領域,並激發有價值的應用。
近期,視覺語言模型(VLMs)的進展已利用大型語言模型(LLMs)達到了與封閉源系統如GPT-4V相當的性能。然而,在實際應用場景中,尤其是在資源受限的設備上部署這些模型仍然具有挑戰性,這主要歸因於其龐大的計算需求。這一現狀激發了從大型VLMs中提取知識並轉移至更小、更高效模型的興趣。此處的一個關鍵挑戰來自於VLM架構的多樣性,這些架構基於不同的LLMs,並採用各異的token類型——包括詞彙量、token分割方式及token索引順序的差異。為應對這一特定VLM類型限制的挑戰,我們提出了「重新校準後生成」(GenRecal),這是一種新穎的、通用於VLMs的知識蒸餾框架。GenRecal引入了一個重新校準器(Recalibrator),用於對齊並適應異構VLMs之間的特徵表示,從而實現跨不同類型VLMs的有效知識轉移。通過在多個具有挑戰性的基準上進行廣泛實驗,我們證明了GenRecal顯著提升了基線性能,最終超越了大型開源及封閉源VLMs。
在分散且计算能力较弱的节点上训练大型语言模型(LLMs),例如多个现场实例,能够降低训练成本并促进模型的民主化。然而,这一过程中不可避免的挑战是节点因故障及操作者的调度策略而频繁更替,导致丢失某一阶段——即模型的一部分。传统的故障恢复方法要么采用检查点技术,即定期将整个模型的副本发送至额外存储,要么进行冗余计算。这些方法即便在无故障情况下也会产生显著的通信和/或计算开销,且在处理大规模模型时扩展性较差。本文提出了一种高效的恢复方法——CheckFree,该方法通过用最近邻阶段的加权平均值替代故障阶段来实现恢复。与现有技术相比,CheckFree无需额外的计算或存储资源。然而,由于采用邻近阶段平均的特性,它仅能恢复中间阶段的故障。我们进一步将方法扩展至CheckFree+,通过乱序流水线执行来容忍首尾阶段的崩溃。得益于乱序流水线技术,这些阶段的行为由邻近阶段模拟,使得CheckFree+能够通过简单复制邻近阶段的权重来恢复它们。为了能够恢复(解)嵌入层,CheckFree+将这些层复制到邻近阶段,这仅需相对较小的存储开销。我们在模型规模从124M到1.5B的LLaMa模型上,针对不同的故障频率,对方法进行了广泛评估。在低至中等故障率(5-10%)的情况下,CheckFree和CheckFree+在墙钟时间收敛性方面均优于检查点技术和冗余计算,提升幅度超过12%。我们的两项提议均可通过以下代码运行:https://github.com/gensyn-ai/CheckFree。
近期,基於長鏈思維推理(Long Chain-of-Thought, Long CoT)訓練的大型推理模型(Large Reasoning Models, LRMs)展現了顯著的跨領域泛化能力。然而,支撐此類遷移的內在機制仍鮮為人知。我們假設,跨領域泛化源於共享的抽象推理原型——這些原型捕捉了跨領域問題的核心,並作為基本的推理模式。這些原型最小化了表徵的細微差異,揭示了看似多樣的任務實際上基於共享的推理結構。基於這一假設,我們提出了ProtoReasoning框架,該框架通過利用可擴展且可驗證的原型表徵(如Prolog用於邏輯推理,PDDL用於規劃)來增強大型語言模型(LLMs)的推理能力。ProtoReasoning框架具備以下特點:(1)一個自動化的原型構建管道,將問題轉化為相應的原型表徵;(2)一個全面的驗證系統,通過Prolog/PDDL解釋器提供可靠的反饋;(3)在原型空間內任意合成問題的同時確保正確性的可擴展性。大量實驗表明,ProtoReasoning在邏輯推理(Enigmata-Eval)上比基準模型提升了4.7%,在規劃任務上提升了6.3%,在一般推理(MMLU)上提升了4.0%,在數學(AIME24)上提升了1.0%。重要的是,我們的消融研究證實,與僅在自然語言表徵上訓練相比,在原型空間中學習也展現出對結構相似問題的增強泛化能力,這驗證了我們的假設,即推理原型是大型語言模型中可泛化推理的基礎。
當今的AI代理大多處於孤立狀態——它們要麼檢索並推理從線上獲取的龐大數字資訊與知識;要麼通過具身感知、規劃和行動與物理世界互動,但鮮少同時具備這兩種能力。這種割裂限制了它們解決需要整合物理與數字智能的任務的能力,例如根據線上食譜烹飪、利用動態地圖數據導航,或借助網絡知識解讀現實世界的地標。我們提出了「具身網絡代理」這一新穎的AI代理範式,它流暢地橋接了具身性與網絡規模的推理。為實現這一概念,我們首先開發了「具身網絡代理」任務環境,這是一個統一的模擬平台,將逼真的3D室內外環境與功能性網絡界面緊密結合。基於此平台,我們構建並發布了「具身網絡代理基準」,涵蓋了烹飪、導航、購物、旅遊和地理定位等多樣化任務,這些任務均需跨物理與數字領域的協調推理,以系統評估跨域智能。實驗結果揭示了頂尖AI系統與人類能力之間的顯著性能差距,為具身認知與網絡規模知識獲取的交叉領域既設立了挑戰,也開闢了機遇。所有數據集、代碼及網站均可在我們的項目頁面https://embodied-web-agent.github.io/公開獲取。
本研究提出了一种双说话人自动语音识别(ASR)系统,该系统结合了DiCoW——一种基于Whisper的说话人日志条件变体——与DiariZen,后者是构建于Pyannote之上的说话人日志管道。我们首先在未经任何微调的情况下,评估了这两种系统在跨领域(OOD)多语言场景中的表现。在此情境下,DiariZen持续超越基线Pyannote说话人日志模型,展现了强大的泛化能力。尽管DiCoW仅针对目标说话人ASR在英语数据上进行了微调,其仍保持了稳健的多语言性能,表明编码器的修改保留了Whisper的多语言能力。随后,我们在MLC-SLM挑战赛数据上对DiCoW和DiariZen进行了微调。微调后的DiariZen继续优于微调后的Pyannote基线,而DiCoW则通过领域适应获得了进一步的性能提升。我们的最终系统在MLC-SLM挑战赛任务二中实现了16.75%的微平均tcpWER/CER,并位列第二。最后,我们识别出训练数据中的若干标注不一致问题——如缺失的语音片段和错误的静音标注——这些问题可能阻碍说话人日志的微调。我们提出了简单的缓解策略以应对这些问题,并提升系统的鲁棒性。
我們推出了SciVer,這是首個專門設計用於評估基礎模型在多模態科學背景下驗證聲明能力的基準。SciVer包含1,113篇科學論文中的3,000個專家註釋範例,涵蓋四個子集,每個子集代表多模態科學聲明驗證中的一種常見推理類型。為了實現細粒度評估,每個範例都包含專家註釋的支持證據。我們評估了21個最先進的多模態基礎模型的性能,包括o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision和Qwen2.5-VL。我們的實驗揭示了這些模型與人類專家在SciVer上的顯著性能差距。通過對檢索增強生成(RAG)的深入分析以及人工進行的錯誤評估,我們識別出當前開源模型的關鍵限制,為提升模型在多模態科學文獻任務中的理解和推理能力提供了重要見解。
評估開放式長文本生成具有挑戰性,因為難以明確界定好壞輸出之間的界限。現有方法往往忽略了關鍵方面,如連貫性、風格或相關性,或者受到預訓練數據的偏見影響,使得開放式長文本評估成為一個尚未充分探索的問題。為解決這一問題,我們提出了PrefBERT,這是一個用於評估GRPO中開放式長文本生成的評分模型,並通過對好壞輸出給予不同的獎勵來指導其訓練。PrefBERT在兩個包含多樣化長文本風格和Likert評分質量的回應評估數據集上進行訓練,能夠比傳統指標ROUGE-L和BERTScore提供更好的語義獎勵反饋,從而有效支持GRPO。通過包括LLM作為評判者、人類評分和定性分析在內的全面評估,我們展示了PrefBERT在多句子和段落長度的回應上訓練後,仍能在各種長段落中保持可靠性,並與GRPO所需的可驗證獎勵良好對齊。人類評估證實,使用PrefBERT作為獎勵信號來訓練策略模型,所得到的回應比使用傳統指標訓練的模型更符合人類偏好。我們的代碼可在https://github.com/zli12321/long_form_rl獲取。
大型語言模型的快速進展推動了智能代理系統在決策、協調和任務執行方面的發展。然而,現有的智能代理系統生成框架缺乏完全自主性,無法實現從零開始的代理生成、自我優化的代理功能以及協作,這限制了系統的適應性和可擴展性。我們提出了SwarmAgentic,這是一個用於完全自動化智能代理系統生成的框架,它從零開始構建智能代理系統,並通過語言驅動的探索,將代理功能和協作作為相互依賴的組件進行聯合優化。為了實現對系統級結構的高效搜索,SwarmAgentic維護了一組候選系統,並通過反饋引導的更新來進化它們,這一過程受到粒子群優化(PSO)的啟發。我們在六個涉及高層次規劃、系統級協調和創造性推理的真實世界、開放式和探索性任務上評估了我們的方法。僅給定任務描述和目標函數,SwarmAgentic在所有基線方法中表現優異,在TravelPlanner基準測試中相對於ADAS實現了+261.8%的相對改進,這凸顯了在結構無約束任務中完全自動化的有效性。該框架標誌著可擴展和自主智能代理系統設計的重要一步,將群體智能與完全自動化的系統多代理生成相結合。我們的代碼已公開發佈於https://yaoz720.github.io/SwarmAgentic/。
近期,测试时扩展的大型语言模型(LLMs)通过生成长链思维(CoT),在科学与专业任务中展现了卓越的推理能力。作为开发此类推理模型的关键组成部分,强化学习(RL),以近端策略优化(PPO)及其变体为代表,使模型能够通过试错进行学习。然而,PPO因其固有的在线策略性质而耗时,且随着响应长度的增加,这一问题进一步加剧。本研究提出了一种新颖的PPO扩展——截断近端策略优化(T-PPO),通过简化策略更新和长度限制的响应生成,提升了训练效率。T-PPO缓解了硬件利用率低的问题,这是完全同步长生成过程固有的缺点,在此过程中,资源常在等待完整回滚期间闲置。我们的贡献体现在两个方面。首先,我们提出了扩展广义优势估计(EGAE),用于从不完整响应中推导优势估计,同时保持策略学习的完整性。其次,我们设计了一种计算优化的机制,允许策略模型和价值模型独立优化。通过选择性过滤提示和截断的标记,该机制减少了冗余计算,在不牺牲收敛性能的前提下加速了训练过程。我们在AIME 2024上使用32B基础模型验证了T-PPO的有效性和效率。实验结果表明,T-PPO将推理LLMs的训练效率提高了最多2.5倍,并超越了现有竞争对手。
大型多模態專家混合模型(Mixture-of-Experts, MoEs)有效地擴展了模型規模以提升性能,同時保持固定的活躍參數。然而,先前的研究主要在稀疏升級過程中使用了全精度專家。儘管這些方法在最終任務上表現出優異的性能,但大量的專家引入了更高的記憶體佔用,這對邊緣設備的部署構成了重大挑戰。在本研究中,我們提出了MoTE,一種可擴展且記憶體高效的方法,用於從密集檢查點訓練三元專家混合模型。我們建議在升級過程中訓練更多低精度專家,而非訓練較少的高精度專家。具體而言,我們使用預訓練的前饋神經網絡(FFN)作為共享專家,並訓練參數為{-1, 0, 1}的三元路由專家。大量實驗表明,我們的方法在模型規模上展現出良好的擴展趨勢。MoTE在性能上與全精度基線MoE-LLaVA相當,同時提供了更低的記憶體佔用。此外,我們的方法與訓練後量化方法兼容,當記憶體限制降低時,其優勢進一步放大。在專家記憶體佔用相同為3.4GB的情況下,結合訓練後量化,MoTE在最終任務上的平均準確率比MoE-LLaVA高出4.3%,展示了其在記憶體受限設備上的有效性和潛力。
數十年來,自動創建三維場景以實現沉浸式虛擬現實(VR)體驗一直是研究的重要焦點。然而,現有方法通常依賴於高多邊形網格建模並進行後續簡化,或使用大量三維高斯分佈,導致流程複雜或視覺真實感有限。本文論證,此類繁瑣的建模對於實現引人入勝的沉浸式體驗並非必要。我們提出了ImmerseGen,一種新穎的代理引導框架,用於構建緊湊且逼真的世界模型。ImmerseGen將場景表示為輕量級幾何代理(即簡化的地形和廣告牌網格)的層次化組合,並通過在這些代理上合成RGBA紋理來生成逼真的外觀。具體而言,我們提出了基於地形的紋理生成方法,用於以用戶為中心的基礎世界合成,以及RGBA資產紋理生成方法,用於中景和前景場景。這一重構具有以下優勢:(i)通過讓代理引導生成模型生成與場景無縫融合的連貫紋理,簡化了建模過程;(ii)繞過了複雜的幾何創建與簡化,直接在代理上合成逼真紋理,保持視覺質量不下降;(iii)支持適合移動VR頭顯實時渲染的緊湊表示。為實現從文本提示自動生成場景,我們引入了基於視覺語言模型(VLM)的建模代理,並增強了基於語義網格的分析,以提升空間推理能力與資產放置的準確性。ImmerseGen還通過動態效果與環境音效豐富場景,支持多感官沉浸。場景生成與實時VR展示的實驗表明,與先前方法相比,ImmerseGen在逼真度、空間一致性及渲染效率上均表現出優越性。項目網頁:https://immersegen.github.io。
在数据稀缺的领域中,构建图像分类模型仍然是一项繁琐的任务,因为收集大量标注数据集是不切实际的。上下文学习(ICL)作为一种有前景的范式,已在少样本图像分类(FSIC)中崭露头角,使模型能够在无需基于梯度的适应的情况下跨领域泛化。然而,先前的研究在很大程度上忽视了基于ICL的FSIC流程中的一个关键组成部分:图像嵌入的作用。在本研究中,我们提出了PictSure,一个将嵌入模型——其架构、预训练和训练动态——置于分析中心的ICL框架。我们系统地考察了不同类型的视觉编码器、预训练目标以及微调策略对下游FSIC性能的影响。我们的实验表明,训练的成功与否以及跨域性能高度依赖于嵌入模型的预训练方式。因此,PictSure在显著不同于训练分布的跨域基准测试中表现优异,超越了现有的基于ICL的FSIC模型,同时在域内任务上保持了可比的结果。代码可在https://github.com/PictSure/pictsure-library 找到。
多模态大語言模型(MLLMs)在多模态推理和跨模态检索等任务中表现出色,但在实际应用场景中,由于分布式多模态数据和严格的隐私要求,其部署面临挑战。联邦学习(FL)通过实现无需集中数据的协作模型训练,提供了一种解决方案。然而,为MLLMs实现FL存在显著挑战,包括高计算需求、有限的客户端能力、巨大的通信成本以及异构的客户端数据。现有的FL方法假设在客户端部署完整模型,这一假设对于大规模MLLMs因其庞大体积和通信需求而不再适用。为解决这些限制,我们提出了FedNano,这是首个将LLM集中部署在服务器上,同时引入NanoEdge的FL框架,NanoEdge是一个用于客户端特定适应的轻量级模块。NanoEdge采用模态特定编码器、连接器以及可训练的低秩适应NanoAdapters。这一设计消除了在客户端部署LLM的需求,将客户端存储减少95%,并将通信开销限制在仅模型参数的0.01%。通过仅传输紧凑的NanoAdapter更新,FedNano处理异构客户端数据和资源限制,同时保护隐私。实验表明,FedNano优于先前的FL基线,弥合了MLLM规模与FL可行性之间的差距,并实现了可扩展的、去中心化的多模态AI系统。
基於大型語言模型的大型視覺-語言模型(LVLM)近期取得了顯著進展,將視覺特徵與LLM表徵對齊已成為主流範式。然而,繼承自LLM的架構設計在多模態處理中引入了次優特性。首先,LVLM在注意力分配上呈現雙峰分佈,隨著上下文擴展,中間視覺內容逐漸被忽視。其次,傳統的位置編碼方案在處理動態高分辨率圖像時,無法有效保留關鍵的二維結構關係。為解決這些限制,我們提出了CoMemo——一種雙路徑架構,結合了上下文圖像路徑和圖像記憶路徑進行視覺處理,有效緩解了視覺信息被忽視的問題。此外,我們引入了RoPE-DHR,這是一種新穎的位置編碼機制,通過基於縮略圖的位置聚合來維持二維空間感知,同時減輕長序列中的遠程衰減。在包括長上下文理解、多圖像推理和視覺問答在內的七個基準測試中,CoMemo相較於傳統的LVLM架構展現了卓越的性能。項目頁面請訪問https://lalbj.github.io/projects/CoMemo/。
计算机使用代理是基于大型语言模型(LLM)的代理,能够通过处理屏幕截图或可访问性树直接与图形用户界面交互。尽管这些系统日益普及,但其安全性却大多被忽视,而评估和理解其潜在有害行为对于广泛采用至关重要。为填补这一空白,我们引入了OS-Harm,一个用于衡量计算机使用代理安全性的新基准。OS-Harm建立在OSWorld环境之上,旨在测试模型在三大类危害中的表现:用户故意滥用、提示注入攻击及模型不当行为。为涵盖这些情况,我们创建了150项任务,涉及多种安全违规类型(骚扰、版权侵犯、虚假信息、数据外泄等),并要求代理与多种操作系统应用(电子邮件客户端、代码编辑器、浏览器等)进行交互。此外,我们提出了一种自动化评判机制,用于评估代理的准确性与安全性,其与人工标注的一致性较高(F1分数分别为0.76和0.79)。我们基于一系列前沿模型(如o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro)对计算机使用代理进行了评估,并提供了关于其安全性的深入见解。特别是,所有模型在面对许多故意滥用查询时倾向于直接遵从,对静态提示注入相对脆弱,并偶尔执行不安全操作。OS-Harm基准可在https://github.com/tml-epfl/os-harm获取。
近期基准测试已深入探究了大语言模型(LLMs)在事实一致性与修辞稳健性方面的表现。然而,关于事实真实陈述的方向性框架如何影响模型同意度,这一LLM用户常见场景的知识空白尚存。AssertBench通过从事实验证数据集FEVEROUS中抽样证据支持的事实来应对这一问题。对于每一条(有证据支持的)事实,我们构建了两个框架提示:一种提示中用户声称该陈述在事实上是正确的,另一种则声称其不正确。随后,我们记录模型的同意度及其推理过程。理想的结果是,模型能够坚持己见,在两种框架下保持一致的真相评估,而非为了迎合用户而改变其评估。AssertBench通过将结果分层,基于模型在相同主张以中立方式呈现时的准确性,隔离了框架诱导的变异性与模型底层事实知识。借此,该基准测试旨在衡量LLM在面对用户关于同一事实的相反断言时,能否“坚守立场”。完整源代码可访问https://github.com/achowd32/assert-bench获取。
在現實世界中追蹤全身運動的能力,是打造通用型人形機器人的有效途徑。然而,由於運動的時間與運動學多樣性、策略的能力,以及上下半身協調的難度,實現這一目標頗具挑戰性。為解決這些問題,我們提出了GMT,這是一個通用且可擴展的運動追蹤框架,它訓練單一統一策略,使人形機器人能在現實世界中追蹤多樣化的運動。GMT建立在兩個核心組件之上:自適應採樣策略和運動專家混合(MoE)架構。自適應採樣在訓練過程中自動平衡簡單與困難的運動,而MoE則確保了運動流形不同區域的更好專業化。通過在模擬與現實世界中的廣泛實驗,我們展示了GMT的有效性,利用統一通用策略在廣泛的運動範圍內達到了頂尖性能。視頻及更多資訊請訪問https://gmt-humanoid.github.io。
基于扩散的图像生成模型在生成高质量合成内容方面表现出色,但其推理过程缓慢且计算成本高昂。先前的研究尝试通过在扩散变换器内部跨推理步骤缓存和重用特征来缓解这一问题。然而,这些方法往往依赖于僵化的启发式规则,导致加速效果有限或跨架构的泛化能力不佳。我们提出了进化缓存加速扩散模型(ECAD),这是一种遗传算法,它仅使用少量校准提示,就能学习到高效的、针对特定模型的缓存调度,形成帕累托前沿。ECAD无需修改网络参数或参考图像,即可显著提升推理速度,实现对质量-延迟权衡的精细控制,并能无缝适应不同的扩散模型。值得注意的是,ECAD学习到的调度策略能够有效泛化至校准过程中未见过的分辨率和模型变体。我们在PixArt-alpha、PixArt-Sigma和FLUX-1.dev上使用多种指标(FID、CLIP、图像奖励)在多个基准测试(COCO、MJHQ-30k、PartiPrompts)中评估了ECAD,结果显示其相较于以往方法有持续改进。在PixArt-alpha上,ECAD找到了一种调度方案,其COCO FID比之前的最先进方法高出4.47,同时将推理加速比从2.35倍提升至2.58倍。我们的研究结果确立了ECAD作为一种可扩展且可泛化的加速扩散推理的方法。我们的项目网站位于https://aniaggarwal.github.io/ecad,代码可在https://github.com/aniaggarwal/ecad获取。