每日精選AI研究論文及翻譯
近期基於擴散模型的影片生成技術取得突破性進展,為可控影片編輯開闢了新途徑,然而受限於四維場景理解能力不足以及對遮擋與光照效應的處理不完善,實現逼真的影片物件插入仍面臨挑戰。我們提出InsertAnywhere新型VOI框架,該框架能實現幾何一致的物件佈局與外觀保真的影片合成。我們的方法首先通過四維感知遮罩生成模組重建場景幾何結構,將使用者指定的物件佈局跨幀傳播,同時保持時間連貫性與遮擋一致性。在此空間基礎上,我們擴展了基於擴散的影片生成模型,聯合合成插入物件及其周邊局部變化(如光照與陰影)。為實現監督式訓練,我們構建了ROSE++光照感知合成資料集,通過將ROSE物件移除資料集轉換為「物件移除影片-物件存在影片-VLM生成參考圖像」的三元組形式。經大量實驗驗證,我們的框架能在多樣化真實場景中產生幾何合理且視覺連貫的物件插入效果,顯著優於現有研究與商業模型。
人類理解長篇複雜文本時,依賴的是對內容的整體語義表徵。心理學研究揭示的「心智景觀感知能力」表明,這種全域視角有助於組織先備知識、解讀新資訊,並整合分散在文件各處的證據。現有的檢索增強生成系統因缺乏此種引導機制,在處理長上下文任務時表現不佳。本文提出首個具備顯式全域上下文感知能力的LLM檢索增強生成方法——心智景觀感知RAG。該方法透過階層式摘要構建心智景觀,並以此全域語義表徵為基礎協調檢索與生成過程:使檢索器能形成富含語境信息的查詢嵌入,同時讓生成器能在連貫的全域上下文框架中對檢索證據進行推理。我們在多樣化的長上下文及雙語基準測試中評估該方法在證據推理與全域語義建構方面的表現。實驗結果顯示其持續超越基準模型,進一步分析表明該方法能將局部細節與連貫的全域表徵相結合,實現更類人的長上下文檢索與推理能力。
圖形使用者界面代理的發展可能徹底改變下一代人機互動模式。基於這一願景,我們推出MAI-UI系列基礎GUI代理,涵蓋從2B、8B、32B到235B-A22B的全尺寸規格。我們識別出現實部署面臨的四大挑戰:缺乏原生代理-使用者互動機制、純UI操作的侷限性、實用部署架構的缺失,以及動態環境中的脆弱性。MAI-UI通過統一方法論解決這些問題:自進化數據管道將導航數據擴展至包含使用者互動與MCP工具呼叫、原生設備-雲端協作系統根據任務狀態路由執行流程,以及採用先進優化技術的在線強化學習框架,可擴展平行環境與上下文長度。MAI-UI在GUI基礎任務與移動導航領域創下多項新紀錄:在ScreenSpot-Pro達到73.5%、MMBench GUI L2達91.3%、OSWorld-G達70.9%、UI-Vision達49.2%,其中ScreenSpot-Pro成績超越Gemini-3-Pro與Seed1.8;在AndroidWorld移動導航任務中以76.7%刷新紀錄,優於UI-Tars-2、Gemini-2.5-Pro與Seed1.8;在MobileWorld獲得41.7%成功率,顯著超越端到端GUI模型,並與基於Gemini-3-Pro的代理框架持平。在線強化學習實驗顯示,平行環境從32擴展至512可提升5.2個百分點,環境步數預算從15增至50可提升4.3個百分點。最終,原生設備-雲端協作系統使設備端性能提升33%,雲端模型呼叫減少超40%,同時保障使用者隱私。
多模態大型語言模型(MLLMs)在視覺定位、分割與描述等視覺理解任務中取得了顯著進展,但其對感知層級圖像特徵的認知能力仍存在侷限。本研究提出UniPercept-Bench,一個針對美學、畫質、結構與紋理三大關鍵領域的感知層級圖像統一理解框架。我們建立層級化定義體系並構建大規模數據集,用以評估感知層級圖像理解能力。在此基礎上,通過領域自適應預訓練與任務對齊強化學習,開發出具有強泛化能力的基準模型UniPercept,該模型在視覺評分(VR)與視覺問答(VQA)任務中均表現優異。UniPercept在感知層級圖像理解任務上超越現有MLLMs,並可作為文字生成圖像任務的即插即用獎勵模型。本研究界定了MLLM時代的感知層級圖像理解範疇,並通過引入綜合性基準與強基準模型,為推進感知層級多模態圖像理解奠定了堅實基礎。
基於反轉的視覺編輯技術提供了一種無需訓練即可根據用戶指令編輯圖像或影片的有效方法。現有方法通常會在取樣過程中注入源圖像信息以維持編輯一致性,然而這種取樣策略過度依賴源信息,反而對目標圖像的編輯產生負面影響(例如無法按指令改變主體的姿態、數量或顏色等屬性)。本研究提出ProEdit方法,從注意力機制與潛在表徵兩個層面解決此問題。在注意力層面,我們引入KV混合機制,在編輯區域混合源與目標的鍵值特徵,既能減輕源圖像對編輯區域的影響,又能保持背景一致性。在潛在表徵層面,我們提出潛在偏移技術,通過擾動源潛在表徵的編輯區域,消除反轉潛在表徵對取樣過程的影響。在多個圖像與影片編輯基準測試上的大量實驗表明,本方法達到了當前最先進的性能。此外,我們的設計具備即插即用特性,可無縫整合至現有反轉與編輯方法(如RF-Solver、FireFlow和UniEdit)中。
大型語言模型(LLMs)正日益廣泛部署於時間敏感的系統中,例如機器人技術、自動駕駛、具身智能體和工業自動化等領域。在這些應用場景下,模型必須在限定時間內生成準確回應,這對決策制定、控制系統或安全關鍵任務至關重要。然而,LLMs的自迴歸生成特性使其端到端執行時間難以建模與估算。此外,現有基於固定鍵值(KV)快取淘汰比的高效推理方法,難以適應具有不同時間預算的多元任務——不當的淘汰比率可能導致推理中斷或回應效能下降。本文提出TimeBill,一種創新性的時間預算約束推理框架,旨在平衡LLMs的推理效率與回應品質。具體而言,我們設計了細粒度的回應長度預測器(RLP)與執行時間估算器(ETE),以精準預測LLMs的端到端執行時間。基於此,我們開發出一種可動態調整KV快取淘汰比率的時間預算推理方法,該方法能根據執行時間預測結果與給定時間預算自適應調控資源分配。最後,通過大量實驗驗證,我們證明了TimeBill在多種超時處理策略下,對於提升任務完成率與保持回應效能方面的優勢。
大型視覺語言模型(VLMs)通常受益於中間視覺線索的輔助,無論是透過外部工具注入或是在推理過程中生成潛在視覺標記,但這些機制仍存在三大局限:忽略細粒度視覺證據(如圖表中的多邊形線條)、跨領域泛化能力較弱,以及推論時間成本高昂。本文提出雙向感知塑形(BiPS)方法,將問題導向的遮罩視圖轉化為雙向「注視指引」信號,在訓練過程中重塑模型感知。BiPS首先透過KL一致性約束,在原始圖像與僅保留問題相關區域的證據保全視圖之間建立關聯,促使模型對支持性像素進行粗略但完整的覆蓋。其次採用KL分離約束,對比原始圖像與關鍵像素被遮罩的證據消除視圖(此時圖像無法支持原答案),從而抑制純文本捷徑(即僅依賴文本作答)並強化對細粒度視覺特徵的依賴。在八項基準測試中,BiPS使Qwen2.5-VL-7B模型平均效能提升8.2%,並在未見過的資料集與圖像類型上展現出強大的跨領域泛化能力。
氣象建模需要兼具精準預測與機理詮釋能力,然而現有方法將這兩大目標割裂處理,使生成與理解相互分離。為彌合這一鴻溝,我們提出首個多模態基礎模型Omni-Weather,通過統一架構實現氣象生成與理解的協同。該模型集成雷達編碼器處理氣象生成任務,並採用共享自注意力機制進行統一運算。此外,我們構建了專用於氣象生成因果推理的思維鏈數據集,使模型既能輸出可詮釋結果,又提升感知質量。大量實驗表明,Omni-Weather在氣象生成與理解任務上均達到最先進水平。研究進一步揭示氣象領域的生成與理解任務具有相互增強效應,驗證了統一氣象生成與理解框架的可行性與價值。
人工智慧代理要實現「以圖像思考」的能力,需要推理與感知的精密融合。然而,當前開源多模態代理在關鍵的推理能力上仍顯不足,尤其面對現實任務(如分析帶有密集圖表/圖示的文件或地圖導航)時更為明顯。為彌合這一差距,我們推出O3-Bench——一個專注於評估交錯關注視覺細節之多模態推理能力的新基準。該基準包含需要代理通過多步驟推理,從不同圖像區域拼湊細微視覺資訊的挑戰性問題。這些問題即使對OpenAI o3等前沿系統也極具挑戰性,其在O3-Bench上的準確率僅達40.8%。為推動進展,我們提出InSight-o3多代理框架,包含視覺推理代理(vReasoner)與視覺搜索代理(vSearcher),並針對後者提出「泛化視覺搜索」任務——超越自然圖像中簡單物件或圖形的定位,實現對自由語言描述之關聯性、模糊性或概念性區域的搜尋。我們進一步通過強化學習訓練出專為此任務設計的多模態大型語言模型。作為即插即用模組,vSearcher能增強前沿多模態模型(作為vReasoner),顯著提升其在多項基準測試中的表現。這標誌著我們在構建強大開源o3類系統方面邁出實質步伐。相關程式碼與資料集請參見:https://github.com/m-Just/InSight-o3。
当前文生视频模型在视觉真实感、运动连贯性和图文对齐方面取得显著进展,但其生成社会一致性行为的能力仍存在根本局限。与人类能轻松从短暂视觉线索中推断意图、信念、情感及社会规范不同,现有模型往往仅呈现字面场景而未能捕捉深层因果或心理逻辑。为系统评估这一差距,我们首次提出视频生成社会推理基准。基于发展心理学与社会心理学研究成果,该基准将三十个经典社会认知范式归纳为七个核心维度,包括心理状态推断、目标导向行动、联合注意、社会协调、亲社会行为、社会规范和多智能体策略。 为实现这些范式的可操作化,我们开发了完全无需训练的基于智能体的流程框架,该框架能够:(1)提炼各实验的推理机制;(2)合成多样化的视频就绪场景;(3)通过基于线索的批判机制确保概念中立性与难度控制;(4)使用高性能视频语言模型作为评判者,从五个可解释的社会推理维度评估生成视频。借助该框架,我们对七种前沿视频生成系统开展了首次大规模研究。结果表明存在显著性能差距:现代模型虽在表面合理性方面表现优异,但在意图识别、信念推理、联合注意和亲社会推断等维度存在系统性缺陷。 (注:译文严格遵循学术写作规范,采用"文生视频""智能体""视频语言模型"等符合中文计算机学术语境的专业术语,同时通过"范式""可操作化""就绪场景"等措辞保持心理学与计算机科学的跨学科特性。长句处理上采用分号与冒号实现逻辑分层,确保复合专业信息的准确传递。)
基于执行的反馈(如单元测试)通过测试时扩展(TTS)和强化学习(RL)被广泛应用于编码智能体的开发。这种范式需要可扩展且可靠的单元测试用例收集以提供准确反馈,但由此产生的反馈往往具有稀疏性,无法有效区分同为成功或同为失败的执行轨迹。相比之下,来自奖励模型的免执行反馈能够在不依赖单元测试用例的情况下提供更细粒度的信号。尽管具有这种潜力,针对现实软件工程(SWE)智能体的免执行反馈研究仍显不足。虽然我们的目标是开发在TTS和RL场景下均有效的通用奖励模型,但我们观察到两个验证器在TTS性能近乎相同的情况下,在RL中可能产生截然不同的结果。直观而言,TTS主要反映模型选择最佳轨迹的能力,但这种能力未必能泛化到RL场景。为突破这一局限,我们识别出对RL训练至关重要的两个附加维度:分类准确率与校准度。随后通过系统化的对照实验,探究如何训练能在这类指标上均表现优异的鲁棒奖励模型。我们重点分析了训练数据规模、策略混合方式及数据源构成等多重因素的影响。基于这些研究,我们提出了SWE-RM——一个采用专家混合架构的精准鲁棒奖励模型,其总参数量达300亿,推理时激活参数量为30亿。SWE-RM显著提升了SWE智能体在TTS和RL场景下的性能:在SWE-Bench Verified测试集上,使用TTS时将Qwen3-Coder-Flash的准确率从51.6%提升至62.0%,将Qwen3-Coder-Max从67.0%提升至74.6%,在开源模型中实现了新的最优性能。
自動化簡報投影片生成能大幅簡流內容創作流程。然而,由於每位用戶的偏好可能存在差異,現有基於模糊設定的生成方案常導致生成結果欠佳,難以契合個體化需求。本文提出一項創新任務:基於用戶指定偏好條件下的論文轉簡報投影片生成。我們設計了受人類行為啟發的智能代理框架SlideTailor,該框架能以用戶對齊的方式逐步生成可編輯的投影片。相較於要求用戶以詳盡文本形式描述偏好,本系統僅需用戶提供一組論文-投影片範例對和視覺模板——這些自然易得的素材隱式編碼了用戶在內容與視覺風格方面的豐富偏好。儘管輸入信息具有隱性且未標註的特性,我們的框架能有效提煉並泛化這些偏好,從而指導定制化投影片生成。此外,我們引入創新的語音鏈機制,使投影片內容與預設的口頭敘述保持同步。此設計顯著提升了生成投影片的質量,並支持視頻演示等下游應用。為支撐該新任務,我們構建了涵蓋多樣化用戶偏好的基準數據集,並設計了具可解釋性的評估指標以進行魯棒性驗證。大量實驗結果證明了本框架的有效性。
本文提出一种针对一般非交换环上精确3×3矩阵乘法的全新最优算法,通过秩23方案仅需58次标量加法运算。该结果在不改变基的前提下,将先前最佳的60次加法复杂度进一步提升。此发现源于结合三元限制翻转图探索与贪婪交集约简的自动搜索方法,实现了公共子表达式消除。最终方案仅使用{-1, 0, 1}范围内的系数,确保算法在任意域上兼具高效性与可移植性。标量运算总量从83次降至81次。
大型推理模型通常采用可验证奖励的强化学习进行训练,以提升其推理能力。该范式通过正负两种极性的自生成推演轨迹来更新策略。本文系统研究了不同样本极性对RLVR训练动态及行为的影响,发现正样本能强化现有正确推理模式,而负样本则促进新推理路径的探索。我们进一步探究了在样本级和标记级调整正负样本优势值对训练的影响,据此提出自适应非对称的标记级优势塑造策略优化方法A3PO,该方法能针对不同极性更精准地分配优势信号至关键标记。在五个推理基准测试上的实验验证了本方法的有效性。