每日精選AI研究論文及翻譯
在本报告中,我们介绍了Ovis-U1,一个拥有30亿参数的统一模型,该模型整合了多模态理解、文本到图像生成以及图像编辑功能。基于Ovis系列的基础,Ovis-U1引入了一个基于扩散的视觉解码器,并搭配双向令牌精炼器,使其在图像生成任务上能够与GPT-4o等领先模型相媲美。与以往某些使用冻结多模态大语言模型(MLLM)进行生成任务的模型不同,Ovis-U1采用了一种新的统一训练方法,从语言模型出发进行训练。相较于仅针对理解或生成任务进行训练,统一训练方法展现了更优的性能,证明了整合这两类任务所带来的提升。Ovis-U1在OpenCompass多模态学术基准测试中取得了69.6分的成绩,超越了近期如Ristretto-3B和SAIL-VL-1.5-2B等顶尖模型。在文本到图像生成方面,它在DPG-Bench和GenEval基准测试中分别以83.72和0.89的分数表现出色。在图像编辑方面,它在ImgEdit-Bench和GEdit-Bench-EN上分别获得了4.00和6.42的评分。作为Ovis统一模型系列的首个版本,Ovis-U1在多模态理解、生成与编辑领域推动了技术的前沿。
近期在强化学习领域的进展表明,语言模型通过在有可验证奖励的任务上进行训练,能够发展出复杂的推理能力。然而,这些方法依赖于人工筛选的问题-答案对以及特定领域的奖励工程。我们提出了SPIRAL,一种自我对弈框架,其中模型通过不断与自身改进版本进行多轮零和游戏来学习,从而消除了对人类监督的需求。通过自我对弈,SPIRAL生成了一个无限递进的课程,其中问题难度逐步提升,因为模型必须不断适应更强的对手。为了大规模实现这种自我对弈训练,我们实现了一个完全在线、多轮、多智能体的强化学习系统,并提出了角色条件优势估计(RAE)以稳定多智能体训练。使用SPIRAL,零和游戏中的自我对弈产生了广泛可迁移的推理能力。仅在Kuhn Poker上训练Qwen3-4B-Base,在数学和一般推理上分别实现了8.6%和8.4%的提升,优于在25,000条专家游戏轨迹上的监督微调(SFT)。分析揭示,这种迁移通过三种认知模式实现:系统分解、期望值计算和逐案分析。多游戏训练(如井字棋、Kuhn Poker、简单谈判)进一步提升了性能,因为每种游戏都发展了独特的推理优势。将SPIRAL应用于一个强大的推理模型(DeepSeek-R1-Distill-Qwen-7B)仍能带来2.0%的平均提升。这些结果表明,零和游戏自然发展出可迁移的推理能力,为自主推理发展指明了一个有前景的方向。
我们推出Calligrapher,一种基于扩散模型的新颖框架,创新性地将先进的文本定制技术与艺术字体设计相结合,适用于数字书法与设计应用。针对字体定制中精确风格控制与数据依赖性的挑战,本框架融合了三大关键技术贡献。首先,我们开发了一种自蒸馏机制,利用预训练的文本到图像生成模型及大型语言模型,自动构建以风格为核心的字体基准。其次,我们引入了一种通过可训练风格编码器实现的局部风格注入框架,该编码器包含Qformer与线性层,旨在从参考图像中提取稳健的风格特征。此外,还采用了上下文生成机制,直接将参考图像嵌入去噪过程,进一步强化目标风格的精细对齐。通过对多种字体与设计场景的广泛定量与定性评估,Calligrapher在复杂风格细节的准确再现及字形精确定位方面得到了验证。通过自动化生成高质量、视觉一致的字体,Calligrapher超越了传统模型,为数字艺术、品牌塑造及情境字体设计领域的创意实践者提供了强大支持。
全注意力機制的二次方複雜度對旨在生成長時間、高解析度視頻的視頻擴散模型(VDMs)構成了顯著的瓶頸。儘管已提出多種稀疏注意力方法,但許多方法被設計為無需訓練的推理加速器,或在原生訓練時未能最優地捕捉視頻數據固有的獨特時空特性。本文介紹了視頻塊注意力混合機制(VMoBA),這是一種專門為VDMs設計的新穎稀疏注意力機制。基於對預訓練視頻變壓器中注意力模式的深入分析,揭示了強烈的時空局部性、查詢重要性變化以及頭部特定集中水平,VMoBA對原始MoBA框架進行了三項關鍵改進:(1)層次遞歸塊劃分方案(1D-2D-3D),以動態適應多樣的時空注意力模式並提升效率;(2)全局塊選擇,優先考慮整個注意力頭中最顯著的查詢-鍵塊交互;(3)基於閾值的塊選擇,根據累積相似度動態確定參與塊的數量。大量實驗表明,VMoBA顯著加速了VDMs在更長序列上的訓練,實現了2.92倍的浮點運算(FLOPs)和1.48倍的延遲加速,同時達到了與全注意力相當甚至更優的生成質量。此外,VMoBA在無需訓練的推理中展現了競爭力,為高解析度視頻生成提供了2.40倍的FLOPs和1.35倍的延遲加速。
近期光流估算技術的進步,雖提升了精確度,卻以GPU記憶體消耗的增長為代價,尤其是在處理高解析度(FullHD)輸入時。我們提出MEMFOF,一種記憶體效率高的多幀光流方法,它在多幀估算與GPU記憶體使用之間找到了優良的平衡點。值得注意的是,MEMFOF在運行時對1080p輸入僅需2.09 GB的GPU記憶體,訓練時則需28.5 GB,這使得我們的方法能夠在原生1080p解析度下進行訓練,無需裁剪或降採樣。我們系統性地重新審視了類似RAFT架構的設計選擇,整合了縮減的相關體積和高解析度訓練協議,並結合多幀估算,在多個基準測試中實現了頂尖性能,同時大幅降低了記憶體開銷。我們的方法在精確度和運行效率上均優於資源消耗更大的替代方案,驗證了其在高解析度下進行光流估算的穩健性。提交時,我們的方法在Spring基準測試中以1像素(1px)異常率3.289位居第一,在Sintel(clean)測試中以終點誤差(EPE)0.963領先,並在KITTI-2015上取得了最佳Fl-all誤差,為2.94%。相關程式碼可於https://github.com/msu-video-group/memfof 獲取。
訓練出能夠廣泛適用且穩健的人類視覺偏好獎勵模型,對於使文本到圖像及文本到視頻生成模型與人類意圖保持一致至關重要。然而,現有的獎勵模型往往難以實現泛化,而監督式微調則易導致模型過度記憶,這要求建立複雜的註釋流程。儘管強化學習(RL),特別是群體相對策略優化(GRPO),提升了模型的泛化能力,但我們發現了一個關鍵的失敗模式:當模型的推理軌跡與評估同一輸出的獨立、固定視覺語言模型(“聽者”)的推理相矛盾時,推理準確性會顯著下降。為解決這一問題,我們引入了一種聽者增強的GRPO框架。在此框架中,聽者重新評估推理者的思維鏈,提供密集且校準的置信度分數,以此塑造RL的獎勵信號。這不僅鼓勵推理者給出正確答案,還促使其生成能夠說服獨立模型的解釋。我們的聽者形塑獎勵方案在ImageReward基準測試中達到了最佳準確率(67.4%),在大規模人類偏好數據集(120萬次投票,相比單純推理者提升高達+6%)上顯著改善了分佈外(OOD)性能,並與強勁的GRPO和SFT基線相比減少了推理矛盾。這些結果表明,基於聽者的獎勵提供了一條可擴展、數據高效的路徑,使視覺語言模型能夠與細膩的人類偏好保持一致。我們將在此發布我們的推理模型:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner。
我們提出了一種新穎的提示設計範式,挑戰了大型語言模型(LLM)提示中的傳統智慧。傳統智慧強調精心設計的指令和示範以實現上下文學習(ICL),而我們則展示,將隨機示範修剪成看似不連貫的“胡言亂語”能夠顯著提升多樣任務的表現。值得注意的是,這種“胡言亂語”始終匹配或超越最先進的自動提示優化技術,無論LLM對齊與否,均能取得顯著增益。然而,發現有效的修剪策略並非易事,現有的歸因方法和提示壓縮算法均未能提供穩健的結果,更不用說人類直覺了。針對這一點,我們提出了一種自我發現的提示優化框架——PromptQuine,這是一種進化搜索框架,僅利用低數據量即可自動搜索修剪策略。正如自然界中因資源限制而湧現的複雜性——如共生與自組織——我們的框架通過僅利用上下文中的詞彙,進化並精煉出非常規但極其有效的提示。我們在LLM的分類、多選題回答、生成及數學推理任務中展示了其有效性,同時保持了良好的運行效率。我們希望我們的發現能引導對上下文學習的機制研究,並發出行動號召,為開發更開放式的搜索算法以實現更有效的LLM提示鋪平道路。
微調大型語言模型(LLMs)在計算和記憶體方面都極為耗費資源。雖然參數高效的微調方法,如QLoRA和DoRA,減少了可訓練參數的數量並降低了記憶體使用量,但它們並未降低計算成本。在某些情況下,這些方法甚至可能減慢微調速度。本文介紹了SparseLoRA,這是一種通過上下文稀疏性來加速LLM微調的方法。我們提出了一種輕量級、無需訓練的SVD稀疏性估計器,它能動態選擇權重的稀疏子集進行損失和梯度計算。此外,我們系統地分析並解決了跨層、跨令牌和訓練步驟的敏感性問題。實驗結果顯示,SparseLoRA在保持各種下游任務(包括常識和算術推理、代碼生成及指令遵循)準確性的同時,將計算成本降低了最多2.2倍,並實現了最多1.6倍的實測加速。
由飞行时间(ToF)传感器捕获的深度图像易受噪声影响,需进行去噪处理以确保下游应用的可靠性。先前的研究要么专注于单帧处理,要么在未考虑帧间对应像素深度变化的情况下进行多帧处理,导致不理想的时间不一致性和空间模糊性。本文提出了一种新颖的ToF深度去噪网络,利用运动不变图融合技术,同时提升时间稳定性和空间清晰度。具体而言,尽管帧间存在深度偏移,图结构展现出时间自相似性,使得跨帧几何注意力机制得以应用于图融合。随后,通过在融合图上引入图像平滑先验,并结合源自ToF噪声分布的数据保真项,我们构建了一个最大后验问题用于ToF去噪。最终,该问题的解被展开为迭代滤波器,其权重通过图引导的几何注意力机制自适应学习,从而形成一个高性能且可解释的网络。实验结果表明,所提方案在合成DVToF数据集上实现了最先进的准确性和一致性表现,并在真实Kinectv2数据集上展现出良好的泛化能力。源代码将发布于https://github.com/davidweidawang/GIGA-ToF。
處理多模態信息並逐步推理的能力,仍是推進人工智能發展的關鍵挑戰。然而,現有的推理基準測試僅專注於純文本推理,或採用可通過直接從非文本模態檢索信息來回答的多模態問題。因此,在多模態領域中,複雜推理仍未被充分理解。在此,我們提出MARBLE,一個旨在嚴格審查多模態語言模型(MLLMs)在逐步推理複雜多模態問題和環境中能力的挑戰性多模態推理基準。MARBLE由兩個極具挑戰性的任務組成,即M-Portal和M-Cube,它們要求在空間、視覺和物理約束下制定和理解多步計劃。我們發現,當前MLLMs在MARBLE上表現不佳——所有12個先進模型在M-Portal上的表現接近隨機,而在M-Cube上的準確率為0%。僅在簡化的子任務中,部分模型表現優於隨機基線,表明複雜推理對現有MLLMs而言仍是一大挑戰。此外,我們指出感知仍是瓶頸,MLLMs偶爾無法從視覺輸入中提取信息。通過揭示MLLMs的局限性,我們希望MARBLE能激勵下一代具備跨越多模態推理步驟進行推理和規劃能力的模型的開發。
近期大型語言模型(LLMs)的進展表明,推理階段的計算技術,如解碼時縮放與自我精煉,能夠在不依賴外部知識的情況下顯著提升推理能力。這一成功的關鍵驅動力在於自我校正與自我驗證行為的出現,這些行為通常通過強化學習(RL)來激發。本文探討這些推理階段技術是否能夠有效延伸至視覺語言模型(VLMs),尤其是那些經過RL訓練的模型。我們發現,雖然多數投票與基於自我驗證的最佳N選擇等解碼策略均能提升VLM的推理性能,但依賴生成的方法(如前者)相較於依賴驗證的方法(如後者)能實現顯著更高的增益。此外,與RL調優模型相關的自我校正行為,如“靈光一現”時刻,並未帶來可衡量的增益。我們通過在推理時縮放框架內進行廣泛實驗,揭示了一個關鍵根源:經過RL訓練的VLMs在視覺與文本模態上仍缺乏穩健的自我驗證能力。
基於大型語言模型(LLMs)的代理在自主執行複雜軟體工程任務方面展現出潛力。此外,在開發能夠完成機器學習與自然科學研究流程部分工作的代理方面,也取得了進展。我們認為,研究擴展及其實現是此類系統的關鍵能力,並引入RExBench以支持對這一能力的評估。RExBench是一個包含12項現實研究實驗實現任務的基準,旨在探討尚未被實施的研究假設。每項任務均設置為對現有研究論文及代碼庫的擴展,並附有領域專家撰寫的指導說明。RExBench對數據污染具有魯棒性,並支持自動評估基礎設施,該設施執行代理輸出以判斷是否滿足成功標準。我們利用此基準評估了使用三種不同框架(aider、Claude Code和OpenHands)實現的九個LLM代理。我們發現,所有被評估的代理均未能自主實現大部分擴展。儘管在提供額外人工提示後成功率有所提升,但在該設定下的最佳表現仍低於40%。這表明,當前代理在無需大量人工指導的情況下處理現實研究擴展任務的能力仍有不足。
尽管端到端的视频到音频生成技术已取得显著进步,但生成能够真实捕捉视觉内容细节的高保真音频仍面临挑战。与创意产业中的专业人士类似,此类生成需要对视觉动态、声学环境及时间关系等要素进行复杂的推理。我们提出了ThinkSound,一个新颖的框架,它利用思维链(Chain-of-Thought, CoT)推理实现逐步、交互式的视频音频生成与编辑。我们的方法将这一过程分解为三个互补阶段:基础拟音生成,创建语义连贯的声景;通过精确的用户交互进行以对象为中心的交互式精炼;以及由自然语言指令引导的针对性编辑。在每个阶段,多模态大语言模型生成上下文对齐的CoT推理,指导统一的音频基础模型。此外,我们引入了AudioCoT,一个包含结构化推理注释的综合数据集,建立了视觉内容、文本描述与声音合成之间的联系。实验表明,ThinkSound在视频到音频生成方面,无论是音频指标还是CoT指标,均达到了最先进的性能,并在分布外的Movie Gen Audio基准测试中表现优异。演示页面可通过https://ThinkSound-Project.github.io访问。
城市研究涉及多種情境與任務,這些任務需要對多模態數據進行深入理解。現有方法往往專注於特定數據類型,缺乏一個統一框架來全面處理這些數據。近期,多模態大語言模型(MLLMs)的成功為克服這一限制提供了新的契機。本文介紹了UrbanLLaVA,這是一種多模態大語言模型,旨在同時處理四類數據,並在與通用MLLMs相比的多樣化城市任務中展現出卓越性能。在UrbanLLaVA中,我們首先構建了一個涵蓋單模態與跨模態城市數據的多樣化城市指令數據集,從局部視角到城市環境的全局視角均有涉及。此外,我們提出了一種多階段訓練框架,將空間推理能力的提升與領域知識的學習分離,從而提高了UrbanLLaVA在多樣化城市任務中的兼容性與下游性能。最後,我們還擴展了現有的城市研究基準,以評估MLLMs在廣泛城市任務中的表現。來自三個城市的實驗結果表明,UrbanLLaVA在單模態任務和複雜的跨模態任務中均優於開源及專有的MLLMs,並展現出跨城市的強大泛化能力。源代碼與數據已通過https://github.com/tsinghua-fib-lab/UrbanLLaVA向研究社區公開。
世界模型已成為具身智能不可或缺的工具,作為強大的模擬器,能夠生成逼真的機器人視頻,同時應對關鍵的數據稀缺挑戰。然而,當前的具身世界模型在物理感知方面表現有限,特別是在建模三維幾何和運動動力學方面,導致在接觸密集的機器人場景中生成不真實的視頻。本文提出RoboScape,一個統一的物理信息世界模型,在集成框架內聯合學習RGB視頻生成和物理知識。我們引入了兩個關鍵的物理信息聯合訓練任務:時間深度預測,增強視頻渲染中的三維幾何一致性;以及關鍵點動力學學習,隱式編碼物理屬性(如物體形狀和材料特性),同時改進複雜運動建模。大量實驗表明,RoboScape在各種機器人場景中生成具有卓越視覺逼真度和物理合理性的視頻。我們通過下游應用進一步驗證其實用性,包括使用生成數據進行機器人策略訓練和策略評估。我們的工作為構建高效的物理信息世界模型以推進具身智能研究提供了新的見解。代碼可在以下網址獲取:https://github.com/tsinghua-fib-lab/RoboScape。
外部工具通過函數調用的整合對於實用的語言模型應用至關重要,然而大多數多語言模型在非英語語言中缺乏可靠的工具使用能力。即使是最先進的多語言模型,在決定何時使用工具以及生成函數調用所需的結構化輸出時也面臨困難,尤其是在提示使用資源較少的語言時,常常表現出語言混淆。本研究提出了一種方法,用於調整現有語言模型,使其能夠在任何目標語言中實現穩健的工具使用,並以保加利亞語作為案例研究。該方法涉及對BgGPT模型系列(2.6B、9B、27B參數)進行持續訓練,使用一個包含10,035個函數調用示例的新雙語數據集,旨在支持如MCP(模型上下文協議)等標準化協議。研究引入了TUCAN(工具使用能力助手導航器),其在函數調用準確性上相比基礎模型提升了高達28.75%,同時在保加利亞語基準測試中驗證了其核心語言理解能力的保持。除了準確性提升外,TUCAN模型展示了生產就緒的響應格式,提供清晰、可解析的函數調用,與基礎模型的冗長且不一致的輸出形成鮮明對比。模型、評估框架和數據集均已發布,以便其他語言進行複製。這項工作展示了將工具增強能力擴展到以英語為中心的系統之外的實用方法。
微調預訓練的大型語言模型(LLMs)已被證明是實現特定任務(如機器翻譯)達到最新性能的有效策略。然而,這種適應過程往往意味著犧牲通用能力,例如對話推理和指令遵循,從而削弱了系統在需要多種技能的實際應用中的效用。本文介紹了Tower+,這是一套旨在在翻譯和多語言通用文本能力方面均提供強勁性能的模型。我們通過引入一種基於Tower(Alves等,2024)的新穎訓練方法,實現了翻譯專業化與多語言通用能力之間的帕累托前沿,該方法包括持續預訓練、監督微調、偏好優化以及帶有可驗證獎勵的強化學習。在訓練的每個階段,我們精心生成和策劃數據,以增強翻譯以及涉及代碼生成、數學問題解決和通用指令遵循的任務性能。我們開發了多種規模的模型:2B、9B和72B。我們較小的模型通常優於更大的通用開源和專有LLMs(例如Llama 3.3 70B、GPT-4o)。我們最大的模型在高資源語言翻譯性能方面表現最佳,並在多語言Arena Hard評估和我們引入的IF-MT基準測試中取得了頂尖成績,該基準測試用於評估翻譯和指令遵循。我們的研究結果強調,在優化特定業務領域(如翻譯和本地化)的同時,有可能在通用能力方面與前沿模型相媲美。
本文提出了一種簡單的無需訓練的技術,旨在提升基於草稿機的推測解碼(SpD)方法的性能,該方法在草稿生成過程中整合了語言模型頭部(LM頭部)。基於草稿機的推測解碼利用一個或多個較小的語言模型,即草稿機或草稿模型,來採樣由多個令牌組成的草稿序列或樹,隨後由基礎大語言模型(LLM),即目標模型,進行驗證並接受其中一部分作為其有效生成。通常認為,推測解碼要求目標模型與草稿模型的詞彙表之間存在一一對應關係,因此自然會共享它們的詞彙表,甚至如EAGLE或Medusa中那樣共享LM頭部。我們首先指出,這種草稿令牌採樣方案在草稿生成過程中本質上包含了一種不必要的推理開銷,特別是對於一些擁有極大詞彙量的目標LLM而言。接著,我們提出了一種名為VocabTrim的簡單技術,以減輕草稿生成開銷,從而提升在內存受限環境下的生成速度。VocabTrim重構了草稿機的LM頭部,使其僅包含一組有限的令牌,這些令牌是根據目標模型詞彙表中最頻繁採樣的令牌選取的。雖然在草稿生成中限制詞彙量會略微降低接受率,但它顯著減少了在內存受限過程中的草稿生成延遲,這在邊緣設備上尤為常見,從而實現了更高的內存受限加速比(MBSU)。我們展示了該方法能夠在Spec-Bench上提升Llama-3模型的內存受限加速比,特別是對於Llama-3.2-3B-Instruct模型,提升了16%。
金属透鏡在超緊湊計算成像方面展現出巨大潛力,但面臨著複雜光學退化與計算復原困難的挑戰。現有方法通常依賴於精確的光學校準或大量配對數據集,這對於現實世界的成像系統而言並非易事。此外,對推理過程缺乏控制往往導致不期望的幻覺偽影。我們引入了退化建模多路徑擴散技術,用於可調金屬透鏡攝影,利用預訓練模型中的強大自然圖像先驗,而非依賴大規模數據集。我們的框架採用正提示、中性提示和負提示路徑,以平衡高頻細節生成、結構保真度以及抑制金屬透鏡特有的退化,並結合偽數據增強。一個可調解碼器實現了在保真度與感知質量之間的可控權衡。此外,空間變化退化感知注意力(SVDA)模塊自適應地建模了複雜的光學和傳感器引起的退化。最後,我們設計並構建了一款毫米級別的MetaCamera,用於現實世界的驗證。大量結果表明,我們的方法超越了現有最先進技術,實現了高保真度和銳利的圖像重建。更多材料請訪問:https://dmdiff.github.io/。