每日精選AI研究論文及翻譯
大型语言模型在函数和文件级别的代码生成方面表现出色,然而从零开始生成完整的代码库仍然是一个根本性的挑战。这一过程需要在提案和实现两个层面上进行连贯且可靠的规划,而自然语言由于其模糊性和冗长性,并不适合准确表达复杂的软件结构。为解决这一问题,我们引入了代码库规划图(Repository Planning Graph, RPG),这是一种持久化的表示方法,通过在一个图中编码能力、文件结构、数据流和函数,统一了提案和实现层面的规划。RPG以明确的蓝图取代了模糊的自然语言,实现了长远的规划和可扩展的代码库生成。基于RPG,我们开发了ZeroRepo,一个从零开始生成代码库的图驱动框架。它分为三个阶段运作:提案层面的规划和实现层面的细化以构建图,随后是图引导的代码生成与测试验证。为评估这一设置,我们构建了RepoCraft,一个包含六个真实世界项目、共计1,052个任务的基准测试集。在RepoCraft上,ZeroRepo生成的代码库平均接近36K行代码,约为最强基线(Claude Code)的3.9倍,其他基线的约64倍。它实现了81.5%的功能覆盖率和69.7%的通过率,分别比Claude Code高出27.3和35.8个百分点。进一步分析表明,RPG能够建模复杂的依赖关系,通过近线性扩展实现逐步复杂的规划,并增强大型语言模型对代码库的理解,从而加速代理定位。
統一的多模態大型語言模型(LLMs)既能理解又能生成視覺內容,具有巨大的潛力。然而,現有的開源模型往往在這些能力之間存在性能上的權衡。我們提出了Manzano,這是一個簡單且可擴展的統一框架,通過將混合圖像標記器與精心策劃的訓練方案相結合,大幅減少了這種張力。單一的共享視覺編碼器為兩個輕量級適配器提供輸入,這些適配器在共同的語義空間內生成用於圖像到文本理解的連續嵌入和用於文本到圖像生成的離散標記。統一的自回歸LLM以文本和圖像標記的形式預測高層語義,隨後輔助的擴散解碼器將圖像標記轉換為像素。該架構與理解與生成數據的統一訓練方案相結合,使得兩種能力的可擴展聯合學習成為可能。Manzano在統一模型中取得了最先進的成果,並在專業模型上具有競爭力,特別是在富含文本的評估中。我們的研究顯示了最小的任務衝突和隨著模型規模擴展而持續獲得的增益,驗證了我們選擇混合標記器的設計決策。
生成建模、表徵學習與分類是機器學習(ML)中的三大核心問題,然而其尖端(SoTA)解決方案至今仍大多各自獨立。本文探討:是否存在一個統一原則能夠同時應對這三者?此類統一有望簡化ML流程,並促進跨任務間更強的協同效應。我們提出潛在分區網絡(Latent Zoning Network, LZN)作為邁向此目標的一步。LZN的核心在於構建一個共享的高斯潛在空間,該空間編碼了所有任務的信息。每種數據類型(如圖像、文本、標籤)配備一個將樣本映射至不相交潛在分區的編碼器,以及一個將潛在變量映射回數據的解碼器。ML任務被表達為這些編碼器與解碼器的組合:例如,標籤條件下的圖像生成使用標籤編碼器與圖像解碼器;圖像嵌入使用圖像編碼器;分類則使用圖像編碼器與標籤解碼器。我們在三個逐步複雜的場景中展示了LZN的潛力:(1)LZN能夠增強現有模型(圖像生成):與SoTA的Rectified Flow模型結合時,LZN在CIFAR10上將FID從2.76提升至2.59,且無需修改訓練目標。(2)LZN能獨立解決任務(表徵學習):LZN無需輔助損失函數即可實現無監督表徵學習,在ImageNet的下游線性分類任務中,分別超越開創性的MoCo與SimCLR方法9.3%與0.2%。(3)LZN能同時解決多個任務(聯合生成與分類):通過圖像與標籤的編碼器/解碼器,LZN設計上即能同時執行這兩項任務,在CIFAR10上不僅改善了FID,還達到了SoTA的分類準確率。代碼與訓練模型可於https://github.com/microsoft/latent-zoning-networks獲取。項目網站位於https://zinanlin.me/blogs/latent_zoning_networks.html。
創建高保真度的室內環境三維模型對於設計、虛擬現實及機器人技術等應用至關重要。然而,手動三維建模仍耗時且勞動密集。儘管生成式人工智慧的最新進展已實現了自動化場景合成,現有方法在平衡視覺質量、多樣性、語義一致性及用戶控制方面往往面臨挑戰。一個主要瓶頸是缺乏針對此任務的大規模高質量數據集。為填補這一空白,我們引入了一個全面的合成數據集,包含12,328個結構化註釋場景、57,440個房間及470萬張逼真的二維渲染圖。利用此數據集,我們提出了SpatialGen,一種新穎的多視角多模態擴散模型,能夠生成真實且語義一致的三維室內場景。給定一個三維布局及參考圖像(源自文本提示),我們的模型從任意視角合成外觀(彩色圖像)、幾何(場景坐標圖)及語義(語義分割圖),同時保持跨模態的空間一致性。在實驗中,SpatialGen持續生成優於先前方法的結果。我們將開源數據與模型,以賦能社群並推動室內場景理解與生成領域的發展。
多模态大语言模型(MLLMs)的快速发展使得将其与人类偏好对齐成为一项关键挑战。奖励模型(RMs)是实现这一目标的核心技术,但目前学术界和工业界均缺乏构建最先进多模态奖励模型(MRMs)的系统性指南。通过详尽的实验分析,本文旨在为构建高性能MRMs提供一份清晰的“配方”。我们系统地研究了MRM开发流程中的每个关键组件,包括奖励建模范式(如Naive-RM、基于Critic的RM和生成式RM)、奖励头架构、训练策略、数据整理(涵盖十余种多模态和纯文本偏好数据集)、骨干模型及模型规模,以及集成方法。 基于这些实验洞察,我们引入了BaseReward,一个强大且高效的多模态奖励建模基线。BaseReward采用了一种简单而有效的架构,建立在{Qwen2.5-VL}骨干之上,配备了一个优化的双层奖励头,并在精心整理的高质量多模态和纯文本偏好数据混合体上进行训练。我们的结果表明,BaseReward在MM-RLHF-Reward Bench、VL-Reward Bench和Multimodal Reward Bench等主要基准测试中确立了新的SOTA,超越了之前的模型。此外,为了验证其在静态基准之外的实用价值,我们将BaseReward集成到一个现实世界的强化学习流程中,成功提升了MLLM在多种感知、推理和对话任务中的表现。这项工作不仅提供了一个顶级的MRM,更重要的是,为社区开发下一代MLLMs的稳健奖励模型提供了一份基于实证的清晰指南。
基於視覺-語言-動作(VLA)模型的機器人現實世界強化學習(RL)面臨著稀疏、手工設計的獎勵和低效探索的瓶頸。我們引入了VLAC,這是一個基於InternVL構建並在大規模異構數據集上訓練的通用過程獎勵模型。給定成對的觀察和語言目標,它輸出密集的進度增量與完成信號,消除了任務特定的獎勵工程,並支持對未見任務和環境的一次性上下文轉移。VLAC在視覺-語言數據集上訓練,以增強感知、對話和推理能力,同時結合機器人與人類軌跡數據,這些數據為動作生成和進度估計提供了基礎,並通過構建大量負樣本和語義不匹配樣本進一步強化,以拒絕不相關的提示並檢測退步或停滯。通過提示控制,單一VLAC模型交替生成獎勵和動作令牌,統一了評價者與策略。在異步現實世界RL循環中部署時,我們分層實施了分級的人類介入協議(離線示範回放、返回與探索、人類引導探索),這加速了探索並穩定了早期學習。在四項不同的現實世界操作任務中,VLAC在200次現實世界交互回合內將成功率從約30%提升至約90%;結合人類介入干預,樣本效率進一步提高了50%,並實現了高達100%的最終成功率。
我们推出Lynx,一款基于单一输入图像实现个性化视频合成的高保真模型。Lynx建立在开源扩散变换器(DiT)基础模型之上,引入了两个轻量级适配器以确保身份保真度。其中,ID适配器采用感知重采样器,将源自ArcFace的面部嵌入转换为紧凑的身份令牌用于条件控制;而Ref适配器则整合了来自冻结参考路径的密集VAE特征,通过跨注意力机制在所有变换器层中注入细粒度细节。这些模块共同作用,在保持时间连贯性和视觉真实感的同时,实现了强有力的身份保持。通过对40位受试者和20个无偏提示精心策划的基准测试,共生成800个测试案例,Lynx展现了卓越的面部相似度、具有竞争力的提示跟随能力以及出色的视频质量,从而推动了个性化视频生成领域的发展。
在人工智能驱动的人机图形用户界面(GUI)交互自动化领域,尽管多模态大语言模型与强化微调技术的飞速发展已取得了显著进展,但一个根本性挑战依然存在:其交互逻辑与自然的人机GUI沟通模式存在显著偏差。为填补这一空白,我们提出了“眨眼-思考-链接”(Blink-Think-Link, BTL)框架,这是一个受大脑启发的、模拟用户与图形界面间人类认知过程的交互框架。该系统将交互分解为三个生物学上可信的阶段:(1) 眨眼——快速检测并关注屏幕相关区域,类似于眼球的扫视运动;(2) 思考——进行高层级的推理与决策,映射认知规划过程;(3) 链接——生成可执行命令以实现精确的运动控制,模仿人类动作选择机制。此外,我们为BTL框架引入了两项关键技术革新:(1) 眨眼数据生成——专为眨眼数据优化的自动化标注流程,以及(2) BTL奖励——首个基于规则的奖励机制,支持由过程与结果共同驱动的强化学习。基于此框架,我们开发了一款名为BTL-UI的GUI代理模型,在综合基准测试中,无论是静态GUI理解还是动态交互任务,均展现出持续领先的性能。这些结果有力地实证了该框架在开发高级GUI代理方面的有效性。
儘管COLMAP長期以來一直是靜態場景中相機參數優化的主流方法,但其在動態場景中的應用受到運行時間長及依賴於地面真實(GT)運動遮罩的限制。許多嘗試通過引入更多先驗知識作為監督來改進它,例如GT焦距、運動遮罩、3D點雲、相機姿態和度量深度,然而這些信息在隨意拍攝的RGB視頻中通常難以獲得。本文提出了一種新方法,僅依賴單一RGB視頻作為監督,在動態場景中實現更精確且高效的相機參數優化。我們的方法包含三個關鍵組件:(1)基於塊的跟踪濾波器,用於在RGB視頻中建立穩健且最大程度稀疏的鉸鏈式關係;(2)異常值感知的聯合優化,通過自適應降低移動異常值的權重,無需依賴運動先驗,實現高效的相機參數優化;(3)兩階段優化策略,通過在損失函數的Softplus限制與凸最小值之間權衡,提升穩定性和優化速度。我們對相機估計結果進行了視覺和數值評估。為進一步驗證準確性,我們將相機估計結果輸入到4D重建方法中,並評估生成的3D場景以及渲染的2D RGB和深度圖。我們在4個真實世界數據集(NeRF-DS、DAVIS、iPhone和TUM-dynamics)和1個合成數據集(MPI-Sintel)上進行了實驗,結果表明,我們的方法僅以單一RGB視頻作為監督,能夠更高效且精確地估計相機參數。
指令引导的文本转语音(ITTS)技术使用户能够通过自然语言提示控制语音生成,提供了比传统TTS更为直观的交互界面。然而,用户风格指令与听者感知之间的对齐关系仍鲜有研究。本研究首先对ITTS在两种表达维度(程度副词和分级情感强度)上的可控性进行了感知分析,并收集了关于说话者年龄和词汇级别强调属性的人类评分。为了全面揭示指令与感知之间的差距,我们提供了一个包含大规模人类评估的数据集,命名为表达性语音控制(E-VOC)语料库。此外,我们发现:(1)gpt-4o-mini-tts是最可靠的ITTS模型,在声学维度上实现了指令与生成话语之间的高度对齐。(2)所分析的5个ITTS系统倾向于生成成人语音,即便指令要求使用儿童或老年语音。(3)细粒度控制仍是一个主要挑战,表明大多数ITTS系统在解读细微差异的属性指令方面仍有大幅提升空间。
角色扮演代理(RPAs)因其模擬沉浸式與互動性角色的能力而日益受到關注。然而,現有方法主要集中於靜態角色設定,忽視了人類固有的動態感知能力。為彌補這一差距,我們通過將視頻模態融入RPAs,提出了動態角色設定的概念。為此,我們構建了Role-playing-Video60k,這是一個包含6萬個視頻及70萬條對應對話的大規模高質量數據集。基於此數據集,我們開發了一個綜合性的RPA框架,該框架結合了自適應時間採樣與動態及靜態角色設定表示。具體而言,動態設定通過自適應採樣視頻幀並按時間順序輸入大型語言模型(LLM)來創建,而靜態設定則包括(1)微調階段來自訓練視頻的角色對話,以及(2)推理階段輸入視頻的摘要上下文。這種聯合整合使RPAs能夠生成更為豐富的回應。此外,我們提出了一種涵蓋八項指標的穩健評估方法。實驗結果證明了我們框架的有效性,凸顯了動態角色設定在開發RPAs中的重要性。
人類對話涵蓋語言、語音及視覺線索,每一媒介皆提供互補的資訊。例如,語音傳達的氛圍或語調,是僅憑文字無法完全捕捉的。儘管多模態大型語言模型(LLMs)致力於從多樣化輸入生成文本回應,但對於生成自然且引人入勝的語音,關注度相對較少。我們提出了一種擬人化代理,它能根據對話情緒及回應風格資訊生成語音回應。為此,我們構建了一個新穎的「多感官對話」數據集,專注於語音,使代理能夠生成自然的語音。隨後,我們提出了一種基於多模態LLM的模型,用於生成文本回應及語音描述,這些描述用於生成涵蓋副語言資訊的語音。實驗結果證明了在對話中結合視覺與聽覺模態以生成吸引人語音的有效性。源代碼已公開於https://github.com/kimtaesu24/MSenC。
如Whisper等预训练自动语音识别(ASR)模型虽表现优异,但仍需领域适应以应对未见词汇及特定表达。在许多实际场景中,收集语音数据并不现实,因此仅依赖文本的适应成为必要。我们提出WhisTLE,一种深度监督、仅基于文本的预训练编码器-解码器ASR模型适应方法。WhisTLE通过训练一个变分自编码器(VAE)来从文本建模编码器输出,并利用学习到的文本到潜在编码器对解码器进行微调,可选择性结合文本到语音(TTS)适应。在推理阶段,原始编码器得以恢复,不产生额外运行时成本。在四个域外数据集及四种ASR模型上的实验表明,结合TTS的WhisTLE相较于仅使用TTS的适应方法,词错误率(WER)相对降低了12.3%,并在32种场景中的27种超越了所有非WhisTLE基线方法。
具身代理的终极目标是创造能够与人类互动的合作者,而非仅仅被动执行指令的执行者。这要求代理能够基于人类反馈进行沟通、协调并调整其行动。近年来,视觉语言代理(VLA)的进展为实现这一目标提供了途径。然而,当前大多数基于VLA的具身代理以单向模式运作:接收指令后即执行,缺乏反馈机制。这种方法在现实场景中往往失效,因为指令常存在模糊性。本文通过“询问以澄清”框架解决了这一问题。该框架首先通过多轮对话提问来消除指令的模糊性,随后端到端生成低层次动作。具体而言,“询问以澄清”框架包含两个组件:一个用于协作的视觉语言模型(VLM)和一个用于动作生成的扩散模型。我们还引入了一个连接模块,该模块根据VLM的输出为扩散模型生成条件,通过指令调整观察以创建可靠条件。我们采用两阶段知识隔离策略训练该框架:首先,利用解决模糊性的对话数据微调协作组件以处理模糊性;然后,在冻结协作组件的同时整合动作组件,确保在微调扩散模型生成动作时保留交互能力。这一训练策略保证了框架能够先提问后生成动作。在推理过程中,信号检测器作为路由器,帮助框架在提问与执行动作之间切换。我们在8个现实任务中评估了“询问以澄清”框架,其表现优于现有最先进的VLA。结果表明,我们提出的框架及训练策略为开发协作型具身代理提供了一条可行路径。