每日精选AI研究论文及翻译
大型语言模型在函数和文件级别的代码生成方面表现出色,但从零开始生成完整的代码库仍是一项根本性挑战。这一过程需要在提案和实现两个层面进行连贯且可靠的规划,而自然语言由于其模糊性和冗长性,难以准确表达复杂的软件结构。为解决这一问题,我们引入了仓库规划图(Repository Planning Graph, RPG),这是一种持久化的表示方法,通过在一个图中编码能力、文件结构、数据流和函数,统一了提案和实现层面的规划。RPG用明确的蓝图替代了模糊的自然语言,实现了长期规划和可扩展的仓库生成。基于RPG,我们开发了ZeroRepo,一个从零开始生成仓库的图驱动框架。它分为三个阶段:提案层面的规划和实现层面的细化以构建图,随后进行图引导的代码生成及测试验证。为评估这一设置,我们构建了RepoCraft,一个包含六个真实项目、共计1,052个任务的基准测试集。在RepoCraft上,ZeroRepo生成的仓库平均接近36K行代码,约为最强基线(Claude Code)的3.9倍,其他基线的约64倍。其功能覆盖率达到81.5%,通过率为69.7%,分别比Claude Code高出27.3和35.8个百分点。进一步分析表明,RPG能够建模复杂依赖关系,通过近乎线性的扩展实现逐步精细的规划,并增强大型语言模型对仓库的理解,从而加速代理定位。
统一的多模态大语言模型(LLMs)能够同时理解并生成视觉内容,展现出巨大的潜力。然而,现有的开源模型往往在这两种能力之间存在性能权衡。我们提出了Manzano,一个简单且可扩展的统一框架,通过结合混合图像分词器与精心设计的训练方案,显著缓解了这一矛盾。一个共享的视觉编码器为两个轻量级适配器提供输入,这些适配器在共同的语义空间中生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。统一的自回归LLM以文本和图像标记的形式预测高层语义,随后辅助的扩散解码器将这些图像标记转换为像素。该架构结合了理解和生成数据的统一训练方案,使得两种能力的联合学习能够规模化进行。Manzano在统一模型中取得了最先进的成果,并在文本丰富的评估中与专业模型相媲美。我们的研究表明任务冲突极小,且随着模型规模的扩大获得了一致的增益,验证了我们采用混合分词器的设计选择。
生成建模、表示学习和分类是机器学习(ML)中的三大核心问题,然而其最先进(SoTA)的解决方案在很大程度上仍相互独立。本文探讨:是否存在一个统一的原则能够同时解决这三个问题?这种统一有望简化ML流程,并促进任务间更紧密的协同。为此,我们引入了潜在分区网络(Latent Zoning Network, LZN)作为迈向这一目标的一步。LZN的核心在于构建一个共享的高斯潜在空间,该空间编码了所有任务的信息。每种数据类型(如图像、文本、标签)均配备一个编码器,将样本映射到独立的潜在分区,以及一个解码器,将潜在表示映射回数据。ML任务被表达为这些编码器和解码器的组合:例如,标签条件图像生成使用标签编码器和图像解码器;图像嵌入使用图像编码器;分类则使用图像编码器和标签解码器。我们通过三个逐步复杂的场景展示了LZN的潜力:(1)LZN能够增强现有模型(图像生成):与SoTA的Rectified Flow模型结合时,LZN在不改变训练目标的情况下,将CIFAR10上的FID从2.76提升至2.59。(2)LZN能够独立完成任务(表示学习):LZN无需辅助损失函数即可实现无监督表示学习,在ImageNet下游线性分类任务上,分别超越开创性的MoCo和SimCLR方法9.3%和0.2%。(3)LZN能够同时解决多个任务(联合生成与分类):通过图像和标签的编码器/解码器,LZN设计上即可同时执行这两项任务,不仅改善了FID,还在CIFAR10上达到了SoTA的分类准确率。代码及训练模型可在https://github.com/microsoft/latent-zoning-networks获取,项目网站位于https://zinanlin.me/blogs/latent_zoning_networks.html。
构建高保真室内环境三维模型对于设计、虚拟现实和机器人应用至关重要。然而,手动三维建模仍然耗时且劳动密集。尽管生成式人工智能的最新进展已实现场景自动合成,现有方法在平衡视觉质量、多样性、语义一致性和用户控制方面仍面临挑战。一个主要瓶颈是缺乏针对此任务的大规模高质量数据集。为填补这一空白,我们引入了一个全面的合成数据集,包含12,328个结构化标注场景、57,440个房间和470万张逼真的二维渲染图像。利用这一数据集,我们提出了SpatialGen,一种新颖的多视图多模态扩散模型,能够生成真实且语义一致的三维室内场景。给定三维布局和参考图像(源自文本提示),我们的模型从任意视角合成外观(彩色图像)、几何(场景坐标图)和语义(语义分割图),同时保持跨模态的空间一致性。实验表明,SpatialGen生成的结果始终优于以往方法。我们开源了数据和模型,以赋能社区并推动室内场景理解与生成领域的发展。
多模态大语言模型(MLLMs)的快速发展使得将其与人类偏好对齐成为一项关键挑战。奖励模型(RMs)是实现这一目标的核心技术,但目前学术界和工业界均缺乏构建最先进多模态奖励模型(MRMs)的系统性指南。通过详尽的实验分析,本文旨在为构建高性能MRMs提供清晰的“配方”。我们系统地研究了MRM开发流程中的每个关键组件,包括奖励建模范式(如朴素RM、基于批评者的RM和生成式RM)、奖励头架构、训练策略、数据整理(涵盖十余种多模态和纯文本偏好数据集)、骨干模型及模型规模,以及集成方法。 基于这些实验洞察,我们引入了BaseReward,一个强大且高效的多模态奖励建模基线。BaseReward采用简洁而有效的架构,以{Qwen2.5-VL}为骨干,配备优化的双层奖励头,并在精心挑选的高质量多模态和纯文本偏好数据混合集上进行训练。我们的结果表明,BaseReward在MM-RLHF-Reward Bench、VL-Reward Bench和Multimodal Reward Bench等主要基准测试中确立了新的SOTA,超越了以往模型。此外,为验证其在静态基准之外的实际应用价值,我们将BaseReward整合到现实世界的强化学习流程中,成功提升了MLLM在多种感知、推理和对话任务上的表现。这项工作不仅提供了一个顶级的MRM,更重要的是,为社区提供了清晰、基于实证的指南,助力开发下一代MLLMs的稳健奖励模型。
基于视觉-语言-动作(VLA)模型的机器人现实世界强化学习(RL)常受限于稀疏、手工设计的奖励机制及低效的探索策略。为此,我们提出了VLAC,一种建立在InternVL基础之上、通过大规模异构数据集训练得到的通用进程奖励模型。该模型在给定成对观察结果及语言目标时,能输出密集的进程增量及完成信号,从而免除了针对特定任务的奖励工程,并支持对未见任务和环境的一次性上下文迁移。VLAC通过视觉-语言数据集训练,强化了感知、对话及推理能力,同时结合机器人及人类轨迹数据,为动作生成与进程评估提供基础,并通过构建大量负面及语义不匹配样本,进一步增强了模型对无关提示的拒绝能力以及对退步或停滞的检测能力。借助提示控制,单一VLAC模型可交替生成奖励与动作标记,实现了评价与策略的统一。在异步现实世界RL循环中部署时,我们采用了一种分层次的人机协作协议(离线演示回放、回报与探索、人类引导探索),以加速探索并稳定早期学习。在四项不同的现实世界操作任务中,VLAC在200次现实世界交互周期内将成功率从约30%提升至约90%;引入人机协作干预后,样本效率进一步提升了50%,并实现了高达100%的最终成功率。
我们推出Lynx,一款基于单张输入图像实现高保真个性化视频合成的模型。Lynx建立在开源扩散变换器(DiT)基础模型之上,引入了两个轻量级适配器以确保身份保真度。其中,ID适配器采用感知重采样器,将ArcFace提取的面部嵌入转换为紧凑的身份令牌用于条件控制;而Ref适配器则整合了来自冻结参考路径的密集VAE特征,通过跨注意力机制在所有变换器层中注入细粒度细节。这些模块共同作用,在保持时间连贯性和视觉真实感的同时,实现了鲁棒的身份保持。通过在包含40个主体和20个无偏提示的精选基准上进行评估,共生成800个测试案例,Lynx展现了卓越的面部相似度、具有竞争力的提示跟随能力以及强大的视频质量,从而推动了个性化视频生成技术的进步。
在AI驱动的人机图形界面交互自动化领域,尽管多模态大语言模型和强化微调技术的快速发展已取得显著进展,但一个根本性挑战依然存在:其交互逻辑与自然的人机图形界面沟通模式存在显著偏差。为填补这一空白,我们提出了“眨眼-思考-链接”(Blink-Think-Link, BTL)框架,这是一个模仿人类与图形界面间认知过程的脑启发式人机交互框架。该系统将交互分解为三个生物学上合理的阶段:(1) 眨眼——快速检测并关注屏幕相关区域,类似于眼球的扫视运动;(2) 思考——进行更高层次的推理与决策,反映认知规划过程;(3) 链接——生成可执行命令以实现精确的运动控制,模拟人类动作选择机制。此外,我们为BTL框架引入了两项关键技术革新:(1) 眨眼数据生成——专门为眨眼数据优化的自动化标注流程,以及(2) BTL奖励——首个基于规则的奖励机制,支持过程与结果双驱动的强化学习。基于此框架,我们开发了名为BTL-UI的图形界面代理模型,在综合基准测试中,无论是静态图形界面理解还是动态交互任务,均展现出持续领先的性能。这些结果有力实证了该框架在开发高级图形界面代理方面的有效性。
尽管COLMAP长期以来一直是静态场景中相机参数优化的主导方法,但其在动态场景中的应用受限于冗长的运行时间以及对真实运动掩码(GT)的依赖。许多研究尝试通过引入更多先验信息作为监督来改进它,例如真实焦距、运动掩码、3D点云、相机姿态和度量深度,然而这些信息在随手拍摄的RGB视频中通常难以获取。本文提出了一种仅通过单一RGB视频进行监督,在动态场景中实现更精确、更高效相机参数优化的新方法。该方法包含三个关键组成部分:(1) 基于片段的跟踪滤波器,用于在RGB视频中建立稳健且最大程度稀疏的铰链式关系;(2) 异常值感知联合优化,通过自适应降低移动异常值的权重,无需依赖运动先验,高效优化相机参数;(3) 两阶段优化策略,通过权衡Softplus限制与损失函数中的凸极小值,提升稳定性和优化速度。我们通过视觉和数值评估了相机估计结果。为进一步验证准确性,我们将相机估计结果输入到4D重建方法中,评估生成的3D场景以及渲染的2D RGB和深度图。我们在4个真实世界数据集(NeRF-DS、DAVIS、iPhone和TUM-dynamics)和1个合成数据集(MPI-Sintel)上进行了实验,结果表明,我们的方法仅以单一RGB视频作为监督,能够更高效、更准确地估计相机参数。
指令引导的文本转语音(ITTS)技术使用户能够通过自然语言提示控制语音生成,提供了比传统TTS更为直观的交互界面。然而,用户风格指令与听者感知之间的对齐关系仍鲜有研究。本研究首次对ITTS在两种表达维度(程度副词和分级情感强度)上的可控性进行了感知分析,并收集了关于说话者年龄和词级强调属性的人类评分。为全面揭示指令与感知之间的差距,我们提供了一个包含大规模人类评估的数据集,命名为表达性语音控制(E-VOC)语料库。此外,我们发现:(1)gpt-4o-mini-tts是最可靠的ITTS模型,在声学维度上实现了指令与生成语音的良好对齐。(2)所分析的5个ITTS系统倾向于生成成人语音,即使指令要求使用儿童或老年语音。(3)细粒度控制仍是主要挑战,表明大多数ITTS系统在解释细微差异的属性指令方面仍有较大改进空间。
角色扮演代理(RPAs)因其能够模拟沉浸式和互动性角色而日益受到关注。然而,现有方法主要集中于静态角色设定,忽视了人类固有的动态感知能力。为填补这一空白,我们通过将视频模态融入RPAs,提出了动态角色设定的概念。为此,我们构建了Role-playing-Video60k,这是一个包含6万条视频和70万条对应对话的大规模高质量数据集。基于此数据集,我们开发了一个综合性的RPA框架,该框架结合了自适应时间采样与动态及静态角色设定表示。具体而言,动态设定通过自适应采样视频帧并按时间顺序输入大语言模型(LLM)来创建,而静态设定则包括:(1)微调过程中训练视频中的角色对话,以及(2)推理时输入视频的摘要上下文。这种联合集成使RPAs能够生成更为丰富的响应。此外,我们提出了一种涵盖八项指标的稳健评估方法。实验结果验证了我们框架的有效性,凸显了动态角色设定在开发RPAs中的重要性。
人类对话涉及语言、语音及视觉线索,每种媒介都提供了互补的信息。例如,语音传达的氛围或语气是纯文本无法完全捕捉的。尽管多模态大语言模型(LLMs)致力于从多样化的输入中生成文本回应,但生成自然且引人入胜的语音方面却较少受到关注。我们提出了一种拟人化代理,它能根据对话情绪和响应风格信息生成语音回应。为此,我们构建了一个新颖的专注于语音的多感官对话数据集(MultiSensory Conversation),使代理能够生成自然的语音。随后,我们提出了一种基于多模态LLM的模型,用于生成文本回应及语音描述,这些描述进而用于生成涵盖副语言信息的语音。实验结果证明了在对话中结合视觉与音频模态以生成吸引人语音的有效性。源代码可在https://github.com/kimtaesu24/MSenC获取。
诸如Whisper等预训练自动语音识别(ASR)模型虽表现优异,但仍需领域适应以应对未见词汇及表达方式。在许多实际场景中,收集语音数据并不现实,因此仅依赖文本的适应成为必要。我们提出了WhisTLE,一种深度监督、仅基于文本的预训练编码器-解码器ASR模型适应方法。WhisTLE通过训练一个变分自编码器(VAE)来从文本建模编码器输出,并利用学习到的文本到潜在编码器对解码器进行微调,可选择性结合文本到语音(TTS)适应。在推理阶段,原始编码器得以恢复,不增加额外运行时成本。在四个跨领域数据集和四种ASR模型上,结合TTS的WhisTLE相较于仅使用TTS的适应方法,将词错误率(WER)相对降低了12.3%,并在32种场景中的27种情况下超越了所有非WhisTLE基线方法。
具身智能体的终极目标是创造出能与人类互动的协作者,而非仅被动执行指令的执行者。这要求智能体能够基于人类反馈进行沟通、协调并调整其行为。近年来,视觉语言模型(VLA)的进展为实现这一目标提供了途径。然而,当前大多数基于VLA的具身智能体仍以单向模式运作:接收指令后直接执行,缺乏反馈机制。这种模式在现实场景中往往失效,因为指令常存在模糊性。本文通过“询问以澄清”框架解决了这一问题。该框架首先通过多轮对话提问来消除指令的模糊性,随后端到端地生成底层动作。具体而言,“询问以澄清”框架包含两个组件:一个用于协作的视觉语言模型(VLM)和一个用于动作生成的扩散模型。我们还引入了一个连接模块,该模块基于VLM的输出为扩散模型生成条件,通过指令调整观察结果以创建可靠条件。我们采用两阶段知识隔离策略训练该框架:首先,利用解决模糊性的对话数据微调协作组件以处理模糊性;接着,在冻结协作组件的同时整合动作组件,确保在微调扩散模型生成动作时保留交互能力。这一训练策略保证了框架能先提问后生成动作。在推理过程中,信号检测器充当路由器,帮助框架在提问与执行动作间切换。我们在8个现实任务中评估了“询问以澄清”框架,其表现优于现有最先进的VLA。结果表明,我们提出的框架及训练策略为开发协作型具身智能体开辟了道路。