每日精选AI研究论文及翻译
将用户界面(UI)设计自动转化为前端代码,对于加速软件开发进程和普及设计工作流程具有重大意义。尽管近期的大型语言模型(LLMs)在文本到代码生成方面取得了进展,但许多现有方法仅依赖自然语言提示,限制了其在捕捉空间布局和视觉设计意图方面的有效性。相比之下,实际中的UI开发本质上是多模态的,通常始于视觉草图或模型。为填补这一空白,我们引入了一个模块化的多智能体框架,该框架通过三个可解释的阶段执行UI到代码的生成:基础定位、规划与生成。基础定位智能体利用视觉语言模型检测并标注UI组件,规划智能体基于前端工程先验构建层次化布局,而生成智能体则通过自适应提示合成生成HTML/CSS代码。这一设计相较于端到端的黑箱方法,在鲁棒性、可解释性和保真度上均有提升。此外,我们将该框架扩展为一个可扩展的数据引擎,自动生成大规模图像-代码对。利用这些合成示例,我们对一个开源视觉语言模型进行了微调与强化,显著提升了UI理解与代码质量。大量实验证明,我们的方法在布局准确性、结构连贯性及代码正确性方面均达到了业界领先水平。我们的代码已公开于https://github.com/leigest519/ScreenCoder。
在本报告中,我们介绍了Falcon-H1,这是一个新系列的大型语言模型(LLMs),其混合架构设计旨在实现高性能与效率,适用于多种应用场景。与之前仅基于Transformer或Mamba架构的Falcon模型不同,Falcon-H1采用了并行混合方法,将基于Transformer的注意力机制与状态空间模型(SSMs)相结合,后者以卓越的长上下文记忆和计算效率著称。我们系统地重新审视了模型设计、数据策略和训练动态,挑战了该领域的传统做法。Falcon-H1发布了多种配置,包括基础版和指令调优版,参数规模涵盖0.5B、1.5B、1.5B-deep、3B、7B和34B。此外,还提供了量化后的指令调优模型,在Hugging Face Hub上总计超过30个检查点。Falcon-H1模型展现了顶尖的性能以及出色的参数和训练效率。旗舰型号Falcon-H1-34B在参数更少、数据量更小的条件下,与Qwen3-32B、Qwen2.5-72B和Llama3.3-70B等高达70B规模的模型相匹敌甚至超越。较小模型也呈现相似趋势:Falcon-H1-1.5B-Deep与当前领先的7B-10B模型竞争,而Falcon-H1-0.5B则与2024年典型的7B模型表现相当。这些模型在推理、数学、多语言任务、指令遵循及科学知识方面表现卓越。支持高达256K上下文标记和18种语言,Falcon-H1适用于广泛的应用场景。所有模型均以宽松的开源许可证发布,彰显了我们致力于推动可访问且有影响力的AI研究的承诺。
三维创作历来是人类独有的强项,这源于我们运用眼睛、思维与双手对物体进行拆解与重组的能力。然而,现有的三维设计工具难以复现这一自然过程,往往需要深厚的艺术造诣与繁重的手工操作。本文提出BANG,一种创新的生成方法,它架起了三维生成与推理之间的桥梁,实现了对三维物体直观且灵活的部件级分解。BANG的核心在于“生成式爆炸动态”,它为输入的几何体创建一系列流畅的爆炸状态,逐步分离部件的同时保持其几何与语义的一致性。 BANG利用预训练的大规模潜在扩散模型,通过轻量级的爆炸视图适配器进行微调,从而精确控制分解过程。它还引入了时序注意力模块,确保时间维度上的平滑过渡与一致性。BANG通过空间提示(如边界框和表面区域)增强控制,让用户能够指定分解哪些部件及如何分解。这种交互可进一步扩展至多模态模型如GPT-4,实现从二维到三维的操控,为创作流程带来更直观与创新的体验。 BANG的能力不仅限于生成精细的部件级几何,还包括将部件与功能描述关联,促进组件感知的三维创作与制造流程。此外,BANG在3D打印领域也有应用,它生成可分离部件以便于打印与重新组装。本质上,BANG实现了从想象概念到详细三维资产的无缝转换,提供了一种与人类直觉共鸣的全新创作视角。
强化学习在提升大型语言模型的推理能力方面已展现出显著成效。近期研究逐步将这一范式扩展至多模态推理任务。鉴于多模态任务在语义内容和问题表述上的固有复杂性与多样性,现有模型往往在不同领域和难度级别上表现出不稳定的性能。为应对这些局限,我们提出了VL-Cogito,一种通过新颖的多阶段渐进课程强化学习(PCuRL)框架训练的高级多模态推理模型。PCuRL系统性地引导模型逐步攻克难度递增的任务,显著提升了其在多样化多模态情境下的推理能力。该框架引入了两大创新点:(1) 在线难度软权重机制,动态调整连续强化学习训练阶段的训练难度;(2) 动态长度奖励机制,激励模型根据任务复杂度自适应调节其推理路径长度,从而在推理效率与准确性之间取得平衡。实验评估表明,VL-Cogito在涵盖数学、科学、逻辑及常识理解的主流多模态基准测试中,持续匹配或超越现有以推理为导向的模型,验证了我们方法的有效性。
对比语言-图像预训练(CLIP)作为一种广受欢迎的基础模型,支持从零样本分类、检索到多模态大语言模型(MLLMs)编码器的多种任务。尽管CLIP已在英语世界的数十亿级图文对上成功训练,但将其训练规模进一步扩展至全球网络数据仍面临挑战:(1)尚无有效的数据筛选方法处理非英语世界的数据点;(2)现有多语言CLIP在英语任务上的表现逊色于其仅英语训练的版本,即大语言模型(LLMs)中常见的“多语言诅咒”。在此,我们推出了MetaCLIP 2,这是首个基于全球网络规模图文对从头训练CLIP的方案。为了验证我们的发现,我们进行了严格的消融实验,仅引入解决上述挑战所必需的最小改动,并提出了一种能够实现英语与非英语世界数据互利的训练方案。在零样本ImageNet分类任务中,MetaCLIP 2 ViT-H/14模型超越了其仅英语训练的版本0.8%,并领先mSigLIP 0.7%,更令人瞩目的是,在无需系统级混杂因素(如翻译、特定架构调整)的情况下,于多语言基准测试中创下新纪录,例如在CVQA上达到57.4%,Babel-ImageNet上50.2%,以及XM3600图像到文本检索任务中64.3%的优异表现。
大型语言模型(LLMs)在解码过程中面临硬件效率低下的问题,尤其是在长上下文推理任务中。本文介绍了Step-3,一个拥有3210亿参数的视觉语言模型(VLM),通过硬件感知的模型-系统协同设计,旨在最小化解码成本。Step-3在两大关键维度上实现了创新:(1)一种新颖的多矩阵分解注意力机制(MFA),在保持高注意力表达能力的同时,显著减少了键值缓存大小和计算量;(2)注意力-前馈网络解耦(AFD),一种分布式推理系统,将注意力层和前馈网络层(FFN)分离为专门的子系统。这种协同设计实现了前所未有的成本效率:与DeepSeek-V3和Qwen3 MoE 235B等模型相比,Step-3显著降低了理论解码成本,且随着上下文长度的增加,优势更为明显。Step-3在每令牌激活380亿参数(超过DeepSeek-V3和Qwen3 MoE 235B)的情况下实现了低成本,证明了硬件对齐的注意力算术强度、MoE稀疏性和AFD对成本效益至关重要。我们在DeepSeek-V3的有利场景下进行了直接对比。在Hopper GPU上的实现,在50ms TPOT SLA(4K上下文,FP8,无MTP)条件下,每GPU的解码吞吐量高达4,039令牌/秒,高于相同设置下DeepSeek-V3的2,324,为LLM解码设立了新的帕累托前沿。
在航拍图像中检测车辆是一项关键任务,广泛应用于交通监控、城市规划及国防情报领域。深度学习方法已在此应用中取得了最先进的成果。然而,当模型在某一地理区域的数据上训练后,难以有效泛化至其他区域时,便面临重大挑战。环境条件、城市布局、道路网络、车辆类型以及图像获取参数(如分辨率、光照和角度)等因素的差异,导致了域偏移,从而降低了模型性能。本文提出了一种创新方法,利用生成式AI合成高质量的航拍图像及其标签,通过数据增强提升检测器的训练效果。我们的核心贡献在于开发了一个多阶段、多模态的知识迁移框架,该框架采用微调的潜在扩散模型(LDMs)来缩小源环境与目标环境之间的分布差距。在多种航拍图像领域的广泛实验中,相较于源域数据上的监督学习、弱监督适应方法、无监督域适应方法以及开放集目标检测器,我们的方法在AP50指标上分别实现了4-23%、6-10%、7-40%及超过50%的持续性能提升。此外,我们还引入了来自新西兰和犹他州的两个新标注的航拍数据集,以支持该领域的进一步研究。项目页面请访问:https://humansensinglab.github.io/AGenDA。
尽管GRPO在图像生成的人类偏好对齐方面显著提升了流匹配模型的表现,但诸如FlowGRPO等方法仍存在效率低下的问题,这源于其需对马尔可夫决策过程(MDP)中所有去噪步骤进行采样与优化的要求。本文提出MixGRPO,一种创新框架,通过融合随机微分方程(SDE)与常微分方程(ODE),利用混合采样策略的灵活性,简化了MDP内的优化流程,从而提升效率并增强性能。具体而言,MixGRPO引入滑动窗口机制,仅在窗口内采用SDE采样及GRPO引导的优化,而在窗口外则应用ODE采样。这一设计将采样随机性限制在窗口内的时间步,减少了优化开销,并允许更集中的梯度更新以加速收敛。此外,由于滑动窗口外的时间步不参与优化,支持使用更高阶的求解器进行采样。因此,我们提出了一种更快的变体,称为MixGRPO-Flash,它在保持性能相当的同时,进一步提升了训练效率。MixGRPO在人类偏好对齐的多个维度上展现出显著优势,不仅在效果上超越DanceGRPO,训练时间也减少了近50%。特别值得一提的是,MixGRPO-Flash进一步将训练时间缩短了71%。代码与模型已发布于https://github.com/Tencent-Hunyuan/MixGRPO。
视听参考分割(RAVS)领域近期取得了显著进展,但在整合多模态信息以及深入理解和推理视听内容方面仍面临挑战。为了拓展RAVS的边界并推动该领域的未来研究,我们提出了全模态参考视听分割(OmniAVS)数据集,包含2,098个视频和59,458条多模态参考表达。OmniAVS凭借三大创新点脱颖而出:(1)灵活结合文本、语音、声音和视觉线索的8种多模态表达方式;(2)强调超越单纯检测音频存在的音频内容理解;(3)在表达中融入复杂推理和世界知识。此外,我们引入了全模态指令分割助手(OISA),以应对OmniAVS中多模态推理和视听内容细粒度理解的挑战。OISA利用多模态大语言模型(MLLM)来理解复杂线索并执行基于推理的分割。大量实验表明,OISA在OmniAVS上超越了现有方法,并在其他相关任务中取得了具有竞争力的成果。
自动程序修复(APR)旨在自动定位程序缺陷、生成补丁并验证修复效果。现有的APR技术常与大型语言模型(LLMs)结合,利用LLM的代码相关知识提升修复效率。当前基于LLM的APR方法通常仅在推理阶段使用测试用例,采用先修复后通过测试执行验证的迭代方式。这一传统模式忽视了两个重要方面:测试用例在训练阶段的潜在贡献,以及修复前利用测试的可能性。为此,我们提出了Repair-R1,它将测试用例引入模型训练阶段,并将测试生成提前至修复之前。模型需首先生成能够区分缺陷行为的判别性测试用例,随后基于这些测试进行修复。这使得模型能更准确地定位缺陷并理解缺陷的根本原因,从而提升修复效果。我们采用三种不同的骨干模型实现Repair-R1,利用强化学习(RL)共同优化测试生成与缺陷修复。在四个广泛采用的基准测试上的实验结果表明了Repair-R1的优越性。具体而言,与基础模型相比,Repair-R1将修复成功率提高了2.68%至48.29%,测试生成成功率提高了16.38%至53.28%,测试覆盖率提高了0.78%至53.96%。我们已在https://github.com/Tomsawyerhu/APR-RL和https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step发布了代码与权重。
数据隐私与模型效用之间的张力已成为训练于敏感语料(包括医疗领域)的大型语言模型(LLMs)实际部署中的核心瓶颈。差分隐私随机梯度下降(DP-SGD)虽能确保形式上的隐私保护,却以显著代价实现:梯度被强制裁剪并加入噪声,导致样本效率与最终准确率下降。众多改进方案试图缓解这一权衡,但均面临同一局限:其控制参数固定、全局且无视优化过程的动态变化。因此,实践者不得不在追求效用时过度消耗隐私预算,或为遵守隐私约束而接受平庸模型。我们提出RLDP,首次将DP优化本身构建为一个闭环控制问题,适用于现代深度强化学习(RL)。RLDP持续感知学习动态的丰富统计信息,并通过选择细粒度的逐参数梯度裁剪阈值及注入高斯噪声的幅度来采取行动。在语言模型微调过程中,一个软演员-评论家(SAC)超策略在线训练,从零开始学习如何在关键之处及时分配隐私预算。在GPT2-small、Llama-1B、Llama-3B及Mistral-7B上进行的超过1600项消融实验中,RLDP实现了1.3%-30.5%(平均5.4%)的困惑度降低及平均5.6%的下游效用提升。RLDP仅需13%-43%的梯度更新预算(平均加速71%)即可达到各基准的最终效用,同时严格遵守相同的(ε, δ)-DP协议,并在成员推断与金丝雀提取攻击方面展现出同等或更低的易感性。
从自然语言生成三维场景在游戏、电影和设计领域展现出巨大潜力。然而,现有方法在自动化、三维一致性及细粒度控制方面仍面临挑战。我们提出了DreamScene,一个端到端的框架,旨在从文本或对话中生成高质量且可编辑的三维场景。DreamScene首先通过场景规划模块,利用GPT-4智能体推断物体语义与空间约束,构建混合图。随后,基于图的布局算法生成结构化且无碰撞的场景布局。在此布局基础上,形态模式采样(FPS)采用多时间步采样与重建优化技术,快速生成逼真的物体几何形态。为确保全局一致性,DreamScene采用了渐进式相机采样策略,适应室内外多种场景需求。最后,系统支持细粒度的场景编辑功能,包括物体移动、外观调整及四维动态运动。实验表明,DreamScene在质量、一致性和灵活性上均超越现有方法,为开放域三维内容创作提供了实用解决方案。代码与演示详见https://jahnsonblack.github.io/DreamScene-Full/。