HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

12 papers found

ScreenCoder：透過模組化多模態代理推進視覺到程式碼生成的前端自動化
ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Jul 30

ByYilei Jiang, Yaozhi Zheng, Yuxuan Wan, Jiaming Han, Qunzhong Wang, Michael R. Lyu, Xiangyu Yue

自動化將使用者介面（UI）設計轉換為前端程式碼，對於加速軟體開發和普及設計工作流程具有重要意義。儘管近期的大型語言模型（LLMs）在文字到程式碼生成方面取得了進展，但許多現有方法僅依賴自然語言提示，限制了其在捕捉空間佈局和視覺設計意圖方面的有效性。相比之下，實際的UI開發本質上是多模態的，通常從視覺草圖或模型開始。為解決這一差距，我們引入了一個模組化的多代理框架，該框架在三個可解釋的階段執行UI到程式碼的生成：基礎、規劃和生成。基礎代理使用視覺語言模型來檢測和標記UI元件，規劃代理利用前端工程先驗構建層次化佈局，生成代理則通過自適應提示合成生成HTML/CSS程式碼。這一設計在魯棒性、可解釋性和保真度方面優於端到端的黑箱方法。此外，我們將該框架擴展為一個可擴展的資料引擎，自動生成大規模的圖像-程式碼對。利用這些合成示例，我們微調並強化了一個開源的視覺語言模型，在UI理解和程式碼質量方面取得了顯著提升。大量實驗表明，我們的方法在佈局準確性、結構連貫性和程式碼正確性方面達到了最先進的性能。我們的程式碼已公開於https://github.com/leigest519/ScreenCoder。

Falcon-H1：重新定義效率與性能的混合頭部語言模型家族
Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

Jul 30

ByJingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha

在本報告中，我們介紹了Falcon-H1，這是一個新系列的大型語言模型（LLMs），其混合架構設計針對多種使用場景進行了高性能和效率的優化。與早期僅基於Transformer或Mamba架構的Falcon模型不同，Falcon-H1採用了並行混合方法，結合了基於Transformer的注意力機制與狀態空間模型（SSMs），後者以卓越的長上下文記憶和計算效率著稱。我們系統性地重新審視了模型設計、數據策略和訓練動態，挑戰了該領域的傳統做法。Falcon-H1以多種配置發布，包括基礎版和指令微調版，參數規模涵蓋0.5B、1.5B、1.5B-deep、3B、7B和34B。量化版的指令微調模型也已提供，總計在Hugging Face Hub上發布了超過30個檢查點。Falcon-H1模型展示了最先進的性能以及卓越的參數和訓練效率。旗艦模型Falcon-H1-34B在性能上匹配或超越了高達70B規模的模型，如Qwen3-32B、Qwen2.5-72B和Llama3.3-70B，同時使用了更少的參數和數據。較小的模型也顯示出類似的趨勢：Falcon-H1-1.5B-Deep與當前領先的7B-10B模型相媲美，而Falcon-H1-0.5B的表現與2024年典型的7B模型相當。這些模型在推理、數學、多語言任務、指令遵循和科學知識方面表現出色。Falcon-H1支持高達256K的上下文標記和18種語言，適用於廣泛的應用場景。所有模型均在寬鬆的開源許可下發布，彰顯了我們對可訪問且具影響力的AI研究的承諾。

BANG：基于生成式爆炸动力学的三维资产分割
BANG: Dividing 3D Assets via Generative Exploded Dynamics

Jul 29

ByLongwen Zhang, Qixuan Zhang, Haoran Jiang, Yinuo Bai, Wei Yang, Lan Xu, Jingyi Yu

三維創作一直是人類獨特的強項，這源於我們能夠運用眼睛、心智和手來解構並重組物體。然而，當前的三維設計工具難以複製這一自然過程，需要大量的藝術專業知識和手工勞動。本文介紹了BANG，這是一種新穎的生成方法，它橋接了三維生成與推理，允許對三維物體進行直觀且靈活的部件級分解。BANG的核心是“生成式爆炸動態”，它為輸入的幾何體創建了一系列平滑的爆炸狀態，逐步分離部件，同時保持其幾何和語義的連貫性。 BANG利用了一個預訓練的大規模潛在擴散模型，並通過輕量級的爆炸視圖適配器進行微調，以實現對分解過程的精確控制。它還整合了一個時間注意力模塊，確保了平滑的過渡和時間上的一致性。BANG通過空間提示（如邊界框和表面區域）增強了控制，使用戶能夠指定要分解的部件及其方式。這種互動可以通過多模態模型（如GPT-4）進行擴展，實現從二維到三維的操作，從而提供更直觀和創意的工作流程。 BANG的能力還包括生成詳細的部件級幾何體、將部件與功能描述關聯起來，以及促進組件感知的三維創作和製造工作流程。此外，BANG在3D打印中也有應用，它生成可分離的部件以便於打印和重新組裝。本質上，BANG實現了從想像概念到詳細三維資產的無縫轉換，提供了一種與人類直覺共鳴的創作新視角。

VL-Cogito：面向高级多模态推理的渐进式课程强化学习
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning

Jul 30

ByRuifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong

強化學習在提升大型語言模型的推理能力方面已證實其有效性。近期的研究逐步將這一範式擴展至多模態推理任務。由於多模態任務固有的複雜性與多樣性，尤其是在語義內容與問題表述上，現有模型在不同領域及難度層次上常表現出不穩定的性能。為解決這些限制，我們提出了VL-Cogito，這是一個通過新穎的多階段漸進課程強化學習（PCuRL）框架訓練的高級多模態推理模型。PCuRL系統地引導模型通過逐步增加難度的任務，顯著提升了其在多樣化多模態情境下的推理能力。該框架引入了兩項關鍵創新：（1）在線難度軟權重機制，動態調整連續RL訓練階段的訓練難度；（2）動態長度獎勵機制，鼓勵模型根據任務複雜度自適應調節其推理路徑長度，從而平衡推理效率與正確性。實驗評估表明，VL-Cogito在涵蓋數學、科學、邏輯及一般理解的主流多模態基準測試中，持續匹配或超越現有的推理導向模型，驗證了我們方法的有效性。

MetaCLIP 2：全球規模化應用指南
MetaCLIP 2: A Worldwide Scaling Recipe

Jul 29

ByYung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu

对比语言-图像预训练（CLIP）作为一种广受欢迎的基础模型，其应用范围从零样本分类、检索到多模态大语言模型（MLLMs）的编码器均有所涵盖。尽管CLIP已在英语世界的数十亿规模图文对上成功训练，但将其训练进一步扩展至全球网络数据的学习仍面临挑战：（1）尚无有效的数据筛选方法处理非英语世界的数据点；（2）现有多语言CLIP在英语任务上的表现逊色于其单一英语版本，即大语言模型中常见的“多语言诅咒”。在此，我们推出了MetaCLIP 2，这是首个基于全球网络规模图文对从头训练CLIP的方案。为了推广我们的发现，我们进行了严格的消融实验，仅引入解决上述挑战所必需的最小改动，并提出了一种能够实现英语与非英语世界数据互惠互利的训练方案。在零样本ImageNet分类任务中，MetaCLIP 2 ViT-H/14以0.8%的优势超越其单一英语版本，并以0.7%的优势领先mSigLIP，更令人瞩目的是，在没有系统级混杂因素（如翻译、定制架构改动）的情况下，于多语言基准测试中创下新纪录，例如在CVQA上达到57.4%，在Babel-ImageNet上达到50.2%，以及在XM3600图像到文本检索任务中达到64.3%。

第三步是規模大且經濟實惠：模型與系統的協同設計，實現成本效益的解碼
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Jul 25

ByStepFun, Bin Wang, Bojun Wang, Changyi Wan, Guanzhe Huang, Hanpeng Hu, Haonan Jia, Hao Nie, Mingliang Li, Nuo Chen, Siyu Chen, Song Yuan, Wuxun Xie, Xiaoniu Song, Xing Chen, Xingping Yang, Xuelin Zhang, Yanbo Yu, Yaoyu Wang, Yibo Zhu, Yimin Jiang, Yu Zhou, Yuanwei Lu, Houyi Li, Jingcheng Hu, Ka Man Lo, Ailin Huang, Binxing Jiao, Bo Li, Boyu Chen, Changxin Miao, Chang Lou, Chen Hu, Chen Xu, Chenfeng Yu, Chengyuan Yao, Daokuan Lv, Dapeng Shi, Deshan Sun, Ding Huang, Dingyuan Hu, Dongqing Pang, Enle Liu, Fajie Zhang, Fanqi Wan, Gulin Yan, Han Zhang, Han Zhou, Hanghao Wu, Hangyu Guo, Hanqi Chen, Hanshan Zhang, Hao Wu, Haocheng Zhang, Haolong Yan, Haoran Lv, Haoran Wei, Hebin Zhou, Heng Wang, Heng Wang, Hongxin Li, Hongyu Zhou, Hongyuan Wang, Huiyong Guo, Jia Wang, Jiahao Gong, Jialing Xie, Jian Zhou, Jianjian Sun, Jiaoren Wu, Jiaran Zhang, Jiayu Liu, Jie Cheng, Jie Luo, Jie Yan, Jie Yang, Jieyi Hou, Jinguang Zhang, Jinlan Cao, Jisheng Yin, Junfeng Liu, Junhao Huang, Junzhe Lin, Kaijun Tan, Kaixiang Li, Kang An, Kangheng Lin, Kenkun Liu, Lei Yang, Liang Zhao, Liangyu Chen, Lieyu Shi, Liguo Tan, Lin Lin, Lin Zhang, Lina Chen, Liwen Huang, Liying Shi, Longlong Gu, Mei Chen, Mengqiang Ren, Ming Li, Mingzhe Chen, Na Wang, Nan Wu, Qi Han, Qian Zhao, Qiang Zhang, Qianni Liu, Qiaohui Chen, Qiling Wu, Qinglin He, Qinyuan Tan, Qiufeng Wang, Qiuping Wu, Qiuyan Liang, Quan Sun, Rui Li, Ruihang Miao, Ruosi Wan, Ruyan Guo, Shangwu Zhong, Shaoliang Pang, Shengjie Fan, Shijie Shang, Shilei Jiang, Shiliang Yang, Shiming Hao, Shuli Gao, Siming Huang, Siqi Liu, Tiancheng Cao, Tianhao Cheng, Tianhao Peng, Wang You, Wei Ji, Wen Sun, Wenjin Deng, Wenqing He, Wenzhen Zheng, Xi Chen, Xiangwen Kong, Xianzhen Luo, Xiaobo Yang, Xiaojia Liu, Xiaoxiao Ren, Xin Han, Xin Li, Xin Wu, Xu Zhao, Yanan Wei, Yang Li, Yangguang Li, Yangshijie Xu, Yanming Xu, Yaqiang Shi, Yeqing Shen, Yi Yang, Yifei Yang, Yifeng Gong, Yihan Chen, Yijing Yang, Yinmin Zhang, Yizhuang Zhou, Yuanhao Ding, Yuantao Fan, Yuanzhen Yang, Yuchu Luo, Yue Peng, Yufan Lu, Yuhang Deng, Yuhe Yin, Yujie Liu, Yukun Chen, Yuling Zhao, Yun Mou, Yunlong Li, Yunzhou Ju, Yusheng Li, Yuxiang Yang, Yuxiang Zhang, Yuyang Chen, Zejia Weng, Zhe Xie, Zheng Ge, Zheng Gong, Zhenyi Lu, Zhewei Huang, Zhichao Chang, Zhiguo Huang, Zhirui Wang, Zidong Yang, Zili Wang, Ziqi Wang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Xiangyu Zhang

大型語言模型（LLMs）在解碼過程中面臨硬件效率低下的問題，尤其是在長上下文推理任務中。本文介紹了Step-3，這是一個擁有3210億參數的視覺語言模型（VLM），通過硬件感知的模型-系統協同設計，優化了解碼成本的最小化。Step-3在兩個關鍵維度上進行了創新：（1）一種新穎的多矩陣分解注意力機制（MFA），顯著減少了鍵值緩存（KV cache）的大小和計算量，同時保持了高度的注意力表達能力；（2）注意力-前饋網絡解耦（AFD），這是一種分佈式推理系統，將注意力層和前饋網絡（FFN）層解耦為專門的子系統。這種協同設計實現了前所未有的成本效率：與DeepSeek-V3和Qwen3 MoE 235B等模型相比，Step-3顯著降低了理論解碼成本，並且在更長的上下文中增益更為明顯。Step-3在每個token激活380億參數（多於DeepSeek-V3和Qwen3 MoE 235B）的情況下實現了低成本，表明硬件對齊的注意力算術強度、MoE稀疏性和AFD對成本效益至關重要。我們在DeepSeek-V3的有利場景下進行了正面比較。我們在Hopper GPU上的實現，在50ms TPOT SLA（4K上下文，FP8，無MTP）下，達到了每GPU每秒高達4,039個token的解碼吞吐量。這在相同設置下高於DeepSeek-V3的2,324，並為LLM解碼設定了新的帕累托前沿。

MixGRPO：融合ODE-SDE提升基于流的GRPO效率
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Jul 29

ByJunzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong

尽管GRPO在图像生成的人类偏好对齐方面显著提升了流匹配模型的表现，但诸如FlowGRPO等方法仍因需对马尔可夫决策过程（MDP）中指定的所有去噪步骤进行采样与优化而显得效率低下。本文提出MixGRPO，一种创新框架，通过整合随机微分方程（SDE）与常微分方程（ODE），利用混合采样策略的灵活性，简化了MDP内的优化流程，从而提升效率并增强性能。具体而言，MixGRPO引入了滑动窗口机制，仅在窗口内采用SDE采样及GRPO引导的优化，而在窗口外则应用ODE采样。这一设计将采样随机性限制在窗口内的时间步，减少了优化开销，并允许更集中的梯度更新以加速收敛。此外，由于滑动窗口外的时间步不参与优化，支持使用更高阶的求解器进行采样。因此，我们提出了一种更快的变体，称为MixGRPO-Flash，它在保持相当性能的同时，进一步提升了训练效率。MixGRPO在人类偏好对齐的多个维度上展现出显著优势，在效果与效率上均超越DanceGRPO，训练时间减少近50%。值得注意的是，MixGRPO-Flash进一步将训练时间减少了71%。代码与模型可在https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}获取。

適應車輛檢測器於未見領域的航空影像：基於弱監督的遷移學習
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

Jul 28

ByXiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre

在航空影像中檢測車輛是一項關鍵任務，其應用涵蓋交通監控、城市規劃和國防情報等領域。深度學習方法在這一應用中已提供了最先進（SOTA）的成果。然而，當模型在某一地理區域的數據上訓練後，無法有效泛化到其他區域時，便面臨著重大挑戰。環境條件、城市佈局、道路網絡、車輛類型以及影像獲取參數（如分辨率、光照和角度）等因素的變化，導致了域偏移，從而降低了模型性能。本文提出了一種新方法，利用生成式AI合成高質量的航空影像及其標籤，通過數據增強來改進檢測器的訓練。我們的核心貢獻是開發了一個多階段、多模態的知識轉移框架，利用微調的潛在擴散模型（LDMs）來縮小源環境與目標環境之間的分布差距。在跨多樣化航空影像領域的廣泛實驗中，相較於源域數據上的監督學習、弱監督適應方法、無監督域適應方法以及開放集目標檢測器，我們的模型在AP50指標上分別實現了4-23%、6-10%、7-40%以及超過50%的持續性能提升。此外，我們還引入了兩個新標註的航空數據集，分別來自新西蘭和猶他州，以支持該領域的進一步研究。項目頁面可訪問：https://humansensinglab.github.io/AGenDA。

透過強化學習實現高效差分隱私的大型語言模型微調
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning

Jul 30

ByAfshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen

數據隱私與模型效用之間的緊張關係，已成為訓練於敏感語料（包括醫療領域）的大型語言模型（LLMs）實際部署的關鍵瓶頸。差分隱私隨機梯度下降（DP-SGD）雖能確保形式上的隱私保護，但代價顯著：梯度被強制裁剪並加入噪聲，導致樣本效率與最終準確性下降。儘管已有眾多變體提出以緩解此權衡，但它們均存在一個共同缺陷：其控制參數是硬編碼的、全局性的，且對優化過程的動態變化視而不見。因此，實踐者被迫在追求效用時過度消耗隱私預算，或為遵守隱私限制而接受平庸模型。我們提出了RLDP，這是首個將DP優化本身視為可適應現代深度強化學習（RL）的閉環控制問題的框架。RLDP持續感知學習動態的豐富統計量，並通過選擇細粒度的每參數梯度裁剪閾值及注入高斯噪聲的幅度來採取行動。在語言模型微調過程中，一個軟性行動者-評論家（SAC）超策略在線訓練；它從零開始學習如何在關鍵時刻將隱私預算分配至關鍵之處。在GPT2-small、Llama-1B、Llama-3B及Mistral-7B上進行的超過1600次消融實驗中，RLDP實現了困惑度降低1.3-30.5%（平均5.4%）及下游效用平均提升5.6%的成果。RLDP僅需消耗基準線梯度更新預算的13-43%（平均加速71%），即可達到各基準線的最終效用，同時嚴格遵守相同的(ε, δ)-DP約定，並展現出同等或更低的成員推斷與金絲雀提取攻擊易感性。

迈向全模态表达与推理的视听指称分割
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

Jul 30

ByKaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang

參考視聽分割（RAVS）領域近期取得了顯著進展，但在整合多模態信息及深入理解與推理視聽內容方面仍面臨挑戰。為拓展RAVS的邊界並推動該領域的未來研究，我們提出了全模態參考視聽分割（OmniAVS），這是一個包含2,098個視頻和59,458條多模態參考表達的新數據集。OmniAVS以其三大創新點脫穎而出：（1）八種類型的多模態表達，靈活結合了文本、語音、聲音及視覺線索；（2）強調對音頻內容的理解，而非僅限於檢測其存在；（3）在表達中融入了複雜推理與世界知識。此外，我們引入了全模態指令分割助手（OISA），以應對OmniAVS中多模態推理與視聽內容細粒度理解的挑戰。OISA利用多模態大語言模型（MLLM）來理解複雜線索並執行基於推理的分割。大量實驗表明，OISA在OmniAVS上超越了現有方法，並在其他相關任務中取得了競爭力的結果。

修復前優先測試：提升檢測質量
Repair-R1: Better Test Before Repair

Jul 30

ByHaichuan Hu, Xiaochen Xie, Quanjun Zhang

自动程序修复（APR，Automated Program Repair）旨在自动定位程序缺陷、生成补丁并验证修复效果。现有的APR技术常与大型语言模型（LLMs，Large Language Models）结合，利用LLMs的代码相关知识提升修复效率。当前基于LLM的APR方法通常在推理阶段才使用测试用例，采用先修复后通过测试执行验证的迭代方式。这一传统模式忽视了两个重要方面：测试用例在训练阶段的潜在贡献，以及修复前利用测试的可能性。为此，我们提出了Repair-R1，将测试用例引入模型训练阶段，并将测试生成提前至修复之前。模型需首先生成能够区分缺陷行为的判别性测试用例，随后基于这些测试进行修复。这使得模型能更好地定位缺陷并理解缺陷的根本原因，从而提升修复效果。我们以三种不同的骨干模型实现Repair-R1，采用强化学习（RL，Reinforcement Learning）共同优化测试生成与缺陷修复。在四个广泛采用的基准测试上的实验结果表明了Repair-R1的优越性。特别是，与基础模型相比，Repair-R1将修复成功率提高了2.68%至48.29%，测试生成成功率提高了16.38%至53.28%，测试覆盖率提高了0.78%至53.96%。我们已将代码和权重发布于https://github.com/Tomsawyerhu/APR-RL 和 https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step。

DreamScene：基於3D高斯分佈的端到端文本到3D場景生成
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation

Jul 18

ByHaoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou

從自然語言生成3D場景在遊戲、電影和設計領域具有巨大潛力。然而，現有方法在自動化、3D一致性和細粒度控制方面面臨挑戰。我們提出了DreamScene，這是一個從文本或對話生成高質量且可編輯3D場景的端到端框架。DreamScene始於場景規劃模塊，其中GPT-4代理推斷物體語義和空間約束，構建混合圖。基於圖的放置算法隨後生成結構化且無碰撞的佈局。根據此佈局，形成模式採樣（FPS）通過多時間步採樣和重建優化生成物體幾何，實現快速且逼真的合成。為確保全局一致性，DreamScene採用了一種針對室內外場景定制的漸進式相機採樣策略。最後，系統支持細粒度場景編輯，包括物體移動、外觀變化和4D動態運動。實驗表明，DreamScene在質量、一致性和靈活性上超越先前方法，為開放領域3D內容創作提供了實用解決方案。代碼和演示可在https://jahnsonblack.github.io/DreamScene-Full/獲取。

第三步是規模大且經濟實惠：模型與系統的協同設計，實現成本效益的解碼
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Jul 25