每日精選AI研究論文及翻譯
阿拉伯文本的標音處理在自然語言處理領域中仍是一個持續的挑戰,這主要歸因於該語言豐富的形態學特性。本文介紹了Sadeed,這是一種基於Kuwain 1.5B(Hennara等人,2025年)微調的解碼器專用語言模型的新方法,該模型最初是在多樣化的阿拉伯語料庫上訓練的緊湊型模型。Sadeed在經過嚴格數據清洗和標準化流程構建的高質量標音數據集上進行了微調。儘管使用了適度的計算資源,Sadeed在與專有大型語言模型的比較中取得了競爭性的成果,並且在相似領域訓練的傳統模型上表現更優。此外,我們指出了當前阿拉伯標音處理基準測試實踐中的關鍵限制。為解決這些問題,我們引入了SadeedDiac-25,這是一個旨在實現跨多樣文本類型和複雜度水平更公平、更全面評估的新基準。Sadeed與SadeedDiac-25共同為推進阿拉伯語自然語言處理應用(包括機器翻譯、文本轉語音及語言學習工具)提供了堅實的基礎。
大型推理模型(LRMs),如OpenAI-o1和DeepSeek-R1,展现了令人瞩目的长程推理能力。然而,它们对静态内部知识的依赖限制了其在复杂、知识密集型任务上的表现,并阻碍了其生成需要综合多样网络信息的全面研究报告的能力。为解决这一问题,我们提出了WebThinker,一个深度研究代理,赋予LRMs在推理过程中自主搜索网络、浏览网页并起草研究报告的能力。WebThinker集成了一个深度网络探索模块,使LRMs在遇到知识缺口时能够动态搜索、导航并从网络中提取信息。它还采用了自主的“思考-搜索-起草”策略,允许模型实时无缝地交替进行推理、信息收集和报告撰写。为进一步提升研究工具的利用效率,我们通过迭代在线直接偏好优化(DPO)引入了一种基于强化学习(RL)的训练策略。在复杂推理基准(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)上的广泛实验表明,WebThinker显著优于现有方法和强大的专有系统。我们的方法增强了LRM在复杂场景下的可靠性和适用性,为开发更强大、更通用的深度研究系统铺平了道路。代码可在https://github.com/RUC-NLPIR/WebThinker获取。
我們推出Phi-4-reasoning,這是一個擁有140億參數的推理模型,在複雜推理任務中展現出卓越性能。該模型通過對Phi-4進行監督微調訓練,使用精心挑選的“可教學”提示集——這些提示在複雜性和多樣性上恰到好處——以及利用o3-mini生成的推理示範,Phi-4-reasoning能夠生成詳細的推理鏈,有效利用推理時的計算資源。我們進一步開發了Phi-4-reasoning-plus,這一變體通過短期的基於結果的強化學習得到增強,通過生成更長的推理軌跡來提供更高的性能。在廣泛的推理任務中,這兩個模型均顯著超越了如DeepSeek-R1-Distill-Llama-70B等更大規模的開源模型,並接近完整版DeepSeek-R1模型的性能水平。我們的全面評估涵蓋了數學與科學推理、編程、算法問題解決、規劃以及空間理解等多個基準測試。有趣的是,我們觀察到這些改進在通用基準測試上也有非平凡的遷移效果。在本報告中,我們深入探討了訓練數據、訓練方法以及評估過程。我們展示了精心策劃數據對於監督微調(SFT)的好處同樣適用於推理語言模型,並且可以通過強化學習(RL)進一步放大。最後,我們的評估指出了在評估推理模型性能和魯棒性方面改進方法的機會。
鏈式思考(CoT)通過訓練大型語言模型(LLMs)明確生成中間推理步驟,顯著提升了其形式推理能力。儘管LLMs能輕鬆受益於此類技術,但由於模型容量有限,提升小型語言模型(SLMs)的推理能力仍具挑戰性。Deepseek-R1的最新研究表明,利用LLM生成的合成數據進行蒸餾,可以大幅提升SLM的推理能力。然而,具體的建模方法並未公開。在本研究中,我們提出了一套系統的SLM訓練方案,包含四個步驟:(1)在多樣化的蒸餾長鏈CoT數據上進行大規模中期訓練,(2)在高質量的長鏈CoT數據上進行監督微調,(3)利用精心策劃的偏好數據集進行Rollout DPO,以及(4)採用可驗證獎勵的強化學習(RL)。我們將此方法應用於Phi-4-Mini,這是一個緊湊的3.8B參數模型。最終的Phi-4-Mini-Reasoning模型在數學推理任務上超越了許多更大的推理模型,例如在Math-500上分別以3.2分和7.7分的優勢超越了DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B。我們的結果驗證了,通過精心設計的訓練方案,配合大規模高質量的CoT數據,即使在資源受限的小型模型中,也能有效釋放強大的推理能力。
近期推理語言模型(RLMs)的發展標誌著大型語言模型領域的一次新穎演進。特別是DeepSeek-R1的發布,不僅產生了廣泛的社會影響,也激發了研究社群對於探索語言模型顯式推理範式的熱情。然而,DeepSeek並未完全開源其發布模型的實現細節,包括DeepSeek-R1-Zero、DeepSeek-R1以及蒸餾後的小型模型。因此,許多複製研究應運而生,旨在重現DeepSeek-R1所達到的優異性能,通過類似的訓練流程和完全開源的數據資源,達到可比的性能水平。這些研究探討了監督微調(SFT)和基於可驗證獎勵的強化學習(RLVR)的可行策略,聚焦於數據準備和方法設計,得出了多種有價值的見解。在本報告中,我們總結了最近的複製研究,以期啟發未來的研究方向。我們主要聚焦於SFT和RLVR這兩個主要方向,介紹了當前複製研究在數據構建、方法設計和訓練流程上的細節。此外,我們從這些研究報告的實現細節和實驗結果中總結了關鍵發現,期待能激發未來的研究靈感。我們還討論了增強RLMs的其他技術,強調了擴展這些模型應用範圍的潛力,並探討了發展中的挑戰。通過這份調查,我們旨在幫助RLMs的研究者和開發者緊跟最新進展,並尋求進一步提升RLMs的新思路。
我們提出了softpick,這是一種經過校正、無需歸一化的替代方案,可直接替換transformer注意力機制中的softmax,從而消除注意力匯聚點和過度激活的問題。我們在340M參數模型上的實驗表明,softpick在標準基準測試中保持了與softmax相當的性能,同時實現了0%的匯聚率。使用softpick的transformer生成的隱藏狀態具有顯著較低的峰度(340對比33,510),並產生了稀疏的注意力圖(46.97%的稀疏度)。在量化後,採用softpick的模型始終優於使用softmax的模型,尤其是在較低比特精度下優勢更為明顯。我們的分析與討論展示了softpick如何為量化、低精度訓練、稀疏性優化、剪枝和可解釋性開闢新的可能性。我們的代碼可在https://github.com/zaydzuhri/softpick-attention獲取。
多模态大型語言模型(MLLMs)在處理簡單的視覺-語言任務時表現出色,但在面對需要多種能力的複雜任務時卻顯得力不從心,例如同時識別物體、計數以及理解它們的空間關係。這可能部分歸因於視覺指令調優(VIT)——MLLMs關鍵訓練步驟——傳統上主要關注數據規模的擴展,而非訓練樣本的組合複雜性。我們提出了COMPACT(組合式原子到複雜視覺能力調優),它生成了一個明確控制訓練樣本組合複雜性的訓練數據集。COMPACT提供的數據使MLLMs能夠通過組合原子能力來更高效地學習複雜能力。在所有基準測試中,COMPACT在使用不到LLaVA-665k VIT數據預算10%的情況下,達到了與之相當的性能,並在多個測試中,尤其是涉及複雜多能力任務的測試中,表現更為優異。例如,在需要四個或更多原子能力的特別複雜問題上,COMPACT相比於全規模VIT,在MMStar上實現了83.3%的顯著提升,在MM-Vet上提升了94.0%。COMPACT提供了一種可擴展、數據高效的視覺組合調優方案,以提升複雜視覺-語言任務的表現。
大型語言模型(LLMs)利用逐步推理來解決複雜問題。標準的評估實踐包括生成完整的推理軌跡,並評估其最終答案的正確性。在本文中,我們對依賴最終答案的做法提出質疑,並提出以下兩個問題:最終答案是否可靠地代表了模型的最佳結論?不同的推理路徑是否會產生不同的結果?為回答這些問題,我們分析了中間推理步驟(稱為子思維),並基於研究結果提出了一種方法。我們的方法涉及根據語言線索將推理軌跡分割成連續的子思維。我們首先提示模型從每個中間子思維的終點生成續寫。我們從不同子思維產生的完整續寫中提取潛在答案。我們發現,通過選擇最頻繁出現的答案(眾數)來聚合這些答案,通常比僅依賴原始完整軌跡得出的答案顯著提高了準確性。分析來自不同子思維的答案之間的一致性,揭示了與模型信心和正確性相關的特徵,這表明有可能識別出不太可靠的答案。我們在多種LLMs和具有挑戰性的數學推理數據集(AIME2024和AIME2025)上的實驗顯示,準確性一致提升,增益分別達到13%和10%。實現代碼可在以下網址獲取:https://github.com/hammoudhasan/SubthoughtReasoner。
生成式人工智慧正在重塑藝術、遊戲,尤其是動畫領域。近期在基礎模型和擴散模型方面的突破,大幅降低了製作動畫內容的時間和成本。角色作為動畫的核心元素,涵蓋了動作、情感、手勢和面部表情等多個方面。近幾個月來,該領域的進展速度和廣度使得保持對這一領域的整體視野變得困難,這促使我們需要進行一次整合性的回顧。與早期分別探討虛擬化身、手勢或面部動畫的概述不同,本次調查提供了角色動畫中所有主要生成式人工智慧應用的單一、全面視角。我們首先審視了面部動畫、表情渲染、圖像合成、虛擬化身創建、手勢建模、動作合成、物體生成和紋理合成等領域的最新技術。我們強調了每個領域的領先研究、實際部署、常用數據集以及新興趨勢。為了支持新入門者,我們還提供了一個全面的背景介紹部分,介紹了基礎模型和評估指標,為讀者提供了進入該領域所需的知識。我們討論了開放的挑戰,並規劃了未來的研究方向,為推動AI驅動的角色動畫技術提供了路線圖。本調查旨在為進入生成式人工智慧動畫或相關領域的研究人員和開發者提供資源。相關資源可訪問:https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey。
隨著基於Transformer架構的大型語言模型(LLMs)日益深入社會,它們已在軟體工程、創意寫作和數位藝術等領域引發革命性變革。然而,在網路安全領域的應用仍受限於專業訓練數據的稀缺性及網路安全特定知識表示的複雜性等挑戰。為填補這些空白,我們推出了Foundation-Sec-8B,這是一款專注於網路安全的LLM,基於Llama 3.1架構構建,並通過在精心策劃的網路安全語料庫上進行持續預訓練而增強。我們在既有的及新設的網路安全基準測試中對Foundation-Sec-8B進行了評估,結果顯示其在某些網路安全特定任務上可與Llama 3.1-70B及GPT-4o-mini相媲美。通過向公眾發布我們的模型,我們旨在加速AI驅動工具在公共和私人網路安全領域的進展與應用。
近年來,影片生成技術取得了顯著進展。然而,在生成複雜動作和互動方面仍存在挑戰。為應對這些挑戰,我們提出了ReVision,這是一個即插即用的框架,它將參數化的3D物理知識明確地整合到預訓練的條件式影片生成模型中,顯著提升了生成高質量複雜動作和互動影片的能力。具體而言,ReVision包含三個階段。首先,使用影片擴散模型生成粗略影片。接著,從粗略影片中提取一組2D和3D特徵,構建以物體為中心的3D表示,並通過我們提出的參數化物理先驗模型進行精煉,以產生精確的3D動作序列。最後,將這精煉後的動作序列作為額外條件反饋到同一影片擴散模型中,從而生成動作一致的影片,即使在涉及複雜動作和互動的場景中也能實現。我們在Stable Video Diffusion上驗證了該方法的有效性,ReVision顯著提升了動作的真實性和連貫性。值得注意的是,僅憑1.5B參數,它在複雜影片生成上的表現甚至大幅超越了擁有超過13B參數的頂尖影片生成模型。我們的結果表明,通過融入3D物理知識,即使是相對較小的影片擴散模型也能以更高的真實性和可控性生成複雜動作和互動,為物理上合理的影片生成提供了一個有前景的解決方案。
生成式人工智能的大型语言模型(LLMs)已取得显著进展,演变为复杂且多功能的工具,广泛应用于各个领域和应用场景。然而,其庞大参数数量带来的巨大内存开销,加之注意力机制的高计算需求,对实现LLM推理服务的低延迟和高吞吐量构成了重大挑战。近期,在突破性研究的推动下,这一领域的进展显著加速。本文全面综述了这些方法,涵盖基础实例级策略、深入集群级方案、新兴场景方向以及其他重要但小众的领域。在实例层面,我们回顾了模型部署、请求调度、解码长度预测、存储管理以及解耦范式。在集群层面,我们探讨了GPU集群部署、多实例负载均衡及云服务解决方案。针对新兴场景,我们围绕特定任务、模块和辅助方法展开讨论。为确保全面性,我们还强调了几项虽小众但至关重要的领域。最后,我们展望了进一步推动LLM推理服务领域的潜在研究方向。
數據規模化和標準化評估基準已推動了自然語言處理和計算機視覺領域的顯著進步。然而,機器人技術在數據規模化和建立評估協議方面面臨著獨特的挑戰。收集現實世界的數據既耗費資源又效率低下,而在現實場景中進行基準測試仍然極為複雜。合成數據和模擬提供了有前景的替代方案,但現有努力在數據質量、多樣性和基準標準化方面往往不足。為應對這些挑戰,我們引入了RoboVerse,這是一個包含模擬平台、合成數據集和統一基準的綜合框架。我們的模擬平台支持多種模擬器和機器人實體,實現了不同環境間的無縫切換。合成數據集通過多種方法構建,具有高保真物理和逼真渲染。此外,我們提出了模仿學習和強化學習的統一基準,使得跨不同泛化層次的評估成為可能。模擬平台的核心是MetaSim,這是一個將多樣模擬環境抽象為通用接口的基礎設施。它將現有模擬環境重構為模擬器無關的配置系統,以及一個對齊不同模擬器功能的API,如啟動模擬環境、加載帶有初始狀態的資產、推進物理引擎等。這種抽象確保了互操作性和可擴展性。全面的實驗表明,RoboVerse提升了模仿學習、強化學習、世界模型學習以及模擬到現實遷移的性能。這些結果驗證了我們數據集和基準的可靠性,確立了RoboVerse作為推進機器人學習的強大解決方案。
多模態生物醫學影像解譯為生物醫學影像分析開闢了新的機遇。傳統的人工智慧方法通常依賴於分離式訓練,即使用大型語言模型(LLMs)進行臨床文本生成,以及分割模型進行目標提取,這導致了現實世界部署的僵化,並未能充分利用整體的生物醫學資訊。為此,我們引入了UniBiomed,這是首個用於基於生物醫學影像解譯的通用基礎模型。UniBiomed基於多模態大型語言模型(MLLM)與Segment Anything Model(SAM)的新穎整合,有效統一了臨床文本生成與相應生物醫學物體的分割,實現了基於影像的全面解譯。通過這種方式,UniBiomed能夠應對跨越十種不同生物醫學影像模態的廣泛任務。為開發UniBiomed,我們精心策劃了一個大規模數據集,包含超過2700萬個影像、註釋與文本描述的三元組,涵蓋十種影像模態。在84個內部與外部數據集上的廣泛驗證表明,UniBiomed在分割、疾病識別、區域感知診斷、視覺問答及報告生成等方面達到了業界領先水平。此外,與以往依賴臨床專家預先診斷影像並手動製作精確文本或視覺提示的模型不同,UniBiomed能夠為生物醫學影像分析提供自動化且端到端的基於影像的解譯。這標誌著臨床工作流程中的一種新範式轉變,將顯著提升診斷效率。總之,UniBiomed代表了生物醫學人工智慧領域的一項新突破,釋放了強大的基於影像的解譯能力,為更精確、高效的生物醫學影像分析鋪平了道路。
聯合分析作為因子實驗設計的一種應用,是社會科學研究中研究多維偏好的常用工具。在政治分析背景下的此類實驗中,受訪者被要求從具有隨機選取特徵的兩位假想政治候選人中做出選擇,這些特徵可能包括黨派立場、政策主張、性別和種族。我們考慮識別最優候選人特徵組合的問題。由於獨特特徵組合的數量遠超典型聯合實驗中的總觀測數,因此無法精確確定最優特徵組合。為應對這一識別挑戰,我們推導出一種最優隨機干預,它代表著旨在實現最有利平均結果的各種屬性的概率分佈。我們首先考慮一個政黨優化其候選人選擇的環境。然後轉向更為現實的情況,即兩個政黨同時且相互對立地優化各自的候選人選擇。我們將所提出的方法應用於一項關於美國總統投票選擇的現有候選人選擇聯合實驗中。我們發現,與非對抗性方法相比,對抗性制度下的預期結果落在歷史選舉結果的範圍內,且該方法建議的最優策略比非對抗性方法得出的策略更有可能與實際觀察到的候選人相匹配。這些發現表明,將對抗性動態納入聯合分析,可能從實驗中獲取社會科學數據的獨特洞見。