每日精選AI研究論文及翻譯
目前最先進的多模型仍然是專有的。最強大的開放權重模型主要依賴來自專有 VLM 的合成數據以達到良好性能,有效地將這些封閉模型提煉為開放模型。因此,社群仍然缺乏如何從頭開始構建高性能 VLM 的基礎知識。我們提出了 Molmo,這是一個在其開放性類別中處於最前沿的新型 VLM 系列。我們的關鍵創新是通過語音描述完全由人類標註者收集的一個新穎、高度詳細的圖像標題數據集。為了實現各種用戶互動,我們還引入了一個包含野外問答和創新的 2D 指向數據的多樣數據集混合進行微調。我們方法的成功取決於對模型架構細節的慎重選擇、良好調校的訓練流程,以及最為關鍵的是我們新收集的數據集的質量,所有這些將被釋出。Molmo 系列中的最佳 72B 模型不僅在開放權重和數據模型類別中優於其他模型,還在學術基準和人類評估中與像 GPT-4o、Claude 3.5 和 Gemini 1.5 這樣的專有系統相比表現出色。 我們將在不久的將來釋出所有模型權重、標題和微調數據,以及源代碼。可在 https://molmo.allenai.org 獲取部分模型權重、推理代碼和演示。
大型語言模型的預訓練傳統上依賴人類專家制定啟發式方法來改善語料庫質量,迄今已發展出眾多規則。然而,這些規則缺乏靈活性,無法有效應對個別示例的獨特特徵。同時,為每個示例應用定制規則對人類專家來說是不切實際的。在本文中,我們展示即使是具有僅 0.3B 參數的小型語言模型也能展現類似於人類專家的顯著數據精煉能力。我們引入了「為每個示例編程」(ProX)這一新穎框架,將數據精煉視為一項編程任務,使模型能夠通過生成和執行細粒度操作(例如字符串標準化)來對每個個別示例進行大規模精煉。實驗結果表明,在 ProX 精心策劃的數據上預訓練的模型在各種下游基準測試中的表現優於原始數據或其他選擇方法篩選的數據超過 2%。其有效性適用於各種模型大小和預訓練語料庫,包括 C4、RedPajama-V2 和 FineWeb。此外,ProX 在特定領域持續預訓練中展現出顯著潛力:在沒有特定領域設計的情況下,通過 ProX 精煉的 OpenWebMath 訓練的模型優於人工設計的基於規則的方法,平均準確率比 Mistral-7B 提高了 7.6%,Llama-2-7B 提高了 14.6%,CodeLlama-7B 提高了 20.3%,均在 10B tokens 的範圍內,可與在 200B tokens 上訓練的 Llemma-7B 等模型相媲美。進一步分析突顯了 ProX 顯著節省了訓練 FLOPs,為高效的 LLM 預訓練開辟了一條有前途的途徑。我們將 ProX 與 >100B 語料庫、模型進行了開源,並分享了所有訓練和實施細節,以實現可重現的研究和未來創新。代碼:https://github.com/GAIR-NLP/ProX
大型語言模型(LLMs)在自然語言處理方面展現了卓越的能力,然而,它們的事實不準確性和幻覺限制了它們的應用,特別是在像醫療保健這樣的關鍵領域。通過引入相關信息作為輸入的上下文檢索方法已成為增強LLM事實性和可靠性的重要途徑。本研究探討了上下文檢索方法在醫療保健領域內的界限,優化其組件並將其性能與開放和封閉替代方案進行了基準測試。我們的研究發現顯示,當開放式LLMs與經過優化的檢索系統相結合時,可以在確立的醫療保健基準測試(多項選擇問答)上實現與最大私有解決方案相當的性能。我們意識到在問題中包含可能答案的缺乏現實性(這種設置只在醫學考試中發現),並在評估到沒有這些選項時強大的LLM性能下降後,我們將上下文檢索系統擴展到這個方向。具體而言,我們提出了OpenMedPrompt,這是一個改進生成更可靠開放式答案的流程,將這項技術更接近實際應用。
借助預訓練的2D擴散模型和分數蒸餾採樣(SDS),最近的方法展示了在從文本生成3D頭像方面取得了令人期待的結果。然而,生成具有表現力動畫能力的高質量3D頭像仍然具有挑戰性。在這項工作中,我們提出了一種名為DreamWaltz-G的新型學習框架,用於從文本生成可動畫的3D頭像。該框架的核心在於骨架引導的分數蒸餾和混合3D高斯頭像表示。具體而言,所提出的骨架引導的分數蒸餾將3D人類模板的骨架控制整合到2D擴散模型中,增強了SDS監督在視角和人體姿勢方面的一致性。這有助於生成高質量的頭像,減輕了多個臉部、額外肢體和模糊等問題。所提出的混合3D高斯頭像表示建立在高效的3D高斯基礎上,結合了神經隱式場和參數化的3D網格,實現了實時渲染、穩定的SDS優化和表現力豐富的動畫。大量實驗表明,DreamWaltz-G在生成和動畫化3D頭像方面非常有效,在視覺質量和動畫表現方面優於現有方法。我們的框架進一步支持各種應用,包括人類視頻再現和多主題場景合成。
最近在可微分和神經渲染方面的發展在各種2D和3D任務中取得了令人印象深刻的突破,例如新視角合成、3D重建。通常,可微分渲染依賴於對場景進行密集的視角覆蓋,以便從僅外觀觀察中可以將幾何形狀與外觀區分開來。當只有少數輸入視圖可用時,通常會出現一些挑戰,這通常被稱為稀疏或少樣本神經渲染。由於這是一個過度約束的問題,大多數現有方法引入了正則化的使用,以及各種學習和手工製作的先驗知識。稀疏渲染文獻中一個經常出現的問題是缺乏一個統一、最新的數據集和評估協議。儘管高分辨率數據集在密集重建文獻中很常見,但稀疏渲染方法通常使用低分辨率圖像進行評估。此外,數據拆分在不同手稿中不一致,測試的真實圖像通常是公開可用的,這可能導致過度擬合。在這項工作中,我們提出了稀疏渲染(SpaRe)數據集和基準。我們引入了一個新的數據集,遵循DTU MVS數據集的設置。該數據集由基於合成高質量資產的97個新場景組成。每個場景最多有64個相機視圖和7種照明配置,分辨率為1600x1200。我們釋出了82個場景的訓練拆分,以促進通用方法的發展,並為驗證和測試集提供了一個在線評估平台,其真實圖像保持隱藏。我們提出了兩種不同的稀疏配置(分別為3和9個輸入圖像)。這為可重現的評估提供了一個強大且便利的工具,並使研究人員能夠輕鬆訪問具有最先進性能分數的公共排行榜。網址:https://sparebenchmark.github.io/
基於擴散的影像超分辨率(SR)方法通過利用大型預訓練的文本到影像擴散模型作為先驗取得了顯著成功。然而,這些方法仍然面臨兩個挑戰:需要數十個採樣步驟才能達到令人滿意的結果,這限制了在實際情況下的效率,以及忽略了降解模型,這是解決SR問題中至關重要的輔助信息。在這項工作中,我們引入了一種新型的一步SR模型,顯著解決了基於擴散的SR方法的效率問題。與現有的微調策略不同,我們專門為SR設計了一個基於降解引導的低秩適應(LoRA)模塊,根據從低分辨率影像中預估的降解信息來校正模型參數。該模塊不僅促進了強大的數據依賴或降解依賴的SR模型,還盡可能保留了預訓練擴散模型的生成先驗。此外,我們通過引入在線負樣本生成策略,量身定制了一種新型的訓練流程。結合推斷過程中的無分類器引導策略,大大提高了超分辨率結果的感知質量。大量實驗證明了所提出模型相對於最近的最先進方法具有卓越的效率和有效性。
我們提出了一種新穎的方法來合成需要兩隻手高度時間精確協調控制的任務中,物理模擬手部的靈巧運動。我們的方法並非直接學習控制兩隻手的聯合策略,而是通過合作學習來進行雙手控制,其中每隻手被視為一個獨立的代理人。首先分別訓練每隻手的個別策略,然後通過中央環境中的潛在空間操作將其同步,以作為雙手控制的聯合策略。通過這樣做,我們避免了直接在具有更高維度的兩隻手聯合狀態-行動空間中進行策略學習,從而大大提高了整體訓練效率。我們在具有挑戰性的吉他演奏任務中展示了我們提出的方法的有效性。通過我們的方法訓練的虛擬吉他手可以從一般吉他演奏練習動作的非結構參考數據中合成運動,並根據不存在於參考中的輸入吉他譜來準確演奏具有複雜和弦按壓和彈奏模式的多樣節奏。除本文外,我們還提供了我們收集的運動捕捉數據作為策略訓練的參考。代碼可在以下網址找到:https://pei-xu.github.io/guitar。
大型語言模型(LLMs)已經在軟體工程(SE)領域引起了革命,展現出在各種編碼任務中的卓越能力。儘管最近的努力已經開發出基於LLMs的自主軟體代理,用於端對端開發任務,但這些系統通常是針對特定的SE任務而設計的。我們介紹了HyperAgent,這是一種新穎的通用多代理系統,旨在通過模仿人類開發者的工作流程,解決不同程式語言的廣泛SE任務。HyperAgent由四個專業代理組成 - 計畫者、導航者、程式碼編輯器和執行者。HyperAgent管理SE任務的完整生命週期,從最初構想到最終驗證。通過廣泛的評估,HyperAgent在各種SE任務中實現了最先進的性能:在GitHub問題解決中,它在SWE-Bench-Lite上達到了25.01%的成功率,並在SWE-Bench-Verified上達到了31.40%,超越了現有方法。此外,HyperAgent在存儲庫級別的程式碼生成(RepoExec)以及故障定位和程式修復(Defects4J)方面展現了最先進的性能,通常優於專門的系統。這項工作代表了朝著能夠處理各種領域和語言中複雜的多步SE任務的多才多藝、自主代理邁進了一大步,有可能轉變AI輔助軟體開發實踐。
影片已成為一種流行的媒體形式,用於信息分享和消費。然而,在觀看影片時記錄筆記需要大量的時間和努力。為了解決這個問題,我們提出了一個新穎的互動系統,名為NoTeeline,用於即時記錄個性化筆記。NoTeeline讓用戶快速記下要點(微型筆記),這些要點會自動擴展為捕捉用戶微型筆記內容並與用戶書寫風格一致的完整筆記。在一項受試者內研究中(N=12),我們發現NoTeeline幫助用戶創建高質量的筆記,捕捉其微型筆記的本質,並具有更高的事實準確性(93.2%),同時準確反映其書寫風格。在使用NoTeeline時,參與者感受到明顯減少的心理努力,寫下的文字減少47%的情況下獲得滿意的筆記,並且完成筆記所需時間比手動記錄基準減少了43.9%。
基於視覺的 UAV 地理定位技術,作為全球導航衛星系統(GNSS)之外的 GPS 信息的輔助來源,可以在 GPS 無法使用的環境中獨立運作。最近基於深度學習的方法將這視為圖像匹配和檢索的任務。通過在地理標記的衛星圖像數據庫中檢索無人機視圖圖像,可以獲得大致的定位信息。然而,由於高昂的成本和隱私問題,通常很難從連續區域獲得大量的無人機視圖圖像。現有的無人機視圖數據集主要由小規模航空攝影組成,並強烈假定對於任何查詢,存在一個完美的一對一對齊參考圖像,這與實際的定位場景存在顯著差距。在這項工作中,我們構建了一個名為 GTA-UAV 的大範圍連續區域 UAV 地理定位數據集,使用現代電腦遊戲展示多個飛行高度、態度、場景和目標。基於這個數據集,我們引入了一個更實際的 UAV 地理定位任務,包括跨視圖配對數據的部分匹配,並將圖像級檢索擴展為實際距離(米)的定位。為了構建無人機視圖和衛星視圖對,我們採用基於權重的對比學習方法,這使得在避免額外後處理匹配步驟的同時實現有效學習。實驗證明了我們的數據和訓練方法對於 UAV 地理定位的有效性,以及對於真實場景的泛化能力。
我們提出了一個新穎的框架,從單眼視頻中學習動態神經輻射場(NeRF)以呈現全身說話的人類。先前的研究僅表示身體姿勢或臉部。然而,人類通過全身溝通,結合身體姿勢、手勢以及面部表情。在這項工作中,我們提出了TalkinNeRF,一個統一的基於NeRF的網絡,代表整體的4D人體運動。給定一個主題的單眼視頻,我們學習相應的身體、臉部和手部模塊,將它們結合在一起生成最終結果。為了捕捉複雜的手指關節運動,我們為手部學習了一個額外的變形場。我們的多身份表示使得能夠同時訓練多個主題,並在完全看不見的姿勢下實現強大的動畫。它還可以推廣到新的身份,僅需一個簡短的視頻作為輸入。我們展示了在動畫全身說話的人類時具有最先進性能,具有細緻的手部關節運動和面部表情。
我們提出了一種簡單的自監督方法來解決「追蹤任意點(TAP)」問題。我們訓練一個全局匹配轉換器,通過對比隨機遊走來找到視頻中的循環一致軌跡,利用轉換器基於注意力的全局匹配來定義空間-時間圖上的隨機遊走的轉移矩陣。能夠執行「所有對」比較的能力讓模型獲得高空間精度並獲得強對比學習信號,同時避免了許多最近方法的複雜性(如粗到細的匹配)。為此,我們提出了一些設計決策,使全局匹配架構能夠通過自監督訓練,使用循環一致性。例如,我們發現基於轉換器的方法對快捷解決方案敏感,並提出了一種數據擴增方案來解決這個問題。我們的方法在TapVid基準測試中取得了優異表現,勝過了以前的自監督追蹤方法,如DIFT,並與幾種監督方法競爭力相當。