每日精選AI研究論文及翻譯
更好地了解大型語言模型(LLMs)在法律分析方面的能力有助於提高法律服務的效率,管理人工智能,並利用LLMs來識別法律中的不一致之處。本文探討LLMs在應用稅法方面的能力。我們選擇這個法律領域,因為它具有一種結構,使我們能夠在數千個示例中建立自動驗證流程,需要邏輯推理和數學技能,並使我們能夠測試LLMs在與公民和公司的現實經濟生活相關的方式中的能力。我們的實驗表明出新興的法律理解能力,並且在每個後續的OpenAI模型發布中性能有所提升。我們嘗試檢索並利用相關的法律權威來評估向LLMs提供額外法律背景資料的影響。少量提示,即呈現問答對的示例,也被發現顯著提升了最先進模型GPT-4的性能。研究結果表明,LLMs,特別是當結合提示增強和正確的法律文本時,可以以高水準的準確性執行,但尚未達到專業稅務律師的水平。隨著LLMs的不斷進步,它們自主推理法律的能力可能對法律界和人工智能治理產生重大影響。
擴散模型展現出生成多樣圖像的優異潛力。然而,由於迭代去噪,它們的性能常常受到生成速度緩慢的影響。最近提出的知識蒸餾被認為是一種解決方案,可以將推論步驟的數量減少到一個或幾個,而不會出現顯著的質量降級。然而,現有的蒸餾方法要麼需要大量的離線計算來從教師模型生成合成訓練數據,要麼需要在真實數據的幫助下進行昂貴的在線學習。在這項工作中,我們提出了一種名為BOOT的新技術,通過一種高效的無數據蒸餾算法克服了這些限制。其核心思想是學習一個時間條件模型,該模型可以預測在任何時間步長給定的預先訓練的擴散模型教師的輸出。這樣的模型可以通過從兩個連續抽樣步驟進行自助法訓練。此外,我們的方法可以輕鬆適應大規模文本到圖像擴散模型,這對於傳統方法來說是具有挑戰性的,因為訓練集通常龐大且難以訪問。我們在DDIM設置中的幾個基準數據集上展示了我們方法的有效性,實現了與擴散教師相比可比的生成質量,同時生成速度比擴散教師快了數個數量級。文本到圖像的結果表明,所提出的方法能夠處理高度複雜的分佈,為更高效的生成建模提供了新的思路。
一個特定場景的「氛圍」由什麼構成?在「繁忙骯髒的城市街道」、「田園牧歌風光」或「廢棄客廳的犯罪現場」中應該找到什麼?現有系統在訓練時僅使用僵化且有限的室內數據集,無法以一般性方式將抽象場景描述轉換為風格化場景元素。在本文中,我們提出利用基礎模型捕捉的知識來完成這種轉換。我們提出了一個系統,可以作為一個工具,根據簡短短語描述的3D場景生成風格化資產,而無需列舉場景中應該找到的物體或給出它們的外觀指示。此外,它對於開放世界概念具有韌性,這是傳統方法所不具備的,為3D藝術家提供更多創意自由。我們的系統展示了這一點,使用由大型語言模型、視覺語言模型和多個圖像擴散模型組成的基礎模型「團隊」,它們使用可解釋且可由用戶編輯的中間表示進行通信,從而為3D藝術家提供更多靈活和可控的風格化資產生成。我們為這一任務引入了新的指標,並通過人類評估顯示,在91%的情況下,我們的系統輸出被認為比基準更忠實於輸入場景描述的語義,從而突顯了這種方法加速3D藝術家進行3D內容創作過程的潛力。
跨模態的生成式人工智慧系統,涵蓋文字、圖像、音訊和視頻等,對社會產生廣泛影響,但目前尚無官方標準來評估這些影響以及應該評估哪些影響。我們致力於建立一種標準方法,用於評估任何模態的生成式人工智慧系統,分為兩個主要類別:在沒有預定應用的基礎系統中可以評估的內容,以及在社會中可以評估的內容。我們描述了特定的社會影響類別,以及如何處理和進行基礎技術系統、人們和社會的評估。我們的基礎系統框架界定了七個社會影響類別:偏見、刻板印象和代表性傷害;文化價值和敏感內容;性能差異;隱私和數據保護;財務成本;環境成本;以及數據和內容審查勞動成本。評估的建議方法適用於所有模態,並分析現有評估的局限性,作為未來評估必要投資的起點。我們提出了五個在社會中可以評估的主要類別,每個類別都有其自己的子類別:可信度和自主性;不平等、邊緣化和暴力;權威集中;勞動和創造力;以及生態系統和環境。每個子類別都包括減輕危害的建議。我們同時正在為人工智慧研究社區打造一個評估存儲庫,以便貢獻現有評估,符合所述的類別。此版本將在2023年ACM FAccT的CRAFT會議後進行更新。
本文旨在進行開放詞彙物體偵測(OVOD)- 建立一個能夠偵測超出訓練中所見類別的物體的模型,從而使用戶在推論時能夠指定感興趣的類別而無需重新訓練模型。我們採用標準的兩階段物體偵測器架構,並探索三種指定新類別的方法:通過語言描述、通過圖像實例,或者兩者結合。我們做出三項貢獻:首先,我們促使一個大型語言模型(LLM)生成對物體類別的資訊豐富的語言描述,並構建強大的基於文本的分類器;其次,我們在圖像實例上使用視覺聚合器,可以接受任意數量的圖像作為輸入,形成基於視覺的分類器;第三,我們提供一個簡單的方法來融合語言描述和圖像實例的信息,產生多模態分類器。在具有挑戰性的LVIS開放詞彙基準測試中,我們展示:(i)我們的基於文本的分類器優於所有先前的OVOD作品;(ii)我們的基於視覺的分類器在先前的工作中與基於文本的分類器表現一樣好;(iii)使用多模態分類器比單一模態表現更好;最後,(iv)我們的基於文本和多模態分類器比完全監督的偵測器表現更好。
專業攝影師常進行的常見編輯操作包括清理操作:減弱分散注意力的元素並增強主題。這些編輯具有挑戰性,需要在操控觀眾注意力與保持照片寫實之間取得微妙平衡。儘管最近的方法可以引以為傲地展示成功的注意力減弱或增強示例,但大多數也常常出現不現實的編輯。我們提出了一種針對显著性引导的圖像增強的寫實損失,以在各種圖像類型中保持高度寫實性,同時減弱分散注意力的元素並增強感興趣的對象。與專業攝影師的評估確認,我們實現了寫實性和效果的雙重目標,並在其自有數據集上優於最近的方法,同時需要更小的內存占用和運行時間。因此,我們提供了一個可行的解決方案,用於自動化圖像增強和照片清理操作。
神經輻射場(Neural Radiance Fields,NeRF)展示了令人印象深刻的新視角合成結果;然而,即使是詳盡的記錄也會在重建中產生瑕疵,例如由於觀察不足的區域或輕微的光線變化。我們的目標是通過聯合解決方案來減輕來自各種來源的這些瑕疵:我們利用生成對抗網絡(Generative Adversarial Networks,GANs)生成逼真圖像的能力,並將其用於通過NeRF增強3D場景重建的逼真度。為此,我們利用對抗鑑別器學習場景的補丁分佈,該鑑別器提供反饋以改進輻射場重建,從而以3D一致的方式提高逼真度。因此,通過施加多視角路徑渲染約束,渲染藝術品直接在基礎3D表示中得到修復。此外,我們條件一個生成器使用多分辨率NeRF渲染,通過對抗訓練進一步提高渲染質量。我們展示了我們的方法顯著提高了渲染質量,例如,與Nerfacto相比,LPIPS分數幾乎減半,同時在Tanks and Temples進階室內場景上將PSNR提高了1.4dB。