AI研究論文每日精選

每日精選AI研究論文及翻譯

人類的最後考驗
Humanity's Last Exam

Jan 24

ByLong Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks

基準測試是追踪大型語言模型（LLM）能力快速進展的重要工具。然而，基準測試在難度方面沒有跟上步伐：LLM現在在流行的基準測試（如MMLU）上實現了超過90％的準確率，限制了對最先進LLM能力的全面評估。為此，我們引入了「人類最後考試」（HLE），這是一個多模態基準測試，處於人類知識前沿，旨在成為最終的廣泛學科涵蓋的閉式學術基準測試。HLE包括3,000個問題，涵蓋數十個學科，包括數學、人文學和自然科學。HLE由全球學科專家共同開發，包含適合自動評分的多項選擇和簡答題。每個問題都有一個明確且易於驗證的已知解決方案，但無法通過網絡快速檢索答案。最先進的LLM在HLE上表現出低準確性和校準性，突顯了當前LLM能力與專家人類在閉式學術問題上的巨大差距。為了在清晰了解模型能力的基礎上促進研究和政策制定，我們在https://lastexam.ai 上公開發布了HLE。

檢索鏈增強生成
Chain-of-Retrieval Augmented Generation

Jan 24

ByLiang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei

本文介紹了一種訓練 o1-like RAG 模型的方法，該模型在生成最終答案之前逐步檢索並推理相關信息。傳統的 RAG 方法通常在生成過程之前執行單一的檢索步驟，這限制了它們在處理複雜查詢時的有效性，因為檢索結果不完美。相比之下，我們提出的方法，CoRAG（Chain-of-Retrieval Augmented Generation），允許模型根據不斷演變的狀態動態重新構造查詢。為了有效訓練 CoRAG，我們利用拒絕採樣來自動生成中間檢索鏈，從而擴充現有的 RAG 數據集，這些數據集僅提供正確的最終答案。在測試時，我們提出了各種解碼策略，通過控制檢索鏈的長度和數量來擴展模型的測試時計算。跨多個基準測試的實驗結果驗證了 CoRAG 的有效性，特別是在多跳問答任務中，我們觀察到 EM 分數比強基線提高了超過 10 分。在 KILT 基準測試中，CoRAG 在各種知識密集型任務中建立了新的最先進性能。此外，我們提供了全面的分析來了解 CoRAG 的擴展行為，為未來旨在開發基於事實且扎實的基礎模型的研究奠定基礎。

MLLMs 基準的冗餘原則
Redundancy Principles for MLLMs Benchmarks

Jan 20

ByZicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai

隨著多模態大型語言模型（MLLMs）的快速迭代和領域需求的不斷演變，每年產生的基準數量激增至數百個。快速增長不可避免地導致基準之間存在顯著的冗餘。因此，關鍵是要退一步，對當前的冗餘狀況進行批判性評估，並提出建構有效MLLM基準的有針對性原則。本文聚焦於三個關鍵角度的冗餘：1）基準能力維度的冗餘，2）測試問題數量的冗餘，以及3）特定領域內跨基準的冗餘。通過對數百個MLLM在20多個基準上表現的全面分析，我們旨在定量衡量現有MLLM評估中存在的冗餘程度，提供有價值的見解以指導未來MLLM基準的發展，並提供改進和有效應對冗餘問題的策略。

強化學習 + 轉換器 = 通用問題解決器
RL + Transformer = A General-Purpose Problem Solver

Jan 24

ByMicah Rentschler, Jesse Roberts

假設人工智慧不僅可以解決其接受訓練的問題，還能學會自我教導以解決新問題（即元學習），會怎樣呢？在這項研究中，我們展示了通過多個情節上進行強化學習微調的預訓練變壓器發展出解決從未遇到過的問題的能力 - 一種稱為「上下文強化學習」（ICRL）的新興能力。這種強大的元學習器不僅在解決未見過的分布內環境時表現出色並具有顯著的樣本效率，還在分布外環境中表現出色。此外，我們展示它對訓練數據質量的韌性，無縫地將其上下文中的行為結合在一起，並適應非穩態環境。這些行為表明，通過強化學習訓練的變壓器可以逐步改進自己的解決方案，使其成為一個優秀的通用問題解決器。

RealCritic: 迎向以效能為導向的語言模型評估
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Jan 24

ByZhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin

批評對於提升大型語言模型（LLMs）的性能至關重要，它可以通過識別缺陷並提出改進建議，實現自我提升，並為他人提供建設性反饋。然而，評估LLMs的批評能力面臨著重大挑戰，這是由於任務的開放性特質所導致的。在這項工作中，我們引入了一個新的基準，旨在評估LLMs的批評能力。與現有的基準不同，這些基準通常以開放式迴路方式運作，我們的方法採用了一種閉迴路方法，評估從批評中生成的更正的質量。此外，該基準還包括自我批評、交叉批評和迭代批評等功能，這些功能對於區分先進推理模型與更為傳統模型的能力至關重要。我們使用八個具有挑戰性的推理任務來實現這個基準。我們有幾個有趣的發現。首先，盡管在直接思維鏈生成方面表現出可比性，但在所有批評情境下，傳統LLMs明顯遠遠落後於基於先進推理的o1-mini模型。其次，在自我批評和迭代批評設置中，相對於其基準能力，傳統LLMs甚至可能表現不佳。我們希望這個基準可以成為指導未來進展的寶貴資源。代碼和數據可在https://github.com/tangzhy/RealCritic找到。

可重新照明的全身高斯編碼頭像
Relightable Full-Body Gaussian Codec Avatars

Jan 24

ByShaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito

我們提出了可重新照明的全身高斯編碼化身，這是一種新方法，用於建模包括臉部和手部在內的具有精細細節的可重新照明全身化身。重新照明全身化身的獨特挑戰在於由身體關節運動引起的大變形，以及對外觀造成的影響。身體姿勢的變化可以顯著改變身體表面相對於光源的方向，導致由於局部光傳輸函數的變化而導致的局部外觀變化，以及由於身體部位之間的遮蔽而導致的非局部變化。為了應對這一挑戰，我們將光傳輸分解為局部和非局部效應。局部外觀變化使用可學習的區域諧波來建模漫射輻射傳輸。與球諧波不同，區域諧波在關節運動下旋轉效率非常高。這使我們能夠在局部坐標系統中學習漫射輻射傳輸，從而將局部輻射傳輸與身體的關節運動分離。為了考慮非局部外觀變化，我們引入了一個陰影網絡，根據基本網格上預先計算的入射輻照度來預測陰影。這有助於學習身體部位之間的非局部陰影。最後，我們使用延遲着色方法來建模鏡面輻射傳輸，更好地捕捉反射和高光，如眼睛閃爍。我們展示了我們的方法成功地建模了可重新照明的全身化身所需的局部和非局部光傳輸，具有在新的照明條件和未見姿勢下優越的泛化能力。

使用私人微調的大型語言模型在病人病歷上進行問答
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

Jan 23

BySara Kothari, Ayush Gupta

醫療系統持續產生大量的電子健康記錄（EHRs），通常存儲在快速醫療互操作性資源（FHIR）標準中。儘管這些記錄中包含豐富的信息，但其複雜性和數量使用戶難以檢索和解釋關鍵的健康見解。最近大型語言模型（LLMs）的進步提供了一個解決方案，實現對醫療數據的語義問答（QA），使用戶能夠更有效地與其健康記錄互動。然而，確保隱私和合規性需要在邊緣和私有部署LLMs。本文提出了一種新的方法，首先通過識別對用戶查詢最相關的FHIR資源（任務1），然後基於這些資源回答查詢（任務2）來實現對EHRs的語義QA。我們探索了私人託管、精調LLMs的性能，將它們與GPT-4和GPT-4o等基準模型進行評估。我們的結果表明，精調LLMs的大小是GPT-4系列模型的250倍，其在任務1的F1分數上超過了0.55％，在任務2的Meteor任務上超過了42％。此外，我們還研究了LLM使用的高級方面，包括序列精調、模型自我評估（自戀評估）以及訓練數據大小對性能的影響。模型和數據集可在此處找到：https://huggingface.co/genloop

GeoPixel：遙感中的像素定位大型多模型模型
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Jan 23

ByAkashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan

最近在大型多模型（LMMs）方面的進展已經認識到精細細節的接地作為視覺理解和對話的一個必要因素。然而，這種表示在自然圖像領域的LMMs中的好處僅限於遙感（RS）表現不佳。高分辨率RS圖像中的不同俯視角度、尺度變化和小物體的存在提出了區域級理解中的獨特挑戰。此外，在RS中LMMs接地對話能力的發展受到缺乏細粒度、RS領域特定接地數據的阻礙。為了解決這些限制，我們提出了GeoPixel - 第一個端到端高分辨率RS-LMM，支持像素級接地。這種能力通過在對話中生成交錯遮罩來實現精細細節的視覺感知。GeoPixel支持任何長寬比的4K高清分辨率，非常適合高精度RS圖像分析。為了支持RS圖像中接地對話生成（GCG），我們通過一個半自動化流程策劃了一個視覺接地數據集GeoPixelD，該流程利用針對RS數據量身定制的標記提示和空間先驗來系統地控制數據生成過程。GeoPixel在像素級理解方面表現出優越性，超越現有的LMMs在單目標和多目標分割任務中。我們的方法論消融研究驗證了整體架構中每個組件的有效性。我們的代碼和數據將公開發布。

多視角等變性通過最小特徵微調改進了對3D對應理解
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Nov 29

ByYang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas

視覺基礎模型，尤其是ViT家族，通過提供豐富的語義特徵，已經徹底改變了圖像理解。然而，儘管它們在2D理解方面取得成功，但它們對於把握3D空間關係的能力仍然不清楚。在這項工作中，我們評估並增強基於ViT的模型的3D意識。我們首先系統地評估它們學習3D等變特徵的能力，特別是檢查在不同視角下語義嵌入的一致性。我們的研究結果表明，改進的3D等變性能夠在各種下游任務中取得更好的表現，包括姿勢估計、跟踪和語義轉移。基於這一見解，我們提出了一種簡單而有效的基於3D對應的微調策略，顯著增強了現有視覺模型對3D對應的理解。值得注意的是，即使僅對單個對象進行一次迭代的微調，也會帶來顯著的性能提升。所有代碼和資源將公開提供，以支持對3D感知視覺模型的進一步改進。我們的代碼可在https://github.com/qq456cvb/3DCorrEnhance找到。

CatV2TON：利用時間串接技術對視覺虛擬試穿進行擴散Transformer的約束
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20

ByZheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang

虛擬試穿（VTON）技術因其具備改變線上零售的潛力，使圖像和影片中的服裝可逼真地展示而受到關注。然而，大多數現有方法在圖像和影片試穿任務中難以取得高質量的結果，尤其是在長影片情境中。在這項工作中，我們介紹了CatV2TON，一種簡單而有效的基於視覺的虛擬試穿（V2TON）方法，它支持圖像和影片試穿任務，並使用單一擴散變壓器模型。通過時間上串聯服裝和人物輸入，並在圖像和影片數據集的混合訓練下，CatV2TON實現了在靜態和動態環境中的穩健試穿表現。為了實現高效的長影片生成，我們提出了一種基於重疊片段的推理策略，該策略使用連續幀引導和自適應片段歸一化（AdaCN）來保持時間一致性並降低資源需求。我們還提出了ViViD-S，一個經過精心處理的影片試穿數據集，通過過濾背對幀並應用3D遮罩平滑來增強時間一致性。全面的實驗表明，CatV2TON在圖像和影片試穿任務中優於現有方法，為實現逼真虛擬試穿在各種情境下提供了多功能且可靠的解決方案。

去噪作為適應：噪聲空間領域適應用於圖像修復
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26

ByKang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy

儘管基於學習的圖像修復方法取得了顯著進展，但由於在合成數據上進行訓練導致的實際場景的顯著領域差異，它們仍然在實際應用中面臨著有限的泛化困難。現有方法通過改進數據合成流程、估計降解核、應用深度內部學習以及執行領域適應和正則化來解決這個問題。先前的領域適應方法試圖通過在特徵空間或像素空間中學習領域不變的知識來彌合領域差距。然而，這些技術通常難以在穩定而緊湊的框架內擴展到低級別視覺任務。本文展示了通過噪聲空間使用擴散模型進行領域適應是可能的。具體來說，通過利用輔助條件輸入如何影響多步去噪過程的獨特特性，我們推導出一個有意義的擴散損失，該損失引導修復模型逐步將修復的合成和實際輸出與目標乾淨分佈對齊。我們稱這種方法為去噪適應。為了在聯合訓練期間防止捷徑，我們提出了重要策略，例如通道混洗層和擴散模型中的殘差交換對比學習。它們隱式地模糊了條件合成和實際數據之間的界限，並防止模型依賴容易識別的特徵。在三個經典圖像修復任務，即去噪、去模糊和去雨水，的實驗結果證明了所提方法的有效性。

AdaIR：通過頻率挖掘和調製的自適應全能圖像修復
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21

ByYuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan

在影像獲取過程中，常常會引入各種形式的退化，包括噪音、霧霾和雨水。這些退化通常源於相機固有的限制或不利的環境條件。為了從退化版本中恢復乾淨的影像，已經開發了許多專門的修復方法，每種方法針對特定類型的退化。最近，全能算法通過在單一模型中處理不同類型的退化而不需要事先了解輸入退化類型而受到廣泛關注。然而，這些方法純粹在空間域中運作，並沒有深入探討與不同退化類型固有的不同頻率變化。為了彌補這一缺口，我們提出了一種基於頻率挖掘和調製的自適應全能影像修復網絡。我們的方法是基於一個觀察，即不同的退化類型會影響不同頻率子帶上的影像內容，因此需要針對每個修復任務進行不同的處理。具體來說，我們首先從輸入特徵中挖掘低頻和高頻信息，受到退化影像的自適應解耦譜的引導。然後，提取的特徵通過雙向運算子進行調製，以促進不同頻率成分之間的交互作用。最後，調製的特徵與原始輸入合併，進行逐步引導的修復。通過這種方法，模型實現了根據不同輸入退化強調信息頻率子帶的自適應重建。大量實驗表明，所提出的方法在不同影像修復任務上實現了最先進的性能，包括降噪、去霧、去雨、運動去模糊和低光影像增強。我們的代碼可在https://github.com/c-yn/AdaIR 上找到。

AI研究論文每日精選

每日精選AI研究論文及翻譯

CatV2TON：利用時間串接技術對視覺虛擬試穿進行擴散Transformer的約束
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20

ByZheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang

去噪作為適應：噪聲空間領域適應用於圖像修復
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26

ByKang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy

AdaIR：通過頻率挖掘和調製的自適應全能圖像修復
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21

ByYuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan