ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

人类的最后考试
Humanity's Last Exam

Jan 24, 2025
Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks
753

基准测试是追踪大型语言模型(LLM)能力快速发展的重要工具。然而,基准测试在难度上没有跟上步伐:LLMs现在在流行的基准测试如MMLU上实现了超过90\%的准确率,限制了对最先进LLM能力的全面衡量。作为回应,我们引入了“人类最后考试”(HLE),这是一个多模态基准测试,处于人类知识前沿,旨在成为最终的广泛学科覆盖的封闭式学术基准测试。HLE包括3,000个问题涵盖数十个学科,包括数学、人文学科和自然科学。HLE由全球学科专家开发,包括适用于自动评分的多项选择和简答题。每个问题都有一个明确且易于验证的已知解决方案,但不能通过互联网快速获取答案。最先进的LLMs在HLE上表现出较低的准确性和校准度,突显了当前LLM能力与专家人类在封闭式学术问题上的巨大差距。为了在清晰了解模型能力的基础上促进研究和政策制定,我们在https://lastexam.ai 上公开发布了HLE。

检索链增强生成
Chain-of-Retrieval Augmented Generation

Jan 24, 2025
Liang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei
593

本文介绍了一种训练类似于o1的RAG模型的方法,该模型在生成最终答案之前逐步检索和推理相关信息。传统的RAG方法通常在生成过程之前执行单一的检索步骤,这限制了它们在处理复杂查询时的有效性,因为检索结果可能不完整。相比之下,我们提出的方法,CoRAG(检索链增强生成),允许模型根据不断演变的状态动态重新构造查询。为了有效训练CoRAG,我们利用拒绝抽样自动生成中间检索链,从而增强现有的仅提供正确最终答案的RAG数据集。在测试阶段,我们提出了各种解码策略,通过控制采样检索链的长度和数量来扩展模型的测试计算。跨多个基准测试的实验结果验证了CoRAG的有效性,特别是在多跳问题回答任务中,我们观察到与强基线相比EM分数提高了超过10个百分点。在KILT基准测试中,CoRAG在各种知识密集型任务中建立了新的最先进性能。此外,我们提供了全面的分析来了解CoRAG的扩展行为,为未来旨在开发基于事实和基础的模型的研究奠定基础。

RealCritic:走向以效果为驱动的语言模型评估
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Jan 24, 2025
Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
342

批评对于提升大型语言模型(LLMs)的性能至关重要,它不仅能够促进自我改进,还能通过识别缺陷并提出改进建议,为他人提供建设性反馈。然而,评估LLMs的批评能力面临着重要挑战,这是由于任务的开放性质所致。在这项工作中,我们引入了一个旨在评估LLMs批评能力的新基准。与现有基准不同,现有基准通常以开环方式运行,我们的方法采用了一种闭环方法,评估从批评中生成的更正的质量。此外,该基准还融合了自我批评、交叉批评和迭代批评等特性,这些特性对于区分先进推理模型和更传统模型的能力至关重要。我们使用八项具有挑战性的推理任务来实施这一基准。我们得出了一些有趣的发现。首先,尽管在直接思维链生成方面表现出可比性,但在所有批评场景中,传统LLMs在性能上明显落后于基于先进推理的o1-mini模型。其次,在自我批评和迭代批评设置中,传统LLMs甚至可能表现不及其基准能力。我们希望这一基准能够成为指导未来进展的宝贵资源。代码和数据可在https://github.com/tangzhy/RealCritic 上获取。

MLLMs 基准测试的冗余原则
Redundancy Principles for MLLMs Benchmarks

Jan 20, 2025
Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
302

随着多模态大型语言模型(MLLMs)的快速迭代和领域需求的不断发展,每年产生的基准数量激增至数百个。这种快速增长不可避免地导致基准之间存在显著的冗余。因此,关键是要退一步,对当前冗余状态进行批判性评估,并提出构建有效MLLM基准的有针对性原则。本文重点关注三个关键视角上的冗余:1)基准能力维度的冗余,2)测试问题数量的冗余,以及3)特定领域内基准之间的交叉冗余。通过对数百个MLLM在20多个基准上的性能进行全面分析,我们旨在定量衡量现有MLLM评估中存在的冗余程度,为指导未来MLLM基准的发展提供宝贵见解,并提供改进和有效解决冗余问题的策略。

强化学习 + Transformer = 通用问题解决器
RL + Transformer = A General-Purpose Problem Solver

Jan 24, 2025
Micah Rentschler, Jesse Roberts
282

如果人工智能不仅能解决其训练过的问题,还能学会自我教导以解决新问题(即元学习),会怎样呢?在这项研究中,我们展示了一个经过强化学习微调的预训练变压器,在多个周期内发展出解决从未遇到过的问题的能力 - 这种新兴能力被称为上下文强化学习(ICRL)。这种强大的元学习器不仅在解决未曾见过的内部分布环境时表现出色且具有显著的样本效率,还在外部分布环境中表现出色。此外,我们展示它对训练数据质量的稳健性,能够无缝地将上下文中的行为串联起来,并适应非静态环境。这些行为表明,经过强化学习训练的变压器可以迭代改进自己的解决方案,使其成为一个出色的通用问题解决器。

可重新照明的全身高斯编解码化身
Relightable Full-Body Gaussian Codec Avatars

Jan 24, 2025
Shaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito
102

我们提出了一种新方法,称为可重照全身高斯编解码化身,用于建模具有面部和手部等细致细节的可重照全身化身。可重照全身化身面临的独特挑战在于由身体关节运动引起的大变形,以及光传输造成的外观影响。身体姿势的变化可以显著改变身体表面相对于光源的方向,导致局部外观变化,这是由于局部光传输函数的变化,以及由于身体部位之间的遮挡而导致的非局部变化。为了解决这个问题,我们将光传输分解为局部和非局部效应。局部外观变化使用可学习的区域谐波来建模漫反射辐射传输。与球谐波不同,区域谐波在关节运动下旋转非常高效。这使我们能够在局部坐标系中学习漫反射辐射传输,从而将局部辐射传输与身体的关节运动分离开来。为了考虑非局部外观变化,我们引入了一个阴影网络,根据基础网格上预先计算的入射辐照度来预测阴影。这有助于学习身体部位之间的非局部阴影。最后,我们采用延迟着色方法来建模镜面辐射传输,并更好地捕捉反射和高光,如眼睛的闪光。我们展示了我们的方法成功地模拟了可重照全身化身所需的局部和非局部光传输,具有在新颖照明条件和未见姿势下的卓越泛化能力。

利用私人微调的大型语言模型在患者病历上进行问答
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

Jan 23, 2025
Sara Kothari, Ayush Gupta
92

医疗系统持续产生大量的电子健康记录(EHRs),通常存储在快速医疗互操作性资源(FHIR)标准中。尽管这些记录中包含大量信息,但其复杂性和数量使用户难以检索和解释重要的健康见解。最近大型语言模型(LLMs)的进展提供了一种解决方案,实现对医疗数据的语义问答(QA),使用户能够更有效地与其健康记录进行交互。然而,确保隐私和合规性需要在边缘和私有部署LLMs。 本文提出了一种新颖的方法,通过首先识别用户查询中最相关的FHIR资源(任务1),然后基于这些资源回答查询(任务2),实现对EHRs的语义QA。我们探讨了私人托管、经过精细调整的LLMs的性能,将它们与基准模型(如GPT-4和GPT-4o)进行评估。我们的结果表明,尽管精细调整的LLMs体积缩小了250倍,但在任务1的F1分数上优于GPT-4系列模型0.55%,在任务2的Meteor任务上优于42%。此外,我们还研究了LLM使用的高级方面,包括顺序微调、模型自我评估(自恋评估)以及训练数据规模对性能的影响。模型和数据集可在此处获得:https://huggingface.co/genloop

GeoPixel:遥感中的像素基础大型多模态模型
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Jan 23, 2025
Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
82

最近在大型多模态模型(LMMs)方面取得的进展已经认识到,细粒度的接地作为视觉理解和对话的一个必要因素。然而,这种表示在LMMs中的好处仅限于自然图像领域,这些模型在遥感(RS)方面表现不佳。高分辨率RS图像中独特的俯视角度、尺度变化以及小物体的存在提出了区域级理解中的独特挑战。此外,在RS领域内发展LMMs的接地对话能力受到缺乏细粒度、RS领域特定接地数据的阻碍。为了解决这些限制,我们提出了GeoPixel - 第一个端到端的高分辨率RS-LMM,支持像素级接地。这种能力通过在对话中生成交错的掩模来实现细粒度的视觉感知。GeoPixel支持任何长宽比的4K高清分辨率,非常适合高精度RS图像分析。为了支持RS图像中的接地对话生成(GCG),我们通过一种半自动化流程策划了一个视觉上接地的数据集GeoPixelD,该流程利用了专为RS数据量身定制的标记提示和空间先验来系统地控制数据生成过程。GeoPixel在像素级理解方面表现出优越性,超越了现有LMMs在单目标和多目标分割任务中的表现。我们的方法论消融研究验证了整体架构中每个组件的有效性。我们的代码和数据将会公开发布。

多视图等变性通过最小特征微调改善了三维对应关系理解。
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Nov 29, 2024
Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
62

视觉基础模型,特别是ViT系列,通过提供丰富的语义特征,彻底改变了图像理解。然而,尽管它们在2D理解方面取得了成功,但它们在把握3D空间关系方面的能力仍然不清楚。在这项工作中,我们评估并增强了基于ViT的模型的3D意识。我们首先系统评估它们学习3D等变特征的能力,特别是检查不同视角下语义嵌入的一致性。我们的研究结果表明,改进的3D等变性可以提高在各种下游任务上的性能,包括姿势估计、跟踪和语义转移。基于这一发现,我们提出了一种简单而有效的基于3D对应关系的微调策略,显著增强了现有视觉模型对3D对应关系的理解。值得注意的是,即使仅对单个对象进行一次迭代的微调,也会带来显著的性能提升。所有代码和资源将公开提供,以支持对3D感知视觉模型的进一步改进。我们的代码可在https://github.com/qq456cvb/3DCorrEnhance 上找到。

CatV2TON:利用时间串联驯服扩散变压器进行基于视觉的虚拟试穿
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20, 2025
Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
53

虚拟试穿(VTON)技术因其在图像和视频中实现逼真服装可视化的潜力而备受关注,有望改变在线零售。然而,大多数现有方法在图像和视频试穿任务中难以实现高质量的结果,尤其是在长视频场景中。在这项工作中,我们介绍了CatV2TON,一种简单而有效的基于视觉的虚拟试穿(V2TON)方法,支持图像和视频试穿任务,只需一个扩散变压器模型。通过时间上连接服装和人物输入,并在图像和视频数据集的混合训练下,CatV2TON 在静态和动态环境中实现了强大的试穿性能。为了实现高效的长视频生成,我们提出了一种基于重叠剪辑的推断策略,利用顺序帧引导和自适应剪辑归一化(AdaCN)来保持时间一致性,并降低资源需求。我们还提出了ViViD-S,一个经过优化的视频试穿数据集,通过过滤背面帧并应用3D面罩平滑处理,增强了时间一致性。全面的实验证明,CatV2TON 在图像和视频试穿任务中优于现有方法,为实现逼真虚拟试穿在各种场景中提供了多功能且可靠的解决方案。

AdaIR:自适应全能图像修复:通过频率挖掘和调制
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21, 2024
Yuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan
42

在图像获取过程中,通常会引入各种形式的退化,包括噪声、雾霾和雨水。这些退化通常源自相机固有的限制或不利的环境条件。为了从退化版本中恢复清晰图像,已经开发了许多专门的恢复方法,每种方法针对特定类型的退化。最近,全能算法通过在单个模型中处理不同类型的退化而无需先验输入退化类型信息,引起了广泛关注。然而,这些方法纯粹在空间域中运行,没有深入研究不同退化类型固有的不同频率变化。为了填补这一空白,我们提出了一种基于频率挖掘和调制的自适应全能图像恢复网络。我们的方法受到这样一观察的启发,即不同的退化类型会影响图像内容在不同频率子带上的不同方式,因此需要针对每个恢复任务进行不同处理。具体来说,我们首先从输入特征中挖掘低频和高频信息,由退化图像的自适应解耦谱引导。然后,提取的特征通过双向操作符进行调制,以促进不同频率分量之间的交互。最后,调制后的特征与原始输入合并,进行逐步引导的恢复。通过这种方法,模型通过强调根据不同输入退化强调信息频率子带,实现自适应重建。大量实验证明,所提出的方法在不同图像恢复任务上取得了最先进的性能,包括去噪、去雾、去雨、运动去模糊和低光图像增强。我们的代码可在https://github.com/c-yn/AdaIR找到。

去噪作为适应性:噪声空间域自适应图像恢复
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26, 2024
Kang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy
32

尽管基于学习的图像恢复方法取得了显著进展,但由于在合成数据上训练导致的实际场景的领域差距较大,它们仍然难以实现有限的泛化能力。现有方法通过改进数据合成流程、估计退化核、采用深度内部学习,并进行领域自适应和正则化来解决这一问题。先前的领域自适应方法试图通过在特征空间或像素空间中学习领域不变的知识来弥合领域差距。然而,这些技术通常难以在稳定而紧凑的框架内扩展到低级视觉任务。本文展示了可以通过噪声空间使用扩散模型进行领域自适应的可能性。特别是,通过利用辅助条件输入如何影响多步去噪过程的独特属性,我们推导出一个有意义的扩散损失,该损失指导恢复模型逐步使恢复的合成和真实输出与目标干净分布对齐。我们将这种方法称为去噪自适应。为了防止在联合训练过程中出现捷径,我们提出了关键策略,如通道混洗层和残差交换对比学习在扩散模型中。它们隐式地模糊了条件合成和真实数据之间的边界,并防止模型依赖于容易区分的特征。对三个经典图像恢复任务,即去噪、去模糊和去雨,进行的实验结果展示了所提方法的有效性。

1月24日
1月27日
1月28日