ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Последний экзамен человечества
Humanity's Last Exam

Jan 24, 2025
Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks
753

Бенчмарки являются важными инструментами для отслеживания быстрого развития возможностей крупных языковых моделей (LLM). Однако бенчмарки не успевают за уровнем сложности: LLM в настоящее время достигают более 90\% точности на популярных бенчмарках, таких как MMLU, что ограничивает информированную оценку возможностей передовых LLM. В ответ на это мы представляем Humanity's Last Exam (HLE) - мультимодальный бенчмарк на передовой грани человеческих знаний, разработанный как окончательный закрытый академический бенчмарк такого рода с широким охватом предметов. HLE состоит из 3 000 вопросов по десяткам предметов, включая математику, гуманитарные науки и естественные науки. HLE разрабатывается глобально экспертами по предмету и состоит из вопросов с выбором ответа и кратким ответом, подходящих для автоматической оценки. У каждого вопроса есть известное решение, которое является однозначным и легко проверяемым, но не может быть быстро найдено в интернете. Современные LLM демонстрируют низкую точность и калибровку на HLE, подчеркивая значительный разрыв между текущими возможностями LLM и экспертным человеческим фронтиром в закрытых академических вопросах. Для информирования исследований и разработки политики на основе четкого понимания возможностей модели мы публично выпускаем HLE на https://lastexam.ai.

Цепочка извлечения с увеличением генерации
Chain-of-Retrieval Augmented Generation

Jan 24, 2025
Liang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei
593

Эта статья представляет подход к обучению моделей RAG, подобных o1, которые извлекают и рассуждают над соответствующей информацией пошагово перед генерацией окончательного ответа. Традиционные методы RAG обычно выполняют один шаг извлечения перед процессом генерации, что ограничивает их эффективность в решении сложных запросов из-за неполных результатов извлечения. В отличие от этого, наш предложенный метод, CoRAG (Chain-of-Retrieval Augmented Generation), позволяет модели динамически переформулировать запрос на основе изменяющегося состояния. Для эффективного обучения CoRAG мы используем отборочное сэмплирование для автоматического создания промежуточных цепочек извлечения, тем самым дополняя существующие наборы данных RAG, которые предоставляют только правильный окончательный ответ. На этапе тестирования мы предлагаем различные стратегии декодирования для масштабирования вычислений модели во время тестирования путем контроля длины и количества сэмплированных цепочек извлечения. Экспериментальные результаты на нескольких бенчмарках подтверждают эффективность CoRAG, особенно в задачах вопросно-ответной системы с несколькими шагами, где мы наблюдаем более чем 10-процентное улучшение в оценке EM по сравнению с сильными базовыми моделями. На бенчмарке KILT CoRAG устанавливает новый рекорд производительности в широком спектре задач, требующих знаний. Кроме того, мы предлагаем комплексный анализ для понимания поведения масштабирования CoRAG, заложив основу для будущих исследований, направленных на разработку фактических и обоснованных моделей базовых знаний.

RealCritic: К эффективно ориентированной оценке языковой модели Критики
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Jan 24, 2025
Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
342

Критика важна для улучшения производительности больших языковых моделей (LLM), обеспечивая как самосовершенствование, так и конструктивную обратную связь для других путем выявления недостатков и предложения улучшений. Однако оценка возможностей критики LLM представляет собой значительное испытание из-за открытой природы задачи. В данной работе мы представляем новый бенчмарк, разработанный для оценки возможностей критики LLM. В отличие от существующих бенчмарков, которые обычно функционируют в открытом цикле, наш подход использует методику закрытого цикла, которая оценивает качество исправлений, сгенерированных из критик. Более того, бенчмарк включает функции, такие как самокритика, кросс-критика и итеративная критика, которые являются важными для различения способностей продвинутых моделей рассуждения от более классических. Мы реализуем этот бенчмарк, используя восемь сложных задач рассуждения. У нас есть несколько интересных результатов. Во-первых, несмотря на демонстрацию сопоставимой производительности в прямом порождении цепочки мыслей, классические LLM значительно отстают от продвинутой модели на основе рассуждений o1-mini во всех сценариях критики. Во-вторых, в настройках самокритики и итеративной критики классические LLM могут даже показывать худшую производительность по сравнению с их базовыми возможностями. Мы надеемся, что этот бенчмарк послужит ценным ресурсом для направления будущих усовершенствований. Код и данные доступны по ссылке https://github.com/tangzhy/RealCritic.

Принципы избыточности для бенчмарков MLLM
Redundancy Principles for MLLMs Benchmarks

Jan 20, 2025
Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
302

С быстрым развитием Многомодальных Больших Языковых Моделей (MLLM) и изменяющимися требованиями отрасли количество ежегодно создаваемых бенчмарков взлетело на сотни. Быстрый рост неизбежно привел к значительной избыточности среди бенчмарков. Поэтому крайне важно отойти на шаг назад, критически оценить текущее состояние избыточности и предложить целенаправленные принципы для создания эффективных бенчмарков MLLM. В данной статье мы сосредотачиваемся на избыточности с трех ключевых точек зрения: 1) Избыточность измерений возможностей бенчмарка, 2) Избыточность в количестве тестовых вопросов и 3) Избыточность между бенчмарками в конкретных областях. Через всесторонний анализ производительности сотен MLLM на более чем 20 бенчмарках мы стремимся количественно измерить уровень избыточности, присутствующей в существующих оценках MLLM, предоставить ценные идеи для направления будущего развития бенчмарков MLLM и предложить стратегии для эффективного устранения проблем избыточности.

RL + Трансформер = Общецелевой решатель проблем
RL + Transformer = A General-Purpose Problem Solver

Jan 24, 2025
Micah Rentschler, Jesse Roberts
282

Что если искусственный интеллект смог бы не только решать задачи, для которых он был обучен, но также научиться самостоятельно учиться решать новые задачи (т.е. мета-обучение)? В данном исследовании мы демонстрируем, что предварительно обученный трансформер, донастроенный с помощью обучения с подкреплением на протяжении нескольких эпизодов, развивает способность решать задачи, с которыми он никогда ранее не сталкивался - вновь возникающая способность, называемая Обучением с подкреплением в контексте (ICRL). Этот мощный мета-обучающийся не только превосходит в решении невидимых внутри распределения сред с замечательной эффективностью использования выборки, но также проявляет высокую производительность в средах вне распределения. Кроме того, мы показываем, что он обладает устойчивостью к качеству своих обучающих данных, плавно объединяет поведения из своего контекста и адаптируется к нестационарным средам. Эти поведения демонстрируют, что трансформер, обученный с помощью обучения с подкреплением, может итеративно улучшать свои собственные решения, что делает его отличным универсальным решателем проблем.

Аватары с кодеком Гаусса для полноценного тела с возможностью изменения освещения
Relightable Full-Body Gaussian Codec Avatars

Jan 24, 2025
Shaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito
102

Мы предлагаем метод моделирования переосвещаемых трехмерных анимированных аватаров с использованием Гауссовых кодеков для полного тела, включающих детализацию лица и рук. Уникальная сложность переосвещения трехмерных аватаров заключается в больших деформациях, вызванных артикуляцией тела, и их влиянии на внешний вид из-за переноса света. Изменения в позе тела могут радикально изменить ориентацию поверхностей тела относительно источников света, что приводит как к локальным изменениям внешнего вида из-за изменений в локальных функциях переноса света, так и к нелокальным изменениям из-за заслонения между частями тела. Для решения этой проблемы мы декомпозируем перенос света на локальные и нелокальные эффекты. Локальные изменения внешнего вида моделируются с использованием обучаемых зональных гармоник для диффузного переноса излучения. В отличие от сферических гармоник, зональные гармоники эффективно поворачиваются при артикуляции. Это позволяет нам обучать диффузный перенос излучения в локальной координатной системе, что разделяет локальный перенос излучения от артикуляции тела. Для учета нелокальных изменений внешнего вида мы вводим сеть теней, которая предсказывает тени на основе предварительно вычисленной падающей инсоляции на базовой сетке. Это облегчает обучение нелокального затенения между частями тела. Наконец, мы используем подход отложенного затенения для моделирования спекулярного переноса излучения и более точного захвата отражений и мерцаний, таких как блики в глазах. Мы демонстрируем, что наш метод успешно моделирует как локальный, так и нелокальный перенос света, необходимый для переосвещаемых трехмерных аватаров с полным телом, обладая превосходной обобщающей способностью при новых условиях освещения и неизвестных позах.

Вопросно-ответная система на медицинских записях пациентов с использованием приватно настроенных крупных языковых моделей.
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

Jan 23, 2025
Sara Kothari, Ayush Gupta
92

Системы здравоохранения непрерывно генерируют огромные объемы электронных медицинских записей (EHR), обычно хранящихся в стандарте Fast Healthcare Interoperability Resources (FHIR). Несмотря на богатство информации в этих записях, их сложность и объем затрудняют пользователей в извлечении и интерпретации важных медицинских данных. Недавние достижения в области крупных языковых моделей (LLM) предлагают решение, позволяя осуществлять семантический вопросно-ответный анализ (QA) медицинских данных, что позволяет пользователям более эффективно взаимодействовать со своими медицинскими записями. Однако обеспечение конфиденциальности и соответствия требует использования LLM на краю и в частных средах. В данной статье предлагается новый подход к семантическому QA по EHR путем первоначальной идентификации наиболее релевантных ресурсов FHIR для запроса пользователя (Задача 1) и последующего ответа на запрос на основе этих ресурсов (Задача 2). Мы исследуем производительность LLM, настроенных на работу в частных средах, сравнивая их с базовыми моделями, такими как GPT-4 и GPT-4o. Наши результаты показывают, что настроенные LLM, в 250 раз меньшие по размеру, превосходят модели семейства GPT-4 на 0,55% по показателю F1 на Задаче 1 и на 42% по показателю Meteor Task на Задаче 2. Кроме того, мы рассматриваем продвинутые аспекты использования LLM, включая последовательное настройку, самооценку модели (некроцентрическую оценку) и влияние размера обучающих данных на производительность. Модели и наборы данных доступны здесь: https://huggingface.co/genloop

GeoPixel: Модель Pixel Grounding Large Multimodal в области дистанционного зондирования
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Jan 23, 2025
Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
82

Недавние достижения в области крупных мультимодальных моделей (LMM) признали тонкую привязку как неотъемлемый фактор визуального понимания и диалога. Однако преимущества такого представления в LMM ограничены областью естественных изображений, и эти модели плохо справляются с дистанционным зондированием (RS). Отличительные видовые точки зрения, изменение масштаба и наличие мелких объектов на изображениях высокого разрешения RS представляют собой уникальное испытание в понимании уровня региона. Более того, развитие возможности ведения диалога с привязкой LMM в RS затруднено отсутствием детализированных, специфичных для RS, привязанных данных. Решая эти ограничения, мы предлагаем GeoPixel - первую полностью интегрированную высокоразрешающую RS-LMM, поддерживающую привязку на уровне пикселей. Эта возможность позволяет тонкое визуальное восприятие путем генерации чередующихся масок в разговоре. GeoPixel поддерживает разрешение до 4K HD в любом соотношении сторон, идеально подходит для анализа изображений высокой точности RS. Для поддержки генерации привязанного разговора (GCG) на изображениях RS мы составляем визуально привязанный набор данных GeoPixelD через полуавтоматизированный конвейер, который использует набор меток и пространственные априори, настроенные на данные RS, для методичного контроля процесса генерации данных. GeoPixel демонстрирует превосходную производительность в понимании на уровне пикселей, превосходя существующие LMM как в задачах сегментации одной цели, так и множественных целей. Наши методологические исследования абляции подтверждают эффективность каждого компонента в общей архитектуре. Наш код и данные будут общедоступно опубликованы.

Многозрительная эквивариантность улучшает понимание трехмерной соответственности с минимальной донастройкой признаков.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Nov 29, 2024
Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
62

Модели основанные на зрительном восприятии, в частности, семейство ViT, революционизировали понимание изображений, предоставляя богатые семантические особенности. Однако, несмотря на их успех в понимании 2D, их способности в понимании трехмерных пространственных отношений до сих пор остаются неясными. В данной работе мы оцениваем и улучшаем трехмерное восприятие моделей на основе ViT. Мы начинаем систематическую оценку их способности к изучению трехмерных эквивариантных особенностей, в частности, изучая согласованность семантических вложений при различных точках зрения. Наши результаты указывают на то, что улучшенная трехмерная эквивариантность приводит к лучшей производительности на различных задачах, включая оценку позы, отслеживание и семантическую передачу. Основываясь на этом выводе, мы предлагаем простую, но эффективную стратегию донастройки на основе трехмерных соответствий, которая значительно улучшает понимание трехмерных соответствий существующих моделей зрения. Замечательно, что даже донастройка на один объект всего за одну итерацию приводит к существенному увеличению производительности. Весь код и ресурсы будут общедоступны для поддержки дальнейших усовершенствований в моделях зрения, осведомленных о трехмерном пространстве. Наш код доступен по ссылке https://github.com/qq456cvb/3DCorrEnhance.

CatV2TON: Приручение Диффузионных Трансформеров для Примерки Виртуальной Одежды на Основе Зрения с Временным Конкатенированием
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20, 2025
Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
53

Технология виртуальной примерки (VTON) привлекла внимание благодаря своему потенциалу трансформировать онлайн-розницу, обеспечивая реалистичную визуализацию одежды на изображениях и видео. Однако большинство существующих методов испытывают трудности в достижении высококачественных результатов в задачах примерки на изображениях и видео, особенно в длинных видео-сценариях. В данной работе мы представляем CatV2TON, простой и эффективный метод виртуальной примерки на основе зрения (V2TON), который поддерживает как задачи примерки на изображениях, так и видео с использованием единой модели трансформера диффузии. Путем временного объединения входных данных о предмете одежды и человеке и обучения на смешанных наборах данных изображений и видео CatV2TON достигает надежного выполнения задач примерки как в статических, так и в динамических условиях. Для эффективной генерации длинных видео мы предлагаем стратегию вывода на основе перекрывающихся видеоклипов, которая использует последовательное руководство кадрами и адаптивную нормализацию клипов (AdaCN) для поддержания временной последовательности с уменьшенными требованиями к ресурсам. Мы также представляем ViViD-S, улучшенный набор данных для видео-примерки, достигнутый путем фильтрации обратных камерных кадров и применения сглаживания 3D-масок для улучшения временной последовательности. Комплексные эксперименты демонстрируют, что CatV2TON превосходит существующие методы как в задачах примерки на изображениях, так и видео, предлагая универсальное и надежное решение для реалистичной виртуальной примерки в различных сценариях.

AdaIR: Адаптивное всестороннее восстановление изображений с помощью частотного анализа и модуляции
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21, 2024
Yuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan
42

В процессе захвата изображения часто возникают различные формы деградации, такие как шум, дымка и дождь. Эти деградации обычно возникают из-за врожденных ограничений камер или неблагоприятных окружающих условий. Для восстановления чистых изображений из деградированных версий было разработано множество специализированных методов восстановления, каждый из которых нацелен на определенный тип деградации. Недавно все-в-одном алгоритмы привлекли значительное внимание, обрабатывая различные типы деградации в рамках одной модели без необходимости заранее знать тип входной деградации. Однако эти методы работают исключительно в пространственной области и не затрагивают различные частотные изменения, присущие различным типам деградации. Для заполнения этого пробела мы предлагаем адаптивную все-в-одном сеть восстановления изображений на основе частотного анализа и модуляции. Наш подход мотивирован наблюдением, что различные типы деградации влияют на содержимое изображения в различных частотных поддиапазонах, что требует различных подходов к каждой задаче восстановления. Конкретно, мы сначала анализируем низкочастотную и высокочастотную информацию из входных признаков, управляемые адаптивно разделенными спектрами деградированного изображения. Полученные признаки затем модулируются двунаправленным оператором для облегчения взаимодействия между различными частотными компонентами. Наконец, модулированные признаки объединяются с исходным входом для пошагового направленного восстановления. С помощью этого подхода модель достигает адаптивной реконструкции, акцентируя информативные частотные поддиапазоны в зависимости от различных входных деградаций. Обширные эксперименты показывают, что предложенный метод достигает передового качества на различных задачах восстановления изображений, включая уменьшение шума, удаление дымки, удаление дождя, устранение размытия движения и улучшение изображений при недостаточной освещенности. Наш код доступен по ссылке https://github.com/c-yn/AdaIR.

Очистка от шума как адаптация: адаптация домена шума для восстановления изображений
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26, 2024
Kang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy
32

Хотя методы восстановления изображений на основе обучения достигли значительного прогресса, они все еще сталкиваются с ограниченной обобщаемостью к реальным сценариям из-за существенного разрыва доменов, вызванного обучением на синтетических данных. Существующие методы решают эту проблему путем улучшения конвейеров синтеза данных, оценки ядер деградации, использования глубокого внутреннего обучения, а также выполнения адаптации домена и регуляризации. Предыдущие методы адаптации домена стремились устранить разрыв доменов, обучаясь на доменно-инвариантных знаниях либо в пространстве признаков, либо в пространстве пикселей. Однако эти техники часто испытывают трудности в расширении на задачи низкоуровневого зрения в рамках стабильной и компактной структуры. В данной статье мы показываем, что возможно выполнять адаптацию домена через пространство шума с использованием моделей диффузии. В частности, используя уникальное свойство того, как вспомогательные условные входы влияют на многошаговый процесс устранения шума, мы вывели содержательную функцию потерь диффузии, которая направляет модель восстановления в постепенном выравнивании как восстановленных синтетических, так и реальных выходов с целевым чистым распределением. Мы называем этот метод адаптацией через устранение шума. Для предотвращения укорачивания пути во время совместного обучения мы представляем важные стратегии, такие как слой перестановки каналов и контрастное обучение с перестановкой остатков в модели диффузии. Они неявно размывают границы между условными синтетическими и реальными данными и предотвращают зависимость модели от легко различимых признаков. Экспериментальные результаты на трех классических задачах восстановления изображений, а именно устранение шума, размытие и удаление дождя, демонстрируют эффективность предложенного метода.

Jan 24
Jan 27
Jan 28