ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

人類の最後の試験
Humanity's Last Exam

Jan 24, 2025
Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks
753

ベンチマークは、大規模言語モデル(LLM)の能力の急速な進歩を追跡するための重要なツールです。しかし、ベンチマークは難易度で遅れを取っています。LLMは現在、MMLUなどの人気ベンチマークで90%以上の精度を達成しており、最先端のLLM能力の情報通りの測定を制限しています。このため、私たちはHumanity's Last Exam(HLE)を導入します。これは、人類の知識の最前線に位置する多面的なベンチマークであり、幅広い科目を対象とした最後の閉じられた形式の学術的ベンチマークとして設計されています。HLEには、数学、人文科学、自然科学など、数十の科目にわたる3,000問の問題が含まれています。HLEは、世界中の専門家によって開発され、自動採点に適した多肢選択および短答え形式の問題で構成されています。各問題には明確で容易に検証可能な既知の解決策がありますが、インターネット検索ではすぐに回答できません。最先端のLLMは、HLEにおいて低い精度と較正を示し、閉じられた形式の学術的な問題における現在のLLM能力と専門家の人間の最前線との間に著しいギャップを浮き彫りにします。モデルの能力について明確な理解をもとに研究や政策立案を行うために、私たちはHLEをhttps://lastexam.aiで一般公開します。

検索連鎖強化生成
Chain-of-Retrieval Augmented Generation

Jan 24, 2025
Liang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei
593

本論文では、最終的な回答を生成する前に関連情報を段階的に取得および推論するo1のようなRAGモデルを訓練するアプローチを紹介しています。従来のRAG手法は通常、生成プロセスの前に単一の取得ステップを実行しますが、これは不完全な取得結果により複雑なクエリに対処する際に効果が制限されます。これに対して、提案されたCoRAG(Chain-of-Retrieval Augmented Generation)手法では、モデルが進化する状態に基づいてクエリを動的に再構築できます。CoRAGを効果的に訓練するために、既存のRAGデータセットを補完するために拒否サンプリングを利用して中間取得チェーンを自動生成します。テスト時には、モデルのテスト時計算をスケーリングするために、サンプリングされる取得チェーンの長さと数を制御するためのさまざまなデコーディング戦略を提案します。複数のベンチマークを通じた実験結果は、特にマルチホップ質問応答タスクにおいて、CoRAGの有効性を検証し、強力なベースラインと比較してEMスコアで10ポイント以上の改善が観察されました。KILTベンチマークでは、CoRAGが知識集約的なタスクの幅広い範囲で新たな最先端のパフォーマンスを確立しています。さらに、CoRAGのスケーリング動作を理解するための包括的な分析を提供し、将来の研究の基盤となる事実に基づいたモデルの開発に向けた準備を行っています。

RealCritic: 言語モデルの効果主導評価に向けて
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Jan 24, 2025
Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
342

大規模言語モデル(LLMs)の性能を向上させるためには、批評は重要です。これにより、欠陥を特定し改善策を提案することで、自己改善と他者への建設的フィードバックの両方が可能となります。しかし、LLMsの批評能力を評価することは、タスクのオープンエンド性により大きな課題があります。本研究では、LLMsの批評能力を評価するために設計された新しいベンチマークを紹介します。既存のベンチマークは通常オープンループ方式で機能するのに対し、当該手法は修正の品質を評価するクローズドループ手法を採用しています。さらに、このベンチマークには自己批評、クロス批評、反復批評などの機能が組み込まれており、高度な推論モデルと従来のモデルを区別する上で重要です。当該ベンチマークは、8つの難解な推論タスクを使用して実装されています。いくつか興味深い知見があります。まず、直接的な思考連鎖生成においては、古典的LLMsと比較して、全ての批評シナリオで高度な推論ベースのモデルo1-miniが著しく優れた性能を示していることです。第二に、自己批評や反復批評の設定では、古典的LLMsはベースラインの能力に比べて性能が低下することさえあります。このベンチマークが、将来の進歩を導く貴重なリソースとなることを期待しています。コードとデータはhttps://github.com/tangzhy/RealCritic で入手可能です。

MLLMsベンチマークのための冗長性原則
Redundancy Principles for MLLMs Benchmarks

Jan 20, 2025
Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
302

マルチモダリティ大規模言語モデル(MLLMs)の急速なイテレーションと分野の進化する要求により、毎年生産されるベンチマークの数は数百に急増しています。急速な成長は、ベンチマーク間で重要な冗長性が生じることを避けられません。そのため、現在の冗長性を批判的に評価し、効果的なMLLMベンチマークの構築のためのターゲットとなる原則を提案することが重要です。本論文では、3つの主要な観点から冗長性に焦点を当てます:1)ベンチマークの能力次元の冗長性、2)テスト質問の数の冗長性、および3)特定の領域内でのベンチマーク間の相互冗長性。20以上のベンチマークにわたる数百のMLLMのパフォーマンスを包括的に分析することで、既存のMLLM評価に存在する冗長性のレベルを定量的に測定し、MLLMベンチマークの将来の開発を導く貴重な洞察を提供し、冗長性の問題を効果的に洗練し対処するための戦略を提供します。

RL(強化学習)+Transformer = 汎用問題解決者
RL + Transformer = A General-Purpose Problem Solver

Jan 24, 2025
Micah Rentschler, Jesse Roberts
282

もし人工知能が、訓練された問題を解決するだけでなく、新しい問題を解決するために自己教育を学ぶことができたらどうでしょうか(つまり、メタラーニング)?本研究では、複数のエピソードにわたって強化学習で微調整された事前学習済みのトランスフォーマーが、これまでに遭遇したことのない問題を解決する能力を獲得することを示します - これをIn-Context Reinforcement Learning(ICRL)と呼ぶ新たな能力です。この強力なメタラーナーは、未知の分布内環境を驚異的なサンプル効率で解決するだけでなく、分布外環境でも優れたパフォーマンスを発揮します。さらに、トレーニングデータの品質に対する頑健性、コンテキストからの振る舞いのシームレスな結合、非定常環境への適応性を示します。これらの振る舞いは、強化学習で訓練されたトランスフォーマーが自身の解決策を反復的に改善できることを示し、優れた汎用問題解決者となります。

再点灯可能なフルボディガウス符号化アバター
Relightable Full-Body Gaussian Codec Avatars

Jan 24, 2025
Shaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito
102

私たちは、細かい顔や手を含むディテールを持つリライト可能なフルボディガウス符号化アバターをモデリングする新しいアプローチである「Relightable Full-Body Gaussian Codec Avatars」を提案します。リライト可能なフルボディアバターのユニークな課題は、ボディの関節運動によって引き起こされる大きな変形と、光の伝達によって引き起こされる外観への影響にあります。ボディポーズの変化は、ボディ表面の光に対する向きを劇的に変化させ、局所的な光伝達関数の変化による局所的な外観変化と、ボディパーツ間の遮蔽による非局所的な変化の両方をもたらします。これに対処するために、光の伝達を局所的な効果と非局所的な効果に分解します。局所的な外観変化は、拡散放射輸送のための学習可能なゾーナル調和を使用してモデル化されます。球面調和とは異なり、ゾーナル調和は関節運動下で高効率に回転できます。これにより、局所座標フレームで拡散放射輸送を学習し、ボディの関節運動から局所放射輸送を分離することができます。非局所的な外観変化を考慮するために、事前計算された基本メッシュ上の入射放射輝度を与えられた影ネットワークを導入します。これにより、ボディパーツ間の非局所的な影の学習が容易になります。最後に、眼光などの反射やハイライトをよりよく捉えるために、スペキュラー放射輸送をモデル化するために遅延シェーディングアプローチを使用します。私たちのアプローチが、リライト可能なフルボディアバターに必要な局所的および非局所的な光伝達を成功裏にモデル化し、新しい照明条件や見慣れないポーズ下で優れた汎化能力を持つことを示します。

患者の医療記録におけるプライベートなファインチューニングされたLLMによる質問応答
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

Jan 23, 2025
Sara Kothari, Ayush Gupta
92

医療システムは、大量の電子健康記録(EHR)を継続的に生成し、一般的にはFast Healthcare Interoperability Resources(FHIR)標準で保存されています。これらの記録には豊富な情報がありますが、その複雑さと量のため、ユーザーが重要な健康情報を取得および解釈することが困難です。大規模言語モデル(LLM)の最近の進歩は、医療データ上で意味論的な質問応答(QA)を可能にし、ユーザーが健康記録と効果的にやり取りできるようにします。ただし、プライバシーとコンプライアンスの確保には、LLMのエッジおよびプライベート展開が必要です。 本論文では、最初にユーザークエリに最も関連性の高いFHIRリソースを特定し(Task1)、その後、これらのリソースに基づいてクエリに回答するアプローチを提案しています(Task2)。私たちは、プライベートホストされた、ファインチューニングされたLLMのパフォーマンスを探求し、GPT-4やGPT-4oなどのベンチマークモデルと比較して評価しています。私たちの結果は、ファインチューニングされたLLMがサイズが250倍小さくても、Task1のF1スコアでGPT-4ファミリーモデルを0.55%上回り、Task2のMeteor Taskで42%上回ることを示しています。さらに、シーケンシャルファインチューニング、モデルの自己評価(ナルシシスティック評価)、およびトレーニングデータサイズがパフォーマンスに与える影響など、LLMの高度な側面を検討しています。モデルとデータセットはこちらで入手可能です:https://huggingface.co/genloop

GeoPixel: リモートセンシングにおける大規模なマルチモーダルモデルにおけるピクセルグラウンディング
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Jan 23, 2025
Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
82

最近の大規模多モーダルモデル(LMMs)の進歩により、微細なグラウンディングが視覚理解と対話における重要な要素として認識されています。ただし、このような表現の利点は自然画像領域に限定されており、これらのモデルはリモートセンシング(RS)に対して性能が低いです。高解像度のRS画像における独自の課題として、独特の上空視点、スケールの変動、および小さなオブジェクトの存在が領域レベルの理解において特別な挑戦を提供しています。さらに、RS内でのLMMsのグラウンディング対話能力の開発は、粒状でRS特有のグラウンディングされたデータの不足によって妨げられています。これらの制限に対処するために、私たちはGeoPixelを提案します - 高解像度RS-LMMであり、ピクセルレベルのグラウンディングをサポートする最初のエンドツーエンドモデルです。この機能により、対話中に交互にマスクを生成することで微細な視覚認識が可能となります。GeoPixelは、高精度なRS画像解析に適した、どんなアスペクト比でも4K HD解像度をサポートしています。RS画像におけるグラウンディング対話生成(GCG)をサポートするために、私たちは、RSデータに適したセットオブマークプロンプトと空間事前情報を利用した半自動パイプラインを通じて、視覚的にグラウンディングされたデータセットGeoPixelDを編纂しています。GeoPixelは、ピクセルレベルの理解において優れた性能を発揮し、既存のLMMsを超える単一ターゲットおよび複数ターゲットのセグメンテーションタスクで優れた結果を示しています。私たちの手法論的な削減研究は、全体的なアーキテクチャ内の各コンポーネントの効果を検証しています。私たちのコードとデータは公開されます。

マルチビュー同変性は、最小限の特徴微調整で3D対応理解を向上させます。
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Nov 29, 2024
Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
62

ビジョン基盤モデル、特にViTファミリーは、豊かな意味的特徴を提供することで画像理解を革新しました。しかし、2D理解における成功にも関わらず、3D空間関係の把握能力は依然として不明確です。本研究では、ViTベースのモデルの3D認識を評価および向上させます。まず、彼らが3D同変特徴を学習する能力を体系的に評価し、特に異なる視点間での意味的埋め込みの一貫性を検討します。我々の調査結果は、改善された3D同変性が、ポーズ推定、トラッキング、および意味転送を含むさまざまな下流タスクでのパフォーマンス向上につながることを示しています。この洞察を基に、既存のビジョンモデルの3D対応理解を著しく向上させる、3D対応に基づくシンプルで効果的なファインチューニング戦略を提案します。驚くべきことに、たった1つのオブジェクトに対して1回のイテレーションでのファインチューニングでも、大幅なパフォーマンス向上が得られます。すべてのコードとリソースは、3D認識を向上させるためにさらなる進歩を支援するために公開されます。我々のコードはhttps://github.com/qq456cvb/3DCorrEnhanceで入手可能です。

CatV2TON: 拡散トランスフォーマーを視覚ベースのバーチャル試着において、時間的連結と共に制御する
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20, 2025
Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
53

バーチャル試着(VTON)技術は、画像や動画のリアルな衣服の視覚化を可能にすることで、オンライン小売業を変革する潜在能力から注目を集めています。しかし、既存の多くの手法は、特に長い動画シナリオにおいて、画像や動画の試着タスクで高品質な結果を達成するのに苦労しています。本研究では、CatV2TONという、単一の拡散トランスフォーマーモデルを用いて画像と動画の試着タスクの両方をサポートする、シンプルで効果的なビジョンベースのバーチャル試着(V2TON)手法を紹介します。衣服と人物の入力を時間的に連結し、画像と動画のデータセットの混合でトレーニングすることにより、CatV2TONは静的および動的な環境で堅牢な試着パフォーマンスを実現します。効率的な長い動画生成のために、連続フレームガイダンスと適応的クリップ正規化(AdaCN)を使用した、時間的一貫性を維持しつつリソース要求を削減するオーバーラップクリップベースの推論戦略を提案します。また、向きを変えたフレームのフィルタリングと3Dマスクのスムージングを適用することで、強化された時間的一貫性を実現した、洗練された動画試着データセットであるViViD-Sを提示します。包括的な実験により、CatV2TONが画像と動画の試着タスクの両方で既存の手法を上回り、多様なシナリオでリアルなバーチャル試着のための汎用かつ信頼性の高いソリューションを提供していることが示されます。

AdaIR:周波数マイニングと変調による適応型オールインワン画像修復
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21, 2024
Yuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan
42

画像取得プロセスでは、ノイズ、ヘイズ、雨など、さまざまな劣化が頻繁に導入されます。これらの劣化は、通常、カメラの固有の制限や不利な周囲の条件から生じます。劣化したバージョンからクリーンな画像を回復するためには、特定の種類の劣化を対象とするさまざまな専門の復元手法が開発されてきました。最近では、オールインワンのアルゴリズムが注目を集めており、入力の劣化タイプの事前情報を必要とせず、異なる種類の劣化に対処することができます。ただし、これらの手法は純粋に空間領域で動作し、異なる劣化タイプ固有の周波数変動には踏み込んでいません。このギャップを埋めるために、周波数のマイニングと変調に基づく適応型オールインワン画像復元ネットワークを提案します。我々のアプローチは、異なる劣化タイプが画像コンテンツに異なる周波数サブバンドに影響を与えることから、各復元タスクには異なる処理が必要とされるという観察に基づいています。具体的には、まず、劣化画像の適応的に分離されたスペクトルに導かれた入力特徴から低周波と高周波情報を抽出します。抽出された特徴は、異なる周波数成分間の相互作用を促進するために双方向演算子によって変調されます。最後に、変調された特徴は、元の入力に逐次的にガイドされた復元のためにマージされます。このアプローチにより、モデルは、異なる入力の劣化に応じて情報量の多い周波数サブバンドを強調することで適応的な再構築を実現します。包括的な実験により、提案手法がノイズ除去、ヘイズ除去、雨除去、モーションブラー除去、および低照度画像の向上など、さまざまな画像復元タスクで最先端のパフォーマンスを達成していることが示されています。当該手法のコードは、https://github.com/c-yn/AdaIR で入手可能です。

適応としてのノイズ除去:画像復元のためのノイズ空間ドメイン適応
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26, 2024
Kang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy
32

学習ベースの画像修復手法は大きな進展を遂げてきましたが、合成データでのトレーニングによって引き起こされる実世界シナリオへの限定的な汎化性の欠如により、実際の状況に対応するのに苦労しています。既存の手法は、データ合成パイプラインの改善、劣化カーネルの推定、深層内部学習の利用、ドメイン適応および正則化を行うことで、この問題に対処しています。これまでのドメイン適応手法は、特徴空間またはピクセル空間のいずれかでドメイン不変の知識を学習することによって、ドメイン間のギャップを埋めることを目指してきました。しかし、これらの手法は、安定かつコンパクトなフレームワーク内で低レベルビジョンタスクに拡張するのにしばしば苦労します。本論文では、拡散モデルを使用してノイズ空間を介したドメイン適応が可能であることを示します。特に、補助条件入力が複数ステップのノイズ除去プロセスにどのように影響を与えるかという独自の特性を活用することで、修復モデルを導く有意義な拡散損失を導出し、修復された合成および実世界の出力を目標のクリーン分布と段階的に整合させる手法を提案します。この手法を適応ノイズ除去と呼びます。共同トレーニング中のショートカットを防ぐために、チャネルシャッフリング層や残差スワッピングコントラスティブラーニングなどの重要な戦略を拡散モデルに提示します。これらは、条件付き合成データと実データの境界をぼかし、モデルが簡単に区別可能な特徴に依存するのを防ぎます。ノイズ除去、ぼかし除去、雨除去という3つの古典的な画像修復タスクに対する実験結果は、提案手法の効果を示しています。

Jan 24
Jan 27
Jan 28