HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

24 papers found

GHOST 2.0: 高忠実度ワンショットヘッド転送の生成モデル
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

. 顔の入れ替えタスクが最近研究コミュニティで注目を集める中、関連する問題である頭部の入れ替えはほとんど未開拓のままである。肌の色の転送に加えて、頭部の入れ替えは、合成中に頭部全体の構造情報を保持する必要性や、入れ替えた頭部と背景の間の隙間を修復する必要性など、さらなる課題を提起する。本論文では、これらの懸念に対処するために、2つの問題特化型モジュールからなるGHOST 2.0を提案する。まず、複数のスケールで同一性情報を保持し、極端なポーズの変化に対して頑健な、強化されたAlignerモデルを導入する。次に、Blenderモジュールを使用して、肌の色を転送し、不一致の領域を修復することで、再現された頭部をターゲットの背景にシームレスに統合する。両モジュールは、対応するタスクにおいてベースラインを上回り、頭部の入れ替えにおいて最先端の結果を達成することを可能にする。また、ソースとターゲットの髪型の大きな違いなどの複雑なケースにも取り組む。コードはhttps://github.com/ai-forever/ghost-2.0で公開されている。

Kanana: 計算効率の高いバイリンガル言語モデル
Kanana: Compute-efficient Bilingual Language Models

Feb 26

ByKanana LLM Team, Yunju Bak, Hojin Lee, Minho Ryu, Jiyeon Ham, Seungjae Jung, Daniel Wontae Nam, Taegyeong Eo, Donghun Lee, Doohae Jung, Boseop Kim, Nayeon Kim, Jaesun Park, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Kyoung-Woon On, Seulye Baeg, Junrae Cho, Sunghee Jung, Jieun Kang, EungGyun Kim, Eunhwa Kim, Byeongil Ko, Daniel Lee, Minchul Lee, Miok Lee, Shinbok Lee, Gaeun Seo

我々はKananaを紹介する。これは、韓国語において卓越した性能を発揮し、英語においても競争力のある性能を示す一連の二言語モデルである。Kananaの計算コストは、同規模の最先端モデルと比較して大幅に低い。本報告書では、計算効率の高い競争力のあるモデルを実現するために事前学習中に採用された技術を詳細に説明する。これには、高品質なデータフィルタリング、段階的な事前学習、深度スケーリング、およびプルーニングと蒸留が含まれる。さらに、Kananaモデルの事後学習中に利用された方法論について概説する。これには、ユーザーとのシームレスなインタラクションを強化するための教師ありファインチューニングと選好最適化が含まれる。最後に、特定のシナリオへの言語モデルの適応に使用される可能性のあるアプローチについて詳述する。これには、埋め込み、検索拡張生成、および関数呼び出しが含まれる。Kananaモデルシリーズは、2.1Bから32.5Bパラメータの範囲に及び、韓国語モデルの研究を促進するために2.1Bモデル（ベース、インストラクト、埋め込み）が公開されている。

: この研究は、AIを共同研究者として活用するための新しいフレームワークを提案する。このフレームワークは、科学的発見プロセスにおけるAIの役割を拡張し、人間の科学者との協調的な相互作用を促進することを目的としている。具体的には、仮説生成、実験設計、データ解釈といった主要な研究活動において、AIが積極的に貢献できる仕組みを提供する。本アプローチは、AIシステムの自律性と適応性を高めると同時に、人間の専門知識と創造性を最大限に活用することを目指している。これにより、科学的研究の効率性と革新性の両面で大きな進展が期待できる。
Towards an AI co-scientist

Feb 26

ByJuraj Gottweis, Wei-Hung Weng, Alexander Daryin, Tao Tu, Anil Palepu, Petar Sirkovic, Artiom Myaskovsky, Felix Weissenberger, Keran Rong, Ryutaro Tanno, Khaled Saab, Dan Popovici, Jacob Blum, Fan Zhang, Katherine Chou, Avinatan Hassidim, Burak Gokturk, Amin Vahdat, Pushmeet Kohli, Yossi Matias, Andrew Carroll, Kavita Kulkarni, Nenad Tomasev, Yuan Guan, Vikram Dhillon, Eeshit Dhaval Vaishnav, Byron Lee, Tiago R D Costa, José R Penadés, Gary Peltz, Yunhan Xu, Annalisa Pawlosky, Alan Karthikesalingam, Vivek Natarajan

科学的発見は、科学者が新たな仮説を生成し、それを厳密な実験的検証にかけることに依存している。このプロセスを強化するため、我々はGemini 2.0を基盤としたマルチエージェントシステムであるAI共同研究者を導入する。AI共同研究者は、新たで独創的な知識を発見し、先行する証拠に基づいて、科学者が提供する研究目的とガイダンスに沿った、実証可能に新しい研究仮説と提案を策定することを目的としている。このシステムの設計は、科学的メソッドにインスパイアされ、テスト時の計算リソースをスケーリングすることで加速される、生成、議論、進化というアプローチを仮説生成に取り入れている。主な貢献は以下の通りである：(1) 柔軟な計算スケーリングのための非同期タスク実行フレームワークを備えたマルチエージェントアーキテクチャ、(2) 自己改善型の仮説生成のためのトーナメント進化プロセス。自動化された評価では、テスト時の計算リソースの継続的な利点が示され、仮説の品質が向上している。汎用性を保ちつつ、開発と検証は3つの生物医学領域に焦点を当てている：薬剤の再利用、新規ターゲットの発見、細菌の進化と抗菌剤耐性のメカニズムの解明。薬剤の再利用において、このシステムは有望な検証結果を持つ候補を提案し、臨床適用可能な濃度でin vitroでの腫瘍抑制を示す急性骨髄性白血病の候補を含んでいる。新規ターゲット発見では、AI共同研究者は肝線維症の新たなエピジェネティックターゲットを提案し、抗線維化活性とヒト肝臓オルガノイドでの肝細胞再生によって検証された。最後に、AI共同研究者は、細菌進化における新規の遺伝子転移メカニズムの並列的なin silico発見を通じて、未発表の実験結果を再現した。これらの結果は、別々に同時発表された報告書で詳細に述べられており、生物医学および科学的発見を強化し、AIが支援する科学者の時代を切り開く可能性を示している。

TheoremExplainAgent: LLM定理理解のためのマルチモーダル説明に向けて
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

ドメイン固有の定理を理解するには、テキストベースの推論だけでは不十分であり、構造化された視覚的説明を通じた効果的なコミュニケーションが深い理解に不可欠です。大規模言語モデル（LLM）はテキストベースの定理推論において高い性能を示しますが、首尾一貫した教育的に意味のある視覚的説明を生成する能力は未解決の課題です。本研究では、Manimアニメーションを用いて5分以上の長尺定理説明動画を生成するエージェント型アプローチであるTheoremExplainAgentを紹介します。マルチモーダル定理説明を体系的に評価するために、複数のSTEM分野にわたる240の定理と5つの自動評価指標をカバーするTheoremExplainBenchを提案します。結果から、詳細な長尺動画の生成にはエージェント型プランニングが不可欠であり、o3-miniエージェントは93.8%の成功率と0.77の総合スコアを達成しました。しかし、定量的および定性的な研究により、生成された動画の多くが視覚要素の配置に軽微な問題を抱えていることが明らかになりました。さらに、マルチモーダル説明はテキストベースの説明では明らかにできない深い推論の欠陥を露呈し、マルチモーダル説明の重要性を浮き彫りにしています。

Plutus: 低リソースのギリシャ財務分野における大規模言語モデルのベンチマーキング
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

ギリシャが世界経済において重要な役割を果たしているにもかかわらず、ギリシャ語の言語的複雑さとドメイン固有データセットの不足により、大規模言語モデル（LLM）はギリシャの金融文脈において十分に探究されていません。これまでの多言語金融自然言語処理（NLP）の取り組みでは、著しい性能の格差が明らかになっていますが、これまでに専用のギリシャ金融ベンチマークやギリシャ固有の金融LLMは開発されていません。このギャップを埋めるため、私たちは最初のギリシャ金融評価ベンチマークであるPlutus-benと、ギリシャのドメイン固有データでファインチューニングされた先駆的なギリシャ金融LLMであるPlutus-8Bを紹介します。Plutus-benは、ギリシャ語における5つの主要な金融NLPタスク（数値およびテキストの固有表現認識、質問応答、要約生成、トピック分類）に対応し、体系的かつ再現可能なLLM評価を可能にします。これらのタスクを支えるため、専門のネイティブギリシャ語話者によって詳細に注釈が付けられた3つの新しい高品質なギリシャ金融データセットを提示し、既存の2つのリソースを補強しました。Plutus-benにおける22のLLMの包括的な評価により、ギリシャ金融NLPは言語的複雑さ、ドメイン固有の専門用語、金融推論のギャップにより依然として課題が多いことが明らかになりました。これらの発見は、言語間転移の限界、ギリシャ語で訓練されたモデルにおける金融専門知識の必要性、および金融LLMをギリシャ語テキストに適応させることの難しさを強調しています。私たちは、再現可能な研究を促進し、ギリシャ金融NLPを進展させ、金融における多言語インクルージョンを広げるために、Plutus-ben、Plutus-8B、および関連するすべてのデータセットを公開します。

The factuality of language models varies significantly based on the language used for inquiry. This phenomenon, known as "language-dependent factuality," highlights the challenges in developing truly multilingual AI systems. Our research demonstrates that even state-of-the-art models exhibit substantial discrepancies in factual accuracy across different languages, particularly for low-resource languages. These findings underscore the need for more robust evaluation metrics and training approaches that account for linguistic diversity and ensure consistent factual reliability across all supported languages.
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

多言語言語モデル（LM）は、言語を超えて一貫して事実知識を想起することが期待されているが、実際には、ある言語では正しい情報を持っているにもかかわらず、言語間で知識を転送することにしばしば失敗する。例えば、LMはアラビア語で質問された場合にRashed Al Shashaiがサウジアラビア出身であることを正しく識別するが、英語やスワヒリ語で質問された場合には一貫して失敗する。この制約を体系的に調査するため、13言語にわたる10,000の国関連の事実からなるベンチマークを導入し、Factual Recall Score（事実想起スコア）、Knowledge Transferability Score（知識転送可能性スコア）、Cross-Lingual Factual Knowledge Transferability Score（言語間事実知識転送可能性スコア）という3つの新しい指標を提案する。これにより、異なる言語間での事実想起と知識転送可能性を定量化する。結果は、今日の最先端LM、特に言語間一般化において、モデルが異なる言語間で効果的に知識を転送できず、使用される言語に敏感な一貫しない性能を示す根本的な弱点を明らかにした。我々の知見は、LMが言語固有の事実信頼性を認識し、言語間で最も信頼できる情報を活用する必要性を強調している。我々は、多言語知識転送の将来の研究を推進するために、ベンチマークと評価フレームワークを公開する。

Rank1: 情報検索における再ランキングのためのテスト時計算
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

我々はRank1を紹介する。これは、テスト時の計算リソースを活用するために訓練された最初の再ランキングモデルである。Rank1は、検索タスクにおいて推論言語モデル（例：OpenAIのo1、DeepseekのR1など）を蒸留に利用することで、より小規模なモデルの性能を迅速に向上させる可能性を示している。我々は、MS MARCOのクエリとパッセージから600,000以上のR1推論トレースのデータセットを収集し、オープンソースとして公開した。このデータセットで訓練されたモデルは、(1)高度な推論と指示追従データセットにおいて最先端の性能を示し、(2)ユーザー入力プロンプトに対応する能力により、分布外データに対しても非常に良好に機能し、(3)ユーザーやRAGベースのシステムに提供可能な説明可能な推論チェーンを有する。さらに、これらのモデルの量子化バージョンが、計算リソースやメモリ使用量を削減しながらも強力な性能を維持することを実証する。全体として、Rank1は、テスト時の計算リソースが、検索のための全く新しいタイプの説明可能かつ高性能な再ランキングモデルを可能にすることを示している。

大規模言語モデルは、長い連鎖思考推論におけるエラーを検出できるか？
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

最近、o1ライクなモデルが注目を集めており、これらのモデルは長いChain-of-Thought（CoT）推論ステップを生成することで、既存の大規模言語モデル（LLM）の推論能力を向上させています。本論文では、これらの長いCoTの質を理解し、既存のLLMがこれらの長いCoTに対して批判能力をどの程度持っているかを測定するために、DeltaBenchを導入します。DeltaBenchには、異なるo1ライクなモデル（例：QwQ、DeepSeek-R1）から生成された長いCoTが含まれており、さまざまな推論タスク（例：数学、コード、一般的な推論）に対して、長いCoT推論におけるエラーを検出する能力を測定します。DeltaBenchに基づいて、まず生成された長いCoTの詳細な分析を行い、異なるo1ライクなモデルの有効性と効率性を明らかにします。次に、既存のプロセス報酬モデル（PRM）と批評モデルを広範に評価し、各注釈付きプロセスのエラーを検出する能力を調査します。これにより、既存のPRMと批評モデルの境界と限界を探ります。最後に、DeltaBenchが開発者が自社モデルの長いCoT推論能力をより深く理解するための指針となることを期待しています。

エージェンシック報酬モデリング：信頼性の高い報酬システムのための人間の選好と検証可能な正しさシグナルの統合
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

報酬モデル（RMs）は、大規模言語モデル（LLMs）の学習と推論時のスケールアップにおいて重要な役割を果たします。しかし、既存の報酬モデルは主に人間の選好に焦点を当てており、LLMsの学習において強い可能性を示している検証可能な正しさの信号を無視しています。本論文では、エージェント型報酬モデリングを提案します。これは、報酬モデルと様々な側面からの検証可能な正しさの信号を組み合わせることで、信頼性の高い報酬を提供するシステムです。私たちは、人間の選好報酬と2つの検証可能な信号（事実性と指示の遵守）を組み合わせた報酬エージェント「RewardAgent」を実装し、より信頼性の高い報酬を提供します。既存の報酬モデルベンチマークと現実世界の下流タスクにおける推論時のベストオブN探索に関する包括的な実験を行いました。RewardAgentは、従来の報酬モデルを大幅に上回り、その有効性を実証しました。さらに、RewardAgentを使用して学習選好ペアを構築し、DPO目的関数でLLMを学習させた結果、従来の報酬モデルと比較して様々なNLPベンチマークで優れた性能を達成しました。今後の研究を促進するため、コードを公開しています（https://github.com/THU-KEG/Agentic-Reward-Modeling）。

プロジェクト・アレクサンドリア：LLMを活用した科学知識の著作権制約からの解放に向けて
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

ペイウォール、ライセンス、著作権規則は、科学知識の広範な普及と再利用をしばしば制限しています。私たちは、学術テキストから科学的知識を抽出することが法的にも技術的にも可能であるという立場を取ります。現在の手法、例えばテキスト埋め込みは、事実内容を確実に保存することができず、単純な言い換えは法的に適切でない場合があります。私たちは、学術文書をLLMを使用して知識ユニットに変換するという新しいアイデアを採用するようコミュニティに呼びかけます。これらのユニットは、スタイル的な内容を含まず、エンティティ、属性、関係を捉えた構造化データを使用します。私たちは、知識ユニットが以下の点を提供する証拠を示します：(1) ドイツの著作権法と米国のフェアユース原則に基づく法的分析により、著作権で保護された研究テキストから知識を共有するための法的に防御可能なフレームワークを形成し、(2) 元の著作権で保護されたテキストからの事実知識の大部分（約95％）を保存し、これは4つの研究分野にわたる元のテキストからの事実に関するMCQパフォーマンスで測定されます。科学知識を著作権から解放することは、言語モデルが著作権で保護されたテキストから重要な事実を再利用することを可能にすることで、科学研究と教育に変革的な利益をもたらすことを約束します。これを支援するために、研究文書を知識ユニットに変換するためのオープンソースツールを共有します。全体として、私たちの研究は、著作権を尊重しながら科学的知識へのアクセスを民主化することの実現可能性を示しています。

言語モデルは反証できるか？反例生成によるアルゴリズム的推論の評価
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

言語モデル（LMs）が科学的発見を加速する可能性について、期待が高まっています。仮説の反証は科学的進歩の鍵であり、主張を時間をかけて反復的に洗練することを可能にします。このプロセスには、研究者の多大な努力、推論、そして創意工夫が必要です。しかし、現在のLMsのベンチマークは、主に解決策を生成する能力を評価するものであり、それらに挑戦する能力を評価するものではありません。私たちは、この逆の能力——微妙に誤った解決策に対する反例を作成する能力——を評価するベンチマークの開発を提唱します。このアプローチを実証するために、コード実行を用いて反例を自動的に評価できるアルゴリズム問題解決の領域から始めます。具体的には、REFUTEを紹介します。これは、プログラミングコンテストからの最近の問題と誤った提出を含む動的に更新されるベンチマークであり、人間の専門家が成功裏に反例を特定したものです。私たちの分析によると、最高の推論エージェントでさえ、OpenAI o3-mini（高）のようなコード実行フィードバックを備えたものでも、REFUTEの誤った解決策に対して反例を作成できるのは<9%に過ぎません。一方で、評価によれば、これらの問題の最大48%をゼロから解決する能力があるとされています。私たちの研究が、誤った解決策を反証するLMsの能力を評価し、向上させるための進展を促すことを願っています。この能力は、研究を加速し、モデルが信頼できる反省的推論を通じて自己改善するために不可欠です。

VEM: 価値環境モデルを用いたGUIエージェント訓練のための環境フリー探索
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

グラフィカルユーザーインターフェース（GUI）エージェントのためのビジョン-ランゲージモデル（VLM）を強化学習（RL）を用いて訓練する際には、重要な課題が存在します。環境ベースのRLでは高コストなインタラクションが必要であり、環境不要の手法では分布シフトや報酬の一般化に苦戦します。本論文では、事前学習された価値環境モデル（VEM）を活用することで、価値推定とポリシー最適化を分離した環境不要のRLフレームワークを提案します。VEMはオフラインデータから直接状態-行動価値を予測し、次の状態の予測や環境からのフィードバックを必要とせずに、GUIインタラクションの結果に関する人間のような事前知識を蒸留します。これにより、エラーの累積を回避し、セマンティックな推論（例：このアクションはユーザーの目標を進めるか？）に焦点を当てることで、UI変更に対する耐性を高めます。このフレームワークは2段階で動作します：（1）長期的なアクションの有用性を推定するためにVEMを事前学習し、（2）凍結されたVEMの信号でポリシー探索を導くことで、レイアウトに依存しないGUI自動化を実現します。Android-in-the-Wildベンチマークで評価した結果、VEMはオフラインおよびオンライン設定の両方で最先端の性能を達成し、環境不要のベースラインを大幅に上回り、インタラクションコストなしで環境ベースのアプローチに匹敵する性能を示しました。重要なことに、VEMはセマンティックを意識した価値推定がオンライン訓練手法と同等の性能を達成できることを実証しています。

Than the Teacher 任意の深度を蒸留：蒸留が教師モデルよりも優れた単眼深度推定器を創出する
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

単眼深度推定（MDE）は、単一のRGB画像からシーンの深度を予測することを目的とし、3Dシーン理解において重要な役割を果たします。最近のゼロショットMDEの進展では、正規化された深度表現と蒸留ベースの学習を活用することで、多様なシーン間での汎化性能を向上させています。しかし、現在の蒸留における深度正規化手法は、グローバル正規化に依存しており、ノイズの多い疑似ラベルを増幅させ、蒸留の効果を低下させる可能性があります。本論文では、異なる深度正規化戦略が疑似ラベル蒸留に与える影響を系統的に分析します。その結果に基づき、グローバルおよびローカルの深度情報を統合して疑似ラベルの品質を向上させるCross-Context Distillationを提案します。さらに、異なる深度推定モデルの補完的な強みを活用するマルチティーチャー蒸留フレームワークを導入し、よりロバストで正確な深度予測を実現します。ベンチマークデータセットでの広範な実験により、提案手法が定量的および定性的に最先端の手法を大幅に上回ることを示します。

CritiQ: 人間の選好からデータ品質基準を抽出する
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

言語モデルの最適な性能は、高品質なデータに大きく依存している。既存のアプローチでは、手動で設計されたヒューリスティクス、既存モデルのパープレキシティ、分類器のトレーニング、または慎重なプロンプトエンジニアリングに依存しており、これらは多大な専門知識と人的アノテーション作業を必要とする一方で、バイアスを導入する可能性がある。本論文では、CritiQという新しいデータ選択手法を提案する。CritiQは、わずか30組の人手アノテーションペアから人間の選好に基づくデータ品質基準を自動的に抽出し、効率的なデータ選択を行う。主要コンポーネントであるCritiQ Flowは、品質基準を進化させるマネージャーエージェントと、ペアワイズ判断を行うワーカーエージェントを採用している。また、CritiQ Flowを強化するために、過去の研究から品質基準を抽出した知識ベースを構築する。パープレキシティや分類器ベースの手法と比較して、言語化された基準はより解釈可能で再利用価値が高い。基準を導出した後、CritiQ Scorerをトレーニングして品質スコアを付け、効率的なデータ選択を行う。本手法の有効性を、コード、数学、論理の領域で実証し、人手アノテーションテストセットで高い精度を達成した。選択されたデータの品質を検証するために、Llama 3.1モデルを継続的にトレーニングし、一様サンプリングと比較して下流タスクでの性能向上を観察した。アブレーションスタディにより、知識ベースとリフレクションプロセスの利点を検証した。また、基準がどのように進化するか、および多数決の有効性を分析した。

BIG-Bench エクストラハード
BIG-Bench Extra Hard

Feb 26

ByMehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat

大規模言語モデル（LLMs）は日常的なアプリケーションにますます導入されており、堅牢な汎用推論能力と多様な推論スキルセットが求められています。しかし、現在のLLM推論ベンチマークは主に数学的およびコーディング能力に焦点を当てており、より広範な推論能力を評価する点でギャップが生じています。その中で特筆すべき例外がBIG-Benchデータセットです。BIG-Benchは、多様な難易度の高いタスクセットを通じて、統一されたフレームワーク内で様々なスキルにわたる汎用推論能力を包括的に評価するための重要なベンチマークとして機能してきました。しかし、最近のLLMの進歩により、BIG-Benchおよびその難易度を上げたバージョンであるBIG-Bench Hard（BBH）での性能が飽和状態に達しています。最先端のモデルはBBHの多くのタスクでほぼ完璧なスコアを達成しており、その有用性が低下しています。この制約に対処するため、我々はBIG-Bench Extra Hard（BBEH）という新しいベンチマークを導入します。BBEHは、BBHの各タスクを、同様の推論能力を探るが大幅に難易度を上げた新規タスクに置き換えています。我々は様々なモデルをBBEHで評価し、汎用モデルにおける最高の（調和）平均精度が9.8%、推論特化モデルでは44.8%であることを確認しました。これは改善の余地が大きく、LLMにおける堅牢な汎用推論の達成が依然として課題であることを示しています。BBEHは公開されており、以下のURLでアクセス可能です: https://github.com/google-deepmind/bbeh。

MMKE-Bench：多様な視覚知識のためのマルチモーダル編集ベンチマーク
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

知識編集技術は、大規模言語モデル（LLM）や多様モダリティモデル（LMM）の事実知識を更新するための重要なツールとして登場し、これらのモデルが再訓練なしで古い情報や不正確な情報を修正できるようにしています。ただし、既存の多様モダリティ知識編集のベンチマークは、主に単純な三つ組として表されるエンティティレベルの知識に焦点を当てており、実世界の多様モダリティ情報の複雑さを捉えきれていません。この問題に対処するために、我々はMMKE-Benchという包括的なマルチモーダル知識編集ベンチマークを導入し、LMMが実世界のシナリオで多様な視覚知識を編集する能力を評価するよう設計しました。MMKE-Benchは、視覚エンティティ編集、視覚意味編集、ユーザー固有の編集という3種類の編集タスクを組み込むことで、これらの制限に対処しています。さらに、MMKE-Benchは、知識を表現および編集するために自由形式の自然言語を使用し、より柔軟かつ効果的な形式を提供しています。このベンチマークには、33の広範なカテゴリにまたがる2,940個の知識と8,363枚の画像が含まれており、自動生成された評価問題と人間による検証が行われています。我々は、3つの主要なLMMにおいて5つの最先端の知識編集方法を評価し、どの方法もすべての基準で優れているわけではなく、視覚的およびユーザー固有の編集が特に難しいことが明らかになりました。MMKE-Benchは、マルチモーダル知識編集技術の堅牢性を評価する新たな基準を設定し、この急速に進化する分野の進歩を促進しています。

FSPO：合成選好データに対するFew-Shot選好最適化により、LLMが実ユーザーへの効果的なパーソナライゼーションを実現
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

大規模言語モデル（LLM）の効果的なパーソナライゼーションは、仮想アシスタントやコンテンツキュレーションといったユーザーインターフェースアプリケーションにおいて極めて重要である。LLMの強力なインコンテキスト学習能力に着想を得て、我々はFew-Shot Preference Optimization（FSPO）を提案する。これは報酬モデリングをメタ学習問題として再定義するものである。このフレームワークの下、LLMはユーザーからの少数のラベル付き選好を通じて迅速に適応し、そのユーザー向けのパーソナライズされた報酬関数を構築する。さらに、現実世界の選好データは希少であり、大規模に収集することが困難であるため、パーソナライゼーションのための合成選好データセットを構築するための慎重な設計選択を提案し、公開されているLLMを用いて100万以上の合成パーソナライズド選好を生成した。特に、合成データから実ユーザーへの転移を成功させるためには、データが高い多様性と一貫性のある自己整合的な構造を示すことが重要であることがわかった。我々はFSPOを、映画レビュー、教育背景に基づく教育的適応、一般的な質問応答という3つの領域にわたる最大1,500人の合成ユーザー向けのパーソナライズドオープンエンド生成において評価し、制御された人間実験も行った。全体として、FSPOは合成ユーザー向けにパーソナライズされた応答生成において平均87%のAlpaca Eval勝率を達成し、オープンエンド質問応答における実人間ユーザーとの比較では72%の勝率を記録した。

アクセントのある航空交通管制通信向け自動音声認識の適応
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27

ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim

航空管制（ATC）における効果的なコミュニケーションは航空安全を維持する上で極めて重要であるが、アクセントのある英語がもたらす課題は、自動音声認識（ASR）システムにおいてほとんど未解決のままである。既存のモデルは、特に騒音の多いATC環境における東南アジアアクセント（SEAアクセント）音声の転写精度に苦戦している。本研究では、新たに作成されたデータセットを用いて、東南アジアアクセントに特化してファインチューニングされたASRモデルの開発を紹介する。私たちの研究は、SEAアクセントのATC音声において、単語誤り率（WER）0.0982（9.82%）という大幅な改善を達成した。さらに、本論文は地域固有のデータセットとアクセントに焦点を当てたトレーニングの重要性を強調し、リソースが限られた軍事作戦におけるASRシステムの展開への道筋を示している。これらの発見は、非西洋アクセントのATC通信における転写精度を向上させるために、ノイズに強いトレーニング技術と地域固有のデータセットの必要性を強調している。

Drop-Upcycling: 部分的再初期化を用いたスパースなエキスパートの混合モデルのトレーニング
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26

ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki

Mixture of Experts（MoE）アーキテクチャは、同等の容量を持つ密なモデルと比較して、学習と推論のコストを大幅に削減します。アップサイクリングは、事前学習済みの密なモデルを使用してMoEモデルを初期化し、学習させるアプローチです。アップサイクリングは初期の性能向上をもたらしますが、ゼロから学習させる場合と比べて学習の進みが遅く、長期的には最適な性能を発揮しません。本論文では、この問題を効果的に解決するDrop-Upcyclingという手法を提案します。Drop-Upcyclingは、一見矛盾する2つのアプローチを組み合わせています：事前学習済み密なモデルの知識を活用しつつ、重みの一部を統計的に再初期化します。このアプローチは、専門家の特化を戦略的に促進し、MoEモデルの知識獲得効率を大幅に向上させます。大規模な実験により、Drop-Upcyclingが、特に数百億トークン以上を学習する場合において、従来のMoE構築方法を長期的に大きく上回ることが実証されました。その結果、5.9Bのアクティブパラメータを持つ我々のMoEモデルは、同じモデルファミリーの13Bの密なモデルと同等の性能を達成しつつ、学習に必要なFLOPsを約1/4に削減しました。再現性とMoEに関する将来の研究を促進するため、ソースコード、学習データ、モデルチェックポイント、ログを含むすべての実験リソースを公開しています。

MolSpectra: マルチモーダルエネルギースペクトルを用いた3D分子表現の事前学習
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22

ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

分子システムの3次元構造とエネルギー状態の関係を確立することは、3次元分子表現を学習するための有望なアプローチであることが証明されています。しかし、既存の手法は古典力学に基づく分子エネルギー状態のモデリングに限定されています。この制約により、量子力学的効果（例えば、離散的なエネルギー準位構造）の重要な見落としが生じています。これらの効果は分子エネルギーをより正確に推定し、エネルギースペクトルを通じて実験的に測定することが可能です。本論文では、エネルギースペクトルを活用して3次元分子表現（MolSpectra）の事前学習を強化し、量子力学の知識を分子表現に組み込むことを提案します。具体的には、マスクされたパッチ再構成を介して分子スペクトルをエンコードするマルチスペクトルエンコーダであるSpecFormerを提案します。さらに、3次元エンコーダとスペクトルエンコーダの出力を対照目的で整合させることで、3次元エンコーダの分子理解を強化します。公開ベンチマークでの評価により、我々の事前学習された表現が分子特性の予測やダイナミクスのモデリングにおいて既存の手法を凌駕することが明らかになりました。

AISafetyLab：AI安全性評価と改善のための包括的フレームワーク
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24

ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang

AIモデルが多様な現実世界のシナリオで展開されるにつれ、その安全性を確保することは依然として重要でありながらも十分に探究されていない課題です。AIの安全性を評価し向上させるための多大な努力がなされているものの、標準化されたフレームワークと包括的なツールキットの欠如が、体系的な研究と実用的な採用に重大な障害をもたらしています。このギャップを埋めるため、我々はAISafetyLabを紹介します。これは、AI安全性のための代表的な攻撃、防御、および評価手法を統合した統一フレームワークとツールキットです。AISafetyLabは、開発者が様々な技術をシームレスに適用できる直感的なインターフェースを備えており、将来の進展に向けて構造化された拡張可能なコードベースを維持します。さらに、我々はVicunaを用いた実証研究を行い、異なる攻撃および防御戦略を分析して、それらの比較的有効性に関する貴重な知見を提供します。AI安全性の継続的な研究と開発を促進するため、AISafetyLabはhttps://github.com/thu-coai/AISafetyLabで公開されており、我々はその継続的なメンテナンスと改善に取り組んでいます。

最適なマルチドラフト推測デコーディングに向けて
Towards Optimal Multi-draft Speculative Decoding

Feb 26

ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang

大規模言語モデル（LLM）は、自然言語処理タスクにおいて不可欠な存在となっています。しかし、自己回帰的なサンプリングが効率のボトルネックとなっています。最近提案されたマルチドラフト推測的デコーディング（MDSD）は、各トークンを生成する際に、小さなドラフトモデルが複数のドラフトを生成し、ターゲットLLMがそれらを並列に検証することで、最終的な出力がターゲットモデルの分布に従うことを保証するアプローチです。MDSDにおける主な設計選択は、ドラフトサンプリング方法と検証アルゴリズムです。固定されたドラフトサンプリング方法に対して、最適な受理率は最適輸送問題の解となりますが、この問題の複雑さにより、最適な受理率を求めることや、既存の検証アルゴリズムと理論的上限とのギャップを測定することが困難です。本論文では、最適輸送問題の双対問題を議論し、最適な受理率を効率的に計算する方法を提供します。初めて、数千の語彙サイズに対するMDSDの効率の理論的上限を測定し、既存の検証アルゴリズムとこの上限とのギャップを定量化します。また、異なるドラフトサンプリング方法を最適受理率に基づいて比較します。我々の結果は、ドラフトサンプリング方法が最適受理率に強く影響を与え、置換なしサンプリングが置換ありサンプリングを上回ることを示しています。さらに、既存の検証アルゴリズムは、置換なしおよび置換ありサンプリングの両方において、理論的上限に達していません。我々の知見は、慎重に設計されたドラフトサンプリング方法が最適受理率を向上させ、理論的上限に近い検証アルゴリズムの開発を可能にする可能性があることを示唆しています。

PosterSum: 科学ポスター要約のためのマルチモーダルベンチマーク
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24

ByRohit Saxena, Pasquale Minervini, Frank Keller

マルチモーダル文書から正確かつ簡潔なテキスト要約を生成することは、特に科学ポスターのような視覚的に複雑なコンテンツを扱う場合に困難な課題です。本研究では、科学ポスターを理解し、研究論文のアブストラクトとして要約するビジョン言語モデルの開発を促進するための新しいベンチマーク「PosterSum」を提案します。私たちのデータセットには、16,305件の学会ポスターと、それに対応するアブストラクトが要約として含まれています。各ポスターは画像形式で提供され、複雑なレイアウト、密集したテキスト領域、表、図など、多様な視覚的理解の課題を提示します。私たちは、最先端のマルチモーダル大規模言語モデル（MLLM）をPosterSumで評価し、これらのモデルが科学ポスターを正確に解釈し要約することに苦戦することを示します。さらに、現在のMLLMを自動評価指標で上回る階層的手法「Segment & Summarize」を提案し、ROUGE-Lで3.14%の向上を達成しました。これは、今後のポスター要約研究の出発点として役立つでしょう。

DOEI: 注意機構強化型クラス活性化マップのための埋め込み情報の二重最適化
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao

弱教師ありセマンティックセグメンテーション（WSSS）では、通常、限られたセマンティックアノテーションを利用して初期のクラス活性化マップ（CAM）を取得します。しかし、高次元空間におけるクラス活性化応答とセマンティック情報の不十分な結合のため、CAMはオブジェクトの共起や活性化不足を引き起こしやすく、認識精度が低下する傾向にあります。この問題に対処するため、我々はDOEI（Dual Optimization of Embedding Information）を提案します。これは、セマンティックを意識したアテンション重み行列を通じて埋め込み表現を再構築し、埋め込み情報の表現能力を最適化する新しいアプローチです。具体的には、DOEIはクラスとパッチ間の相互作用において、高信頼度のトークンを増幅し、低信頼度のトークンを抑制します。これにより、活性化応答とセマンティック情報の整合性が強化され、ターゲット特徴の伝播と分離が促進され、生成された埋め込みが高次元セマンティック空間におけるターゲット特徴をより正確に表現できるようになります。さらに、DOEIではRGB値、埋め込み誘導特徴、および自己注意重みを組み合わせたハイブリッド特徴アライメントモジュールを提案し、候補トークンの信頼性を向上させます。包括的な実験により、DOEIが効果的なプラグアンドプレイモジュールであり、最先端の視覚トランスフォーマーベースのWSSSモデルを強化し、PASCAL VOC（+3.6%、+1.5%、+1.2% mIoU）やMS COCO（+1.2%、+1.6% mIoU）などの人気ベンチマークにおいてCAMの品質とセグメンテーション性能を大幅に向上させることが示されました。コードはhttps://github.com/AIGeeksGroup/DOEIで公開予定です。