AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

CORAL: マルチターン会話検索拡張生成のベンチマーキング
CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

Oct 30

ByYiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, Zhicheng Dou

Retrieval-Augmented Generation（RAG）は、外部知識検索を通じて大規模言語モデル（LLMs）を強化するための強力なパラダイムとなっています。広く注目されているにもかかわらず、既存の学術研究は主に単一ターンのRAGに焦点を当てており、実世界の応用で見られるマルチターンの会話の複雑さに対処するための重要な課題が未解決のままです。この課題を克服するために、我々はCORALを導入します。これは、現実的なマルチターンの会話設定でRAGシステムを評価するために設計された大規模なベンチマークです。CORALには、Wikipediaから自動的に導出された多様な情報検索会話が含まれており、オープンドメインのカバレッジ、知識密度、自由形式の応答、トピックの変化などの主要な課題に取り組んでいます。会話型RAGの3つの主要タスク、つまりパッセージ検索、応答生成、および引用ラベリングをサポートしています。我々は、さまざまな会話型RAG手法を標準化するための統一フレームワークを提案し、これらの手法をCORALで包括的に評価することで、既存の手法を改善するための大きな機会を示しています。

TokenFormer: トークン化されたモデルパラメータを用いたTransformerスケーリングの再考
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

Oct 30

ByHaiyang Wang, Yue Fan, Muhammad Ferjad Naeem, Yongqin Xian, Jan Eric Lenssen, Liwei Wang, Federico Tombari, Bernt Schiele

トランスフォーマーは、様々な領域で優れたパフォーマンスを発揮することから、基礎モデルにおいて主要なアーキテクチャとなっています。ただし、これらのモデルをスケーリングする際の膨大なコストは依然として重大な懸念事項です。この問題は、線形射影内のパラメータの固定数に依存していることから主に発生します。アーキテクチャの変更（例：チャネルの次元）が導入されると、通常、モデル全体をゼロから再学習する必要があります。モデルのサイズが拡大するにつれ、この戦略はますます高コンピュテーションコストをもたらし、持続不可能となります。この問題を克服するために、私たちはTokenFormerを導入します。これは、入力トークン間の計算だけでなく、トークンとモデルパラメータとの相互作用にも注意メカニズムを活用する、ネイティブにスケーラブルなアーキテクチャです。モデルパラメータをトークンとして扱うことで、トランスフォーマー内のすべての線形射影をトークン-パラメータ注意層で置き換え、入力トークンがクエリとして機能し、モデルパラメータがキーおよび値として機能するようにします。この再定式化により、ゼロからの再学習を必要とせずに段階的かつ効率的なスケーリングが可能となります。私たちのモデルは、新しいキー-値パラメータペアを段階的に追加することで124Mから1.4Bのパラメータにスケールし、トランスフォーマーと同等のパフォーマンスを達成しながら、トレーニングコストを大幅に削減します。コードとモデルはhttps://github.com/Haiyang-W/TokenFormer で入手可能です。

大規模な再帰アクションモデル：xLSTMは、ロボティクスタスクの高速推論を可能にします。
A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

Oct 29

ByThomas Schmied, Thomas Adler, Vihang Patil, Maximilian Beck, Korbinian Pöppel, Johannes Brandstetter, Günter Klambauer, Razvan Pascanu, Sepp Hochreiter

近年、強化学習（RL）の分野では、大規模なアクションモデルが大規模なデータセットを用いてオフラインでシーケンスモデリングを通じて訓練される傾向が見られます。既存のモデルは主にTransformerアーキテクチャに基づいており、強力なエージェントを生み出しています。しかし、Transformerベースのアプローチは推論時間が遅いため、ロボティクスなどのリアルタイムアプリケーションには実用的ではありません。最近では、xLSTMやMambaなどのモダンな再帰アーキテクチャが提案され、Transformerアーキテクチャと同様のトレーニング中の並列化の利点を持ちながら高速な推論を提供しています。本研究では、これらのモダンな再帰アーキテクチャが大規模なアクションモデルにどれだけ適しているかを調査します。その結果、xLSTMを中心とする大規模再帰アクションモデル（LRAM）を提案し、線形時間の推論複雑さと自然なシーケンス長の推定能力を持つことを示します。6つのドメインから432のタスクでの実験結果は、LRAMがパフォーマンスと速度の面でTransformersと比較して有利であることを示しています。

ReferEverything: 動画内で話題にできるすべてをセグメンテーションする方向へ
ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

Oct 30

ByAnurag Bagchi, Zhipeng Bao, Yu-Xiong Wang, Pavel Tokmakov, Martial Hebert

私たちは、自然言語で説明できる様々なコンセプトをビデオでセグメンテーションするためのフレームワークであるREMを提案します。当社の手法は、インターネットスケールのデータセットで学習したビデオ拡散モデルによって獲得されたビジュアル言語表現を活用しています。当社のアプローチの重要な洞察の一つは、生成モデルの元の表現を可能な限り保持しつつ、狭いドメインの参照オブジェクトセグメンテーションデータセットで微調整することです。その結果、当社のフレームワークは、限られたカテゴリのオブジェクトマスクで訓練されているにも関わらず、希少で未知のオブジェクトを正確にセグメンテーションおよびトラッキングできます。さらに、Referral Video Process Segmentation（Ref-VPS）の新しく導入されたベンチマークで示されているように、波が海岸に押し寄せるなどの非オブジェクトの動的コンセプトにも汎化できます。当社の実験では、REMがRef-DAVISなどのインドメインデータセットで最先端の手法と同等の性能を発揮する一方、インターネットスケールの事前学習の力を活用して、アウトオブドメインデータにおいて領域の類似性で最大12ポイントまで他を上回ることが示されています。

大規模言語モデルの記憶に関する論理推論
On Memorization of Large Language Models in Logical Reasoning

Oct 30

ByChulin Xie, Yangsibo Huang, Chiyuan Zhang, Da Yu, Xinyun Chen, Bill Yuchen Lin, Bo Li, Badih Ghazi, Ravi Kumar

大規模言語モデル（LLMs）は、困難な推論ベンチマークで優れたパフォーマンスを達成していますが、基本的な推論ミスも起こり得ます。LLMsの推論能力のメカニズムを理解する際に、この対照的な振る舞いは疑問を呼びます。1つの仮説は、一般的な推論ベンチマークでのますます高くほぼ飽和したパフォーマンスが、類似の問題の記憶に起因する可能性があるというものです。本論文では、ナイトとニーブ（K&K）のパズルに基づいた動的生成論理推論ベンチマークを使用し、推論タスクにおける記憶の定量的測定を行い、この仮説を系統的に調査します。私たちは、LLMsがトレーニングパズルを補正後に補間できること（ほぼ完璧な精度を達成）を発見しましたが、これらのパズルがわずかに変更された場合に失敗することから、モデルがこれらのトレーニングパズルを解決するために記憶に大きく依存していることを示唆しています。一方、ファインチューニングは記憶を強化する一方で、一貫して汎化パフォーマンスを向上させることを示します。パーティクルテスト、難易度レベル間の転送可能性、モデル内部の探査、誤った回答を用いたファインチューニングを伴う詳細な分析により、LLMsがトレーニングデータの記憶にもかかわらずK&Kパズルで推論を学ぶことが示されます。この現象は、LLMsが記憶と真の推論能力の間で複雑な相互作用を示していることを示しています。最後に、サンプルごとの記憶スコアを用いた分析により、LLMsが論理パズルを解決する際に推論と記憶の間をどのように切り替えるかが明らかになります。私たちのコードとデータは、https://memkklogic.github.io で入手可能です。

眼の動きから読解目標を解読する
Decoding Reading Goals from Eye Movements

Oct 28

ByOmer Shubi, Cfir Avraham Hadar, Yevgeni Berzak

読者は、読んでいるテキストに対して異なる目標を持つことがあります。彼らの目の動きのパターンから、これらの目標を解読することは可能でしょうか？本研究では、日常生活で一般的な情報探索と通常の読書という2種類の読書目標を解読できるかどうかを初めて検証します。大規模なアイ・トラッキングデータを用いて、目の動きとテキストに関する最先端のモデルを幅広く適用し、さらに新しいモデルアンサンブルを導入します。これらのモデルは、異なるアーキテクチャとデータ表現戦略をカバーしており、一連の一般化レベルでこれらのモデルを体系的に評価します：新しいテキストアイテム、新しい参加者、およびその両方の組み合わせ。私たちは、このタスクに対して目の動きが非常に有益なシグナルを含んでいることを発見します。さらに、通常の読書と情報探索の違いに関する以前の経験的な知見に基づくエラー分析を実施し、豊富なテキストアノテーションを活用します。この分析により、タスクの難しさに寄与するテキストアイテムと参加者の目の動きの主要な特性が明らかになります。

エキスパートの混合からユーザープロンプトを盗む
Stealing User Prompts from Mixture of Experts

Oct 30

ByItay Yona, Ilia Shumailov, Jamie Hayes, Nicholas Carlini

Mixture-of-Experts（MoE）モデルは、各トークンを各層の少数の専門家にルーティングすることにより、密な言語モデルの効率性とスケーラビリティを向上させます。本論文では、被害者のクエリが攻撃者のクエリと同じバッチの例に配置されるようにできる敵対者が、Expert-Choice-Routingを悪用して被害者のプロンプトを完全に開示できる方法を示します。私たちは、torch.topk CUDAの実装のタイ処理の挙動を悪用し、2層のMixtralモデルに対してこの攻撃の効果を実証しています。私たちの結果は、（語彙サイズVとプロンプトの長さMを考慮した場合の）O（{VM}^2）のクエリを使用して完全なプロンプトを抽出できること、または平均してトークンあたり100のクエリを使用できることを示しています。これは、ユーザープロンプトを抽出する目的でアーキテクチャ上の欠陥を悪用する最初の攻撃であり、新しいクラスのLLMの脆弱性を導入しています。

コモンズの有害性：オープンソースの事前トレーニングデータのキュレーション
Toxicity of the Commons: Curating Open-Source Pre-Training Data

Oct 29

ByCatherine Arnett, Eliot Jones, Ivan P. Yamshchikov, Pierre-Carl Langlais

オープンソースの大規模言語モデルは、研究者や実務家の間でますます利用可能になり、人気を博しています。オープンウェイトモデルに関しては重要な進展が見られますが、主要なオープンウェイトモデルの作成者によるオープントレーニングデータの採用はまだ一般的ではありません。同時に、研究者たちは言語モデルをより安全にする取り組みを行っています。私たちは、公共ドメインデータで訓練されたモデルによる有害な出力を減らすためのデータキュレーションパイプラインを提案します。公共ドメインデータを扱う際には独自の課題があり、これらのソースは形式や内容の両面でウェブテキストと異なります。多くのソースは歴史的文書であり、光学文字認識（OCR）の結果です。そのため、現在の最先端の有害性フィルタリング手法は、オープンデータモデルにはしばしば実現不可能であるか適切ではありません。本論文では、オープンデータの有害性フィルタリングのための新しい完全オープンソースパイプラインを紹介します。私たちの貢献は3つあります。まず、ToxicCommonsと呼ばれるカスタムトレーニングデータセットを作成しました。このデータセットは、5つの異なる次元（人種/出身、性別、宗教、能力に基づく差別、暴力）に分類されたテキストで構成されています。このデータセットを使用して、オープンデータ内の有害コンテンツをより効率的に大規模に検出できるカスタム分類器であるCeladonを訓練しました。最後に、トレーニング用に利用可能なフィルタリングされたデータに関して安全性フィルタリングを最適化するバランスの取れたアプローチについて説明します。

SlowFast-VGen：アクション駆動の長いビデオ生成のためのスローファスト学習
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

Oct 30

ByYining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang

人間は補完的な学習システムを持ち、一般的な世界のダイナミクスの遅い学習と新しい経験からのエピソードメモリの高速な記憶を結ぶものです。しかしながら、以前のビデオ生成モデルは、主に膨大な量のデータで事前トレーニングすることによる遅い学習に焦点を当てており、エピソードメモリの記憶に不可欠な高速学習段階を見落としています。この見落としは、より長いビデオを生成する際に、これらのフレームがモデルのコンテキストウィンドウを超えているため、時間的に離れたフレーム間での不整合を引き起こします。このため、アクション駆動の長いビデオ生成のための新しい双速学習システムであるSlowFast-VGenを導入します。当社の手法は、世界のダイナミクスの遅い学習のためのマスクされた条件付きビデオ拡散モデルと、時間的LoRAモジュールに基づく推論時の高速学習戦略を組み合わせています。具体的には、高速学習プロセスは、ローカルな入力と出力に基づいてその時間的LoRAパラメータを更新し、そのパラメータにエピソードメモリを効率的に保存します。さらに、内部の高速学習ループを外部の遅い学習ループにシームレスに統合し、コンテキストを考慮したスキル学習のための以前の複数エピソードの経験を呼び起こすための遅い高速学習ループアルゴリズムを提案します。おおよその世界モデルの遅い学習を促進するために、広範囲のシナリオをカバーする言語アクション注釈付きの20万本のビデオの大規模データセットを収集します。幅広い実験により、SlowFast-VGenがアクション駆動のビデオ生成においてさまざまなメトリクスでベースラインを上回り、FVDスコアが782に対して514となり、平均0.37のシーンカットに対して0.89を維持し、より長いビデオでの一貫性を維持することが示されました。遅い高速学習ループアルゴリズムは、長期的な計画タスクにおいても性能を大幅に向上させます。プロジェクトウェブサイト: https://slowfast-vgen.github.io

モデルは私たちがより良いモデルを作成するのに役立ちますか？データサイエンティストとしてLLMの評価
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists

Oct 30

ByMichał Pietruszka, Łukasz Borchmann, Aleksander Jędrosz, Paweł Morawiecki

データサイエンスにおける知識集約的なタスクの1つである特徴量エンジニアリングコードの作成に取り組む大規模言語モデルのためのベンチマークを提案します。このタスクには、深い問題理解とデータ構造に加えてドメイン知識が必要です。モデルにはプロンプトでデータセットの説明が与えられ、それを変換するコードを生成するよう求められます。評価スコアは、修正されたデータセットに適合させたXGBoostモデルの改善によって導かれます。最先端のモデルを徹底的に評価し、確立されたベンチマークと比較することで、提案するFeatEngが既存の手法とは対照的にLLMの広範な能力を安価かつ効率的に評価できることを示します。

AutoMIR：関連性ラベルなしで効果的なゼロショット医療情報検索
AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels

Oct 26

ByLei Li, Xiangxu Zhang, Xiao Zhou, Zheng Liu

医療情報検索（MIR）は、電子健康記録、学術文献、医学データベースなど多様な情報源から関連する医学知識を取得するために不可欠です。しかし、医療分野におけるゼロショット密な検索の実現は、関連付けられたデータが不足していることから、著しい課題を抱えています。本論文では、この問題に取り組むために、セルフラーニング仮説文書埋め込み（SL-HyDE）と呼ばれる新しいアプローチを紹介します。SL-HyDEは、大規模言語モデル（LLM）を生成器として活用し、与えられたクエリに基づいて仮説文書を生成します。これらの生成された文書は、主要な医学的文脈を包括し、密なリトリーバーが最も関連性の高い文書を特定するのに役立ちます。セルフラーニングフレームワークは、関連付けられたデータが不要である医学コーパスを活用し、疑似文書生成と検索の両方を段階的に洗練させます。さらに、実世界の医学シナリオに基づいた包括的な評価フレームワークである中国医学情報検索ベンチマーク（CMIRB）を紹介します。このフレームワークには、5つのタスクと10のデータセットが含まれています。CMIRBで10のモデルをベンチマークすることで、医療情報検索システムの評価のための厳格な基準を確立します。実験結果は、SL-HyDEが既存の手法を大幅に上回り、LLMとリトリーバーの構成において強力な汎化性と拡張性を示していることを示しています。CMIRBのデータと評価コードは、次のURLから公開されています：https://github.com/CMIRB-benchmark/CMIRB。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

CORAL: マルチターン会話検索拡張生成のベンチマーキング
CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

Oct 30

ByYiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, Zhicheng Dou

TokenFormer: トークン化されたモデルパラメータを用いたTransformerスケーリングの再考
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

Oct 30

ByHaiyang Wang, Yue Fan, Muhammad Ferjad Naeem, Yongqin Xian, Jan Eric Lenssen, Liwei Wang, Federico Tombari, Bernt Schiele

大規模な再帰アクションモデル：xLSTMは、ロボティクスタスクの高速推論を可能にします。
A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

Oct 29

ByThomas Schmied, Thomas Adler, Vihang Patil, Maximilian Beck, Korbinian Pöppel, Johannes Brandstetter, Günter Klambauer, Razvan Pascanu, Sepp Hochreiter

モデルは私たちがより良いモデルを作成するのに役立ちますか？データサイエンティストとしてLLMの評価
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists

Oct 30

ByMichał Pietruszka, Łukasz Borchmann, Aleksander Jędrosz, Paweł Morawiecki

AutoMIR：関連性ラベルなしで効果的なゼロショット医療情報検索
AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels

Oct 26

ByLei Li, Xiangxu Zhang, Xiao Zhou, Zheng Liu