HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

21 papers found

Babel：90%以上の世界人口をカバーする多言語大規模言語モデルのオープン提供
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Mar 2

ByYiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang

大規模言語モデル（LLM）は自然言語処理（NLP）に革命をもたらしましたが、オープンソースの多言語LLMは依然として少なく、既存のモデルはしばしば言語カバレッジが限られています。そのようなモデルは通常、リソースが豊富な言語を優先し、広く話されているがリソースが不足している言語は見過ごされがちです。この格差を解消するため、我々はBabelを紹介します。Babelは、話者数で上位25の言語をカバーし、世界人口の90％以上をサポートし、他のオープン多言語LLMでは無視されている多くの言語を含むオープンな多言語LLMです。従来の継続事前学習アプローチとは異なり、Babelは層拡張技術を通じてパラメータ数を拡大し、性能の上限を引き上げます。我々は2つのバリエーションを紹介します：効率的な推論とファインチューニングを目的としたBabel-9Bと、オープン多言語LLMの新たな基準を設定するBabel-83Bです。多言語タスクにおける広範な評価は、同規模のオープンLLMと比較してその優れた性能を示しています。さらに、オープンソースの教師ありファインチューニングデータセットを使用することで、Babelは顕著な性能を達成し、Babel-9B-Chatは10BサイズのLLMの中でトップを記録し、Babel-83B-Chatは多言語タスクにおいて商用モデルと同等のレベルに達する新たな基準を設定しました。

HoT: 入力から支持する事実を参照するためのハイライトされた思考連鎖
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

Mar 3

ByTin Nguyen, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

大規模言語モデル（LLMs）の弱点の一つは、非事実的な記述を生成しがちな点である。事実と非事実が混在した応答は、人間が検証し、正確に意思決定を下す上で課題となる。この問題に対処するため、我々は「Highlighted Chain-of-Thought Prompting（HoT）」を提案する。これは、LLMsにXMLタグを用いてクエリに基づいた事実を明示した応答を生成させる手法である。具体的には、入力された質問に対して、LLMsはまずキーファクトを強調するXMLタグを追加して質問を再フォーマットし、その後、入力から参照された事実をハイライトした応答を生成する。興味深いことに、few-shot設定において、HoTは算術、読解、論理的推論など17の多様なタスクにおいて、従来のChain-of-Thought Prompting（CoT）を上回る性能を示す。人間がLLMの応答を検証する際、ハイライトは時間制約のある参加者がLLMが正しいかどうかをより正確かつ効率的に認識するのに役立つ。しかし、驚くべきことに、LLMが間違っている場合、HoTはユーザーにその答えが正しいと信じ込ませる傾向がある。

プロセスベースの自己報酬型言語モデル
Process-based Self-Rewarding Language Models

Mar 5

ByShimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong

大規模言語モデル（LLM）は、様々な下流タスクで優れた性能を発揮し、多岐にわたるシナリオで広く応用されています。LLMの性能をさらに向上させるため、人間によるアノテーションされた選好データが学習に用いられていますが、これは人間の性能の上限によって制約を受けます。そこで、自己報酬（Self-Rewarding）手法が提案され、LLMが自身の出力に対して報酬を与えることで学習データを生成する方法が考案されました。しかし、既存の自己報酬パラダイムは数学的推論のシナリオでは効果的ではなく、むしろ性能の低下を招く可能性があります。本研究では、プロセスベースの自己報酬パイプラインを言語モデルに導入し、長考推論、ステップごとのLLM-as-a-Judge、およびステップごとの選好最適化を自己報酬パラダイム内に組み込みました。この新しいパラダイムは、反復的なプロセスベースの自己報酬を通じて、複数の数学的推論ベンチマークにおいてLLMの性能を向上させることに成功し、人間の能力を超えるLLM推論を実現するための自己報酬の大きな可能性を示しています。

KodCode: 多様性に富み、挑戦的で検証可能な合成コーディングデータセット
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

Mar 4

ByZhangchen Xu, Yang Liu, Yueqin Yin, Mingyuan Zhou, Radha Poovendran

我々は、コーディング用大規模言語モデルの訓練において、多様な難易度と領域にわたる高品質で検証可能な訓練データを取得するという持続的な課題に対処するため、合成データセットKodCodeを紹介する。既存のコード中心のリソースは、通常、カバレッジの広さ（例えば、簡単なコーディングタスクから高度なアルゴリズム問題まで）または検証可能な正確さ（例えば、ユニットテスト）のいずれかを確保することに失敗している。対照的に、KodCodeは、自己検証手順を通じて体系的に検証された問題-解決策-テストのトリプレットで構成されている。我々のパイプラインは、まず幅広いコーディング問題を合成し、次に解決策とテストケースを生成し、難しい問題に対して追加の試みを割り当てる。最後に、訓練後のデータ合成は、問題を多様な形式に書き換え、推論モデル（DeepSeek R1）からのテストベースのリジェクトサンプリング手順の下で応答を生成することによって行われる。このパイプラインにより、大規模で堅牢かつ多様なコーディングデータセットが得られる。KodCodeは教師あり微調整に適しており、ペアになったユニットテストはRLチューニングの大きな可能性も提供する。コーディングベンチマーク（HumanEval(+), MBPP(+), BigCodeBench, LiveCodeBench）での微調整実験により、KodCodeで調整されたモデルが、Qwen2.5-Coder-32B-InstructやDeepSeek-R1-Distill-Llama-70Bなどのモデルを超える最先端の性能を達成することが示された。

GEN3C: 正確なカメラ制御を伴う3D情報に基づく世界整合性ビデオ生成
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Mar 5

ByXuanchi Ren, Tianchang Shen, Jiahui Huang, Huan Ling, Yifan Lu, Merlin Nimier-David, Thomas Müller, Alexander Keller, Sanja Fidler, Jun Gao

本論文では、精密なカメラ制御と時間的3D一貫性を備えた生成型ビデオモデル「GEN3C」を提案します。既存のビデオモデルはリアルな映像を生成しますが、3D情報をほとんど活用しないため、物体が突然現れたり消えたりするような不整合が生じがちです。また、カメラ制御が実装されている場合でも、カメラパラメータがニューラルネットワークへの単なる入力となるため、映像がカメラにどのように依存するかを推論しなければならず、精度が低くなります。これに対し、GEN3Cは3Dキャッシュによって導かれます。このキャッシュは、シード画像や以前に生成されたフレームのピクセル単位の深度を予測することで得られる点群データです。次のフレームを生成する際、GEN3Cはユーザーが提供する新しいカメラ軌道に基づいて3Dキャッシュの2Dレンダリングを条件付けます。これにより、GEN3Cは以前に生成した内容を記憶する必要も、カメラポーズから画像構造を推論する必要もなくなります。代わりに、モデルはその生成能力をすべて、未観測領域や次のフレームへのシーン状態の進行に集中させることができます。我々の結果は、従来の研究よりも精密なカメラ制御を示し、運転シーンや単眼動画といった困難な設定においても、スパースビューの新規視点合成において最先端の結果を達成しています。結果はビデオでご覧いただくのが最適です。ぜひ当社のウェブページをご覧ください！https://research.nvidia.com/labs/toronto-ai/GEN3C/

ABC: ビジュアル・ランゲージモデルを用いたマルチモーダル埋め込みの制御性向上
ABC: Achieving Better Control of Multimodal Embeddings using VLMs

Mar 1

ByBenjamin Schneider, Florian Kerschbaum, Wenhu Chen

視覚埋め込みモデルは、視覚検索や分類などのゼロショットタスクにおいて優れた性能を発揮します。しかし、これらのモデルは曖昧さを含むタスクやユーザー指示を必要とするタスクには使用できません。これらのタスクには、視覚と自然言語入力を組み合わせた埋め込みを出力するマルチモーダル埋め込みモデルが必要です。既存のCLIPベースのアプローチでは、画像とテキストを独立して埋め込み、その結果を融合します。しかし、この方法ではモダリティ間の相互作用が弱く、表現に対するユーザーの制御が不十分であることがわかりました。私たちはABCを紹介します。これは、視覚言語モデルのバックボーンを使用して、画像特徴と自然言語指示を深く統合するオープンソースのマルチモーダル埋め込みモデルです。ABCは、MSCOCOの画像からテキストへの検索においてサイズに対する最高の性能を達成し、Massive Multimodal Embedding Benchmarkの分類とVQAタスクでトップの性能を発揮します。強く統合された視覚言語表現により、ABCは自然言語を使用して微妙で潜在的に曖昧な視覚検索問題を解決できます。この能力を評価するために、正しい検索のためにテキスト指示と画像内容を交互に組み合わせる必要があるベンチマークCtrlBenchを設計しました。ABCは、高品質な表現と柔軟な自然言語制御を提供することで、マルチモーダル埋め込みの状態を進化させます。私たちのモデルとデータセットはプロジェクトページで利用可能です。

CrowdSelect: マルチLLMの知恵を活用した合成指示データの選択
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

Mar 3

ByYisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen

大規模言語モデルの高度な指示追従能力を、選択されたサブセットを用いてより小さなモデルに蒸留することは、モデル学習における主流のアプローチとなっています。既存の合成指示データ選択戦略は主に単一次元の信号（報酬スコア、モデルの困惑度など）に依存しており、多様な分野にわたる指示追従の複雑さを捉えることができません。そこで、我々はより多様な信号を調査し、包括的な指示-応答ペアの特性を捉えるために、以下の2つの要素に基づいたマルチLLMの知恵を活用した3つの基礎的指標を提案します：(1)多様なLLMの応答、(2)報酬モデルの評価。これらの基礎指標を基に、応答の多様性を維持するためのクラスタリングベースのアプローチを組み込んだ統合指標であるCrowdSelectを提案します。我々の包括的な実験により、基礎指標がMT-benchとArena-Hardにおける4つのベースモデルで一貫して性能を向上させることが示されました。CrowdSelectは、全ての指標を効率的に組み込むことで、FullおよびLoRAファインチューニングの両方で最先端の性能を達成し、Llama-3.2-3b-instructにおいてArena-Hardで4.81%、MT-benchで11.1%の改善を示しました。我々の研究成果が、今後の研究において貴重な洞察をもたらすことを期待しています。コードはhttps://github.com/listentm/crowdselectで公開されています。

視覚言語モデルの異常検出能力を強化するための知識記述の活用
Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

Mar 5

ByJun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel

視覚言語モデル（VLM）は、視覚的グラウンディングタスクにおいて印象的な能力を発揮してきました。しかし、医療分野、特に医療画像内の異常検出と位置特定における有効性は、まだ十分に検証されていません。主な課題は、医療用語の複雑で抽象的な性質であり、病理学的異常の用語を対応する視覚的特徴と直接関連付けることが困難です。本研究では、分解された医療知識を活用することで、医療異常検出と位置特定におけるVLMの性能を向上させる新しいアプローチを提案します。特定の異常を直接認識するようモデルに促す代わりに、医療概念を基本的な属性と共通の視覚的パターンに分解することに焦点を当てます。この戦略により、テキスト記述と視覚的特徴の間の整合性が強化され、医療画像内の異常の認識と位置特定の両方が改善されます。私たちは、0.23BのFlorence-2ベースモデルでこの手法を評価し、その異常グラウンディング性能が、はるかに大規模な7B LLaVAベースの医療VLMと同等であることを示します。また、そのようなモデルで使用されるデータのわずか1.5%で訓練されているにもかかわらず、既知の異常と未確認の異常の両方において、本手法の有効性が実験結果から示されており、強力な汎化能力が示唆されています。

ドメイン特化型AIのための小型言語モデルのファインチューニング：エッジAIの視点から
Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Mar 3

ByRakshit Aralimatti, Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

エッジデバイスに大規模言語モデルを展開する際には、高い計算要求、エネルギー消費、そして潜在的なデータプライバシーリスクといった固有の課題が存在します。本論文では、これらの制約に正面から取り組むShakti Small Language Models (SLMs)であるShakti-100M、Shakti-250M、Shakti-500Mを紹介します。効率的なアーキテクチャ、量子化技術、そして責任あるAI原則を組み合わせることで、Shaktiシリーズはスマートフォン、スマート家電、IoTシステムなどにおけるオンデバイスインテリジェンスを実現します。我々は、その設計哲学、トレーニングパイプライン、および一般タスク（例：MMLU、Hellaswag）や専門領域（医療、金融、法律）におけるベンチマーク性能について包括的な洞察を提供します。我々の研究結果は、注意深く設計されファインチューニングされたコンパクトモデルが、現実世界のエッジAIシナリオにおいて期待を上回ることがしばしばあることを示しています。

推論時のスケーリングによる離散拡散モデルの再マスキング
Remasking Discrete Diffusion Models with Inference-Time Scaling

Mar 1

ByGuanghan Wang, Yair Schiff, Subham Sekhar Sahoo, Volodymyr Kuleshov

拡散モデルの成功の一部は、生成中に出力を繰り返し修正する能力、すなわち反復的な精緻化を実行できることに起因しています。しかし、現代のマスク型離散拡散モデルにはこの能力が欠けています：トークンが生成されると、たとえエラーが生じた場合でも、それを再度更新することができません。ここでは、この制限を解決するために、リマスキング拡散モデル（ReMDM）サンプラーを導入します。この手法は、事前学習済みのマスク型拡散モデルに原理的に適用可能であり、カスタムリマスキング逆過程を持つ離散拡散モデルから導出されます。最も興味深いことに、ReMDMは離散拡散モデルに推論時の計算スケーリングの形態を付与します。サンプリングステップ数を増やすことで、ReMDMは自己回帰モデルの品質に近づく自然言語出力を生成し、計算予算が限られている場合には、ReMDMは品質をより良く維持します。ReMDMはまた、離散化された画像に対するマスク型拡散モデルのサンプル品質を向上させ、分子設計などの科学分野では、ReMDMは拡散ガイダンスを容易にし、古典的なマスキングや一様ノイズ拡散に対する制御性のパレートフロンティアを押し上げます。プロジェクトページにコードとブログ記事を提供しています：https://remdm.github.io。

テキストリッチグラフ知識ベースにおける構造的検索とテキスト検索の混合手法
Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases

Feb 27

ByYongjia Lei, Haoyu Han, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka, Mahantesh M Halappanavar, Jiliang Tang, Yu Wang

テキスト豊富なグラフ知識ベース（TG-KBs）は、テキスト的および構造的知識を提供することでクエリに答える上でますます重要になっています。しかし、現在の検索手法では、これら2種類の知識を相互補強を考慮せずに個別に検索することが多く、一部のハイブリッド手法では近傍集約後に構造的検索を完全にバイパスすることさえあります。このギャップを埋めるため、我々は「構造的およびテキスト的検索の混合（MoR）」を提案し、Planning-Reasoning-Organizingフレームワークを通じてこれら2種類の知識を検索します。Planning段階では、MoRはクエリに答えるための論理を描いたテキスト計画グラフを生成します。計画グラフに従い、Reasoning段階では、MoRは構造的トラバーサルとテキスト的マッチングを織り交ぜてTG-KBsから候補を取得します。Organizing段階では、MoRは取得した候補をその構造的軌跡に基づいてさらに再ランク付けします。広範な実験により、MoRが構造的およびテキスト的検索を調和させる優位性が示され、異なるクエリ論理にわたる検索性能の不均一性や、候補再ランク付けにおける構造的軌跡の統合の利点などの洞察が得られました。我々のコードはhttps://github.com/Yoega/MoRで公開されています。

異なる会話タスクにおける書き換えアプローチの探求
Exploring Rewriting Approaches for Different Conversational Tasks

Feb 26

ByMd Mehrab Tanjim, Ryan A. Rossi, Mike Rimer, Xiang Chen, Sungchul Kim, Vaishnavi Muppala, Tong Yu, Zhengmian Hu, Ritwik Sinha, Wei Zhang, Iftikhar Ahamath Burhanuddin, Franck Dernoncourt

会話型アシスタントでは、ユーザーの質問やリクエストに対してより意味のある（正確な）回答を提供するために、過去の対話の一部を活用した質問書き換えアルゴリズムが必要となることが多い。しかし、正確な書き換え手法は、会話型アシスタントがサポートするユースケースやアプリケーション固有のタスク、その他の制約によってしばしば異なる。本論文では、2つの根本的に異なる生成タスク（テキストからテキストを生成するタスクと、テキストを入力としてユーザーの質問に答える視覚化やデータテーブルを生成するマルチモーダル生成タスク）に対して、書き換えと融合という2つの異なるアプローチを体系的に調査する。結果として、特定の書き換えまたは融合アプローチは、基盤となるユースケースと生成タスクに大きく依存することが明らかとなった。特に、会話型質問応答アシスタントではクエリ書き換えアプローチが最も効果的であるのに対し、ユーザーとの会話に基づいて視覚化やデータテーブルを生成するデータ分析アシスタントでは融合アプローチが最も効果的であることがわかった。注目すべきは、データ分析アシスタントのユースケースにおいて、短い会話と長い会話の2つのデータセットを調査した結果、クエリ融合が常に優れた性能を示すのに対し、会話型テキストベースの質問応答ではクエリ書き換えアプローチが最も効果的であることが確認された点である。

QE4PE：人間によるポストエディティングのための単語レベル品質推定
QE4PE: Word-level Quality Estimation for Human Post-Editing

Mar 4

ByGabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza

単語レベルの品質推定（QE）は、機械翻訳の出力における誤りの範囲を検出し、人間によるポストエディットを導き、促進することができます。単語レベルQEシステムの精度は広範に評価されてきましたが、その使用性や、人間のポストエディットの速度、品質、編集選択に対する下流の影響については十分に研究されていません。私たちのQE4PE研究では、2つの翻訳方向にわたる42人のプロフェッショナルポストエディターを巻き込んだ現実的な設定において、単語レベルQEが機械翻訳（MT）のポストエディットに与える影響を調査しました。最先端のニューラルMTモデルの出力における潜在的な誤りを特定するために、教師ありおよび不確実性ベースの単語レベルQE手法を含む4つのエラースパンハイライトモダリティを比較しました。ポストエディットの労力と生産性は行動ログによって推定され、品質の向上は単語レベルおよびセグメントレベルの人間によるアノテーションによって評価されました。ドメイン、言語、エディターの速度がハイライトの有効性を決定する重要な要因であり、人間によるQEハイライトと自動化されたQEハイライトの間に見られるわずかな違いは、プロフェッショナルワークフローにおける精度と使用性のギャップを浮き彫りにしています。

CognitiveDrone: リアルタイム認知タスク解決と推論のためのVLAモデルと評価ベンチマーク（UAV向け）
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs

Mar 3

ByArtem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou

本論文では、高度な認知能力を必要とする複雑な無人航空機（UAV）タスクに特化した新しいVision-Language-Action（VLA）モデルであるCognitiveDroneを紹介する。このモデルは、人間認識、シンボル理解、推論の3つの主要カテゴリにわたる8,000以上のシミュレートされた飛行軌跡データセットで訓練され、一人称視点の視覚入力とテキスト指示に基づいてリアルタイムの4D動作コマンドを生成する。さらに複雑なシナリオでの性能を向上させるため、高頻度制御の前にタスク指示を簡素化する追加のVision-Language Model（VLM）推論モジュールを統合したCognitiveDrone-R1を提案する。オープンソースのベンチマークであるCognitiveDroneBenchを用いた実験的評価では、レース指向モデル（RaceVLA）が全体の成功率31.3%を達成するのに対し、基本のCognitiveDroneモデルは59.6%、CognitiveDrone-R1は77.2%の成功率を達成した。これらの結果は、重要な認知タスクにおいて最大30%の改善を示し、UAV制御システムに高度な推論能力を組み込むことの有効性を強調している。我々の貢献は、UAV制御のための最先端VLAモデルの開発と、ドローン操作における認知タスクを評価するための初の専用ベンチマークの導入を含む。完全なリポジトリはcognitivedrone.github.ioで公開されている。

FLAME: ロボット操作のための連合学習ベンチマーク
FLAME: A Federated Learning Benchmark for Robotic Manipulation

Mar 3

BySantiago Bou Betran, Alberta Longhini, Miguel Vasco, Yuchong Zhang, Danica Kragic

ロボットマニピュレーションにおける最近の進展は、多様な環境で収集された大規模データセットによって推進されてきた。これらのデータセットを用いたロボットマニピュレーションポリシーの訓練は、従来、中央集権的な方法で行われており、スケーラビリティ、適応性、データプライバシーに関する懸念が生じている。一方、フェデレーテッドラーニングは分散型でプライバシーを保護する訓練を可能にするが、ロボットマニピュレーションへの応用はほとんど未開拓のままである。本論文では、ロボットマニピュレーションにおけるフェデレーテッドラーニングのための最初のベンチマークであるFLAME（Federated Learning Across Manipulation Environments）を紹介する。FLAMEは以下の要素で構成される：(i) 多様なシミュレーション環境で収集された、複数のマニピュレーションタスクに関する16万件以上のエキスパートデモンストレーションを含む大規模データセット、(ii) フェデレーテッド設定におけるロボットポリシー学習のための訓練および評価フレームワーク。我々はFLAMEにおいて標準的なフェデレーテッドラーニングアルゴリズムを評価し、分散ポリシー学習の可能性を示すとともに、主要な課題を明らかにする。本ベンチマークは、スケーラブルで適応的かつプライバシーを考慮したロボット学習の基盤を確立するものである。

信頼性と効率性を兼ね備えたグラフニューラルネットワークによるマルチエージェント協調変分オートエンコーダ
Reliable and Efficient Multi-Agent Coordination via Graph Neural Network Variational Autoencoders

Mar 4

ByYue Meng, Nathalie Majcherczyk, Wenliang Liu, Scott Kiesel, Chuchu Fan, Federico Pecora

マルチエージェント協調は、自動化倉庫などの共有空間における信頼性の高いマルチロボットナビゲーションにおいて極めて重要です。ロボットの交通密度が高い領域では、局所的な協調手法ではデッドロックのない解決策を見つけられない場合があります。このようなシナリオでは、中央ユニットがロボットの通過順序を決定するグローバルスケジュールを生成することが適切です。しかし、このような集中型協調手法の実行時間は問題の規模に応じて大幅に増加します。本論文では、Graph Neural Network Variational Autoencoder（GNN-VAE）を活用して、集中型最適化よりも高速に大規模なマルチエージェント協調問題を解決することを提案します。協調問題をグラフ問題として定式化し、Mixed-Integer Linear Program（MILP）ソルバーを使用してグラウンドトゥルースデータを収集します。トレーニング中、我々の学習フレームワークはグラフ問題の高品質な解決策を潜在空間にエンコードします。推論時には、サンプリングされた潜在変数から解決策サンプルをデコードし、最低コストのサンプルを協調のために選択します。最後に、最高のパフォーマンス指標を持つ実行可能な提案が展開のために選択されます。構成的に、我々のGNN-VAEフレームワークは、考慮された協調問題の制約を常に尊重する解決策を返します。数値結果は、小規模問題でトレーニングされた我々のアプローチが、250台のロボットを伴う大規模問題に対しても高品質な解決策を達成できることを示しており、他のベースラインよりもはるかに高速です。プロジェクトページ: https://mengyuest.github.io/gnn-vae-coord

大規模言語モデルを用いた多言語ソフトウェア脆弱性検出のベンチマーキング
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo

近年の生成AIの進歩により、大規模言語モデル（LLMs）がソフトウェア工学において広く採用され、多くの長年の課題に対処されています。しかし、ソフトウェアセキュリティの重要な側面であるソフトウェア脆弱性検出（SVD）におけるLLMsの能力を包括的に検証する研究は、現在不足しています。既存の研究は主にC/C++データセットを使用してLLMsを評価しており、オープンソースのLLMsに対してプロンプトエンジニアリング、指示チューニング、シーケンス分類ファインチューニングのうち1つまたは2つの戦略のみを探求しています。その結果、さまざまなプログラミング言語における脆弱性検出における多様なLLMsの有効性に関する知識のギャップが大きくなっています。この知識のギャップを埋めるため、我々はSVDタスクにおけるLLMsの性能を評価する包括的な実証研究を提示します。我々は、Pythonの8,260件、Javaの7,505件、JavaScriptの28,983件の脆弱な関数を含む包括的なデータセットを構築しました。プロンプトエンジニアリング、指示チューニング、シーケンス分類ファインチューニングを含む複数のアプローチを使用して、5つのオープンソースLLMsを評価します。これらのLLMsは、5つのファインチューニングされた小規模言語モデルと2つのオープンソースの静的アプリケーションセキュリティテストツールに対してベンチマークされます。さらに、SVDにおけるLLMsの性能を向上させるための2つの方法を探求します：a) データの観点：ダウンサンプリングされたバランスの取れたデータセットを使用してモデルを再トレーニングする。b) モデルの観点：複数のLLMsからの予測を組み合わせるアンサンブル学習手法を調査する。我々の包括的な実験により、SVDはLLMsにとって依然として困難なタスクであることが示されています。本研究は、SVDにおけるLLMsの役割を徹底的に理解し、生成AIを活用してソフトウェアセキュリティプラクティスを強化するための将来の進歩に向けた実践的な洞察を提供します。

検索モデルはツール操作に不慣れ：大規模言語モデルのためのツール検索ベンチマーク
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

Mar 3

ByZhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren

ツール学習は、大規模言語モデル（LLM）に多様なツールを組み込むことで、実用的なタスクを解決するエージェントとして機能させることを目指しています。ツール利用型LLMのコンテキスト長が限られているため、大規模なツールセットから有用なツールを選択するために情報検索（IR）モデルを採用することが重要な初期ステップです。しかし、ツール検索タスクにおけるIRモデルの性能は未解明であり、不明瞭です。ほとんどのツール利用ベンチマークでは、各タスクに関連する少数のツールを手動で事前に注釈付けすることでこのステップを簡略化しており、これは現実のシナリオとはかけ離れています。本論文では、既存のデータセットから収集した43kのツールを含む7.6kの多様な検索タスクからなる異種ツール検索ベンチマーク「ToolRet」を提案します。ToolRetにおいて6種類のモデルをベンチマークしました。驚くべきことに、従来のIRベンチマークで強力な性能を示すモデルでさえ、ToolRetでは低い性能しか発揮しませんでした。この低い検索品質は、ツール利用型LLMのタスク通過率を低下させます。さらに、200k以上のインスタンスを含む大規模なトレーニングデータセットを提供し、IRモデルのツール検索能力を大幅に最適化しました。

SwiLTra-Bench：スイス法務翻訳ベンチマーク
SwiLTra-Bench: The Swiss Legal Translation Benchmark

Mar 3

ByJoel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen

スイスでは、4つの公用語と多言語での法的文書作成が求められることから、法律翻訳が特に重要です。しかし、このプロセスは伝統的に、法律の専門知識と翻訳スキルの両方を兼ね備えた専門家に依存しており、ボトルネックが生じ、司法への効果的なアクセスに影響を与えています。この課題に対処するため、私たちはSwiLTra-Benchを紹介します。これは、スイスのすべての言語と英語を含む、法律、判例要旨、プレスリリースからなる18万以上の整列したスイス法律翻訳ペアを網羅した包括的な多言語ベンチマークで、LLMベースの翻訳システムを評価するために設計されています。私たちの体系的な評価により、最先端モデルがすべての文書タイプで優れた翻訳性能を達成する一方で、専門の翻訳システムは法律において特に優れているものの、判例要旨では性能が低いことが明らかになりました。厳密なテストと人間の専門家による検証を通じて、オープンなSLMをファインチューニングすることで翻訳品質が大幅に向上するものの、Claude-3.5-Sonnetのような最高のゼロショットプロンプト付き最先端モデルにはまだ及ばないことを示しました。さらに、人間の専門家の評価に最も適合する専門のLLM評価システムであるSwiLTra-Judgeを紹介します。

シグナル時相論理を用いた多様な制御可能な拡散ポリシー
Diverse Controllable Diffusion Policy with Signal Temporal Logic

Mar 4

ByYue Meng, Chuchu fan

現実的なシミュレーションの生成は、自動運転や人間-ロボットインタラクションなどの自律システムアプリケーションにおいて極めて重要です。しかし、現在のドライビングシミュレータは、道路参加者の制御可能で多様かつルールに準拠した行動を生成するのに依然として困難を抱えています。ルールベースのモデルは多様な行動を生成できず、慎重な調整を必要とします。一方、学習ベースの手法はデータからポリシーを模倣しますが、明示的にルールに従うよう設計されていません。さらに、現実世界のデータセットは本質的に「単一結果」であるため、学習手法が多様な行動を生成するのが難しくなります。本論文では、Signal Temporal Logic（STL）とDiffusion Modelsを活用して、制御可能で多様かつルールを意識したポリシーを学習します。まず、現実世界のデータに基づいてSTLを較正し、次に軌道最適化を用いて多様な合成データを生成し、最後に拡張されたデータセット上で修正されたDiffusionポリシーを学習します。NuScenesデータセットでテストを行った結果、他のベースラインと比較して、最も多様でルールに準拠した軌道を達成でき、ランタイムは2番目に優れた手法の1/17倍でした。クローズドループテストでは、最高の多様性、ルール満足率、および最小の衝突率を達成しました。本手法は、テスト中に異なるSTLパラメータに基づいて多様な特性を生成できます。人間-ロボット遭遇シナリオのケーススタディでは、本手法が多様でオラクルに近い軌道を生成できることが示されました。アノテーションツール、拡張データセット、およびコードはhttps://github.com/mengyuest/pSTL-diffusion-policyで公開されています。

インタラクト、指示して改善：自律走行車のインタラクションを強化するためのLLM駆動型並列アクター・リーズナーフレームワーク
Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions

Mar 1

ByShiyu Fang, Jiaqi Liu, Chengkai Xu, Chen Lv, Peng Hang, Jian Sun

自動運転車（AV）は商用化段階に入りましたが、人間が運転する車両（HV）との相互作用や意図の表明能力が限られているため、依然として課題が残っています。大規模言語モデル（LLM）の最近の進展により、双方向の人間と機械のコミュニケーションが可能になりましたが、推論速度の遅さとリアルタイム意思決定の必要性との矛盾が実用化の障壁となっています。これらの課題に対処するため、本論文では、複数のシナリオにおける明示的なAV-HV双方向相互作用を可能にする並列型Actor-Reasonerフレームワークを提案します。まず、LLM駆動のReasonerと異種のシミュレートされたHVとの相互作用を訓練中に促進することで、Actorと呼ばれる相互作用メモリデータベースを確立します。次に、メモリ分割モジュールと二層メモリ検索モジュールを導入することで、Actorの異種HV処理能力が大幅に向上します。アブレーションスタディや他の意思決定手法との比較により、提案されたActor-Reasonerフレームワークが安全性と効率性を大幅に向上させることが実証されています。最後に、Reasonerの推論から得られる外部ヒューマンマシンインターフェース（eHMI）情報とActorから検索された実行可能なアクションソリューションを組み合わせることで、提案されたActor-Reasonerの有効性が多シナリオフィールド相互作用で確認されました。私たちのコードはhttps://github.com/FanGShiYuu/Actor-Reasonerで公開されています。

大規模言語モデルを用いた多言語ソフトウェア脆弱性検出のベンチマーキング
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo