AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ProRL: 長期強化学習が大規模言語モデルの推論能力の境界を拡張
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

May 30

ByMingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

143

推論中心の言語モデルにおける最近の進展は、検証可能な報酬とモデルを整合させるための有望な手法として、強化学習（RL）に注目を集めています。しかし、RLが実際にモデルの推論能力を拡張するのか、それともベースモデルの分布に既に潜在している高報酬の出力を単に増幅するだけなのか、そしてRLの計算リソースを継続的に拡大することが確実に推論性能の向上につながるのかについては、依然として議論の余地があります。本研究では、従来の仮定に挑戦し、長時間にわたるRL（ProRL）トレーニングが、ベースモデルではアクセスできない新しい推論戦略を発見できることを実証します。ProRLは、KLダイバージェンス制御、参照ポリシーのリセット、多様なタスクスイートを組み込んだ新しいトレーニング手法です。我々の実証分析により、RLでトレーニングされたモデルが、pass@k評価の広範な範囲でベースモデルを一貫して上回ることが明らかになりました。これは、ベースモデルが試行回数に関わらず完全に失敗するシナリオにおいても同様です。さらに、推論境界の改善は、ベースモデルのタスク能力とトレーニング期間と強く相関しており、RLが時間の経過とともに新しい解空間の領域を探索し、埋め尽くすことができることを示唆しています。これらの発見は、RLが言語モデルの推論境界を意味的に拡張する条件についての新たな洞察を提供し、推論のための長期的なRLに関する将来の研究の基盤を確立します。我々は、さらなる研究を支援するためにモデルの重みを公開します: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

AlphaOne: テスト時に遅い思考と速い思考を推論するモデル
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

May 30

ByJunyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang

本論文では、大規模推論モデル（LRM）における推論進行をテスト時に調整するための汎用フレームワークであるAlphaOne（alpha1）を提案する。alpha1はまず、スケーリングされた思考段階を普遍的なパラメータalphaで表すalpha momentを導入する。このスケーリングされたpre-alpha moment段階内で、推論遷移トークンの挿入をベルヌーイ確率過程としてモデル化し、遅い思考から速い思考への遷移を動的にスケジュールする。alpha momentの後、alpha1はend-of-thinkingトークンを用いて遅い思考を決定論的に終了させ、迅速な推論と効率的な回答生成を促進する。このアプローチは、柔軟かつ密な遅い思考から速い思考への調整を可能にすることで、既存の単調スケーリング手法を統一し、一般化する。数学、コーディング、科学分野にわたる様々な挑戦的なベンチマークでの広範な実証研究により、alpha1の優れた推論能力と効率性が示されている。プロジェクトページ: https://alphaone-project.github.io/

時間認識の欠如：なぜビデオ言語モデルは人間が見えるものが見えないのか？
Time Blindness: Why Video-Language Models Can't See What Humans Can?

May 30

ByUjjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny

近年の視覚言語モデル（VLM）は、ビデオにおける時空間関係の理解において目覚ましい進歩を遂げてきました。しかし、空間情報が不明瞭な場合、これらのモデルは純粋な時間的パターンを捉えるのに苦労します。本論文では、生物学的シグナリングから秘密通信まで、自然現象を模倣したノイズのようなフレームの時間的シーケンスにのみ情報がエンコードされたベンチマーク「SpookyBench」を紹介します。興味深いことに、人間はこれらのシーケンスにおいて形状、テキスト、パターンを98%以上の精度で認識できるのに対し、最先端のVLMの精度は0%に留まります。この性能差は、フレームレベルの空間的特徴への過度な依存と、時間的キューから意味を抽出できないという重大な限界を浮き彫りにしています。さらに、空間的な信号対雑音比（SNR）が低いデータセットで訓練された場合、モデルの時間的理解は人間の知覚よりも急速に劣化し、特に細かい時間的推論を必要とするタスクにおいてその傾向が顕著です。この限界を克服するには、空間的依存性を時間的処理から切り離す新しいアーキテクチャや訓練パラダイムが必要となります。我々の体系的な分析は、この問題がモデルの規模やアーキテクチャを問わず持続することを示しています。我々は、時間的パターン認識の研究を促進し、人間と機械のビデオ理解のギャップを埋めるためにSpookyBenchを公開しました。データセットとコードはプロジェクトウェブサイト（https://timeblindness.github.io/）で公開されています。

データ合成のための大規模言語モデル
Large Language Models for Data Synthesis

May 20

ByYihong Tang, Menglin Kong, Lijun Sun

現実世界の分布の統計的構造を忠実に捉えた合成データを生成することは、データモデリングにおける根本的な課題である。従来のアプローチは、強力なパラメトリックな仮定や手動による構造設計に依存することが多く、高次元や異種混合の領域では困難を抱えている。大規模言語モデル（LLM）の最近の進展は、現実世界の分布に対する柔軟で高次元な事前分布としての可能性を示している。しかし、データ合成に適用する場合、標準的なLLMベースのサンプリングは非効率的で、固定されたコンテキスト制限に縛られ、統計的な整合性を保証できない。この問題を踏まえ、我々はLLMSynthorを導入する。これは、LLMを分布フィードバックに基づいた構造認識シミュレータに変換する、データ合成のための汎用フレームワークである。LLMSynthorは、LLMを高次依存性をモデル化するためのノンパラメトリックなコピュラシミュレータとして扱い、LLM提案サンプリングを導入して、棄却を必要とせずにサンプリング効率を向上させる根拠のある提案分布を生成する。要約統計量空間における不一致を最小化することにより、反復的な合成ループは実データと合成データを整合させながら、潜在的な生成構造を徐々に明らかにし、洗練していく。我々は、プライバシーに敏感な領域（例：eコマース、人口統計、移動データ）における構造化および非構造化形式を含む異種混合データセットを用いて、LLMSynthorを制御された環境および実世界の設定で評価する。LLMSynthorが生成する合成データは、高い統計的忠実度、実用的な有用性、およびデータ間の適応性を示し、経済学、社会科学、都市研究をはじめとする幅広い分野で貴重なツールとして位置づけられる。

HardTests: LLMコーディング向け高品質テストケースの合成
HardTests: Synthesizing High-Quality Test Cases for LLM Coding

May 30

ByZhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li

検証器は大規模言語モデル（LLM）の推論において重要な役割を果たし、強化学習などのポストトレーニング技術に必要とされます。しかし、難易度の高いコーディング問題に対して信頼性の高い検証器を入手することは困難です。なぜなら、巧妙に偽装された誤った解決策は、慎重に人間が作成したエッジケースによってのみ検出されることが多く、そのようなケースを合成するのは難しいからです。この問題に対処するため、我々はLLMを利用した高品質なテスト合成のためのパイプライン「HARDTESTGEN」を提案します。このパイプラインを用いて、47,000の問題と合成された高品質なテストを含む包括的な競技プログラミングデータセット「HARDTESTS」をキュレーションしました。既存のテストと比較して、HARDTESTGENのテストは、LLMが生成したコードを評価する際に、精度が11.3ポイント、再現率が17.5ポイント高くなりました。より難しい問題では、精度の向上が40ポイントに達することもあります。また、HARDTESTSは、下流のコード生成性能を測定することで、モデルのトレーニングにおいてもより効果的であることが証明されました。我々は、このデータセットと合成パイプラインをhttps://leililab.github.io/HardTests/でオープンソースとして公開する予定です。

一度だけ見るな：選択的視覚再訪によるマルチモーダル対話型推論に向けて
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

May 24

ByJiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu

我々は、推論中に選択的な視覚的再訪を可能にする、マルチモーダル大規模言語モデル（MLLMs）に対する軽量な拡張であるv1を提案する。現在のMLLMsは通常、視覚入力を一度だけ消費し、内部メモリのみに基づいて推論を行うが、v1は、モデルが推論プロセス全体を通じて関連する画像領域を動的に取得できるようにするシンプルなポイント・アンド・コピー機構を導入する。この機構は、既存のアーキテクチャに最小限の変更を加えることで、モデルの進化する仮説に基づいて視覚トークンに文脈的にアクセスできるようにする。この能力を訓練するために、我々は、視覚的グラウンディング注釈が交互に配置された30万のマルチモーダル推論トレースからなるデータセットv1gを構築した。MathVista、MathVision、MathVerseという3つのマルチモーダル数学推論ベンチマークでの実験により、v1が比較可能なベースラインを一貫して上回り、特に細かい視覚的参照と多段階の推論を必要とするタスクにおいて性能が向上することが示された。我々の結果は、動的な視覚的アクセスが、グラウンディングされたマルチモーダル推論を強化するための有望な方向性であることを示唆している。コード、モデル、データは、将来の研究を支援するために公開される予定である。

ViStoryBench：ストーリー可視化のための包括的ベンチマークスイート
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

May 30

ByCailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang

ストーリービジュアライゼーションは、与えられた物語と参照画像に沿った視覚的に一貫性のある画像シーケンスを生成することを目的としており、最近の生成モデルの進歩により大きな進展を遂げています。現実世界のシナリオにおけるストーリービジュアライゼーションフレームワークの性能をさらに向上させるため、我々は包括的な評価ベンチマーク「ViStoryBench」を導入します。我々は、さまざまなストーリータイプと芸術的スタイルを網羅した多様なデータセットを収集し、モデルが異なるプロット（例：コメディ、ホラー）や視覚的美学（例：アニメ、3Dレンダリング）といった複数の次元で評価されることを保証します。ViStoryBenchは、物語構造と視覚的要素のバランスを慎重に考慮しており、単一および複数の主人公を持つストーリーを特徴とし、モデルのキャラクター一貫性を維持する能力をテストします。さらに、複雑なプロットと緻密な世界構築を含めることで、モデルが正確な視覚的表現を生成する能力に挑戦します。包括的な比較を確保するため、我々のベンチマークは重要な側面を評価する幅広い評価指標を組み込んでいます。この構造化され多面的なフレームワークにより、研究者は異なるモデルの強みと弱みを徹底的に特定し、ターゲットを絞った改善を促進することができます。

DINO-R1：視覚基盤モデルにおける推論能力の促進
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29

ByChenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren

近年、DeepSeek-R1などの大規模言語モデルの推論能力に対する爆発的な関心が高まっており、強化学習ベースのファインチューニングフレームワーク（例えば、Group Relative Policy Optimization (GRPO) のような手法）を通じて顕著な成功が示されている。しかし、そのような推論能力は、DINOシリーズなどの表現モデルを含む視覚基盤モデルにおいては未開拓であり、特に欠如している。本研究では、強化学習を用いて視覚基盤モデルの視覚的文脈内推論能力を促進する初の試みとして、DINO-R1を提案する。具体的には、DINO-R1は、クエリベースの表現モデルに特化して設計された新しい強化学習型トレーニング戦略であるGroup Relative Query Optimization (GRQO)を導入し、グループ正規化されたアライメント品質に基づいてクエリレベルの報酬を計算する。また、KL正則化を適用してオブジェクト性分布を安定化し、トレーニングの不安定性を低減する。この共同最適化により、クエリ間で密接かつ表現力のある監視を可能にしつつ、過学習と分布のドリフトを緩和する。Grounding-DINOを基盤として、視覚プロンプトエンコーダと視覚誘導クエリ選択メカニズムを統合した一連のDINO-R1ファミリーモデルをトレーニングする。COCO、LVIS、ODinWにおける広範な実験により、DINO-R1が教師ありファインチューニングのベースラインを大幅に上回り、オープン語彙およびクローズドセットの視覚プロンプトシナリオにおいて強力な汎化性能を達成することが実証された。

EXP-Bench: AIはAI研究実験を遂行できるか？
EXP-Bench: Can AI Conduct AI Research Experiments?

May 30

ByPatrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen

AI研究の自動化は科学的進歩を加速する大きな可能性を秘めているが、現在のAIエージェントは厳密なエンドツーエンドの実験の複雑さに対処するのに苦労している。本研究では、影響力のあるAI研究論文から抽出された完全な研究実験を基に、AIエージェントを体系的に評価するための新しいベンチマーク「EXP-Bench」を提案する。研究課題と不完全なスターターコードが与えられた場合、EXP-BenchはAIエージェントに対し、仮説を立て、実験手順を設計・実装し、実行し、結果を分析することを求める。このような複雑で現実的なタスクを高精度で作成するために、研究論文とその関連オープンソースコードから重要な実験詳細を抽出し、構造化する半自律的なパイプラインを設計した。このパイプラインを用いて、EXP-Benchは51のトップクラスのAI研究論文から461のAI研究タスクをキュレーションした。OpenHandsやIterativeAgentなどの主要なLLMベースのエージェントをEXP-Benchで評価した結果、設計や実装の正確性などの個々の実験側面のスコアが20～35％に達することはあるものの、完全に実行可能な実験の成功率はわずか0.5％であった。これらのボトルネックを特定し、現実的なステップバイステップの実験手順を提供することで、EXP-Benchは将来のAIエージェントがAI研究実験を遂行する能力を向上させるための重要なツールとして機能する。EXP-Benchはhttps://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_benchでオープンソースとして公開されている。

Open CaptchaWorld: マルチモーダルLLMエージェントのテストとベンチマークのための包括的なWebベースプラットフォーム
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

May 30

ByYaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen

CAPTCHAは、現実世界のアプリケーションにおいてウェブエージェントを展開する上で重大なボトルネックとなっており、エンドツーエンドの自動化タスクを完了することをしばしば阻んでいます。現代のマルチモーダルLLMエージェントは、静的な認識タスクにおいて印象的な性能を示していますが、CAPTCHAのようなインタラクティブで多段階の推論課題を処理する能力はほとんど検証されていません。このギャップを埋めるため、私たちはOpen CaptchaWorldを導入します。これは、多様で動的なCAPTCHAパズルを通じて、MLLMを搭載したエージェントの視覚的推論とインタラクション能力を評価するために特別に設計された初のウェブベースのベンチマークおよびプラットフォームです。私たちのベンチマークは、20種類の現代的なCAPTCHAタイプを網羅し、合計225のCAPTCHAを含み、それぞれに新しい指標であるCAPTCHA推論深度を付与しています。この指標は、各パズルを解くために必要な認知および運動ステップの数を定量化します。実験結果は、人間がほぼ完璧なスコアを一貫して達成する一方で、最先端のMLLMエージェントは大きく苦戦し、Browser-Use Openai-o3による成功率は最大でも40.0%であり、人間レベルの性能である93.3%を大きく下回っています。これは、Open CaptchaWorldが、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークであることを強調しています。コードとデータは以下のURLで利用可能です。

ビジョン言語モデルはバイアスを持つ
Vision Language Models are Biased

May 29

ByAn Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim

大規模言語モデル（LLMs）は、インターネットから膨大な量の事前知識を記憶しており、下流タスクにおいて役立つ一方で、その出力を誤ったまたは偏った答えに傾ける可能性があることで知られています。本研究では、一般的な主題に関する知識が、視覚言語モデル（VLMs）の標準的で客観的な視覚タスク（カウントや識別）における精度をどのように損なうかを検証します。最先端のVLMsは強いバイアスを示すことがわかりました（例えば、3本のストライプのアディダスロゴに4本目のストライプが追加されたことを認識できない）。7つの多様なドメイン（動物、ロゴ、チェス、ボードゲーム、錯視、パターングリッドなど）にわたるカウントタスク（例えば、アディダス風ロゴのストライプを数える）において、平均17.05%の精度しか達成しませんでした。主題名を記述したテキスト（例えば、「アディダス」）を反事実的画像に挿入すると、VLMの精度はさらに低下します。VLMsのバイアスは非常に強く、結果を再確認するよう指示したり、画像の詳細のみに基づいて回答するよう指示しても、カウント精度は平均でわずか+2ポイントしか向上しませんでした。本研究は、VLMsにおける興味深い失敗モードと、VLMのバイアスをテストする自動化されたフレームワークを提示します。コードとデータはvlmsarebiased.github.ioで公開されています。

MoDoMoDo: マルチモーダルLLM強化学習のためのマルチドメインデータ混合
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

May 30

ByYiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu

検証可能な報酬を用いた強化学習（Reinforcement Learning with Verifiable Rewards, RLVR）は、最近、大規模言語モデル（LLMs）のポストトレーニングにおける強力なパラダイムとして登場し、構造化された検証可能な回答を必要とするタスクにおいて最先端の性能を達成している。RLVRをマルチモーダルLLMs（MLLMs）に適用することは、視覚と言語のタスクの広範で異質な性質、特に視覚的、論理的、空間的な能力を必要とする複雑さによって困難を伴うが、大きな可能性を秘めている。したがって、複数のデータセットを用いてRLVRでMLLMsをトレーニングすることは有益であるが、異なるデータセット間の相互作用による目的の衝突が課題となり、汎化能力と推論能力を向上させるための最適なデータセット混合戦略の必要性が浮き彫りになる。本研究では、マルチモーダルLLM RLVRのための体系的なポストトレーニングフレームワークを提案し、厳密なデータ混合問題の定式化とベンチマーク実装を特徴とする。具体的には、(1) 異なる検証可能な視覚言語問題を含むデータセットをキュレーションし、異なる検証可能な報酬を用いたマルチドメインオンラインRL学習を可能にするマルチモーダルRLVRフレームワークを開発した。(2) データ混合分布からRLファインチューニングの結果を予測し、最適な混合を最適化するデータ混合戦略を提案した。包括的な実験により、混合予測戦略と組み合わせたマルチドメインRLVRトレーニングが、MLLMsの汎用的な推論能力を大幅に向上させることが示された。最適な混合戦略は、均一なデータ混合でポストトレーニングされたモデルと比較して、分布外ベンチマークにおける精度を平均5.24%向上させ、ファインチューニング前のベースラインと比較して合計20.74%向上させた。

CoDA: 関節物体の全身操作のための協調的拡散ノイズ最適化
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

May 27

ByHuaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura

全身を含む関節物体の操作（身体運動、手の運動、物体の運動）を合成することは、バーチャルヒューマンやロボティクスにおける幅広い応用において重要でありながらも困難な課題です。その核心的な課題は二つあります。第一に、現実的な全身運動を実現するためには、手と身体の他の部分の間の緊密な連携が必要です。なぜなら、操作中にそれらの動きは相互に依存しているからです。第二に、関節物体の操作は通常、高い自由度を伴い、より高い精度を要求します。多くの場合、可動部分を動作させるために指を特定の位置に配置する必要があります。これらの課題に対処するため、我々は新たな協調的拡散ノイズ最適化フレームワークを提案します。具体的には、身体、左手、右手それぞれの運動データセットで訓練された専用の拡散モデルに対して、ノイズ空間最適化を実行し、汎化性能を向上させます。人間の運動学的連鎖に沿った勾配流によって自然に連携が生まれ、手の運動目標に応じて全身姿勢が高忠実度で適応します。さらに、手と物体の相互作用の精度を向上させるため、基底点集合（BPS）に基づく統一的な表現を採用します。ここでは、エンドエフェクタの位置が、物体の形状に使用されるのと同じBPSまでの距離として符号化されます。この統一的な表現は、手と関節物体の部分間の微細な空間的関係を捉え、結果として得られる軌跡は拡散ノイズの最適化を導く目標として機能し、非常に正確な相互作用運動を生成します。我々は広範な実験を行い、本手法が運動の品質と物理的妥当性において既存の手法を上回り、物体姿勢制御、歩行と操作の同時実行、手のみのデータからの全身生成といった様々な能力を実現することを示しました。

EmergentTTS-Eval: モデル・アズ・ア・ジャッジを用いた複雑な韻律、表現力、言語的課題に対するTTSモデルの評価
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

May 29

ByRuskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola

Text-to-Speech（TTS）ベンチマークは、モデルがニュアンスや意味的に複雑なテキストをどれだけうまく処理できるかを捉えることができないことが多い。EmergentTTSを基盤として、我々はEmergentTTS-Evalを導入する。これは、感情、パラ言語、外国語、構文的複雑さ、複雑な発音（例：URL、数式）、質問という6つの挑戦的なTTSシナリオをカバーする包括的なベンチマークである。重要な点として、このフレームワークはテストケースの生成と評価の両方を自動化し、ベンチマークを容易に拡張可能にしている。人間が書いた少数のシードプロンプトから始めて、LLMを使用して特定の構造的、音声的、韻律的課題をターゲットに反復的に拡張し、1,645の多様なテストケースを生成した。さらに、モデルを審判として活用するアプローチを採用し、Large Audio Language Model（LALM）を使用して、表現された感情、韻律、イントネーション、発音の正確さなど、複数の次元で音声を評価する。我々は、11Labs、Deepgram、OpenAIの4o-mini-TTSなど、最先端のオープンソースおよびプロプライエタリなTTSシステムをEmergentTTS-Evalで評価し、その細かい性能差を明らかにする能力を示した。結果は、モデルを審判とするアプローチが堅牢なTTS評価を提供し、人間の選好と高い相関を持つことを示している。評価コードとデータセットを公開している：https://github.com/boson-ai/EmergentTTS-Eval-public{コード} および https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{データセット}。

MetaFaith: 大規模言語モデルにおける自然言語の不確実性表現の忠実性
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

May 30

ByGabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan

LLMの信頼性における重要な要素は、不確実性の信頼できる伝達である。しかし、LLMは誤った主張を伝える際に断定的な言語を使用することが多く、これが過度の依存と信頼の低下を招いている。本研究では、LLMの忠実な信頼度較正に関する初の体系的な研究を提示し、モデルが内在的な不確実性を忠実に反映する不確実性の言語表現を使用する能力を、多様なモデル、データセット、プロンプト戦略にわたってベンチマークした。結果として、LLMはこのタスクにおいて大きく失敗しており、既存の介入策も不十分であることが明らかになった。標準的なプロンプトアプローチではわずかな改善しか得られず、既存の事実性に基づく較正技術はむしろ忠実な較正を損なう可能性さえある。この重要なギャップを埋めるため、人間のメタ認知に着想を得た新しいプロンプトベースの較正アプローチであるMetaFaithを導入する。MetaFaithは、多様なモデルとタスク領域にわたって忠実な較正を堅牢に改善し、忠実性において最大61%の向上を実現し、人間による評価において元の生成に対して83%の勝率を達成することを示す。

UniGeo: ビデオ拡散モデルを制御し統一的な一貫性のあるジオメトリ推定を実現
UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation

May 30

ByYang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi

近年、拡散モデルの事前知識を活用して単眼幾何推定（例えば深度や法線）を支援する手法が、その強力な汎化能力から注目を集めています。しかし、既存の研究の多くは、個々のビデオフレームのカメラ座標系内での幾何特性の推定に焦点を当てており、拡散モデルが持つフレーム間対応関係を決定する本質的な能力を無視しています。本研究では、適切な設計と微調整を通じて、ビデオ生成モデルの内在的な一貫性を、一貫した幾何推定に効果的に活用できることを示します。具体的には、1) ビデオフレームと同じ対応関係を持つグローバル座標系の幾何属性を予測対象として選択し、2) 位置エンコーディングを再利用する新規で効率的な条件付け手法を導入し、3) 同じ対応関係を共有する複数の幾何属性に対する共同学習を通じて性能を向上させます。我々の結果は、ビデオ内のグローバル幾何属性の予測において優れた性能を達成し、再構築タスクに直接適用可能です。静的ビデオデータのみで訓練された場合でも、本手法は動的ビデオシーンへの汎化の可能性を示しています。

大規模言語モデルは局所的に線形な写像である
Large Language Models are Locally Linear Mappings

May 30

ByJames R. Golden

いくつかのオープンウェイト大規模言語モデル（LLM）の推論操作が、モデルの重みを変更したり出力予測を変えたりすることなく、入力シーケンスに対して完全に等価な線形システムにマッピングできることを示します。局所的または区分的線形性を示す画像拡散モデルの技術を拡張し、次のトークン予測に対する入力シーケンスに関する勾配計算を戦略的に変更することで、モデルのヤコビ行列が線形システムでほぼ正確に前方予測を再現するようにします。このアプローチを複数のモデル（Llama 3、Gemma 3、Qwen 3、Phi 4、Mistral Ministral、OLMo 2、Llama 3.3 70B Q4まで）で実証し、分離されたヤコビ行列の特異値分解を通じて、これらのLLMが極めて低次元の部分空間で動作し、最大の特異ベクトルの多くが最も可能性の高い出力トークンに関連する概念をデコードすることを示します。このアプローチにより、各連続する層（およびその注意機構とMLPコンポーネント）の動作をほぼ正確な線形システムとして検証し、意味概念の出現を観察することも可能です。表現力とグローバルな非線形性にもかかわらず、現代のLLMは、ほぼ正確な局所的線形分解を通じて解釈可能であり、内部表現に関する洞察を提供し、次のトークン予測プロセスにおける解釈可能な意味構造を明らかにします。

EasyText: 多言語テキストレンダリングのための制御可能な拡散トランスフォーマー
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30

ByRunnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song

正確な多言語テキストを拡散モデルで生成することは長らく望まれてきたが、依然として課題が多い。最近の手法では単一言語でのテキストレンダリングに進展が見られるものの、任意の言語をレンダリングする領域は未開拓である。本論文では、DiT（Diffusion Transformer）に基づくテキストレンダリングフレームワーク「EasyText」を紹介する。これは、ノイズ除去潜在変数を文字トークンとしてエンコードされた多言語文字トークンと接続するものである。我々は、制御可能かつ精密なテキストレンダリングを実現するために、文字位置エンコーディングと位置エンコーディング補間技術を提案する。さらに、100万件の多言語画像-テキスト注釈を含む大規模な合成テキスト画像データセットと、2万件の高品質な注釈付き画像データセットを構築し、それぞれ事前学習と微調整に使用した。広範な実験と評価を通じて、我々の手法が多言語テキストレンダリング、視覚的品質、レイアウトを考慮したテキスト統合において有効かつ先進的であることを示す。

より多くの思考、より少ない視覚？マルチモーダル推論モデルにおける増幅された幻覚の評価
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

May 23

ByChengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu

テスト時の計算能力は、マルチモーダル大規模言語モデルに拡張された推論チェーンの生成を可能にし、マルチモーダル数学推論などのタスクで高いパフォーマンスを発揮しています。しかし、この推論能力の向上はしばしば幻覚（hallucination）の増加を伴います：生成が長くなるにつれて、モデルは画像に基づいた内容から離れ、言語の事前知識に依存する傾向が強まります。注意分析によると、長い推論チェーンは視覚的入力への焦点を減少させ、これが幻覚の一因となっています。この現象を体系的に研究するため、我々はRH-AUCという指標を導入しました。これは、モデルの知覚精度が推論の長さに応じてどのように変化するかを定量化し、推論中に視覚的基盤を保持しているかどうかを評価するものです。また、推論能力と幻覚のトレードオフを評価するために設計された、様々なマルチモーダルタスクを網羅する診断ベンチマークRH-Benchをリリースしました。我々の分析は、(i) より大きなモデルは通常、推論と知覚のバランスをより良く達成し、(ii) このバランスは訓練データの総量よりも、その種類やドメインに大きく影響されることを明らかにしています。これらの発見は、推論の質と知覚の忠実度を同時に考慮する評価フレームワークの重要性を強調しています。

CLaSp: 自己推論デコーディングのためのインコンテキスト層スキップ
CLaSp: In-Context Layer Skip for Self-Speculative Decoding

May 30

ByLongze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang

推測的デコード（Speculative Decoding, SD）は、大規模言語モデル（LLMs）のデコードプロセスを加速する有望な手法です。SDの効率性は、主にドラフトモデルと検証モデルの一貫性に依存します。しかし、既存のドラフト手法では、通常、追加のモジュールを訓練する必要があり、これは実装が難しく、さまざまなLLMs間での互換性を確保することが課題となります。本論文では、自己推測的デコードのための文脈内レイヤースキップ戦略であるCLaSpを提案します。従来の手法とは異なり、CLaSpは追加のドラフトモジュールや追加の訓練を必要としません。代わりに、検証モデルの中間レイヤーをスキップすることで、圧縮されたドラフトモデルを構築するプラグアンドプレイメカニズムを採用します。具体的には、前回の検証段階からの完全な隠れ状態を目的関数として活用し、レイヤースキッププロセスを最適化する動的計画法アルゴリズムを開発しました。これにより、CLaSpは事前に最適化されたスキップレイヤーのセットに依存することなく、各検証段階後にレイヤースキップ戦略を動的に調整できます。多様な下流タスクでの実験結果は、CLaSpがLLaMA3シリーズモデルにおいて、生成テキストの元の分布を変更することなく、1.3倍から1.7倍の高速化を達成することを示しています。

ReasonGen-R1：SFTとRLによる自己回帰型画像生成モデルのための連鎖的思考（CoT）
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

May 30

ByYu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu

連鎖的思考推論と強化学習（RL）はNLP分野でブレークスルーをもたらしてきたが、これらの生成型視覚モデルへの統合はまだ十分に探究されていない。本論文では、ReasonGen-R1という2段階のフレームワークを紹介する。このフレームワークは、まず新たに生成された推論データセット（書かれた根拠を含む）を用いた教師ありファインチューニングを通じて、自己回帰型画像生成器に明示的なテキストベースの「思考」スキルを付与し、その後Group Relative Policy Optimizationを用いてその出力を洗練させる。モデルが画像を生成する前にテキストを通じて推論できるようにするため、視覚的プロンプトとペアになったモデル生成の根拠コーパスを自動生成し公開する。これにより、オブジェクトのレイアウト、スタイル、シーン構成の制御された計画が可能となる。我々のGRPOアルゴリズムは、事前学習済みの視覚言語モデルからの報酬信号を使用して全体的な視覚的品質を評価し、各更新でポリシーを最適化する。GenEval、DPG、およびT2Iベンチマークでの評価により、ReasonGen-R1が強力なベースラインや従来の最先端モデルを一貫して上回ることが実証された。詳細はaka.ms/reasongenを参照。

DexUMI: 人間の手をユニバーサル操作インターフェースとして活用した器用な操作の実現
DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

May 28

ByMengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song

我々はDexUMIを提案する。これは、人間の手を自然なインターフェースとして利用し、器用な操作スキルを様々なロボットハンドに転送するデータ収集とポリシー学習のフレームワークである。DexUMIは、人間の手と様々なロボットハンド間のエンボディメントギャップを最小化するためのハードウェアおよびソフトウェアの適応を含む。ハードウェア適応では、ウェアラブルなハンドエクソスケルトンを使用してキネマティクスのギャップを橋渡しする。これにより、操作データ収集における直接的な触覚フィードバックを可能にし、人間の動きを実現可能なロボットハンドの動きに適応させる。ソフトウェア適応では、ビデオデータ内の人間の手を高精細なロボットハンドのインペインティングで置き換えることで、視覚的なギャップを橋渡しする。我々は、2つの異なる器用なロボットハンドハードウェアプラットフォームでの包括的な実世界実験を通じてDexUMIの能力を実証し、平均タスク成功率86%を達成した。

マルチモーダル大規模言語モデルにおけるモダリティ選好の評価と制御
Evaluating and Steering Modality Preferences in Multimodal Large Language Model

May 27

ByYu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang

マルチモーダル大規模言語モデル（MLLMs）は、複雑なマルチモーダルコンテキストを伴うタスクにおいて顕著な性能を発揮している。しかし、マルチモーダルコンテキストを処理する際にモダリティ選好を示すかどうかについては、まだ十分に研究されていない。この問題を研究するため、我々はまず、制御された証拠競合シナリオの下でMC\textsuperscript{2}ベンチマークを構築し、モダリティ選好（マルチモーダルな競合証拠に基づいて意思決定を行う際に、あるモダリティを他よりも優先する傾向）を体系的に評価した。広範な評価の結果、テストされた18のMLLMsのすべてが一般的に明確なモダリティバイアスを示し、モダリティ選好は外部介入によって影響を受けることが明らかになった。詳細な分析により、選好の方向性はMLLMsの潜在表現内で捕捉可能であることが示された。これに基づき、追加のファインチューニングや入念に設計されたプロンプトを必要とせずに、モダリティ選好を明示的に制御するための表現エンジニアリングに基づくプロービングおよびステアリング手法を提案する。我々の手法は、望ましい方向へのモダリティ選好を効果的に増幅し、幻覚緩和やマルチモーダル機械翻訳などの下流タスクに適用され、有望な改善をもたらす。

フォークマージデコーディング：音声視覚大規模言語モデルにおけるマルチモーダル理解の向上
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models

May 27

ByChaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung

本研究の目的は、追加の学習を必要とせずにモダリティバイアスを解消することで、音声-視覚大規模言語モデル（AV-LLMs）におけるバランスの取れたマルチモーダル理解を向上させることである。現在のAV-LLMsでは、音声と視覚の特徴は通常、デコーダで共同処理される。この戦略は統一されたマルチモーダル理解を促進するが、不均衡な学習信号により、モデルが一つのモダリティに過度に依存するモダリティバイアスを引き起こす可能性がある。これを緩和するため、追加の学習やアーキテクチャの変更を必要としない、推論時のシンプルかつ効果的な戦略であるFork-Merge Decoding（FMD）を提案する。FMDは、まず初期のデコーダ層で音声のみおよび視覚のみの入力を処理することでモダリティ固有の推論を行い（フォークフェーズ）、その後、残りの層で得られた隠れ状態を統合して共同推論を行う（マージフェーズ）。このアプローチは、モダリティ間のバランスの取れた貢献を促進し、モダリティ間の補完的な情報を活用する。我々は、代表的なAV-LLMsであるVideoLLaMA2とvideo-SALMONNを用いて、3つのベンチマークデータセットで本手法を評価した。実験結果は、音声、視覚、および音声-視覚の統合推論に焦点を当てたタスクにおいて、一貫した性能向上を示し、推論時の介入が堅牢なマルチモーダル理解に有効であることを実証している。

ChARM: 高度なロールプレイング言語エージェントのためのキャラクターベース・アクション適応型報酬モデリング
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

May 29

ByFeiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li

ロールプレイング言語エージェント（RPLAs）は、現実的で魅力的な人間とコンピュータの相互作用をシミュレートすることを目的としています。しかし、従来の報酬モデルは、スケーラビリティや主観的な会話の嗜好への適応に課題を抱えています。本論文では、これらの課題に対処するため、ChARM（Character-based Act-adaptive Reward Model）を提案します。ChARMは、以下の2つの革新を通じてこれらの課題を解決します：(1) 学習効率と汎化性能を大幅に向上させるアクティブ適応マージン、(2) 大規模な未ラベルデータを活用してトレーニングのカバレッジを改善する自己進化メカニズム。さらに、RPLAs専用の初の大規模嗜好データセットであるRoleplayPrefを導入します。このデータセットは、1,108のキャラクター、13のサブカテゴリー、および16,888の二言語対話を特徴とし、専用の評価ベンチマークであるRoleplayEvalも提供します。実験結果は、従来のBradley-Terryモデルと比較して嗜好ランキングで13%の改善を示しています。さらに、ChARMによって生成された報酬を嗜好学習技術（例：直接嗜好最適化）に適用することで、CharacterEvalおよびRoleplayEvalにおいて最先端の結果を達成しました。コードとデータセットはhttps://github.com/calubkk/ChARMで公開されています。

負の信号の活用：LLM推論のための教師データからの強化学習蒸留
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

May 30

ByShuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi

近年のモデル蒸留の進展により、高度な推論モデル（例：DeepSeek-R1、OpenAIのo1）からのデータが、複雑な推論能力をより小さく効率的な学生モデルに効果的に転移できることが示されている。しかし、標準的な手法ではリジェクトサンプリングが採用され、誤った推論例が破棄されている。これらの例は貴重なデータであるにもかかわらず、十分に活用されていない。本論文では、オフライン設定において、LLMの推論性能を最大化するために、正例と負例の両方の蒸留推論トレースをどのように効果的に活用できるかという重要な問いに取り組む。この目的のために、我々はReinforcement Distillation（REDI）という2段階のフレームワークを提案する。第1段階では、正例のトレースから教師あり微調整（SFT）を通じて学習を行う。第2段階では、提案するREDI目的関数を用いて、正例と負例の両方のトレースを活用してモデルをさらに洗練させる。この新しい目的関数は、シンプルで参照不要な損失関数であり、この蒸留の文脈において、DPOやSimPOなどの既存の手法を凌駕する。我々の実験的評価は、数学的推論タスクにおいて、REDIがベースラインのリジェクトサンプリングSFTやSFTとDPO/SimPOを組み合わせた手法を上回ることを示している。特に、Open-R1データセットからのわずか131kの正例と負例を用いてポストトレーニングされたQwen-REDI-1.5Bモデルは、MATH-500（pass@1）で83.1%のスコアを達成した。その性能は、800kのプロプライエタリデータを用いてポストトレーニングされたDeepSeek-R1-Distill-Qwen-1.5Bモデルと同等またはそれを上回り、公開されているデータを用いてオフラインでポストトレーニングされた1.5Bモデルの新たな最先端を確立した。

大規模言語モデルのためのロールプレイング評価
Role-Playing Evaluation for Large Language Models

May 19

ByYassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter

大規模言語モデル（LLMs）は、人物像を採用し、ロールプレイに参加する能力において顕著な性能を示します。しかし、この能力を評価することは大きな課題を伴います。人間による評価はリソースを要し、自動化された評価は偏りが生じる可能性があるためです。この問題に対処するため、我々はRole-Playing Eval（RPEval）という新しいベンチマークを導入しました。RPEvalは、感情理解、意思決定、道徳的整合性、キャラクター一貫性という4つの主要な次元にわたってLLMのロールプレイ能力を評価するように設計されています。本稿では、RPEvalの構築について詳細に説明し、ベースライン評価を提示します。コードとデータセットはhttps://github.com/yelboudouri/RPEvalで公開されています。

大規模言語モデルを活用した科学的な新規性検出
Harnessing Large Language Models for Scientific Novelty Detection

May 30

ByYan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria

科学が指数関数的に成長する時代において、学術界では新規性のある研究アイデアを特定することが重要でありながらも困難な課題となっています。潜在的な可能性があるにもかかわらず、適切なベンチマークデータセットの欠如が、新規性検出の研究を妨げています。さらに重要なことに、既存の自然言語処理（NLP）技術、例えば検索してクロスチェックするといった手法を単純に採用することは、テキストの類似性とアイデアの概念化の間にあるギャップのために万能の解決策とはなり得ません。本論文では、大規模言語モデル（LLMs）を活用して科学的な新規性検出（Novelty Detection, ND）を行うことを提案し、マーケティングとNLPの分野における2つの新しいデータセットを関連付けます。NDのための適切なデータセットを構築するために、論文の関係性に基づいてクロージャセットを抽出し、LLMsに基づいてそれらの主要なアイデアを要約することを提案します。アイデアの概念化を捉えるために、LLMsからアイデアレベルの知識を蒸留して軽量な検索器を訓練し、類似した概念化を持つアイデアを整合させることで、LLMによる新規性検出のための効率的かつ正確なアイデア検索を可能にします。実験結果は、提案されたベンチマークデータセットにおいて、アイデア検索とNDタスクにおいて我々の手法が他の手法を一貫して上回ることを示しています。コードとデータはhttps://anonymous.4open.science/r/NoveltyDetection-10FB/で公開されています。

Point-MoE：エキスパートの混合による3Dセマンティックセグメンテーションのクロスドメイン汎化に向けて
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

May 29

ByXuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng

スケーリング則が自然言語処理やコンピュータビジョンを変革してきた一方で、3Dポイントクラウド理解はまだその段階に達していない。これは、3Dデータセットの比較的小さな規模と、データ自体の多様なソースに起因している。ポイントクラウドは、深度カメラやLiDARなどの多様なセンサーによって、屋内や屋外などさまざまな領域で捕捉され、それぞれが独自のスキャンパターン、サンプリング密度、および意味的バイアスを導入する。このような領域の異質性は、特に推論時に領域ラベルが通常アクセスできないという現実的な制約の下で、大規模な統一モデルの訓練に対する主要な障壁となっている。本研究では、3D知覚における大規模なクロスドメイン汎化を可能にするために設計されたMixture-of-ExpertsアーキテクチャであるPoint-MoEを提案する。混合ドメインデータで訓練された標準的なポイントクラウドバックボーンが性能を大幅に低下させるのに対し、単純なtop-kルーティング戦略を用いたPoint-MoEは、領域ラベルにアクセスしなくても専門家を自動的に特化させることができることを示す。我々の実験では、Point-MoEが強力なマルチドメインベースラインを上回るだけでなく、未見の領域に対してもより良い汎化性能を示すことを実証している。この研究は、3D理解のためのスケーラブルな道筋を示している：手動のキュレーションやドメイン監視を通じて構造を課すのではなく、モデルに多様な3Dデータの構造を発見させることである。

SiLVR: シンプルな言語ベースのビデオ推論フレームワーク
SiLVR: A Simple Language-based Video Reasoning Framework

May 30

ByCe Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius

近年のテスト時最適化の進展により、大規模言語モデル（LLMs）の推論能力が著しく向上し、数学やコーディングにおける高度に複雑な問題を解決できるようになりました。しかし、マルチモーダルLLMs（MLLMs）の推論能力は依然として大きく遅れており、特に複雑なビデオ言語タスクにおいて顕著です。この問題に対処するため、我々はSiLVR（Simple Language-based Video Reasoning）を提案します。これは、複雑なビデオ理解を2段階に分解するフレームワークです。第1段階では、SiLVRは短いクリップのキャプションや音声/スピーチの字幕などのマルチセンサリー入力を使用して、生のビデオを言語ベースの表現に変換します。第2段階では、言語記述を強力な推論LLMに供給し、複雑なビデオ言語理解タスクを解決します。長文脈のマルチセンサリー入力を扱うために、我々は適応的トークン削減スキームを使用し、トークンをサンプリングする時間的粒度を動的に決定します。このシンプルでモジュール化されたトレーニング不要のビデオ推論フレームワークは、Video-MME（長編）、Video-MMMU（理解）、Video-MMLU、CGBench、およびEgoLifeにおいて、これまでに報告された最高の結果を達成しました。さらに、ビデオ推論能力に焦点を当てた我々の実証研究は、ビデオに明示的にトレーニングされていないにもかかわらず、強力な推論LLMsがビデオ、スピーチ、音声からのマルチセンサリー入力情報を効果的に集約し、複雑な時間的、因果的、長文脈、および知識獲得推論タスクを遂行できることを示しています。コードはhttps://github.com/CeeZh/SILVRで公開されています。

SLMをファインチューニングするか、LLMにプロンプトを与えるか？ローコードワークフロー生成の事例
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

May 30

ByOrlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen

GPT-4oのような大規模言語モデル（LLMs）は、適切なプロンプトを与えることで幅広い複雑なタスクを処理できます。トークンあたりのコストが低下するにつれ、現実世界のアプリケーションにおける小規模言語モデル（SLMs）のファインチューニングの利点——推論速度の向上、コストの低減——は、もはや明確ではなくなるかもしれません。本研究では、構造化された出力を必要とするドメイン固有のタスクにおいて、SLMsが依然として品質面で優位性を持つことを示す証拠を提示します。JSON形式のローコードワークフロー生成タスクにおいて、SLMのファインチューニングとLLMのプロンプティングを比較しました。その結果、適切なプロンプトは妥当な結果をもたらすものの、ファインチューニングにより品質が平均10％向上することが観察されました。また、系統的なエラー分析を行い、モデルの限界を明らかにしました。

un^2CLIP: unCLIPの反転によるCLIPの視覚的詳細捕捉能力の向上
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP

May 30

ByYinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen

コントラスティブ言語-画像事前学習（CLIP）は基盤モデルとして確立され、様々な視覚およびマルチモーダルタスクに応用されてきた。しかし、最近の研究では、CLIPが画像の詳細な差異を識別する能力に欠け、密な予測や視覚中心のマルチモーダルタスクにおいて最適な性能を発揮しないことが指摘されている。そこで、本研究は既存のCLIPモデルの改善に焦点を当て、可能な限り多くの視覚的詳細を画像から捉えることを目指す。我々は、特定の種類の生成モデルであるunCLIPが、この目標を達成するための適切なフレームワークを提供することを発見した。具体的には、unCLIPはCLIPの画像埋め込みを条件とした画像生成器を学習する。言い換えれば、CLIPの画像エンコーダを逆転させるものである。CLIPのような識別モデルと比較して、生成モデルは画像のデータ分布を学習するように訓練されるため、画像の詳細をより良く捉えることができる。さらに、unCLIPの条件付き入力空間は、CLIPの元の画像-テキスト埋め込み空間と整合している。したがって、我々はunCLIPを逆転させることで（un^2CLIPと命名）、CLIPモデルを改善することを提案する。この方法により、改善された画像エンコーダはunCLIPの視覚的詳細捕捉能力を獲得しつつ、元のテキストエンコーダとの整合性を同時に維持することができる。我々は、CLIPが適用されてきた様々なタスク、特に挑戦的なMMVP-VLMベンチマーク、密な予測のオープン語彙セグメンテーションタスク、およびマルチモーダル大規模言語モデルタスクにおいて、改善されたCLIPを評価する。実験結果は、un^2CLIPが元のCLIPおよび従来のCLIP改善手法を大幅に上回ることを示している。コードとモデルはhttps://github.com/LiYinqi/un2CLIPで公開予定である。

スケーラブルな知識集約のための柔軟なマルチLLM統合の実現
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation

May 28

ByZhenglun Kong, Zheng Zhan, Shiyue Hou, Yifan Gong, Xin Meng, Pengwei Sui, Peiyan Dong, Xuan Shen, Zifeng Wang, Pu Zhao, Hao Tang, Stratis Ioannidis, Yanzhi Wang

大規模言語モデル（LLM）は非常に有望な成果を示しているものの、従来のファインチューニングを通じて継続的に改善することは依然として課題であり、特に他の専門化されたLLMの能力を統合する際に顕著である。アンサンブルや重み統合のような一般的な手法は、大量のメモリを必要とし、変化するデータ環境に適応することが困難である。最近の研究では、複数のLLMから知識を単一のターゲットモデルに転送する試みが行われているが、候補選択とトレーニングパイプラインの柔軟性の欠如により、タスク間での干渉や性能の低下が生じている。これらの問題に対処するため、我々は、多様なLLMから知識を適応的に選択し集約することで、単一のより強力なモデルを構築するフレームワークを提案し、アンサンブルの高いメモリオーバーヘッドや柔軟性のない重み統合を回避する。具体的には、スコアに基づいて最も関連性の高いソースLLMを識別する適応選択ネットワークを設計し、知識干渉を低減する。さらに、候補LLMの固有の強みを考慮した動的加重融合戦略と、選択者が単一のソースサブセットに収束することを防ぐフィードバック駆動型損失関数を提案する。実験結果は、我々の手法が既存のアプローチと比較して知識干渉を最大50％削減しつつ、より安定かつスケーラブルな知識集約プロセスを実現できることを示している。コードはhttps://github.com/ZLKong/LLM_Integrationで公開されている。

リカレントニューラルネットワークにおける双線形状態遷移の再考
Revisiting Bi-Linear State Transitions in Recurrent Neural Networks

May 27

ByM. Reza Ebrahimi, Roland Memisevic

リカレントニューラルネットワークにおける隠れユニットの役割は、通常、記憶をモデル化するものと見なされ、ゲーティングメカニズムを通じた情報保持の強化に焦点を当てた研究が行われてきました。一方、あまり探求されていない視点として、隠れユニットをネットワークが行う計算の能動的な参加者と見なす考え方があります。本研究では、隠れユニットと入力埋め込みの間の乗法的相互作用を含む双線形演算を再検討します。理論的および実証的に、これらが状態追跡タスクにおける隠れ状態の進化を表現するための自然な帰納バイアスを構成することを示します。これらのタスクは、隠れユニットがネットワークの動作に積極的に貢献することを要求する最も単純なタイプのタスクです。また、双線形状態更新が、複雑さが増す状態追跡タスクに対応する自然な階層を形成し、Mambaのような人気のある線形リカレントネットワークがその階層の最も低い複雑さの中心に位置することを示します。

形式的な不確実性の文法：自動推論タスクにおけるLLMの信頼性判断基準
Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

May 26

ByDebargha Ganguly, Vikash Singh, Sreehari Sankar, Biyao Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary

大規模言語モデル（LLMs）は、形式的仕様を生成することで自動推論の民主化に大きな可能性を示しています。しかし、根本的な矛盾が存在します。LLMsは確率的である一方、形式的検証は決定論的な保証を要求します。本論文は、LLMが生成する形式的成果物における失敗モードと不確実性定量化（UQ）を包括的に調査することで、この認識論的ギャップに取り組みます。5つの最先端LLMを系統的に評価した結果、Satisfiability Modulo Theories（SMT）ベースの自動形式化が、タスク領域に特異的な精度への影響（論理タスクでは+34.8%、事実タスクでは-44.5%）を持つことが明らかになりました。また、トークン確率のエントロピーといった既知のUQ手法では、これらのエラーを特定できないことも判明しました。我々は、LLMの出力をモデル化するための確率的文脈自由文法（PCFG）フレームワークを導入し、洗練された不確実性の分類体系を構築しました。その結果、不確実性のシグナルはタスク依存性が高いこと（例えば、論理タスクでは文法エントロピー、AUROC>0.93）が明らかになりました。最後に、これらのシグナルを軽量に融合させることで、選択的検証が可能となり、最小限の棄却でエラーを大幅に削減（14-100%）し、LLM駆動の形式化を信頼性の高いエンジニアリング分野へと変革することができました。

TRIDENT: 三次元多様化レッドチーミングデータ合成による大規模言語モデルの安全性向上
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

May 30

ByXiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li

大規模言語モデル（LLMs）は、さまざまな自然言語処理タスクにおいて優れた性能を発揮するが、有害なコンテンツの生成や悪意のある目的での利用に対して脆弱性を残している。このようなリスクを軽減するために、教師あり微調整（SFT）を通じて安全性を向上させるためのデータセットが導入されているが、これらのデータセットはしばしば包括的なリスクカバレッジを欠いている。既存のデータセットの多くは、主に語彙の多様性に焦点を当てており、他の重要な次元を無視している。この制約に対処するため、我々は、語彙の多様性、悪意のある意図、およびジェイルブレイク戦略という3つの重要な次元にわたって、アライメントデータセットのリスクカバレッジを体系的に測定するための新しい分析フレームワークを提案する。さらに、これらの次元にわたる多様で包括的な指示を生成するために、ペルソナベースのゼロショットLLM生成を活用した自動化パイプラインであるTRIDENTを導入する。各有害な指示は、倫理的に整合した応答とペアになっており、26,311の例を含むTRIDENT-Coreと18,773の例を含むTRIDENT-Edgeという2つのデータセットが作成された。TRIDENT-EdgeでLlama 3.1-8Bを微調整した結果、WildBreakデータセットで微調整された最高性能のベースラインモデルと比較して、平均14.29%のHarm Scoreの削減と20%の攻撃成功率の低下が達成された。

自動化されたがリスクのあるゲーム：消費者市場におけるエージェント間交渉と取引のモデリング
The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets

May 29

ByShenzhe Zhu, Jiao Sun, Yi Nian, Tobin South, Alex Pentland, Jiaxin Pei

AIエージェントは、製品検索、交渉、取引実行などのタスクを支援するために、消費者向けアプリケーションでますます使用されています。本論文では、消費者と販売者の両方がAIエージェントに交渉と取引を完全に自動化することを許可する未来のシナリオを探ります。私たちは2つの重要な質問に答えることを目指しています：(1) 異なるLLMエージェントは、ユーザーにとって有利な取引を確保する能力に違いがあるか？(2) 消費者市場での取引をAIエージェントに完全に自動化することから生じるリスクは何か？これらの質問に答えるために、現実世界の交渉と取引の設定でさまざまなLLMエージェントのパフォーマンスを評価する実験フレームワークを開発します。私たちの調査結果は、AIを介した取引は本質的に不均衡なゲームであることを明らかにしています——異なるエージェントは、ユーザーに対して大きく異なる結果を達成します。さらに、LLMの行動異常は、過剰支出や不合理な取引の受け入れなど、消費者と販売者の両方に財務的損失をもたらす可能性があります。これらの結果は、自動化が効率を向上させる一方で、大きなリスクも導入することを強調しています。ユーザーは、ビジネス上の意思決定をAIエージェントに委任する際に注意を払うべきです。

GATE: 一般アラビア語テキスト埋め込み - マトリョーシカ表現学習とハイブリッド損失トレーニングによる強化された意味的テキスト類似性
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

May 30

ByOmer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila

意味的テキスト類似性（Semantic Textual Similarity, STS）は、自然言語処理（NLP）における重要なタスクであり、検索、クラスタリング、テキスト間の意味的関係の理解といったアプリケーションを可能にします。しかし、アラビア語におけるこの分野の研究は、高品質なデータセットや事前学習済みモデルの不足により、依然として限られています。このリソースの不足は、アラビア語テキストにおける意味的類似性の正確な評価と進展を制約してきました。本論文では、MTEBベンチマーク内の意味的テキスト類似性タスクにおいて最先端の性能を達成するGeneral Arabic Text Embedding（GATE）モデルを紹介します。GATEは、Matryoshka Representation Learningと、自然言語推論のためのアラビア語トリプレットデータセットを用いたハイブリッド損失トレーニングアプローチを活用しており、細かい意味理解を要求するタスクにおけるモデルの性能向上に不可欠です。GATEは、OpenAIを含む大規模モデルを上回り、STSベンチマークで20-25%の性能向上を達成し、アラビア語の独特な意味的ニュアンスを効果的に捉えています。

OMNIGUARD: マルチモーダルなAI安全性管理のための効率的なアプローチ
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

May 29

BySahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh

大規模言語モデル（LLM）の新たな能力は、その即座の悪用可能性に対する懸念を引き起こしています。これらの懸念を緩和するための核心的なアプローチは、モデルに対する有害なクエリの検出です。現在の検出手法は不完全であり、特にモデル能力の不一致した汎化を悪用する攻撃（例えば、低リソース言語でのプロンプトや、画像や音声などの非テキストモダリティで提供されるプロンプト）に対して脆弱です。この課題に取り組むため、我々はOMNIGUARDを提案します。これは、言語やモダリティを超えて有害なプロンプトを検出するアプローチです。我々のアプローチは、(i) LLM/MLLMの内部表現を言語やモダリティ間で整合させ、(ii) それらを使用して言語非依存またはモダリティ非依存の分類器を構築し、有害なプロンプトを検出します。OMNIGUARDは、多言語設定において最も強力なベースラインよりも11.57%、画像ベースのプロンプトでは20.44%の有害プロンプト分類精度を向上させ、音声ベースのプロンプトでは新たなSOTAを達成しました。生成中に計算された埋め込みを再利用することで、OMNIGUARDは非常に効率的でもあります（次に速いベースラインの約120倍の速度）。コードとデータは以下で利用可能です: https://github.com/vsahil/OmniGuard。

多言語LLM安全性研究の現状：言語格差の測定からその緩和へ
The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It

May 30

ByZheng-Xin Yong, Beyza Ermis, Marzieh Fadaee, Stephen H. Bach, Julia Kreutzer

本論文は、LLM（大規模言語モデル）の安全性研究における言語的多様性を包括的に分析し、この分野が英語中心であることを明らかにする。2020年から2024年にかけて*ACLの主要なNLP会議やワークショップで発表された約300件の論文を系統的にレビューした結果、LLM安全性研究において、高リソースの非英語言語でさえもほとんど注目されていないという著しい言語格差が存在し、それが拡大していることが判明した。さらに、非英語言語が単独の言語として研究されることは稀であり、英語の安全性研究においても言語ドキュメンテーションの実践が不十分であることが観察された。多言語安全性研究の今後の進展を促すため、本調査に基づいていくつかの提言を行い、安全性評価、トレーニングデータ生成、およびクロスリンガル安全性一般化に関する3つの具体的な将来の研究方向を提示する。本調査と提案された方向性に基づいて、この分野は多様なグローバル人口に向けたより堅牢で包括的なAI安全性の実践を発展させることができる。

LegalSearchLM: 法的要素生成としての判例検索の再考
LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation

May 28

ByChaeeun Kim, Jinu Lee, Wonseok Hwang

判例検索（Legal Case Retrieval, LCR）は、クエリとなる判例から関連する判例を検索するものであり、法律専門家の研究や意思決定における基本的なタスクである。しかし、既存のLCR研究には二つの主要な課題がある。第一に、比較的小規模な検索コーパス（例：100～55,000件の判例）で評価されており、また、刑事事件のクエリタイプの範囲が狭く、現実世界の法律検索シナリオの複雑性を十分に反映できていない。第二に、埋め込みベースまたは字句マッチング手法に依存しているため、表現が限定的であり、法的に関連性の低いマッチングが生じることが多い。これらの課題を解決するため、本研究では以下を提案する：（1）LEGAR BENCH、韓国初の大規模LCRベンチマークで、120万件以上の判例を対象に411種類の多様な犯罪タイプをカバーするクエリを提供する；（2）LegalSearchLM、クエリ判例に対して法的要素の推論を行い、制約付きデコーディングを通じて対象判例に基づいた内容を直接生成する検索モデル。実験結果は、LegalSearchLMがLEGAR BENCHにおいてベースラインを6～20％上回り、最先端の性能を達成することを示している。また、ドメイン外の判例に対しても強い汎化性能を示し、ドメイン内データで訓練された単純な生成モデルを15％上回る結果を得た。

文脈は黄金のパッセージを見つけるための黄金：文脈的ドキュメント埋め込みの評価とトレーニング
Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings

May 30

ByMax Conti, Manuel Faysse, Gautier Viaud, Antoine Bosselut, Céline Hudelot, Pierre Colombo

現代の文書検索埋め込み手法の限界は、同じ文書内のパッセージ（チャンク）を独立してエンコードすることが一般的であり、しばしば文書全体から得られる重要な文脈情報を見落としてしまう点にあります。この情報は個々のチャンク表現を大幅に改善する可能性があります。本研究では、文書全体の文脈を活用する能力を評価するために設計されたベンチマーク、ConTEB（Context-aware Text Embedding Benchmark）を紹介します。我々の結果は、最先端の埋め込みモデルが文脈を必要とする検索シナリオで苦戦することを示しています。この限界に対処するため、我々はInSeNT（In-sequence Negative Training）を提案します。これは、遅延チャンキングプーリングと組み合わせることで、計算効率を保ちつつ文脈表現学習を強化する新しいコントラスティブなポストトレーニング手法です。我々の手法は、ベースモデルの性能を犠牲にすることなく、ConTEBでの検索品質を大幅に向上させます。さらに、我々の手法で埋め込まれたチャンクは、最適でないチャンキング戦略や大規模な検索コーパスサイズに対してより頑健であることがわかりました。我々はすべての成果物をhttps://github.com/illuin-tech/contextual-embeddingsでオープンソースとして公開しています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ProRL: 長期強化学習が大規模言語モデルの推論能力の境界を拡張
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

May 30

ByMingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

143

AlphaOne: テスト時に遅い思考と速い思考を推論するモデル
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

May 30

ByJunyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang

時間認識の欠如：なぜビデオ言語モデルは人間が見えるものが見えないのか？
Time Blindness: Why Video-Language Models Can't See What Humans Can?

May 30

ByUjjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny

データ合成のための大規模言語モデル
Large Language Models for Data Synthesis

May 20

ByYihong Tang, Menglin Kong, Lijun Sun

HardTests: LLMコーディング向け高品質テストケースの合成
HardTests: Synthesizing High-Quality Test Cases for LLM Coding

May 30

ByZhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li

一度だけ見るな：選択的視覚再訪によるマルチモーダル対話型推論に向けて
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

May 24

ByJiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu

ViStoryBench：ストーリー可視化のための包括的ベンチマークスイート
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

May 30

ByCailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang

DINO-R1：視覚基盤モデルにおける推論能力の促進
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29

ByChenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren

EXP-Bench: AIはAI研究実験を遂行できるか？
EXP-Bench: Can AI Conduct AI Research Experiments?

May 30

ByPatrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen

Open CaptchaWorld: マルチモーダルLLMエージェントのテストとベンチマークのための包括的なWebベースプラットフォーム
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

May 30

ByYaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen

ビジョン言語モデルはバイアスを持つ
Vision Language Models are Biased

May 29

ByAn Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim

MoDoMoDo: マルチモーダルLLM強化学習のためのマルチドメインデータ混合
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

May 30

ByYiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu

CoDA: 関節物体の全身操作のための協調的拡散ノイズ最適化
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

May 27

ByHuaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura

EmergentTTS-Eval: モデル・アズ・ア・ジャッジを用いた複雑な韻律、表現力、言語的課題に対するTTSモデルの評価
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

May 29

ByRuskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola

MetaFaith: 大規模言語モデルにおける自然言語の不確実性表現の忠実性
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

May 30

ByGabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan

UniGeo: ビデオ拡散モデルを制御し統一的な一貫性のあるジオメトリ推定を実現
UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation

May 30

ByYang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi

大規模言語モデルは局所的に線形な写像である
Large Language Models are Locally Linear Mappings

May 30

ByJames R. Golden

EasyText: 多言語テキストレンダリングのための制御可能な拡散トランスフォーマー
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30

ByRunnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song

より多くの思考、より少ない視覚？マルチモーダル推論モデルにおける増幅された幻覚の評価
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

May 23

ByChengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu

CLaSp: 自己推論デコーディングのためのインコンテキスト層スキップ
CLaSp: In-Context Layer Skip for Self-Speculative Decoding

May 30

ByLongze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang

ReasonGen-R1：SFTとRLによる自己回帰型画像生成モデルのための連鎖的思考（CoT）
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

May 30

ByYu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu

DexUMI: 人間の手をユニバーサル操作インターフェースとして活用した器用な操作の実現
DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

May 28

ByMengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song

マルチモーダル大規模言語モデルにおけるモダリティ選好の評価と制御
Evaluating and Steering Modality Preferences in Multimodal Large Language Model

May 27

ByYu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang

フォークマージデコーディング：音声視覚大規模言語モデルにおけるマルチモーダル理解の向上
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models

May 27

ByChaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung

ChARM: 高度なロールプレイング言語エージェントのためのキャラクターベース・アクション適応型報酬モデリング
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

May 29

ByFeiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li