AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

EnerVerse: ロボティクス操作のための具現化された未来空間を構想する
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Jan 3

BySiyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren

EnerVerseは、ロボット操作タスクに特化した未来の空間生成の包括的なフレームワークを紹介します。EnerVerseは、内部チャンク空間モデリングのために畳み込みと双方向注意メカニズムをシームレスに統合し、低レベルの一貫性と連続性を確保します。ビデオデータに固有の冗長性を認識し、無限に長いシーケンスの生成を可能にするために、我々はスパースメモリコンテキストとチャンク単位の一方向生成パラダイムを提案します。さらに、ロボットの能力を向上させるために、柔軟な視点を提供するFree Anchor View（FAV）空間を導入します。FAV空間は、動きのモデリングの曖昧さを軽減し、閉所環境での物理的制約を取り除き、ロボットの汎化能力と適応性を著しく向上させます。複数のカメラ観測を取得するコストと労力の問題に対処するために、4次元ガウススプラッティング（4DGS）と組み合わせた生成モデルを統合したデータエンジンパイプラインを提案します。このパイプラインは、生成モデルの堅牢な汎化能力と4DGSによって提供される空間制約を活用し、データ品質と多様性の継続的な向上を可能にし、それによってシミュレーションと実際の間のギャップを効果的に狭めるデータフライホイール効果を生み出します。最後に、我々の実験は、未来の空間生成事前処理が方策予測能力を大幅に向上させ、特に長距離のロボット操作タスクにおいて全体的なパフォーマンスを向上させることを示しています。

VITA-1.5: GPT-4oレベルのリアルタイムビジョンと音声インタラクションに向けて
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Jan 3

ByChaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He

最近の多モーダル大規模言語モデル（MLLMs）は、通常、視覚とテキストのモダリティを統合することに焦点を当てており、対話の向上における音声の役割にはあまり重点が置かれていませんでした。しかし、音声は多モーダル対話システムにおいて重要な役割を果たし、視覚と音声の両方のタスクで高性能を実現することは、基本的なモダリティの違いにより依然として大きな課題です。本論文では、視覚と音声情報の両方を理解するように徐々にLLMを訓練する、注意深く設計された多段階トレーニング方法を提案します。これにより、流暢な視覚と音声の相互作用が可能となります。私たちのアプローチは、強力な視覚言語能力を維持するだけでなく、別個の音声認識（ASR）およびテキスト読み上げ（TTS）モジュールなしで効率的な音声対話能力を実現し、多モーダルエンドツーエンド応答速度を大幅に向上させます。画像、動画、音声タスクのベンチマークを通じて、最先端の対照モデルと比較することで、私たちの手法が強力な視覚と音声能力を備えており、ほぼリアルタイムの視覚と音声の相互作用が可能であることを示します。

Virgo: o1のようなMLLMの再現に関する予備的探索
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Jan 3

ByYifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen

最近、大規模言語モデル（LLM）に基づく遅い思考システムが、推論中の思考時間をスケーリングすることで広く注目されています。また、この能力を多様なモーダリティを扱うマルチモーダル大規模言語モデル（MLLM）に適応させることへの関心が高まっています。MLLMは異なるモダリティ間でより複雑なデータの意味を扱うため、マルチモーダルな遅い思考システムを実装することは直感的により困難です。　本論文では、この問題に対処するために、能力のあるMLLMをわずかなテキスト形式の長い思考データでファインチューニングするという直接的なアプローチを探求し、マルチモーダルな遅い思考システム「Virgo（Visual reasoning with long thought）」を生み出します。自然言語で表現されたこれらの長い思考プロセスが、MLLMに効果的に転送できることがわかりました。さらに、このようなテキスト形式の思考データが、MLLMの遅い思考能力を引き出す上で、視覚的な思考データよりもさらに効果的であるようです。この研究は予備的なものですが、遅い思考能力は言語モデルコンポーネントと基本的に関連しており、モーダリティやドメインを超えて転送できることを示しています。この発見は、より強力な遅い思考推論システムの開発を指針とするために活用できます。リソースはhttps://github.com/RUCAIBox/Virgo で公開しています。

SDPO: ソーシャルエージェント向けのセグメントレベル直接選好最適化
SDPO: Segment-Level Direct Preference Optimization for Social Agents

Jan 3

ByAobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang

大規模言語モデル（LLM）によって強化されたソーシャルエージェントは、人間の社会的行動をシミュレートできますが、複雑な目標志向型の社会的対話を処理するのには不十分です。直接的な選好最適化（DPO）は、様々なエージェントタスクにおいてLLMの振る舞いを人間の選好と整合させるのに効果的であることが証明されています。既存のDPOベースのアプローチは、多ターンの対話に対するターンレベルとセッションレベルの方法に分かれています。ターンレベルの方法は細かすぎて、個々のターンにのみ焦点を当てていますが、セッションレベルの方法は粗すぎて、しばしばトレーニングノイズを導入してしまいます。これらの制限に対処するために、私たちはセグメントレベルの直接選好最適化（SDPO）を提案しています。これは、対話内の特定のキーセグメントに焦点を当てて、トレーニングノイズを最小限に抑えながらマルチターンエージェントの振る舞いを最適化します。SOTOPIAベンチマークでの評価は、SDPOに調整されたエージェントが既存のDPOベースの方法やGPT-4oなどのプロプライエタリLLMを常に上回ることを示しており、SDPOがLLMベースのエージェントの社会的知能を向上させる可能性を強調しています。私たちは、当該コードとデータを以下のリンクから公開しています：https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO。

グラフ生成事前学習トランスフォーマー
Graph Generative Pre-trained Transformer

Jan 2

ByXiaohui Chen, Yinkai Wang, Jiaxing He, Yuanqi Du, Soha Hassoun, Xiaolin Xu, Li-Ping Liu

グラフ生成は、分子設計やソーシャルネットワーク分析など、さまざまな領域で重要なタスクであり、複雑な関係や構造化されたデータをモデル化する能力を持つためです。ほとんどの現代のグラフ生成モデルは隣接行列表現を使用していますが、この研究では、グラフをノード集合とエッジ集合のシーケンスとして表現する代替手法を再検討します。私たちは、この手法の効率的なグラフ符号化に賛成し、新しい表現を提案します。この表現に基づいて、グラフ生成事前学習トランスフォーマー（G2PT）を導入します。これは、次のトークン予測を通じてグラフ構造を学習する自己回帰モデルです。汎用基盤モデルとしてのG2PTの能力をさらに活用するために、目標指向生成とグラフ特性予測の2つの下流アプリケーションのためのファインチューニング戦略を探求します。複数のデータセットを対象とした包括的な実験を実施します。結果は、G2PTが一般的なグラフや分子データセットの両方で優れた生成パフォーマンスを達成していることを示しています。さらに、G2PTは、分子設計から特性予測までの下流タスクでの適応性と汎用性に優れています。

VisionReward：画像とビデオ生成のための細かい多次元人間の選好学習
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Dec 30

ByJiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong

我々は、画像生成および動画生成の両方に人間の好みを合わせるための一般的な戦略を提案します。まず第一に、細かく多次元の報酬モデルであるVisionRewardを構築します。画像と動画における人間の好みを、複数の次元に分解し、各次元を一連の判断質問で表現し、線形に重み付けして合計し、解釈可能で正確なスコアにします。動画の品質評価の課題に対処するために、動画のさまざまな動的特徴を系統的に分析し、VisionRewardがVideoScoreを17.2%上回り、動画の好み予測で最高のパフォーマンスを達成するのに役立ちます。VisionRewardを基に、優先学習アルゴリズムを開発し、優先データ内の交絡因子の問題を効果的に対処します。当社のアプローチは、既存の画像および動画のスコアリング方法を、機械メトリクスと人間の評価の両方で大幅に上回ります。すべてのコードとデータセットは、https://github.com/THUDM/VisionReward で提供されています。

LUSIFER: 大規模言語モデルを用いた多言語埋め込みの強化のための言語ユニバーサル空間統合
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Jan 1

ByHieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

最近の大規模言語モデル（LLM）ベースの埋め込みモデルの進歩により、特に密なベクトルベースの検索において、テキスト埋め込みタスクの最新基準が確立されました。しかしながら、これらのモデルは主に英語に焦点を当てており、多言語埋め込み機能はほとんど未開拓のままです。この制限に対処するために、我々はLUSIFERを提案します。これは、多言語の監督を必要とせずに、LLMベースの埋め込みモデルを多言語タスクに適応させる新しいゼロショットアプローチです。LUSIFERのアーキテクチャは、言語普遍的な学習者として機能する多言語エンコーダと、埋め込み特定のタスクに最適化されたLLMベースの埋め込みモデルを組み合わせています。これらのコンポーネントは、多言語エンコーダの言語理解能力を専門的な埋め込みモデルに効果的に転送するための、最小限の訓練可能なパラメータを介してシームレスに統合されています。さらに、多言語埋め込みのパフォーマンスを包括的に評価するために、5つの主要な埋め込みタスク、123の異なるデータセット、および14の言語にまたがるカバレッジを含む新しいベンチマークを導入しています。幅広い実験結果が示すところによれば、LUSIFERは、明示的な多言語トレーニングデータを必要とせずに、中小規模の言語において特に、さまざまな埋め込みタスクにおける多言語パフォーマンスを著しく向上させることができます。

BoxingGym: 自動実験設計とモデル発見の進捗状況のベンチマーキング
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Jan 2

ByKanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman

世界を理解し、科学的理論で説明することは、人工知能研究の中心的な志向です。理論を提案し、それを検証するための実験を設計し、そしてデータに基づいてそれらを修正することは、科学的発見にとって基本的です。LLMに基づく科学エージェントの大きな可能性にもかかわらず、LLMが科学モデルを提案し、実験データを収集し、新しいデータを元に修正する能力を系統的にテストするベンチマークは存在しませんでした。私たちは、科学的理論を検証するためのデータ収集（例：科学的理論を検証するためのデータ収集）とモデルの発見（例：科学的理論の提案と修正）の両方を系統的に評価するための10の環境を備えたベンチマークであるBoxingGymを紹介します。取り組みやすく定量的に評価するために、各環境を生成確率モデルとして実装し、科学エージェントが対話型実験を実行できるようにしています。これらの確率モデルは、心理学から生態学までのさまざまな実世界の科学領域から抽出されています。科学エージェントが情報収集実験を行う能力を定量的に評価するために、生成モデルのパラメータに関する不確実性をどれだけ減少させるかを測定する情報理論的数量である期待情報利得（EIG）を計算します。良い科学的理論は簡潔で予測可能な説明です。したがって、モデルの発見を定量的に評価するために、科学エージェントに自分のモデルを説明してもらい、その説明が他の科学エージェントがこの環境について信頼できる予測を行うのを可能にするかどうかを評価します。この説明に基づく評価に加えて、予測誤差などの標準的なモデル評価指標も計算します。我々は、GPT-4oなどの現行のLLMが実験設計とモデルの発見の両方に苦労していることを発見しました。LLMベースのエージェントに明示的な統計モデルを追加することがこれらの結果を確実に改善しないことを見出しました。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

VisionReward：画像とビデオ生成のための細かい多次元人間の選好学習
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Dec 30

LUSIFER: 大規模言語モデルを用いた多言語埋め込みの強化のための言語ユニバーサル空間統合
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Jan 1

ByHieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

BoxingGym: 自動実験設計とモデル発見の進捗状況のベンチマーキング
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Jan 2

ByKanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman