HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

16 papers found

エネルギー効率の良い言語モデルに必要なのは加算のみ
Addition is All You Need for Energy-efficient Language Models

Oct 1

ByHongyin Luo, Wei Sun

151

大規模なニューラルネットワークは、浮動小数点テンソルの乗算に多くの計算リソースを費やします。本研究では、浮動小数点の乗算器を高い精度で1つの整数加算器で近似できることを見出しました。私たちは、整数加算演算で浮動小数点数の乗算を近似する線形計算量の乗算（L-Mul）アルゴリズムを提案します。この新しいアルゴリズムは、8ビット浮動小数点乗算よりも計算リソースを著しく削減しますが、より高い精度を実現します。8ビット浮動小数点乗算と比較して、提案手法は高い精度を達成しますが、ビットレベルの計算リソースを著しく削減します。浮動小数点数の乗算は整数加算操作と比較して著しく高いエネルギーを必要とするため、テンソル処理ハードウェアでL-Mul演算を適用することで、要素ごとの浮動小数点テンソル乗算のエネルギーコストを95%削減し、ドット積のエネルギーコストを80%削減できる可能性があります。L-Mulの理論的な誤差期待値を計算し、自然言語理解、構造的推論、数学、常識的な質問応答を含む幅広いテキスト、ビジュアル、およびシンボリックタスクでアルゴリズムを評価しました。数値解析実験は、L-Mulの4ビットの仮数を使用する場合に、float8_e4m3の乗算と同等の精度を達成し、3ビットの仮数を使用するL-Mulがfloat8_e5m2を上回ることを示しています。一般的なベンチマークでの評価結果は、アテンションメカニズムに直接L-Mulを適用するとほぼ損失がないことを示しています。さらに、トランスフォーマーモデル内のすべての浮動小数点乗算を3ビットの仮数を使用するL-Mulに置き換えると、ファインチューニングと推論の両方で蓄積精度としてfloat8_e4m3を使用する場合と同等の精度が得られます。

MLP-KAN: 深層表現と関数学習の統合
MLP-KAN: Unifying Deep Representation and Function Learning

Oct 3

ByYunhong He, Yifeng Xie, Zhengqing Yuan, Lichao Sun

最近の表現学習と関数学習の両方の進歩は、人工知能のさまざまな領域で大きな可能性を示しています。ただし、これらのパラダイムを効果的に統合することは、特にユーザーがデータセットの特性に基づいて表現学習モデルまたは関数学習モデルを適用するかどうかを手動で決定する必要がある場合には、重要な課題です。この問題に対処するために、手動モデル選択の必要性を排除するために設計された統一された手法であるMLP-KANを紹介します。多層パーセプトロン（MLPs）を表現学習のために、コルモゴロフ・アーノルド・ネットワーク（KANs）を関数学習のために、専門家の混合（MoE）アーキテクチャ内に統合することにより、MLP-KANは特定のタスクの特性に動的に適応し、最適なパフォーマンスを確保します。トランスフォーマーベースのフレームワークに組み込まれた当該研究は、さまざまな領域で広く使用されている4つのデータセットで顕著な結果を達成しています。包括的な実験評価により、MLP-KANは、深い表現学習および関数学習タスクの両方で競争力のあるパフォーマンスを提供する優れた柔軟性を実証しています。これらの知見は、MLP-KANのモデル選択プロセスを簡素化し、さまざまな領域で包括的かつ適応可能なソリューションを提供する潜在能力を強調しています。当該研究のコードと重みは、https://github.com/DLYuanGod/MLP-KAN で入手可能です。

チューターCoPilot: リアルタイムの専門知識を拡大するための人間AIアプローチ
Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise

Oct 3

ByRose E. Wang, Ana T. Ribeiro, Carly D. Robinson, Susanna Loeb, Dora Demszky

生成AI、特に言語モデル（LMs）は、専門家へのアクセスが限られている場合に特に社会的影響を持つ実世界の領域を変革する潜在能力を持っています。例えば、教育分野では、専門家の指導を受けながら初心者教育者を育成することが効果的で重要ですが、費用がかかり、教育の質を大規模に向上させる障壁となっています。この課題は、高品質な教育を最も受けるべきアンダーサービスされたコミュニティの学生に不釣り合いに影響を与えています。私たちは、Tutor CoPilotという新しい人間-AIアプローチを導入し、専門家の思考モデルを活用して、チューターが指導する際に専門家のような指導を提供します。この研究は、歴史的にアンダーサービスされたコミュニティからのK-12の1,800人の生徒と900人のチューターを巻き込んだ、ライブチュートリングにおける人間-AIシステムの最初の無作為化比較試験です。事前登録された分析計画に従い、Tutor CoPilotにアクセスできるチューターと一緒に学習する生徒は、トピックをマスターする可能性が4パーセンテージポイント高いことがわかりました（p<0.01）。特に、評価の低いチューターの生徒が最も恩恵を受け、マスタリーが9ポイント向上しました。Tutor CoPilotのコストは、チューター1人当たり年間20ドルです。550,000以上のメッセージを分類器を使用して分析し、Tutor CoPilotにアクセスできるチューターは、生徒の理解を促進するために高品質な戦略を使用する可能性が高く（例：導く質問をする）、生徒に答えを教える可能性が低いことがわかりました。チューターへのインタビューでは、Tutor CoPilotの指導がチューターが生徒のニーズに応えるのを助けること、ただし、学年に適さない提案を生成するなど、Tutor CoPilotの問題を指摘しています。総じて、Tutor CoPilotの研究は、人間-AIシステムが実世界の領域で専門知識を拡大し、スキルのギャップを埋め、高品質な教育がすべての生徒にアクセス可能な未来を創造する方法を示しています。

選択的注意はTransformerを改善する
Selective Attention Improves Transformer

Oct 3

ByYaniv Leviathan, Matan Kalman, Yossi Matias

注意の文脈に不要な要素があると、性能が低下します。私たちは、標準の注意メカニズムを変更するパラメータフリーのシンプルな手法である「選択的注意」を導入します。選択的注意は、不要な要素への注意を削減することで、さまざまなモデルサイズや文脈の長さにおける言語モデリングの性能を向上させます。例えば、C4で言語モデリング目的でトレーニングされた一連のトランスフォーマーは、選択的注意を備えた場合、標準のトランスフォーマーと同等の性能を発揮しますが、アテンションモジュールのヘッド数とパラメータ数が約2倍多いものです。選択的注意は、アテンションの文脈バッファのサイズを減らすことも可能であり、推論時のメモリと計算要件を有意な削減に導きます。例えば、C4でトレーニングされた1億のパラメータを持つトランスフォーマーは、選択的注意を備えた場合、同じ検証パープレキシティを持つ場合、アテンションモジュールに必要なメモリが512、1,024、2,048の文脈サイズの場合、それぞれ16倍、25倍、47倍少なくなります。

NL-Eye: 画像のための帰納的NLI
NL-Eye: Abductive NLI for Images

Oct 3

ByMor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart

ビジュアル言語モデル（VLM）ベースのボットは、床が濡れていることを検出した場合に滑る可能性について警告してくれるでしょうか？最近のVLMは印象的な能力を示していますが、結果や原因を推論する能力は未だに未開拓の領域です。この課題に対処するために、私たちはNL-Eyeを導入します。これは、VLMの視覚的帰紹的推論能力を評価するために設計されたベンチマークです。NL-Eyeは帰紹的自然言語推論（NLI）タスクを視覚領域に適応させ、モデルに、前提画像に基づいて仮説画像の妥当性を評価し、その決定を説明する必要があります。NL-Eyeには、物理的、機能的、論理的、感情的、文化的、社会的な推論カテゴリを網羅する、慎重に選定された350の三つ組例（1,050枚の画像）が含まれています。データのキュレーションプロセスは、テキスト記述の作成とテキストから画像への変換モデルを使用して画像の生成という2つのステップで構成され、いずれも高品質で挑戦的なシーンを確保するために多大な人間の関与が必要でした。私たちの実験では、VLMはNL-Eyeで著しく苦戦し、しばしばランダムなベースラインレベルでのパフォーマンスを示し、一方で人間は妥当性の予測と説明の質の両方で優れていることが示されました。これは、現代のVLMの帰紹的推論能力の不足を示しています。NL-Eyeは、事故予防ボットや生成されたビデオの検証を含む実世界のアプリケーションのために堅牢な多モーダル推論が可能なVLMの開発に向けた重要な一歩を表しています。

トレーニング不要の先読みヤコビ復号化を用いた自己回帰テキストから画像への生成の加速化
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding

Oct 2

ByYao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu

現在の大規模な自己回帰モデルは高品質で高解像度の画像を生成できますが、これらのモデルは推論中に数百から数千回の次トークン予測ステップを必要とし、かなりの時間を要します。既存の研究では、Jacobiデコーディングと呼ばれる反復並列デコーディングアルゴリズムが使用され、自己回帰生成を加速するためにトレーニングなしで実行できます。ただし、Jacobiデコーディングは反復の収束を決定するために確定的基準に依存しており、貪欲デコーディングには適していますが、現在の自己回帰的なテキストから画像への生成において視覚的品質と多様性に不可欠なサンプリングベースのデコーディングとは互換性がありません。本論文では、訓練不要の確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding（SJD）を提案し、自己回帰的なテキストから画像への生成を加速します。確率的収束基準を導入することで、SJDは自己回帰的なテキストから画像への生成の推論を加速し、サンプリングベースのトークンデコーディングにおけるランダム性を維持し、モデルが多様な画像を生成できるようにします。具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け入れることで、従来の次トークン予測パラダイムよりも少ないステップで画像を生成できるようにします。また、特定のシナリオ下で加速比をさらに向上させるために、視覚データの空間的局所性を活用するトークンの初期化戦略についても調査します。提案されたSJDに関する実験を複数の自己回帰的なテキストから画像への生成モデルで実施し、視覚的品質を犠牲にすることなくモデルの加速効果を示します。

医用画像解析のためのマンバアーキテクチャに関する包括的調査：分類、セグメンテーション、復元、さらにその先
A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond

Oct 3

ByShubhi Bansal, Sreeharish A, Madhava Prasath J, Manikandan S, Sreekanth Madisetty, Mohammad Zia Ur Rehman, Chandravardhan Singh Raghaw, Gaurav Duggal, Nagendra Kumar

Mambaは、State Space Modelの特殊なケースであり、医用画像解析においてテンプレートベースの深層学習アプローチの代替手段として人気を集めています。Transformerは強力なアーキテクチャですが、二次計算量の複雑さや長距離依存関係を効率的に扱えないという欠点があります。この制限は、医用画像の大規模で複雑なデータセットの解析に影響を与えます。ここでは、多くの空間的および時間的関係が存在するため、Mambaが医用画像解析に適しているとされる利点があります。Mambaは、Transformerよりも大幅に改善された線形時間計算量を持ちます。Mambaは、アテンションメカニズムを使用せずにより長いシーケンスを処理し、より高速な推論を可能にし、より少ないメモリを必要とします。Mambaは、多モーダルデータの統合において強力なパフォーマンスを示し、診断の精度と患者の結果を改善します。本論文の構成により、読者は医用画像におけるMambaの能力を段階的に理解することができます。SSMおよびS4、S5、S6を含むモデルの中核概念の定義から始め、純粋なMamba、U-Netの変種、畳み込みニューラルネットワーク、Transformer、Graph Neural NetworksとのハイブリッドモデルなどのMambaアーキテクチャの探索を行います。また、Mambaの最適化、技術、適応、スキャン、データセット、アプリケーション、実験結果について取り上げ、医用画像におけるMambaの課題と将来の方向性について締めくくります。このレビューは、医用画像分野における既存の障壁を乗り越えるMambaの変革的な可能性を示し、分野の革新的な進展の道を開くことを目指しています。本研究で検討された医療分野でのMambaアーキテクチャの包括的なリストは、Githubで入手可能です。

RoCoTex: 拡散モデルを用いた一貫したテクスチャ合成のための堅牢な手法
RoCoTex: A Robust Method for Consistent Texture Synthesis with Diffusion Models

Sep 30

ByJangyeong Kim, Donggoo Kang, Junyoung Choi, Jeonga Wi, Junho Gwon, Jiun Bae, Dumim Yoon, Junghyun Han

最近、テキストからテクスチャへの生成が注目されていますが、既存の手法はしばしば視点の不一致、明らかな継ぎ目、およびテクスチャと基礎メッシュとの整合性の問題に苦しんでいます。本論文では、一貫性がありシームレスでメッシュとよく整合するテクスチャを生成するための堅牢なテキストからテクスチャへの手法を提案します。当該手法は、SDXLおよび複数のControlNetsを含む最先端の2D拡散モデルを活用して、生成されたテクスチャに構造的特徴と微細な詳細を捉えます。また、対称的な視点合成戦略と地域的プロンプトを組み合わせた視点の一貫性向上のための手法を採用しています。さらに、新しいテクスチャブレンディングおよびソフトインペインティング技術を導入し、継ぎ目領域を大幅に削減します。幅広い実験により、当該手法が既存の最先端手法を凌駕していることが示されています。

言語モデルからの概念知識の消去
Erasing Conceptual Knowledge from Language Models

Oct 3

ByRohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau

言語モデルにおける概念の消去は、従来包括的な評価フレームワークを欠いており、消去手法の効果を不十分に評価してきました。私たちは、完全な知識の削除（無実）、条件付きの流暢な生成の維持（シームレス）、および関連のないタスクのパフォーマンスの保存（特異性）に焦点を当てた評価パラダイムを提案します。私たちの評価指標は、Erasure of Language Memory（ELM）の開発を自然に促進し、この新しい手法はこれらの3つの側面に対処するよう設計されています。ELMは、消去された概念のための出力分布を変更するためにターゲットとなる低ランクの更新を使用し、提示された消去された概念に対しても流暢性を含むモデル全体の能力を保存します。私たちは、ELMの効果を生物セキュリティ、サイバーセキュリティ、文学領域の消去タスクで実証しています。比較分析によると、ELMは、消去されたトピックの評価においてほぼランダムなスコア、生成の流暢性、関連のないベンチマークでの維持された精度、および敵対的攻撃に対する堅牢性を含む、提案された指標全体で優れたパフォーマンスを達成しています。私たちのコード、データ、および訓練済みモデルは、https://elm.baulab.info で入手可能です。

CANVAS: 常識を持ったナビゲーションシステムによる直感的な人間とロボットの相互作用
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction

Oct 2

BySuhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu

現実世界のロボットナビゲーションは、目的地に到達するだけでなく、シナリオ固有の目標を達成するために動きを最適化する必要があります。人間がこれらの目標を表現する直感的な方法は、言葉の指示や大まかなスケッチなどの抽象的な手掛かりを通じて行われます。このような人間のガイダンスは詳細が不足しているか、ノイズが含まれている場合があります。それでも、ロボットには意図通りにナビゲーションすることが期待されています。ロボットが人間の期待に沿ってこれらの抽象的な指示を解釈し実行するためには、基本的なナビゲーション概念に関して人間と共通の理解を持つ必要があります。このために、視覚と言語の指示を組み合わせた常識を持ったナビゲーションのための革新的なフレームワークであるCANVASを紹介します。その成功は、ロボットが人間のナビゲーション行動から学習できる模倣学習によってもたらされます。私たちは、48時間以上219kmにわたる人間が注釈を付けたナビゲーション結果を含む包括的なデータセットであるCOMMANDを提供し、シミュレートされた環境で常識を持ったナビゲーションシステムを訓練することを設計しました。私たちの実験では、CANVASが強力なルールベースのシステムROS NavStackをすべての環境で上回り、ノイズのある指示でも優れたパフォーマンスを示すことが示されています。特に、ROS NavStackが全体的な成功率0％を記録する果樹園環境では、CANVASが全体的な成功率67％を達成しています。CANVASは、未知の環境でも人間のデモンストレーションや常識的な制約と密接に一致しています。さらに、CANVASの実世界展開は、模倣学習を通じてシミュレートされた環境での人間のデモンストレーションからの学習の潜在能力を示す、全体的な成功率69％の印象的なSim2Real転送を披露しています。

CodeMMLU：CodeLLMのコード理解能力を評価するためのマルチタスクベンチマーク
CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs

Oct 2

ByDung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui

最近のCode Large Language Models（CodeLLMs）の進歩は、主にオープンエンドのコード生成タスクに焦点を当てており、しばしばコードの理解と理解という重要な側面を無視しています。このギャップを埋めるために、私たちはCodeMMLUを提案します。これは、LLMsにおけるソフトウェアとコードの理解の深さを評価するために設計された包括的な多肢選択問題回答のベンチマークです。CodeMMLUには、さまざまなドメインから収集された1万以上の質問が含まれており、コード分析、欠陥検出、および複数のプログラミング言語にわたるソフトウェアエンジニアリング原則などのタスクが含まれています。従来のベンチマークとは異なり、CodeMMLUはモデルがコードについて論理的に考える能力を評価し、単に生成するだけでなく、複雑なソフトウェアの概念やシステムに対する理解をより深く提供します。私たちの包括的な評価により、最先端のモデルでさえCodeMMLUに大きな課題を抱えていることが明らかになり、コード生成を超えた理解の欠如が浮き彫りにされました。コードの理解と効果的な生成との重要な関係を強調することで、CodeMMLUはAI支援ソフトウェア開発を推進するための重要なリソースとなり、最終的にはより信頼性が高く、能力があるコーディングアシスタントを作成することを目指しています。

ホライズン長予測：先読み計画を活用したコード生成のためのフィル・イン・ザ・ミドル機能の拡張
Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning

Oct 4

ByYifeng Ding, Hantian Ding, Shiqi Wang, Qing Sun, Varun Kumar, Zijian Wang

Fill-in-the-Middle（FIM）は、コード言語モデルにとって不可欠となり、左右の文脈を考慮して欠落しているコードを生成することを可能にしています。ただし、現在のFIMトレーニングパラダイムは、元のトレーニングシーケンスを並べ替えてから通常の次のトークン予測（NTP）を行うため、周囲の文脈とスムーズに整合するコンテンツを生成するのに苦労するモデルがしばしば生じます。重要なのは、既存の研究がこの弱点を回避するためにルールベースの事後処理に依存している一方、そのような方法は制限的でデータセット固有の仮定（例：正解と同じ行数を生成する）に依存するため、オープンドメインのコード補完タスクでは実用的に使用できません。さらに、これらの非現実的な仮定がないと、FIMタスクでのモデルのパフォーマンスが著しく低下します。我々は、NTPだけではモデルが遠い右文脈に依存した効果的なプランニングを学習するのに不十分であり、成功裏のコード補完において重要な要素であると仮定しています。この問題を克服するために、Horizon-Length Prediction（HLP）という新しいトレーニング目標を提案します。これにより、モデルは各ステップで残りの中間トークン（つまり、地平線の長さ）の数を予測することを学習します。HLPは、先読みプランニングを進めることでFIMを進化させ、データセット固有の事後処理に依存せずに任意の左右の文脈に対する埋め込みの境界を学習することを可能にします。異なるモデルやサイズにわたる評価により、HLPが様々なベンチマークでFIMのパフォーマンスを最大24％改善し、ファイルレベルおよびリポジトリレベルで、非現実的な事後処理方法に頼らずに行います。さらに、HLPによって獲得した向上したプランニング能力は、コード推論のモデルパフォーマンスを向上させます。重要なことは、HLPはほとんどトレーニングオーバーヘッドを発生させず、追加の推論コストもかからないため、実世界のシナリオでの実用性が確保されています。

MIGA: 株価予測のためのグループ集約を用いたエキスパートの混合
MIGA: Mixture-of-Experts with Group Aggregation for Stock Market Prediction

Oct 3

ByZhaojian Yu, Yinghao Wu, Genesis Wang, Heming Weng

株価予測は、その固有の高い変動性と低い情報ノイズ比率により、数十年にわたり非常に難しい課題のままでした。機械学習やディープラーニングに基づく既存のソリューションは、全株データセットでトレーニングされた単一モデルを用いて、あらゆる種類の株に対する予測を生成することで優れたパフォーマンスを示しています。しかし、株のスタイルや市場トレンドの大きな変動のため、単一のエンドツーエンドモデルはこれらのスタイル化された株の特徴の違いを完全に捉えるのに苦労し、すべての種類の株に対する比較的正確でない予測をもたらします。本論文では、異なるスタイルの株に特化した予測を生成するために、異なるスタイルの専門家間を動的に切り替えることで設計された新しいMixture of Expert with Group Aggregation（MIGA）フレームワークを提案します。MIGA内の異なる専門家間での協力を促進するために、同じグループ内の専門家が情報を共有し、全体的なパフォーマンスを向上させるための新しい内部グループアテンションアーキテクチャを提案します。その結果、MIGAは、CSI300、CSI500、CSI1000を含む3つの中国株指数ベンチマークで他のエンドツーエンドモデルを大幅に上回ります。特に、MIGA-Convは、CSI300ベンチマークで24％の超過年次リターンを達成し、以前の最先端モデルを8％絶対的に上回ります。さらに、株式市場予測のための専門家の混合に関する包括的な分析を行い、将来の研究に有益な示唆を提供します。

NRGBoost: エネルギーベースの生成ブースティング木
NRGBoost: Energy-Based Generative Boosted Trees

Oct 4

ByJoão Bravo

深層学習が非構造化データ領域で支配的になったにもかかわらず、ランダムフォレスト（RF）や勾配ブースティング決定木（GBDT）などの木ベースの手法は、表形式データの識別タスクを処理するための主力となっています。私たちは、これらの人気のあるアルゴリズムの生成的拡張を探求し、データ密度（正規化定数まで）を明示的にモデリングすることに焦点を当て、サンプリング以外のアプリケーションも可能としています。主な貢献として、XGBoostなどの一般的なパッケージで実装されている2次ブースティングに類似したエネルギーベースの生成ブースティングアルゴリズムを提案します。提案されたアルゴリズムは、任意の入力変数に対する推論タスクを処理できる生成モデルを生成するにもかかわらず、実際の表形式データセットのいくつかで、GBDTに類似した識別性能を達成し、他の生成的アプローチを上回ることを示します。同時に、サンプリングにおいては、ニューラルネットワークベースのモデルとも競争力があることを示します。

AuroraCap：効率的で高性能なビデオ詳細キャプショニングと新しいベンチマーク
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

Oct 4

ByWenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning

ビデオの詳細な字幕付けは、ビデオコンテンツの包括的かつ一貫したテキスト記述を生成することを目指す重要なタスクであり、ビデオの理解と生成の両方に利益をもたらします。本論文では、大規模なマルチモーダルモデルに基づくビデオキャプショナーであるAuroraCapを提案します。時間モデリングのための追加パラメータを持たない、最もシンプルなアーキテクチャ設計に従っています。長いビデオシーケンスによるオーバーヘッドに対処するために、トークンマージング戦略を実装し、入力ビジュアルトークンの数を減らしています。驚くべきことに、この戦略はほとんど性能の低下をもたらさないことがわかりました。AuroraCapは、さまざまなビデオおよび画像のキャプションベンチマークで優れた性能を示し、例えば、Flickr30kで88.9のCIDErを獲得し、GPT-4V（55.3）やGemini-1.5 Pro（82.2）を凌駕しています。ただし、既存のビデオキャプションベンチマークには、数十語から成る単純な説明しか含まれておらず、この分野の研究が制限されています。そのため、1,000以上の注意深く構造化されたキャプションを持つビデオの詳細な字幕付けベンチマークであるVDCを開発しました。さらに、長いキャプションの評価を複数の短い質問と回答のペアに変換する分割統治戦略を採用した、新しいLLM支援メトリックVDCscoreを提案しています。人間のEloランキングの支援を受けて、実験ではこのベンチマークがビデオの詳細な字幕付けの品質に関する人間の判断とよりよく相関することを示しています。

GenSim2: マルチモーダルおよび推論を用いたロボットデータ生成のスケーリング
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

Oct 4

ByPu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang

現在、ロボットシミュレーションは、多様なシミュレーションタスクやシーンを作成するために必要な人間の作業量が多いため、スケーリングが困難な状況が続いています。また、シミュレーショントレーニングされたポリシーも拡張性の問題に直面しており、多くのシミュレーションから実世界への手法が単一のタスクに焦点を当てています。これらの課題に対処するため、本研究では、複雑で現実的なシミュレーションタスクの作成、特に関節付きオブジェクトを含む長期のタスクに対応するために、コーディングLLMを活用した多モーダルおよび推論能力を備えたスケーラブルなフレームワークであるGenSim2を提案しています。これらのタスクのためにスケールでデモンストレーションデータを自動生成するために、オブジェクトカテゴリ内で一般化する計画とRLソルバを提案しています。このパイプラインは、最大100の関節タスクと200のオブジェクトのデータを生成し、必要な人間の作業量を削減します。このようなデータを活用するために、提案されたパイプラインとポリシーアーキテクチャを組み合わせ、生成されたデモンストレーションから学習し、強力なシミュレーションから実世界へのゼロショット転送を示す効果的なマルチタスク言語条件付きポリシーアーキテクチャ、プロプリオセプティブポイントクラウドトランスフォーマー（PPT）を提案しています。提案されたパイプラインとポリシーアーキテクチャを組み合わせることで、GenSim2の有望な利用法を示し、生成されたデータがゼロショット転送や実世界で収集されたデータとの共同トレーニングに使用でき、ポリシーのパフォーマンスを限られた実データのみで訓練する場合と比較して20％向上させることができることを示しています。

ホライズン長予測：先読み計画を活用したコード生成のためのフィル・イン・ザ・ミドル機能の拡張
Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning

Oct 4

ByYifeng Ding, Hantian Ding, Shiqi Wang, Qing Sun, Varun Kumar, Zijian Wang