AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

XLand-100B: インコンテキスト強化学習のための大規模マルチタスクデータセット
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Jun 13, 2024

Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov

901

大規模言語モデルやコンピュータビジョンモデルにおけるインコンテキスト学習パラダイムの成功を受けて、最近登場したインコンテキスト強化学習の分野は急速な成長を遂げています。しかし、これまでの実験は単純な環境と小規模なデータセットで行われてきたため、挑戦的なベンチマークの不足がその発展を妨げてきました。本論文では、この問題を緩和するための第一歩として、XLand-MiniGrid環境に基づく大規模なインコンテキスト強化学習用データセット「XLand-100B」を紹介します。このデータセットには、約30,000の異なるタスクにおける完全な学習履歴が含まれており、1000億の遷移と25億のエピソードをカバーしています。データセットの収集には50,000 GPU時間を要し、ほとんどの学術研究室では手の届かない規模です。データセットとともに、それを再現またはさらに拡張するためのユーティリティも提供します。この大規模な取り組みを通じて、急速に成長するインコンテキスト強化学習の研究を民主化し、さらなるスケーリングのための堅固な基盤を提供することを目指しています。コードはオープンソースで、Apache 2.0ライセンスの下でhttps://github.com/dunno-lab/xland-minigrid-datasetsから利用可能です。

正確な物体数を実現するテキストから画像への生成：Make It Count
Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Jun 14, 2024

Lital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik

793

テキストから画像を生成する拡散モデルは前例のない成功を収めていますが、テキストを用いて描画されるオブジェクトの数を制御することは驚くほど困難です。これは、技術文書から児童書、料理レシピのイラストまで、さまざまなアプリケーションにおいて重要です。オブジェクトの数を正確に生成することは根本的に難しい課題です。なぜなら、生成モデルは、たとえ複数のオブジェクトが同一に見えたり重なったりしていても、各オブジェクトの個別の同一性を保持し、生成中に暗黙的にグローバルな計算を実行する必要があるからです。そのような表現が存在するかどうかはまだわかっていません。数を正確に生成するために、まず拡散モデル内でオブジェクトの同一性情報を伝えることができる特徴を特定します。次に、それらを使用してノイズ除去プロセス中にオブジェクトのインスタンスを分離してカウントし、過剰生成や不足生成を検出します。後者については、既存のオブジェクトのレイアウトに基づいて欠けているオブジェクトの形状と位置を予測するモデルを訓練し、それを正しいオブジェクト数でノイズ除去をガイドするために使用する方法を示します。私たちのアプローチであるCountGenは、オブジェクトのレイアウトを決定するために外部ソースに依存せず、拡散モデル自体からの事前分布を使用して、プロンプト依存およびシード依存のレイアウトを作成します。2つのベンチマークデータセットで評価した結果、CountGenは既存のベースラインの数精度を大幅に上回ることがわかりました。

ChartMimic: チャートからコード生成によるLMMのクロスモーダル推論能力の評価
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Jun 14, 2024

Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

562

我々は、大規模マルチモーダルモデル（LMM）の視覚的基盤に立脚したコード生成能力を評価するための新しいベンチマーク「ChartMimic」を提案する。ChartMimicは、情報量の多い視覚的チャートとテキスト指示を入力として利用し、LMMに対応するチャート描画コードの生成を要求する。ChartMimicには、物理学、計算機科学、経済学など様々な分野の科学論文に見られる実際のチャート使用例を反映した、人間がキュレーションした1,000組の（図、指示、コード）トリプレットが含まれている。これらのチャートは18の基本タイプと4つの高度なタイプに分類され、191のサブカテゴリに多様化している。さらに、出力コードとレンダリングされたチャートを自動的かつ徹底的に評価するための多段階評価指標を提案する。既存のコード生成ベンチマークとは異なり、ChartMimicは、視覚的理解、コード生成、クロスモーダル推論といった認知能力の調和を評価することに重点を置いている。3つのプロプライエタリモデルと11のオープンウェイトモデルの評価結果は、ChartMimicが提示する大きな課題を浮き彫りにしている。高度なGPT-4VやClaude-3-opusでさえ、それぞれ平均スコア73.2と53.7しか達成できておらず、改善の余地が大きいことを示している。我々は、ChartMimicがLMMの開発を刺激し、人工汎用知能の追求を進めることを期待している。

マルチモーダルな干し草の山の中の針
Needle In A Multimodal Haystack

Jun 11, 2024

Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

551

マルチモーダル大規模言語モデル（MLLMs）の急速な進展に伴い、その評価はますます包括的になってきています。しかし、現実世界のアプリケーションにおける基礎的な能力として、長いマルチモーダルコンテンツを理解することは、まだ十分に探究されていません。本研究では、既存のMLLMsが長いマルチモーダルドキュメントを理解する能力を体系的に評価するために特別に設計された最初のベンチマークである「Needle In A Multimodal Haystack（MM-NIAH）」を提案します。私たちのベンチマークは、マルチモーダル検索、カウンティング、推論の3種類の評価タスクを含んでいます。各タスクでは、モデルは与えられたマルチモーダルドキュメント全体に散らばる異なるキー情報に基づいて質問に答える必要があります。主要なMLLMsをMM-NIAHで評価した結果、既存のモデルはこれらのタスク、特に視覚中心の評価において、まだ大幅な改善の余地があることがわかりました。本研究が、長いマルチモーダルドキュメント理解に関するさらなる研究のプラットフォームを提供し、MLLMsの進展に貢献することを願っています。コードとベンチマークはhttps://github.com/OpenGVLab/MM-NIAHで公開されています。

BABILong: 長文脈におけるLLMの限界を試す干し草の山の中での推論
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Jun 14, 2024

Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

534

近年、大規模言語モデル（LLM）の入力コンテキストサイズは劇的に増加しています。しかし、既存の評価手法はこれに追いついておらず、長いコンテキストを扱うモデルの効率性を包括的に評価できていません。このギャップを埋めるため、我々はBABILongベンチマークを導入しました。これは、極めて長い文書に分散した事実を横断して推論する言語モデルの能力をテストするために設計されています。BABILongは、事実の連鎖、単純帰納、演繹、カウント、リスト/セットの処理など、多様な20の推論タスクを含んでいます。これらのタスクは単体でも挑戦的であり、必要な事実が長い自然文書に散らばっている場合にはさらに難易度が増します。我々の評価によると、人気のあるLLMはコンテキストの10〜20％しか効果的に活用できず、推論の複雑さが増すと性能が急激に低下します。コンテキスト内推論の代替手段として、検索拡張生成（Retrieval-Augmented Generation）手法は、単一事実の質問応答において60％の精度を達成しますが、これはコンテキストの長さに依存しません。コンテキスト拡張手法の中では、リカレントメモリトランスフォーマーが最高の性能を示し、最大1,100万トークンの長さを処理可能です。BABILongベンチマークは、新たに登場する能力向上モデルの評価をサポートするため、任意の長さに拡張可能であり、我々は最大100万トークン長までの分割を提供しています。

SEACrowd: 東南アジア言語のための多言語・多モーダルデータハブとベンチマークスイート
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14, 2024

Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya

331

東南アジア（SEA）は、言語的多様性と文化的多様性に富んだ地域であり、1,300以上の先住民言語と6億7,100万人の人口を有しています。しかし、現行のAIモデルは、SEAのテキスト、画像、音声データセットの著しい不足に悩まされており、SEA言語向けのAIモデルの品質が損なわれています。SEA言語のモデル評価は、高品質なデータセットの不足と、英語トレーニングデータの支配的な存在により困難であり、文化的誤表現の懸念が高まっています。これらの課題に対処するため、私たちはSEACrowdを紹介します。これは、1,000近くのSEA言語にわたる3つのモダリティで標準化されたコーパスを提供し、リソースギャップを埋める包括的なリソースハブを統合する共同イニシアチブです。SEACrowdベンチマークを通じて、13のタスクにわたる36の先住民言語におけるAIモデルの品質を評価し、SEAにおける現在のAI状況に関する貴重な洞察を提供します。さらに、SEAのAIの将来に向けて、潜在的な有用性とリソースの公平性を最大化するための戦略を提案します。

OmniCorpus：100億レベル画像とテキストを織り交ぜた統合マルチモーダルコーパス
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Jun 12, 2024

Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

313

画像とテキストが自然な文書形式で配置された画像-テキスト交互データは、インターネットデータの提示パラダイムに沿っており、人間の読書習慣に非常に近いものです。最近の研究では、このようなデータがマルチモーダルな文脈内学習を助け、マルチモーダルファインチューニング中の大規模言語モデルの能力を維持することが示されています。しかし、現在の画像-テキスト交互データの規模と多様性の限界が、マルチモーダル大規模言語モデルの発展を制約しています。本論文では、100億規模の画像-テキスト交互データセットであるOmniCorpusを紹介します。効率的なデータエンジンを使用して、大規模で高品質な文書をフィルタリングし抽出し、これには86億枚の画像と1兆6960億のテキストトークンが含まれています。比較対象（例：MMC4、OBELICS）と比べて、私たちのデータセットは1) 15倍の規模を維持しながら良好なデータ品質を保ち、2) 英語および非英語のウェブサイト、ビデオ中心のウェブサイトなど、より多様なソースを特徴とし、3) 画像-テキスト交互形式から純粋なテキストコーパスや画像-テキストペアに容易に劣化可能な柔軟性を持っています。包括的な分析と実験を通じて、提案されたデータセットの品質、有用性、有効性を検証します。これが将来のマルチモーダルモデル研究のための堅固なデータ基盤を提供することを願っています。コードとデータはhttps://github.com/OpenGVLab/OmniCorpusで公開されています。

GUIオデッセイ：モバイルデバイスにおけるクロスアプリGUIナビゲーションのための包括的データセット
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Jun 12, 2024

Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo

261

スマートフォンユーザーは、ソーシャルメディアプラットフォーム間でコンテンツを共有するなどのタスクを完了するために、複数のアプリケーション（アプリ）をまたいで操作することが多い。自律的なグラフィカルユーザーインターフェース（GUI）ナビゲーションエージェントは、ワークフローを効率化し、手動介入を減らすことで、コミュニケーション、エンターテイメント、生産性におけるユーザーエクスペリエンスを向上させることができる。しかし、従来のGUIエージェントは、単一のアプリ内で完了できる単純なタスクを含むデータセットで訓練されることが多く、アプリ間ナビゲーションでのパフォーマンスが低いという問題があった。この問題を解決するため、我々はGUI Odysseyを導入する。GUI Odysseyは、アプリ間ナビゲーションエージェントの訓練と評価のための包括的なデータセットであり、6つのモバイルデバイスから7,735エピソード、6種類のアプリ間タスク、201のアプリ、1.4Kのアプリコンボを網羅している。GUI Odysseyを活用し、我々はQwen-VLモデルを履歴再サンプリングモジュールでファインチューニングしたマルチモーダルアプリ間ナビゲーションエージェントであるOdysseyAgentを開発した。大規模な実験により、OdysseyAgentが既存のモデルと比較して優れた精度を発揮することが示された。例えば、OdysseyAgentは、ファインチューニングされたQwen-VLおよびゼロショットGPT-4Vを、ドメイン内精度で1.44％および55.49％、ドメイン外精度で2.29％および48.14％上回った。データセットとコードはhttps://github.com/OpenGVLab/GUI-Odysseyで公開される予定である。

Glyph-ByT5-v2：正確な多言語視覚テキストレンダリングのための強力な美的ベースライン
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Jun 14, 2024

Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan

222

最近、Glyph-ByT5はグラフィックデザイン画像において高度に正確な視覚的テキストレンダリング性能を達成しました。しかし、依然として英語のみに焦点を当てており、視覚的魅力の点では比較的劣る性能を示しています。本研究では、これらの2つの根本的な制約に対処するため、Glyph-ByT5-v2とGlyph-SDXL-v2を提案します。これらは、10の異なる言語において正確な視覚的テキストレンダリングをサポートするだけでなく、はるかに優れた美的品質を実現します。これを達成するために、以下の貢献を行いました：(i) 100万以上のグリフテキストペアと、他の9言語をカバーする1000万のグラフィックデザイン画像テキストペアからなる高品質な多言語グリフテキストおよびグラフィックデザインデータセットの作成、(ii) 各言語100件、合計1000件のプロンプトからなる多言語視覚段落ベンチマークを構築し、多言語視覚スペリングの正確性を評価、(iii) 最新のステップ対応選好学習アプローチを活用して視覚的美的品質を向上。これらの技術を組み合わせることで、強力なカスタマイズされた多言語テキストエンコーダGlyph-ByT5-v2と、10の異なる言語で正確なスペリングをサポートする強力な美的グラフィック生成モデルGlyph-SDXL-v2を提供します。最新のDALL-E3やIdeogram 1.0が依然として多言語視覚テキストレンダリングタスクに苦戦していることを考慮すると、本研究は重要な進展であると考えます。

GEB-1.3B: オープンな軽量大規模言語モデル
GEB-1.3B: Open Lightweight Large Language Model

Jun 14, 2024

Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

213

最近開発されたChatGPT、Claude、Llamaなどの大規模言語モデル（LLM）は、印象的な能力を示し、いくつかのタスクでは人間レベルの性能を凌駕しています。しかし、これらのモデルはリソース集約的であり、トレーニングと推論の両方に多大な計算能力を必要とするため、高性能サーバーへの展開が制限されています。さらに、モデルの膨大な計算要件は、応答時間の遅延を引き起こすことがよくあります。LLMがCPU上で効率的に動作する必要性が高まる中、CPU推論に最適化された軽量モデルに関する研究が登場しています。本論文では、5500億トークンの中国語と英語でトレーニングされた軽量LLMであるGEB-1.3Bを紹介します。我々は、ROPE、Group-Query-Attention、FlashAttention-2などの新しいトレーニング技術を採用し、モデルの性能を維持しながらトレーニングを加速しました。さらに、1000万サンプルの指示データを使用してモデルを微調整し、アラインメントを強化しました。GEB-1.3Bは、MMLU、C-Eval、CMMLUなどの一般的なベンチマークで優れた性能を示し、MindLLM-1.3BやTinyLLaMA-1.1Bなどの比較モデルを上回りました。特に、GEB-1.3BのFP32バージョンは、CPU上で良好な推論時間を達成し、高度な量子化技術を通じてさらなる速度向上を目指しています。GEB-1.3Bのオープンソースモデルとしてのリリースは、軽量LLMの開発に大きな貢献を果たし、この分野のさらなる研究と革新を促進することが期待されます。

ビデオ生成のためのトレーニング不要なカメラ制御
Training-free Camera Control for Video Generation

Jun 14, 2024

Chen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen

122

既存のビデオ拡散モデルに対して、トレーニング不要でロバストなカメラ移動制御を提供するソリューションを提案します。従来の研究とは異なり、本手法はカメラ注釈付きデータセットでの教師ありファインチューニングや、データ拡張による自己教師ありトレーニングを一切必要としません。代わりに、ほとんどの事前学習済みビデオ拡散モデルにプラグアンドプレイ可能で、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成できます。本手法の着想は、中間潜在表現が生成結果に対して持つレイアウト事前分布に基づいています。つまり、ノイジーピクセルを再配置することで、出力内容も再配置されるという考えです。カメラ移動も視点変化によるピクセルの再配置と見なせるため、ノイジー潜在表現がそれに応じて変化すれば、特定のカメラモーションに従ってビデオを再構成できます。これを基に、ビデオ拡散モデルに対してロバストなカメラ制御を可能にするCamTrolを提案します。これは2段階のプロセスで実現されます。まず、3D点群空間における明示的なカメラ移動を通じて画像レイアウトの再配置をモデル化します。次に、一連の再配置画像によって形成されたノイジー潜在表現のレイアウト事前分布を用いて、カメラモーション付きのビデオを生成します。大規模な実験により、本手法が生成ビデオのカメラモーション制御において高いロバスト性を持つことが実証されました。さらに、本手法がダイナミックなコンテンツを持つ3D回転ビデオの生成においても印象的な結果を生み出すことを示します。プロジェクトページはhttps://lifedecoder.github.io/CamTrol/にあります。

会話型AIの透明性と制御のためのダッシュボード設計
Designing a Dashboard for Transparency and Control of Conversational AI

Jun 12, 2024

Yida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

124

会話型LLMはブラックボックスシステムとして機能し、ユーザーはなぜそのような出力が得られるのかを推測するしかない。この透明性の欠如は、特にバイアスや真実性に関する懸念を考えると、潜在的に問題がある。この問題に対処するため、我々は解釈可能性技術とユーザーエクスペリエンスデザインを結びつけたエンドツーエンドのプロトタイプを提示し、チャットボットの透明性を高めることを目指す。まず、著名なオープンソースLLMが「ユーザーモデル」を持っていることを示す証拠を提示する。システムの内部状態を調べることで、ユーザーの年齢、性別、教育レベル、社会経済的地位に関連するデータを抽出できる。次に、チャットボットインターフェースに付随するダッシュボードの設計について説明する。このダッシュボードは、ユーザーモデルをリアルタイムで表示し、ユーザーモデルとシステムの動作を制御するためにも使用できる。最後に、ユーザーが計装されたシステムと会話した研究について議論する。結果は、ユーザーが内部状態を見ることを高く評価し、それがバイアス行動を明らかにし、コントロール感を高めるのに役立ったことを示唆している。参加者からは、デザインと機械学習研究の両方の将来の方向性を示す貴重な提案も得られた。我々のTalkTunerシステムのプロジェクトページとビデオデモは、https://bit.ly/talktuner-project-page で閲覧可能である。

VideoGUI: チュートリアル動画からのGUI自動化のためのベンチマーク
VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Jun 14, 2024

Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

グラフィカルユーザーインターフェース（GUI）自動化は、コンピュータタスクを支援することで人間の生産性を向上させる大きな可能性を秘めています。既存のタスク定式化は、主に「新しいスライドを挿入する」といった単一の言語のみで指定できる単純なタスクに焦点を当てています。本研究では、視覚中心のGUIタスクにおいてGUIアシスタントを評価するための新しいマルチモーダルベンチマークであるVideoGUIを紹介します。高品質なウェブ指導動画をソースとして、このベンチマークはAdobe PhotoshopやStable Diffusion WebUIなどの専門的で新しいソフトウェアや、ビデオ編集などの複雑な活動を含むタスクに焦点を当てています。VideoGUIは、GUIアシスタントを階層的なプロセスで評価し、特定のレベルで失敗する可能性を特定します：（i）高レベルの計画：言語記述なしで視覚的条件から手続き的サブタスクを再構築する；（ii）中レベルの計画：視覚的状態（スクリーンショット）と目標に基づいて正確なアクションのナレーションシーケンスを生成する；（iii）原子アクションの実行：指定された要素を正確にクリックするなどの特定のアクションを実行する。各レベルにおいて、クリック、ドラッグ、タイピング、スクロールなどの個々の次元でのパフォーマンスを評価するための指標を設計し、明確なシグナルを提供します。VideoGUIでの評価により、SoTAの大規模マルチモーダルモデルであるGPT4oでさえ、視覚中心のGUIタスク、特に高レベルの計画においてパフォーマンスが低いことが明らかになりました。

テキストからビデオ生成モデルの人間評価プロトコル再考：信頼性、再現性、実用性の向上
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Jun 13, 2024

Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang

近年、Gen2、Pika、Soraなどのモデルによって示されたテキストからビデオ（T2V）技術の進歩は、その適用範囲と人気を大幅に拡大しました。しかし、これらの進歩にもかかわらず、これらのモデルを評価することは大きな課題を抱えています。主に、自動評価指標の限界のため、T2V生成の評価には手動評価が優れた方法とされています。しかし、既存の手動評価プロトコルは再現性、信頼性、実用性の問題に直面しています。これらの課題に対処するため、本論文ではテキストからビデオ人間評価（T2VHE）プロトコルを紹介します。これはT2Vモデルのための包括的かつ標準化されたプロトコルです。T2VHEプロトコルは、明確に定義された評価指標、徹底したアノテーターのトレーニング、効果的な動的評価モジュールを含んでいます。実験結果は、このプロトコルが高品質のアノテーションを保証するだけでなく、評価コストを約50％削減できることを示しています。T2VHEプロトコルの全体設定をオープンソース化します。これには、完全なプロトコルワークフロー、動的評価コンポーネントの詳細、アノテーションインターフェースコードが含まれます。これにより、コミュニティがより洗練された人間評価プロトコルを確立するのに役立つでしょう。

金魚のように、記憶しない！生成型大規模言語モデルにおける記憶化の軽減
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Jun 14, 2024

Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

大規模言語モデルは訓練データを記憶し、それを繰り返す可能性があり、プライバシーや著作権のリスクを引き起こします。この記憶化を緩和するため、我々は次のトークン予測の訓練目的関数に微妙な修正を加えた「ゴールドフィッシュ損失」を導入します。訓練中、ランダムにサンプリングされたトークンのサブセットを損失計算から除外します。これらの除外されたトークンはモデルに記憶されないため、訓練セットからの完全なトークン列の逐語的な再現を防ぎます。我々は、事前訓練済みおよびゼロから訓練した10億規模のLlama-2モデルを用いて広範な実験を行い、下流タスクのベンチマークにほとんど影響を与えることなく、抽出可能な記憶化を大幅に削減できることを実証しました。

Vivid-ZOO: 拡散モデルを用いたマルチビュー動画生成
Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Jun 12, 2024

Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem

拡散モデルは2D画像/動画生成において印象的な性能を示しているが、テキストからマルチビュー動画（T2MVid）を生成する拡散ベースの手法はまだ十分に探究されていない。T2MVid生成が直面する新たな課題は、キャプション付きの大規模なマルチビュー動画データの不足と、そのような多次元分布をモデル化する複雑さにある。この問題に対処するため、我々はテキストから動的な3Dオブジェクトを中心とした高品質なマルチビュー動画を生成する新しい拡散ベースのパイプラインを提案する。具体的には、T2MVid問題を視点空間と時間の要素に分解する。この分解により、事前学習済みのマルチビュー画像拡散モデルと2D動画拡散モデルの層を組み合わせて再利用し、生成されたマルチビュー動画のマルチビュー一貫性と時間的整合性を確保することで、大幅に訓練コストを削減する。さらに、2Dデータとマルチビューデータのドメインギャップに起因する再利用層の非互換性に対処するため、事前学習済みのマルチビュー拡散モデルと2D動画拡散モデルの層の潜在空間を整合させるアライメントモジュールを導入する。本研究および今後の研究を支援するため、キャプション付きのマルチビュー動画データセットも提供する。実験結果は、提案手法が多様なテキストプロンプトを与えられた場合に、鮮やかな動き、時間的整合性、マルチビュー一貫性を備えた高品質なマルチビュー動画を生成することを示している。

AV-GS: 新視点音響合成のための材料特性と幾何学的特性を考慮した事前学習
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Jun 13, 2024

Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu

新視点音響合成（NVAS）は、3Dシーン内の音源から発せられるモノラル音声を基に、任意の視点におけるバイノーラル音声をレンダリングすることを目的としています。既存の手法では、視覚的手がかりを条件として利用するNeRFベースの暗黙的モデルが提案されてきました。しかし、重いNeRFレンダリングに起因する非効率性に加え、これらの手法は部屋の形状、材質特性、リスナーと音源間の空間関係といったシーン環境全体を特徴づける能力に限界があります。これらの課題を解決するため、我々は新しいオーディオビジュアルガウススプラッティング（AV-GS）モデルを提案します。音響合成のための材質認識および形状認識条件を得るために、リスナーと音源間の空間関係を考慮し、局所的に初期化されたガウス点にオーディオガイダンスパラメータを付与した明示的なポイントベースのシーン表現を学習します。視覚シーンモデルを音響適応型とするため、音の伝播におけるポイントごとの寄与（例：音路の分岐に影響を与えるテクスチャのない壁面にはより多くのポイントが必要）を考慮し、ガウス点を最適に分布させるポイント密度化と剪定戦略を提案します。実世界のRWASデータセットおよびシミュレーションベースのSoundSpacesデータセットを用いた広範な実験により、我々のAV-GSが既存の代替手法を凌駕する優位性を検証しました。

RVT-2: 少数のデモンストレーションから精密な操作を学習する
RVT-2: Learning Precise Manipulation from Few Demonstrations

Jun 12, 2024

Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

本研究では、言語指示に基づいて複数の3D操作タスクを解決できるロボットシステムの構築方法を探求します。産業および家庭領域で有用であるためには、このようなシステムは少数のデモンストレーションで新しいタスクを学習し、正確に解決できる必要があります。PerActやRVTなどの先行研究はこの問題に取り組んできましたが、高精度を必要とするタスクではしばしば苦戦しています。私たちは、これらのシステムをより効果的で正確かつ高速にする方法を研究します。アーキテクチャとシステムレベルの改善を組み合わせることで、トレーニング速度が6倍、推論速度が2倍向上したマルチタスク3D操作モデルであるRVT-2を提案します。RVT-2はRLBenchにおいて新たな最先端を達成し、成功率を65%から82%に向上させました。RVT-2は現実世界でも有効であり、プラグのピックアップや挿入といった高精度を要するタスクをわずか10回のデモンストレーションで学習できます。視覚的な結果、コード、および学習済みモデルは以下のURLで提供されています: https://robotic-view-transformer-2.github.io/

GaussianSR: 2D拡散事前分布を用いた3Dガウシアン超解像
GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors

Jun 14, 2024

Xiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen

高解像度の新規視点合成（HRNVS）を低解像度の入力視点から達成することは、高解像度データの不足により困難な課題です。従来の手法では、低解像度の入力視点から高解像度のNeural Radiance Field（NeRF）を最適化しますが、レンダリング速度が遅いという問題がありました。本研究では、高速なレンダリング速度で高品質な画像を生成できる3D Gaussian Splatting（3DGS）を基盤としています。高解像度合成のためのデータ不足を緩和するため、既存の2D拡散事前分布を活用し、Score Distillation Sampling（SDS）を用いて2Dの知識を3Dに蒸留することを提案します。しかし、生成事前分布に伴うランダム性により、SDSを直接Gaussianベースの3D超解像度に適用すると、望ましくない冗長な3D Gaussianプリミティブが生じます。この問題を緩和するため、SDSによって導入される確率的な擾乱を軽減する2つのシンプルかつ効果的な手法を導入します。具体的には、1）SDSの拡散タイムステップの範囲をアニーリング戦略で縮小し、2）密度化の過程で冗長なGaussianプリミティブをランダムに棄却します。広範な実験により、提案するGaussianSRが、合成データセットと実世界のデータセットの両方において、低解像度の入力のみでHRNVSの高品質な結果を達成できることが実証されました。プロジェクトページ: https://chchnii.github.io/GaussianSR/

多様性の解読：インドAI研究の現状レビュー
Decoding the Diversity: A Review of the Indic AI Research Landscape

Jun 13, 2024

Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha

本レビュー論文は、インド系言語における大規模言語モデル（LLM）の研究動向を包括的に概観するものである。インド系言語とは、インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなど、インド亜大陸で話される言語を指す。これらの言語は豊かな文化的・言語的遺産を持ち、世界中で15億人以上によって話されている。多様な言語における自然言語処理（NLP）ベースのアプリケーションに対する市場の大きな可能性と需要の高まりを背景に、インド系言語の生成アプリケーションは、研究において独特の課題と機会を提供している。本論文は、インド系言語の生成モデリングにおける最近の進展を深く掘り下げ、研究動向の分類体系を提示し、84の最近の論文を表形式でまとめている。本論文で調査した研究動向には、LLMの開発、既存のLLMのファインチューニング、コーパスの開発、ベンチマーキングと評価、特定の技術、ツール、アプリケーションに関する論文が含まれる。これらの論文を通じて、研究者たちは、データの可用性の限界、標準化の欠如、インド系言語の特有の言語的複雑さに関連する課題を強調していることがわかった。本論文は、特にインド系言語に焦点を当てたNLP分野の研究者や実務者にとって貴重なリソースとなることを目指しており、これらの言語におけるより正確で効率的なLLMアプリケーションの開発に貢献するものである。

MaskLID: 反復的マスキングによるコードスイッチング言語識別
MaskLID: Code-Switching Language Identification through Iterative Masking

Jun 10, 2024

Amir Hossein Kargaran, François Yvon, Hinrich Schütze

我々は、MaskLIDというシンプルでありながら効果的なコードスイッチング（CS）言語識別（LID）手法を提案する。MaskLIDは学習を必要とせず、現在の高性能な文レベルLIDを補完するように設計されている。文レベルLIDは、単一言語のテキストで訓練された分類器であり、通常はソフトマックス層を使用してスコアを確率に変換し、単一のラベルを提供する。しかし、文がL1とL2の両方の言語で構成されている場合、LID分類器はしばしば支配的なラベルL1のみを返す。この制限に対処するため、MaskLIDはL1に関連するテキスト特徴をマスキングする戦略を採用し、次のラウンドでLIDがテキストをL2として分類できるようにする。この手法は、マスキングが必要な特徴を識別するためにLID自体を使用し、外部リソースに依存しない。本研究では、FastTextアーキテクチャに基づく2つのオープンソースLID（GlotLIDとOpenLID）に対するMaskLIDの使用を探る。コードとデモはhttps://github.com/cisnlp/MaskLIDで利用可能である。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

XLand-100B: インコンテキスト強化学習のための大規模マルチタスクデータセット
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Jun 13, 2024

Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov

901

正確な物体数を実現するテキストから画像への生成：Make It Count
Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Jun 14, 2024

Lital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik

793

ChartMimic: チャートからコード生成によるLMMのクロスモーダル推論能力の評価
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Jun 14, 2024

Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

562

マルチモーダルな干し草の山の中の針
Needle In A Multimodal Haystack

Jun 11, 2024

Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

551

BABILong: 長文脈におけるLLMの限界を試す干し草の山の中での推論
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Jun 14, 2024

Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

534

SEACrowd: 東南アジア言語のための多言語・多モーダルデータハブとベンチマークスイート
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14, 2024

331

OmniCorpus：100億レベル画像とテキストを織り交ぜた統合マルチモーダルコーパス
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Jun 12, 2024

313

GUIオデッセイ：モバイルデバイスにおけるクロスアプリGUIナビゲーションのための包括的データセット
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Jun 12, 2024

Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo

261

Glyph-ByT5-v2：正確な多言語視覚テキストレンダリングのための強力な美的ベースライン
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Jun 14, 2024

Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan

222

GEB-1.3B: オープンな軽量大規模言語モデル
GEB-1.3B: Open Lightweight Large Language Model

Jun 14, 2024

Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

213

ビデオ生成のためのトレーニング不要なカメラ制御
Training-free Camera Control for Video Generation

Jun 14, 2024

Chen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen

122

会話型AIの透明性と制御のためのダッシュボード設計
Designing a Dashboard for Transparency and Control of Conversational AI

Jun 12, 2024

Yida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

124

VideoGUI: チュートリアル動画からのGUI自動化のためのベンチマーク
VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Jun 14, 2024

Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

テキストからビデオ生成モデルの人間評価プロトコル再考：信頼性、再現性、実用性の向上
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Jun 13, 2024

Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang

金魚のように、記憶しない！生成型大規模言語モデルにおける記憶化の軽減
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Jun 14, 2024

Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

Vivid-ZOO: 拡散モデルを用いたマルチビュー動画生成
Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Jun 12, 2024

Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem

AV-GS: 新視点音響合成のための材料特性と幾何学的特性を考慮した事前学習
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Jun 13, 2024

Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu