AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

MIA-DPO: 大規模ビジョン言語モデル向けのマルチ画像拡張直接選好最適化
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Oct 23

ByZiyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

ビジュアル選好整合は、大規模ビジョン言語モデル（LVLMs）を訓練して、視覚入力間の人間の選好を予測することを含みます。通常、これは選択/非選択のペアのラベル付きデータセットを使用し、直接選好最適化（DPO）などの最適化アルゴリズムを用いて達成されます。既存のビジュアル整合手法は、主に単一画像シナリオ向けに設計されており、多様な訓練データの不足と選択/非選択のペアの注釈付けの高コストのため、複数画像タスクの複雑さを効果的に処理するのに苦労しています。私たちは、マルチ画像拡張直接選好最適化（MIA-DPO）という、複数画像入力を効果的に処理するビジュアル選好整合アプローチを提案します。MIA-DPOは、単一画像データをグリッドコラージュやピクインピック形式で配置された関連のない画像で拡張することで、多様なマルチ画像訓練データの不足を緩和し、多様なマルチ画像データの注釈付けに関連するコストを大幅に削減します。私たちの観察から、LVLMsの注意値は異なる画像間でかなり変化することが明らかになりました。私たちは、モデルが誤って焦点を当てた可能性のある非選択応答を特定し、フィルタリングするために注意値を使用します。人間の注釈、追加データ、外部モデルやAPIに依存せずに、選択/非選択のペアを構築するための注意に配慮した選択を行います。MIA-DPOは、さまざまなアーキテクチャと互換性があり、LLaVA-v1.5で平均パフォーマンス向上率3.0％、最近のInternLM-XC2.5で4.3％を達成し、5つのマルチ画像ベンチマークで既存手法を上回ります。さらに、MIA-DPOは、モデルが単一画像を理解する能力にほとんど影響を与えません。

LongVU：長時間のビデオ言語理解のための時空間適応圧縮
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

Oct 22

ByXiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra

マルチモーダル大規模言語モデル（MLLMs）は、ビデオコンテンツの理解と分析において有望な進展を示しています。ただし、長時間のビデオの処理は、LLMのコンテキストサイズによって制約される重要な課題です。この制約に対処するために、私たちはLongVUを提案します。これは、長時間のビデオのビジュアル詳細を保持しながらビデオトークンの数を削減する空間時間適応型圧縮メカニズムです。私たちのアイデアは、クロスモーダルクエリとフレーム間依存関係を活用して、ビデオ内の時間的および空間的な冗長性を適応的に削減することに基づいています。具体的には、高い類似性を示す冗長なフレームを取り除くためにDINOv2の特徴を活用します。その後、選択的なフレーム特徴の削減のためにテキストによるクロスモーダルクエリを利用します。さらに、フレーム間の時間的依存関係に基づいてフレーム間の空間トークンの削減を行います。私たちの適応的圧縮戦略は、与えられたコンテキスト長内で視覚情報の損失を最小限に抑えながら多数のフレームを効果的に処理します。LongVUは、VideoMMEやMLVUなどの長時間ビデオ理解タスクを含むさまざまなビデオ理解ベンチマークで、既存の手法を一貫して上回ります。軽量なLLMを使用する場合、LongVUは、最先端のビデオ理解性能を維持しながら、効果的に小さなサイズにスケーリングします。

WorldSimBench：ビデオ生成モデルを世界シミュレータとして目指して
WorldSimBench: Towards Video Generation Models as World Simulators

Oct 23

ByYiran Qin, Zhelun Shi, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao, Lei Bai, Wanli Ouyang, Ruimao Zhang

予測モデルの最近の進歩は、物体やシーンの将来の状態を予測する際に卓越した能力を示しています。しかし、固有の特性に基づく分類の欠如は、予測モデルの開発の進展を妨げ続けています。さらに、既存のベンチマークは、具体的な視点から高い能力を持つ具体的な予測モデルを効果的に評価することができません。本研究では、予測モデルの機能を階層的に分類し、World Simulatorsを評価するための二重評価フレームワークであるWorldSimBenchを提案することで、初めて一歩を踏み出します。WorldSimBenchには、視覚的視点からの人間の好み評価と具体的なタスクにおける行動レベルの評価を包括する明示的知覚評価と暗黙的操作評価が含まれており、オープンエンドの具体的環境、自律走行、およびロボット操作という3つの代表的な具体的シナリオがカバーされています。明示的知覚評価では、微細な人間のフィードバックに基づくビデオ評価データセットであるHF-Embodied Datasetを導入し、これを使用して人間の知覚に合致し、World Simulatorsの視覚的忠実度を明示的に評価するHuman Preference Evaluatorをトレーニングします。暗黙的操作評価では、World Simulatorsのビデオアクションの一貫性を評価し、生成された状況認識ビデオが動的環境で正確に制御信号に変換できるかどうかを評価します。私たちの包括的な評価は、ビデオ生成モデルにさらなる革新をもたらす可能性のある重要な洞察を提供し、World Simulatorsを具体的な人工知能への画期的な進歩と位置付けます。

自己回帰モデルからの適応を通じた拡張拡散言語モデル
Scaling Diffusion Language Models via Adaptation from Autoregressive Models

Oct 23

ByShansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong

拡散言語モデル（DLMs）は、テキスト生成モデリングにおいて有望な新しいパラダイムとして登場し、自己回帰（AR）モデルの制約に対処する可能性があります。ただし、現在のDLMsは、ARモデルと比較して規模が小さく、言語モデリングのベンチマークで公平な比較が欠けています。さらに、スケールでゼロから拡散モデルをトレーニングすることは依然として困難です。オープンソースのAR言語モデルが広く普及していることから、これらのモデルを適応してテキスト拡散モデルを構築することを提案します。ARと拡散モデリングの目標のつながりを示し、拡散モデルをトレーニングするための簡単な継続的事前トレーニングアプローチを紹介します。言語モデリング、推論、常識のベンチマークでの体系的評価を通じて、127Mから7Bのパラメータ（GPT2およびLLaMA）を持つARモデルをDiffuGPTおよびDiffuLLaMAという拡散モデルに変換し、トレーニングに200B未満のトークンを使用することができることを示します。実験結果は、これらのモデルが以前のDLMsを凌駕し、ARモデルと競合していることを示しています。私たちは、流暢なテキストを生成し、コンテキスト内で学習を行い、プロンプトの再順序付けなしで中身を埋め、指示に従うことができる一連のDLMs（127M、355M、7Bのパラメータを持つ）をリリースします。

テキストから画像生成のためのスケーラブルなランク付けされた選好最適化
Scalable Ranked Preference Optimization for Text-to-Image Generation

Oct 23

ByShyamgopal Karthik, Huseyin Coskun, Zeynep Akata, Sergey Tulyakov, Jian Ren, Anil Kag

直接選好最適化（DPO）は、テキストから画像へのモデルを人間のフィードバックと整合させるための強力な手法として登場しています。残念ながら、T2IモデルにDPOを成功裏に適用するには、人間の選好で注釈付けされた大規模なデータセットを収集するために膨大なリソースが必要です。例えば、数百万の生成されたペア画像が含まれます。さらに、T2Iモデルの急速な改善により画質が向上すると、これらの人間の選好データセットはすぐに時代遅れになる可能性があります。本研究では、DPOトレーニング用の大規模かつ完全合成データセットを収集するためのスケーラブルなアプローチを調査しています。具体的には、ペア画像の選好は事前にトレーニングされた報酬関数を使用して生成され、人間を注釈付けプロセスに巻き込む必要がなくなり、データセットの収集効率が大幅に向上します。さらに、このようなデータセットを使用することで、複数のモデル間で予測を平均化し、対の選好ではなくランク付けされた選好を収集することが可能であることを示します。さらに、ランクフィードバックを使用してDPOベースの手法を強化するRankDPOを紹介します。我々が合成生成した選好データセット「Syn-Pic」を用いて、SDXLおよびSD3-MediumモデルにRankDPOを適用すると、T2I-Compbench、GenEval、DPG-Benchなどのベンチマークにおけるプロンプトに従う能力と視覚的品質が向上します（ユーザースタディを通じて）。このパイプラインは、テキストから画像へのモデルの性能を向上させるためのより良い選好データセットを開発するための実用的でスケーラブルなソリューションを提供します。

DynamicCity: 動的シーンからの大規模LiDAR生成
DynamicCity: Large-Scale LiDAR Generation from Dynamic Scenes

Oct 23

ByHengwei Bian, Lingdong Kong, Haozhe Xie, Liang Pan, Yu Qiao, Ziwei Liu

LiDARシーン生成技術は最近急速に発展しています。ただし、既存の手法は主に静的かつ単一フレームのシーン生成に焦点を当てており、実世界の運転環境の本質的にダイナミックな性質を見落としています。本研究では、時間的な進化を捉える大規模で高品質なLiDARシーンを生成することが可能な新しい4D LiDAR生成フレームワークであるDynamicCityを紹介します。DynamicCityは主に2つの主要モデルから構成されています。1) HexPlaneをコンパクトな4D表現として学習するためのVAEモデル。DynamicCityは単純な平均演算を使用せず、4D LiDAR特徴を効果的に圧縮するための新しいProjection Moduleを採用し、HexPlane構築のための6つの2D特徴マップに変換します。これによりHexPlaneの適合性が大幅に向上します（最大12.56 mIoUの向上）。さらに、3D特徴ボリュームを並列に再構築するためのExpansion & Squeeze Strategyを利用し、各3Dポイントを単純に問い合わせるよりもネットワークトレーニング効率と再構築精度が向上します（最大7.05 mIoUの向上、2.06倍のトレーニング速度向上、メモリ削減率70.84%）。2) HexPlane生成のためのDiTベースの拡散モデル。HexPlaneをDiT生成可能にするために、Padded Rollout Operationが提案され、HexPlaneの6つの特徴面を正方形の2D特徴マップとして再編成します。特に、拡散やサンプリングプロセスにさまざまな条件を導入することで、軌跡やコマンド駆動の生成、インペインティング、およびレイアウト条件付きの生成など、多様な4D生成アプリケーションをサポートします。CarlaSCおよびWaymoデータセットでの幅広い実験により、DynamicCityが複数の指標で既存の最先端の4D LiDAR生成手法を大幅に上回ることが示されました。コードは将来の研究を支援するために公開されます。

M-RewardBench: 多言語環境における報酬モデルの評価
M-RewardBench: Evaluating Reward Models in Multilingual Settings

Oct 20

BySrishti Gureja, Lester James V. Miranda, Shayekh Bin Islam, Rishabh Maheshwary, Drishti Sharma, Gusti Winata, Nathan Lambert, Sebastian Ruder, Sara Hooker, Marzieh Fadaee

報酬モデル（RMs）は、人間のフィードバックを言語モデリングプロセスに統合することで、LLMsの最先端のパフォーマンスを実現しています。ただし、RMsは主に英語で訓練および評価されており、多言語環境における能力はほとんど研究されていません。本研究では、複数言語環境でいくつかの報酬モデルを体系的に評価します。まず、23の言語にわたる2.87kの異なるタイプの言語のチャット、安全性、推論、翻訳能力をテストするM-RewardBenchという画期的な多言語RM評価ベンチマークを構築します。その後、M-RewardBenchで幅広い報酬モデルを厳密に評価し、異なる言語間でのパフォーマンスについて新しい洞察を提供します。英語と非英語の言語間でRMsのパフォーマンスに大きな差があることを特定し、言語によってRMの選好が大幅に変わることを示します。また、異なる多言語的側面がRMのパフォーマンスにどのように影響するかについていくつかの結果を示します。具体的には、翻訳品質が向上するとRMsのパフォーマンスが向上することを示し、同様に、高リソース言語に対してモデルがより良いパフォーマンスを発揮することを実証します。本研究では、多言語環境でのRM評価の理解を促進するために、M-RewardBenchデータセットとコードベースを公開します。

軽量ニューラルアプリ制御
Lightweight Neural App Control

Oct 23

ByFilippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao

本論文では、Androidアプリケーション間の効率的な相互作用と制御のための新しいモバイル電話制御アーキテクチャ「アプリエージェント」を紹介します。提案された軽量マルチモーダルアプリ制御（LiMAC）は、テキスト形式のゴールと過去のモバイル観測（スクリーンショットや対応するUIツリーなど）のシーケンスを入力として、正確なアクションを生成します。スマートフォン固有の計算上の制約に対処するために、LiMAC内で、リアルタイムの意思決定とタスク実行のために、微調整されたビジョン言語モデル（VLM）と統合された小規模なアクショントランスフォーマー（AcT）を導入しています。私たちは、LiMACを2つのオープンソースモバイル制御データセットで評価し、オープンソースのVLM（Florence2やQwen2-VLなど）の微調整バージョンに対する小形ファクターアプローチの優れたパフォーマンスを示しています。また、GPT-4oなどのクローズドソースの基礎モデルを利用したプロンプトエンジニアリングベースラインを大幅に上回ります。具体的には、LiMACは、微調整されたVLMに比べて全体のアクション精度を最大19%向上させ、プロンプトエンジニアリングベースラインに比べて最大42%向上させます。

MedINST: バイオメディカルインストラクションのメタデータセット
MedINST: Meta Dataset of Biomedical Instructions

Oct 17

ByWenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen

大規模言語モデル（LLM）技術の医学分野への統合は、重要な進歩をもたらしていますが、大規模で多様かつ十分に注釈が付けられたデータセットの不足は依然として主要な課題です。フォーマット、サイズ、その他のパラメータが異なる医療データやタスクは、効果的なLLMのトレーニングには広範な前処理と標準化が必要です。これらの課題に対処するために、我々はMedINST（医療関連指示のメタデータセット）を導入します。これは新しい多ドメイン、多タスクの指示メタデータセットであり、133のバイオメディカルNLPタスクと700万以上のトレーニングサンプルを含んでおり、これまでで最も包括的なバイオメディカル指示データセットです。MedINSTをメタデータセットとして使用し、異なるタスクの難易度を持つ挑戦的なベンチマークであるMedINST32をキュレーションします。これは、LLMの汎化能力を評価することを目的としており、MedINSTで数種類のLLMを微調整し、MedINST32で評価を行い、クロスタスクの汎化能力の向上を示しています。

ARKit LabelMaker: 屋内3Dシーン理解の新たなスケール
ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

Oct 17

ByGuangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum

ニューラルネットワークのパフォーマンスは、そのサイズと訓練に使用されたデータ量の両方に比例します。これは言語生成や画像生成の両方で示されています。ただし、これにはスケーリングに適したネットワークアーキテクチャと大規模なデータセットが必要です。最近では、3Dビジョンタスク向けのトランスフォーマーなど、スケーリングに適したアーキテクチャが登場していますが、トレーニングデータの不足により、3DビジョンのGPTモーメントは遠い存在となっています。本論文では、密な意味的注釈を持つ初の大規模な実世界3DデータセットであるARKit LabelMakerを紹介します。具体的には、ARKitScenesデータセットを、自動的に生成された密な意味的注釈で補完します。このために、最近の自動注釈パイプラインであるLabelMakerを拡張し、大規模な事前トレーニングのニーズに対応します。これには、最先端のセグメンテーションモデルを導入するとともに、大規模処理の課題に対処するための強固さを確保します。さらに、主要な3Dセマンティックセグメンテーションモデルを使用して、ScanNetおよびScanNet200データセットで最新のパフォーマンスを達成し、生成されたデータセットの効果を示します。

TP-Eval：カスタマイズされたプロンプトによる評価で、タップマルチモーダルLLMの潜在能力を引き出す
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

Oct 23

ByYuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang

最近、多様なモダリティを持つ大規模言語モデル（MLLMs）はその印象的な能力により注目を集めています。MLLMsの評価は、MLLMsの属性を分析し有益な洞察を提供するために重要性を増しています。しかしながら、現行のベンチマークはプロンプトの感度の問題を見落としており、わずかなプロンプトの変化が性能の大幅な変動につながる可能性があります。したがって、不適切なプロンプトはモデルの能力を曇らせ、モデルの性能を過小評価する可能性があります。さらに、異なるモデルは異なるプロンプトに対する異なる傾向を持っており、すべてのモデルに同じプロンプトを使用することは評価の偏りを引き起こします。本論文では、既存のベンチマークのこの欠陥を分析し、評価バイアスを軽減しモデルの潜在能力を引き出すためのプロンプトのカスタマイズ方法を導入した新しい評価フレームワークであるTP-Evalを紹介します。TP-Evalは、異なるモデルに対して異なるカスタマイズされたプロンプトに元のプロンプトを書き換えます。特に、MLLM評価のシナリオに合わせたプロンプトのカスタマイズのためのいくつかの設計されたモジュールを提案します。幅広い実験により、当社のアプローチがモデルの能力を明らかにする効果を実証し、TP-Evalはより包括的かつ説得力のあるMLLM評価ベンチマークの開発にコミュニティに利益をもたらすべきです。

LVSM: 最小限の3D帰納バイアスを持つ大視野合成モデル
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

Oct 22

ByHaian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu

私たちは、スパースビュー入力からスケーラブルで汎用性のある新しいビュー合成手法であるLarge View Synthesis Model（LVSM）を提案します。我々は、2つのアーキテクチャを導入します：（1）エンコーダーデコーダー型LVSMは、入力画像トークンを固定数の1次元潜在トークンにエンコードし、完全に学習されたシーン表現として機能し、それらから新しいビュー画像をデコードします。そして（2）デコーダーのみのLVSMは、入力画像を新しいビューの出力に直接マッピングし、中間のシーン表現を完全に排除します。両方のモデルは、以前の手法で使用されていた3D表現（例：NeRF、3DGS）からネットワーク設計（例：エピポーラ投影、平面走査）への3Dの帰紵バイアスをバイパスし、新しいビュー合成を完全にデータ駆動のアプローチで対処します。エンコーダーデコーダーモデルは独立した潜在表現のため推論が速く、一方、デコーダーのみのLVSMは優れた品質、スケーラビリティ、およびゼロショット汎化を実現し、従来の最先端手法を1.5から3.5 dB PSNRで上回ります。複数のデータセットを対象とした包括的な評価により、両LVSMバリアントが最先端の新しいビュー合成品質を達成することが示されました。特筆すべきは、当社のモデルが計算リソースを削減した状態（1-2 GPU）でも、すべての以前の手法を上回る点です。詳細は当社のウェブサイトをご覧ください：https://haian-jin.github.io/projects/LVSM/

一般的なAIモデルを導く：価値ガイダンスを通じたロボット基盤モデルの改善
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

Oct 17

ByMitsuhiko Nakamoto, Oier Mees, Aviral Kumar, Sergey Levine

多様なデモンストレーションデータセットで訓練された大規模で汎用性の高いロボットポリシーは、さまざまなシーンでのさまざまなロボットの制御に非常に効果的であり、幅広い操作スキルのレパートリーを獲得するためにも効果的であることが示されています。ただし、このようなポリシーの訓練に使用されるデータは一般的に質のばらつきがあります。人間が収集したデモンストレーションは完璧にタスクを遂行することは期待できず、データセットが大きくなればなるほど、最高品質の例だけを厳選することが難しくなります。また、ある具現からの最適なデータが別の具現での訓練にどのように適しているかは依然として明確ではありません。本論文では、オフラインRLによって学習された価値関数に従ってアクションを再ランク付けすることで、展開時にこのような汎用ロボットポリシーのパフォーマンスを向上させる一般的で広く適用可能なアプローチを提案します。このアプローチは、バリューガイドポリシーステアリング（V-GPS）と呼ばれ、幅広い異なる汎用ポリシーと互換性があり、ポリシーの重みを微調整したり、アクセスしたりする必要がありません。我々は、同じ価値関数が異なるアーキテクチャを持つ5つの最先端のポリシーのパフォーマンスを向上させることができることを示しました。これらのポリシーは異なるデータセットで訓練されていましたが、12のタスク全体で複数のロボットプラットフォームで一貫したパフォーマンス向上を達成しました。コードと動画は以下で入手できます：https://nakamotoo.github.io/V-GPS

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

MIA-DPO: 大規模ビジョン言語モデル向けのマルチ画像拡張直接選好最適化
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Oct 23

ByZiyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

TP-Eval：カスタマイズされたプロンプトによる評価で、タップマルチモーダルLLMの潜在能力を引き出す
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

Oct 23

ByYuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang

LVSM: 最小限の3D帰納バイアスを持つ大視野合成モデル
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

Oct 22

ByHaian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu

一般的なAIモデルを導く：価値ガイダンスを通じたロボット基盤モデルの改善
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

Oct 17

ByMitsuhiko Nakamoto, Oier Mees, Aviral Kumar, Sergey Levine