AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Qwen2-Audio 技術レポート
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

大規模音声言語モデル「Qwen2-Audio」の最新進展を紹介します。Qwen2-Audioは多様な音声信号入力を処理し、音声分析や音声指示に対する直接的なテキスト応答を可能にします。複雑な階層的タグとは対照的に、異なるデータとタスクに対して自然言語プロンプトを活用することで事前学習プロセスを簡素化し、データ量をさらに拡大しました。Qwen2-Audioの指示追従能力を向上させ、音声チャットと音声分析の2つの異なる音声インタラクションモードを実装しました。音声チャットモードでは、ユーザーはテキスト入力を必要とせずにQwen2-Audioと自由に音声対話を行えます。音声分析モードでは、ユーザーは対話中に音声とテキスト指示を提供して分析を行うことができます。音声チャットモードと音声分析モードの切り替えにシステムプロンプトを使用しない点に注意してください。Qwen2-Audioは音声内の内容をインテリジェントに理解し、音声コマンドに従って適切に応答することができます。例えば、音声、複数話者の会話、音声コマンドが同時に含まれる音声セグメントにおいて、Qwen2-Audioは直接コマンドを理解し、音声に対する解釈と応答を提供できます。さらに、DPO（Direct Preference Optimization）により、モデルの事実性と所望の行動への準拠が最適化されました。AIR-Benchの評価結果によると、Qwen2-Audioは音声中心の指示追従能力に焦点を当てたテストにおいて、Gemini-1.5-proなどの従来のSOTA（State-of-the-Art）モデルを上回りました。Qwen2-Audioは、マルチモーダル言語コミュニティの進展を促進するためにオープンソースとして公開されています。

NeedleBench: LLMは100万トークンのコンテキストウィンドウで検索と推論が可能か？
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

大規模言語モデル（LLM）の長文脈処理能力を評価するにあたり、元の長文書からユーザーのクエリに関連する内容を特定することは、LLMが長文に基づいて質問に答えるための重要な前提条件です。本論文では、NeedleBenchというフレームワークを提案します。これは、複数の長さ区間（4k、8k、32k、128k、200k、1000k、およびそれ以上）と異なる深さ範囲にわたる、二言語長文脈能力を評価するための一連の段階的に難易度が上がるタスクで構成されています。これにより、異なるテキスト深さゾーンに重要なデータポイントを戦略的に挿入し、多様な文脈におけるモデルの検索および推論能力を厳密にテストすることが可能です。NeedleBenchフレームワークを使用して、主要なオープンソースモデルが質問に関連するキー情報をどの程度うまく特定し、その情報を二言語長文における推論に適用できるかを評価します。さらに、実世界の長文脈タスクに存在する可能性が高い論理推論の複雑さを模倣するために、Ancestral Trace Challenge（ATC）を提案し、複雑な長文脈状況に対処するLLMを評価するためのシンプルな方法を提供します。我々の結果は、現在のLLMが実用的な長文脈アプリケーションにおいて、実世界の長文脈タスクに存在する可能性が高い論理推論の複雑さに苦戦していることから、改善の余地が大きいことを示唆しています。すべてのコードとリソースはOpenCompassで公開されています：https://github.com/open-compass/opencompass。

拡散トランスフォーマーを160億パラメータまでスケーリング
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

本論文では、拡散Transformerのスパース版であるDiT-MoEを提案する。DiT-MoEは、高密度ネットワークと競合するスケーラビリティを持ちながら、高度に最適化された推論を実現する。DiT-MoEには、共有エキスパートルーティングとエキスパートレベルのバランス損失という2つのシンプルな設計が含まれており、これにより異なるルーティングされたエキスパート間の共通知識の捕捉と冗長性の削減が可能となる。条件付き画像生成に適用した際、エキスパートの専門化に関する深い分析からいくつかの興味深い観察が得られた：(i) エキスパートの選択は空間位置とノイズ除去のタイムステップに偏りを示すが、異なるクラス条件情報には鈍感である。(ii) MoE層が深くなるにつれて、エキスパートの選択は特定の空間位置から分散とバランスへと徐々にシフトする。(iii) エキスパートの専門化は初期のタイムステップでより集中し、その後半で徐々に均一化する傾向がある。これは、拡散プロセスが最初に低周波の空間情報をモデル化し、その後高周波の複雑な情報をモデル化するためであると考えられる。上記のガイダンスに基づき、一連のDiT-MoEは実験的に高密度ネットワークと同等の性能を達成しつつ、推論時の計算負荷を大幅に削減する。さらに、合成画像データを用いてDiT-MoEの可能性を示し、16.5Bパラメータの拡散モデルをスケーリングし、512×512解像度設定で1.80の新たなSoTA FID-50Kスコアを達成した。プロジェクトページ: https://github.com/feizc/DiT-MoE。

Ref-AVS: オーディオビジュアルシーンにおける物体の参照とセグメンテーション
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

従来の参照セグメンテーションタスクは、主に無音の視覚シーンに焦点を当てており、人間の体験におけるマルチモーダル知覚と相互作用の重要な役割を軽視してきました。本研究では、マルチモーダルな手がかりを含む表現に基づいて視覚領域内のオブジェクトをセグメント化する新しいタスク「参照音声視覚セグメンテーション（Ref-AVS）」を提案します。このような表現は自然言語形式で記述されますが、音声や視覚的な記述を含むマルチモーダルな手がかりで強化されています。この研究を促進するために、対応するマルチモーダル手がかり表現で記述されたオブジェクトのピクセルレベルのアノテーションを提供する最初のRef-AVSベンチマークを構築しました。Ref-AVSタスクに取り組むために、マルチモーダルな手がかりを適切に活用して正確なセグメンテーションガイダンスを提供する新しい手法を提案します。最後に、3つのテストサブセットで定量的および定性的な実験を行い、関連タスクからの既存手法と比較します。結果は、マルチモーダル手がかり表現を使用してオブジェクトを正確にセグメント化する能力を強調し、本手法の有効性を実証しています。データセットはhttps://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}で公開されています。

Sibyl: 複雑な現実世界の推論のためのシンプルかつ効果的なエージェントフレームワーク
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

大規模言語モデル（LLM）に基づく既存のエージェントは、LLMの内在する知識、強力なインコンテキスト学習およびゼロショット能力、そして人間が設計した複雑なLLM呼び出しワークフローとツールの使用を統合することで、堅牢な問題解決能力を発揮しています。しかし、これらのエージェントは依然として長期的な推論において欠点を示し、既存のツールの潜在能力を十分に活用していないため、複雑な現実世界の推論シナリオにおいて顕著な不足が見られます。これらの制限を解決するため、我々はSibylを紹介します。これは、最小限のツールセットを効率的に活用して複雑な推論タスクに取り組むように設計された、シンプルでありながら強力なLLMベースのエージェントフレームワークです。Sibylは、グローバルワークスペース理論に着想を得て、システム全体で知識と会話履歴の管理と共有を強化するためのグローバルワークスペースを組み込んでいます。さらに、マインドの社会理論に基づき、Sibylはマルチエージェント討論型のジャリーを実装し、最終的な回答を自己改善することで、包括的かつバランスの取れたアプローチを確保します。このアプローチは、システムの複雑さを軽減しながら、解決可能な問題の範囲を拡大することを目指しています。つまり、通常人間が数分で解決する問題から、数時間または数日を要する問題まで対応し、システム1思考からシステム2思考への移行を促進します。Sibylは、スケーラビリティとデバッグの容易さに焦点を当てて設計されており、関数型プログラミングから再入可能性の概念を最初から組み込むことで、他のLLMアプリケーションへのシームレスで低労力の統合を目指し、能力を向上させます。GAIAベンチマークテストセットでの実験結果は、GPT-4でインスタンス化されたSibylエージェントが、他のGPT-4ベースのエージェントと比較して、平均スコア34.55%で最先端のパフォーマンスを達成することを明らかにしています。我々は、Sibylが、複雑な現実世界の推論タスクに対処するための、より信頼性が高く再利用可能なLLMベースのエージェントソリューションをさらに刺激することを期待しています。

VLMEvalKit: 大規模マルチモーダルモデル評価のためのオープンソースツールキット
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

私たちはVLMEvalKitを紹介します。これはPyTorchベースの大規模マルチモーダルモデルを評価するためのオープンソースツールキットです。このツールキットは、研究者や開発者が既存のマルチモーダルモデルを評価し、再現可能な評価結果を公開するためのユーザーフレンドリーで包括的なフレームワークを提供することを目的としています。VLMEvalKitでは、プロプライエタリなAPIやオープンソースモデルを含む70以上の大規模マルチモーダルモデルと、20以上のマルチモーダルベンチマークを実装しています。単一のインターフェースを実装することで、新しいモデルを簡単にツールキットに追加でき、ツールキットはデータ準備、分散推論、予測後処理、メトリック計算などの残りの作業を自動的に処理します。このツールキットは現在、主に大規模視覚言語モデルの評価に使用されていますが、その設計は、音声やビデオなどの追加のモダリティを組み込む将来のアップデートと互換性があります。ツールキットで得られた評価結果に基づいて、マルチモーダル学習研究の進捗を追跡する包括的なリーダーボードであるOpenVLM Leaderboardをホストしています。このツールキットはhttps://github.com/open-compass/VLMEvalKitで公開されており、積極的にメンテナンスされています。

DreamCatalyst: 編集性と同一性保持を制御する高速かつ高品質な3D編集
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

スコア蒸留サンプリング（SDS）は、その内在的な3D一貫性により、テキスト駆動型3D編集タスクにおいて有効なフレームワークとして登場しました。しかし、既存のSDSベースの3D編集手法は、拡散モデルのサンプリングダイナミクスから逸脱しているため、長時間のトレーニングを要し、低品質な結果をもたらすという課題があります。本論文では、SDSベースの編集を拡散逆過程として解釈する新しいフレームワーク、DreamCatalystを提案します。我々の目的関数はサンプリングダイナミクスを考慮しており、これによりDreamCatalystの最適化プロセスが編集タスクにおける拡散逆過程の近似となります。DreamCatalystは、トレーニング時間の短縮と編集品質の向上を目指しています。DreamCatalystは2つのモードを提供します：（1）約25分でNeRFシーンを編集する高速モード、（2）70分未満で優れた結果を生成する高品質モードです。特に、我々の高品質モードは、速度と品質の両面において、現在の最先端のNeRF編集手法を凌駕しています。詳細な結果はプロジェクトページ（https://dream-catalyst.github.io）をご覧ください。

YouTube-SL-25: 大規模なオープンドメイン多言語手話並列コーパス
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

アメリカ手話（ASL）のようなより研究が進んでいる手話であっても、機械学習研究にとってデータがボトルネックとなっています。この状況は、世界中のろう者・難聴者コミュニティで使用されている他の多くの手話言語においてさらに深刻です。本論文では、YouTubeから収集した、一見よく整列したキャプション付きの大規模なオープンドメイン多言語手話動画コーパスであるYouTube-SL-25を紹介します。25以上の手話言語にわたる3000時間以上の動画を収録したYouTube-SL-25は、a) YouTube-ASLの3倍以上の規模、b) これまでで最大の並列手話データセット、c) 多くの構成言語において初めてまたは最大の並列データセットです。我々は、T5に基づく統一された多言語マルチタスクモデルを使用して手話からテキストへのタスクのベースラインを提供し、4つの手話言語にわたるベンチマークでのスコアを報告します。結果は、YouTube-SL-25内の高リソースおよび低リソースの手話言語の両方において、多言語転移が有益であることを示しています。

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.

EfficientQAT: 大規模言語モデルのための効率的な量子化対応トレーニング
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

大規模言語モデル（LLMs）は、現代の自然言語処理と人工知能において不可欠な存在です。しかし、その膨大なメモリ要件を管理する上で課題に直面しています。量子化対応トレーニング（QAT）は、低ビット表現を用いてメモリ消費を削減しつつ精度の低下を最小限に抑える解決策を提供しますが、モデルの重みと量子化パラメータを最適化するために多大なトレーニングリソースを必要とします。この問題に対処するため、我々はLLMを圧縮するための新しい量子化技術であるEfficient Quantization-Aware Training（EfficientQAT）を提案します。EfficientQATは、2つの連続したフェーズで構成されます：全パラメータのブロック単位トレーニング（Block-AP）と量子化パラメータのエンドツーエンドトレーニング（E2E-QP）。Block-APでは、各トランスフォーマーブロック内の全パラメータに対してブロック単位の再構築を行いながら量子化対応トレーニングを順次実施し、LLM全体をトレーニングすることを避けることで効率を維持します。量子化されたモデルで初期化された後、E2E-QPでは量子化パラメータ（ステップサイズ）のみをエンドツーエンドでトレーニングし、固定された量子化バックボーンと削減されたトレーニング可能なパラメータ数により効率を向上させます。広範な実験により、EfficientQATが7Bから70Bパラメータまでの様々な量子化ビット幅において、ベースLLM、指示チューニングされたLLM、マルチモーダルLLMを含む幅広いモデルで従来の量子化手法を凌駕することが実証されました。例えば、EfficientQATは単一のA100-80GB GPU上で41時間で2ビットのLlama-2-70Bモデルを取得し、フル精度と比較して3％未満の精度低下（69.48 vs. 72.41）を達成しました。特に、このINT2量子化された70Bモデルは、Llama-2-13Bモデル（69.48 vs. 67.81）に対して1.67の精度向上を達成しつつ、より少ないメモリ（19.2GB vs. 24.2GB）を必要とします。コードはhttps://github.com/OpenGVLab/EfficientQATで公開されています。

FIRE: マルチモーダルモデルのフィードバック統合と改良評価のためのデータセット
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

ビジョン言語モデル（VLMs）は多様なアプリケーションにおいて目覚ましい進歩を遂げ、主要な研究分野として確立されつつある。本論文では、FIREというフィードバック精緻化データセットを構築した。FIREは27のソースデータセットから派生した110万件のマルチターン会話で構成され、VLMsが多様なタスクにおいてユーザーフィードバックに基づいて自発的に応答を精緻化する能力を強化する。データ収集を効率化するため、FIREはFIRE-100KとFIRE-1Mの2つのコンポーネントで構成されている。FIRE-100KはGPT-4Vによって生成され、FIRE-1MはFIRE-100Kで訓練されたモデルによって自由生成される。さらに、VLMsのフィードバック精緻化能力を包括的に評価するためのベンチマークであるFIRE-Benchを構築した。FIRE-Benchは、テストデータとして11,000件のフィードバック精緻化会話、2つの評価設定、およびVLMsにフィードバックを提供するモデルを含む。FIRE-100KとFIRE-1MでLLaVAをファインチューニングしてFIRE-LLaVAモデルを開発したところ、FIRE-Benchにおいて顕著なフィードバック精緻化能力を示し、未訓練のVLMsを50%上回る性能を発揮した。これにより、ユーザーとエージェント間のインタラクションがより効率的になり、FIREデータセットの重要性が強調された。

ノイズ除去されたニューラル重みを用いた効率的な訓練
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

適切な重み初期化は、ディープニューラルネットワーク（DNN）モデルの学習コストを削減するための効果的な手段です。パラメータの初期化方法の選択は難しく、手動での調整が必要となる場合があり、時間がかかる上に人的ミスが発生しやすいという課題があります。このような制限を克服するため、本研究ではニューラルネットワークの重みを初期化するための重み生成器を構築するという新たなアプローチを提案します。広範なモデル重みを容易に収集できることから、生成敵対ネットワーク（GAN）を用いた画像変換タスクを例として取り上げます。具体的には、まずさまざまな画像編集コンセプトとそれに対応する学習済み重みを含むデータセットを収集し、これを重み生成器の学習に使用します。層ごとの異なる特性と予測すべき重みの膨大な数を考慮し、重みを等サイズのブロックに分割し、各ブロックにインデックスを割り当てます。その後、コンセプトのテキスト条件とブロックインデックスを用いて、このデータセットで拡散モデルを学習させます。提案する拡散モデルによって予測されたノイズ除去済み重みで画像変換モデルを初期化することで、学習時間はわずか43.3秒で済みます。スクラッチからの学習（例：Pix2pix）と比較すると、新しいコンセプトに対して15倍の学習時間短縮を実現しつつ、さらに優れた画像生成品質を達成しています。

GaLaReからWeLoreへ：低ランク勾配から非一様に出現する低ランク重みのメカニズム
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

現代の大規模言語モデル（LLM）は、数十億の要素からなる行列で構成されており、その保存と処理には計算リソースとメモリ使用量の面で多大な要求が伴います。これらの行列は非常に大規模であるため、低ランク形式で表現されることが多く、リソース要件を緩和する可能性があります。従来の研究が新しい行列分解アルゴリズムの開発に焦点を当てていたのに対し、本研究ではまず、LLMの異なる層内の行列にわたる低ランク構造の出現を調査し、勾配ダイナミクスと行列の低ランク表現力の間の因果関係を確立します。我々の調査結果は、異なる層がさまざまなレベルの収束した低ランク構造を示し、それらにわたる非一様なランク削減が圧縮による性能低下を最小限に抑えるために必要であることを明らかにしています。これに基づき、我々は重み圧縮とメモリ効率の良いファインチューニングをデータに依存せず、ワンショットで統一するWeight Low-Rank Projection（WeLore）を提案します。WeLoreは、特異値のヘビーテール分布を活用して、LLM内の行列に適したランク削減比率を特定します。単なる圧縮技術を超えて、WeLoreは重み行列を低ランク成分（LRCs）と非低ランク成分（N-LRCs）に分類し、それらが低ランクとして表現できる能力に基づいて分類します。我々の勾配視点と広範な実験は、LRCsがより良いファインチューニング能力を持ち、フルファインチューニングのトレーニング損失軌跡と性能を密接に模倣（時には上回る）し、顕著なメモリと計算フットプリントの削減を実現できることを示しています。例えば、LLaMa-2 7Bモデルの50％圧縮版をLRCs（WeLore）のパラメータの一部のみを使用してファインチューニングすると、フルファインチューニングを上回り、約3倍のスループットと約0.6倍のGPU要件で達成できます。我々のコードはhttps://github.com/VITA-Group/weloreで公開されています。

OmniBind：空間結合による大規模オムニモーダル表現
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

近年、GPT-4oやGeminiなどの様々なモダリティを用いた人間とコンピュータのインタラクションが有望な応用を示しています。理解と生成のパイプラインにおけるマルチモーダル共同表現の基礎的な役割を考えると、高品質なオムニ共同表現は、より多様なマルチモーダル情報の共同処理に向けた一歩となるでしょう。本研究では、3D、音声、画像、言語の入力をサポートする、70億から300億パラメータ規模の大規模マルチモーダル共同表現モデルであるOmniBindを提案します。全てのモダリティにわたるデータペアの不足を考慮し、大規模モデルをゼロから訓練する代わりに、様々な事前訓練された専門モデルの空間を再マッピングし結合することを提案します。このアプローチにより、モデルのパラメータ数と見たデータの量を間接的に増やすことで「スケールアップ」を可能にします。様々な空間を効果的に統合するために、2つの目的（クロスモーダル全体のアラインメントと言語表現のデカップリング）を持つルーターを学習することで、異なる空間に動的に重みを割り当てます。特に、結合とルーティング空間の両方が軽量なネットワークのみを必要とするため、OmniBindは非常に訓練効率が良いです。最大の300億パラメータモデルの学習には、単一の8-4090ノード上でわずか3日間と、ペアになっていない単一モーダルデータのみが必要です。広範な実験により、OmniBindがオムニ表現モデルとしての汎用性と優位性を示し、any-queryや構成可能なマルチモーダル理解などの多様な応用における大きな可能性を強調しています。

シミュレートされたヒューマノイドによる多様な物体の把持
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

シミュレーションされたヒューマノイドを制御して物体を把持し、物体軌道に沿って移動させる手法を提案します。器用な手を持つヒューマノイドの制御における課題から、従来の手法ではしばしば手のみを独立させ、垂直方向の持ち上げや短い軌道のみを考慮していました。この限定的な範囲は、アニメーションやシミュレーションに必要な物体操作の適用性を妨げています。このギャップを埋めるため、我々は多数（1200以上）の物体を拾い上げ、ランダムに生成された軌道に沿って運ぶことができるコントローラを学習します。我々の重要な洞察は、人間のような運動スキルを提供し、訓練を大幅に高速化するヒューマノイドの運動表現を活用することです。単純な報酬、状態、および物体表現のみを使用して、我々の手法は多様な物体と軌道において良好なスケーラビリティを示します。訓練において、全身運動と物体軌道のペアになったデータセットは必要ありません。テスト時には、物体のメッシュと把持・運搬のための望ましい軌道のみを必要とします。我々の手法の能力を実証するため、物体軌道の追従と未見の物体への一般化において、最先端の成功率を示します。コードとモデルは公開予定です。

Data-Juicer Sandbox: マルチモーダルデータとモデルの共開発のための包括的スイート
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

大規模マルチモーダル生成モデルの出現は、人工知能を劇的に進化させ、前例のないレベルの性能と機能性をもたらしました。しかし、これらのモデルの最適化は、歴史的に分離されてきたモデル中心とデータ中心の開発経路のため、依然として課題が残っており、最適でない結果や非効率なリソース利用を引き起こしています。これに対応するため、我々は統合されたデータとモデルの共開発に特化した新しいサンドボックススイートを提案します。このサンドボックスは、包括的な実験プラットフォームを提供し、データとモデルの両方の迅速な反復と洞察に基づく改良を可能にします。我々が提案する「Probe-Analyze-Refine」ワークフローは、最先端のLLaVA風モデルやDiTベースのモデルへの適用を通じて検証され、VBenchリーダーボードのトップに立つなど、大幅な性能向上をもたらしました。また、徹底的なベンチマークから得られた有益な洞察を明らかにし、データ品質、多様性、およびモデルの挙動の間の重要な相互作用に光を当てています。マルチモーダルデータと生成モデリングにおける深い理解と将来の進展を促進することを願い、我々のコード、データセット、およびモデルはhttps://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.mdで維持され、アクセス可能です。

Vibravox: 身体伝導オーディオセンサーを用いて収録したフランス語音声データセット
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

Vibravoxは、一般データ保護規則（GDPR）に準拠したデータセットであり、5種類の身体伝導型オーディオセンサーを使用した音声録音を含んでいます。これには、2つのイヤーマイク、2つの骨導振動ピックアップ、および喉頭マイクが含まれます。また、データセットには、基準として使用された空中伝搬型マイクからのオーディオデータも含まれています。Vibravoxコーパスは、188名の参加者によって異なる音響条件下で録音された38時間の音声サンプルと生理学的音声を含んでおり、高次アンビソニックス3D空間化装置によって課された条件で録音されました。録音条件に関する注釈と言語学的転写もコーパスに含まれています。我々は、音声認識、音声強調、話者認証など、さまざまな音声関連タスクに関する一連の実験を実施しました。これらの実験は、最先端のモデルを使用して行われ、Vibravoxデータセットが提供する異なるオーディオセンサーで捕捉された信号に対する性能を評価・比較し、それぞれの特性をより深く理解することを目的としました。

Click-Gaussian: 3Dガウシアンへのインタラクティブセグメンテーション
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

3Dガウシアンのインタラクティブセグメンテーションは、3Dガウシアンスプラッティングのリアルタイムレンダリング能力により、3Dシーンのリアルタイム操作に大きな可能性を開きます。しかし、現在の手法では、ノイズの多いセグメンテーション出力を処理するための時間のかかる後処理が必要です。また、3Dシーンの細かい操作に重要な詳細なセグメンテーションを提供することにも苦労しています。本研究では、時間のかかる後処理なしでセグメンテーションを可能にする、2段階の粒度で識別可能な特徴フィールドを学習するClick-Gaussianを提案します。3Dシーンから独立して得られた2Dセグメンテーションに起因する、一貫性のない特徴フィールドの学習から生じる課題に深く取り組みます。3Dセグメンテーションの主要な手がかりであるビュー間の2Dセグメンテーション結果が矛盾している場合、3Dセグメンテーションの精度が低下します。これらの問題を克服するために、Global Feature-guided Learning (GFL)を提案します。GFLは、ビュー間のノイズの多い2Dセグメントからグローバル特徴候補のクラスタを構築し、3Dガウシアンの特徴を学習する際にノイズを平滑化します。我々の手法は、1クリックあたり10ミリ秒で動作し、従来の手法よりも15～130倍高速でありながら、セグメンテーション精度も大幅に向上させます。プロジェクトページはhttps://seokhunchoi.github.io/Click-Gaussianで公開されています。

不確実性は脆い：大規模言語モデルにおける不確実性の操作
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang

大規模言語モデル（LLMs）は、その出力の信頼性が極めて重要な様々な高リスク領域で使用されています。LLMsの応答の信頼性を評価するために一般的に用いられる方法の一つが、不確実性推定です。これは、モデルの回答が正しい可能性を測定するものです。多くの研究がLLMsの不確実性推定の精度向上に焦点を当てる中、本研究では不確実性推定の脆弱性を調査し、潜在的な攻撃手法を探求します。我々は、攻撃者がLLMsにバックドアを埋め込むことが可能であり、入力中の特定のトリガーによって活性化された場合、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを実証します。具体的には、提案するバックドア攻撃手法は、LLMsの出力確率分布を変更し、確率分布を攻撃者が事前に定義した分布に収束させながら、トップ1の予測が変わらないようにすることができます。我々の実験結果は、この攻撃が多肢選択問題におけるモデルの自己評価信頼性を効果的に損なうことを示しています。例えば、4つのモデルにおいて3つの異なるトリガー戦略で100%の攻撃成功率（ASR）を達成しました。さらに、この操作が異なるプロンプトやドメインにわたって一般化するかどうかを調査します。本研究は、LLMsの信頼性に対する重大な脅威を浮き彫りにし、このような攻撃に対する将来の防御策の必要性を強調します。コードはhttps://github.com/qcznlp/uncertainty_attackで公開されています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Qwen2-Audio 技術レポート
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

NeedleBench: LLMは100万トークンのコンテキストウィンドウで検索と推論が可能か？
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

拡散トランスフォーマーを160億パラメータまでスケーリング
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

Ref-AVS: オーディオビジュアルシーンにおける物体の参照とセグメンテーション
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

Sibyl: 複雑な現実世界の推論のためのシンプルかつ効果的なエージェントフレームワーク
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

VLMEvalKit: 大規模マルチモーダルモデル評価のためのオープンソースツールキット
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

DreamCatalyst: 編集性と同一性保持を制御する高速かつ高品質な3D編集
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

YouTube-SL-25: 大規模なオープンドメイン多言語手話並列コーパス
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

EfficientQAT: 大規模言語モデルのための効率的な量子化対応トレーニング
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

FIRE: マルチモーダルモデルのフィードバック統合と改良評価のためのデータセット
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

ノイズ除去されたニューラル重みを用いた効率的な訓練
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

GaLaReからWeLoreへ：低ランク勾配から非一様に出現する低ランク重みのメカニズム
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

OmniBind：空間結合による大規模オムニモーダル表現
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

シミュレートされたヒューマノイドによる多様な物体の把持
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

Data-Juicer Sandbox: マルチモーダルデータとモデルの共開発のための包括的スイート
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

Vibravox: 身体伝導オーディオセンサーを用いて収録したフランス語音声データセット
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

Click-Gaussian: 3Dガウシアンへのインタラクティブセグメンテーション
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

不確実性は脆い：大規模言語モデルにおける不確実性の操作
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang