AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Emu3: 次トークン予測はすべてを必要とする
Emu3: Next-Token Prediction is All You Need

Sep 27

ByXinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang

次のトークン予測は人工汎用知能への有望な道筋とされていますが、依然としてマルチモーダルタスクで優れることに苦労しており、これらのタスクは拡散モデル（例：Stable Diffusion）や合成的アプローチ（例：CLIPとLLMを組み合わせたもの）によって主導されています。本論文では、次のトークン予測のみで訓練された最新のマルチモーダルモデル群であるEmu3を紹介します。画像、テキスト、ビデオを離散空間にトークン化し、マルチモーダルシーケンスの混合で1つのトランスフォーマーをゼロから訓練します。Emu3は、生成および知覚タスクの両方でいくつかの確立されたタスク固有モデルを凌駕し、SDXLやLLaVA-1.6などの主力モデルを上回ります。また、拡散や合成的アーキテクチャの必要性を排除しながら、高品質なビデオを生成する能力も備えています。我々は、ビデオシーケンス内の次のトークンを予測することで、複雑なマルチモーダルモデル設計を単一の焦点で収束させ、トークンに焦点を当てることで、訓練および推論の両方でスケーリングの可能性を開放しています。我々の結果は、次のトークン予測が言語を超えた一般的なマルチモーダル知能構築への有望な道筋であることを示しています。この方向性でのさらなる研究を支援するために、主要な技術とモデルをオープンソース化しています。

MIO: マルチモーダルトークンに関する基盤モデル
MIO: A Foundation Model on Multimodal Tokens

Sep 26

ByZekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang

本論文では、多様なモーダルトークンに基づく新しい基盤モデルであるMIOを紹介し、音声、テキスト、画像、動画を統合的かつ自己回帰的に理解および生成する能力を持たせました。大規模言語モデル（LLMs）や多様なモーダルを扱う大規模言語モデル（MM-LLMs）の登場により、人工汎用知能の進歩が促進されていますが、真の任意の入出力理解と生成がまだ不足しています。最近、GPT-4oのリリースにより、複雑な実世界のタスクに対する任意の入出力LLMsの顕著な潜在能力が示され、画像、音声、テキストを横断的に扱うことが可能になりました。ただし、GPT-4oはクローズドソースであり、多様なモーダルの交互配列生成をサポートしていません。このギャップを埋めるために、我々はMIOを提案し、因果的多様なモデリングを用いて4つのモーダリティ間で離散トークンの混合を学習させました。MIOは4段階のトレーニングプロセスを経ています：（1）整列事前トレーニング、（2）交互事前トレーニング、（3）音声強化事前トレーニング、および（4）多様なテキスト、画像、音声タスクに対する包括的な教師付き微調整。実験結果は、MIOが以前の二元モーダルベースライン、任意の入出力モデルベースライン、さらにはモダリティ固有のベースラインと比較して競争力があり、一部の場合には優れた性能を示すことを示しています。さらに、MIOは、交互ビデオテキスト生成、視覚的思考の連鎖推論、視覚的ガイドライン生成、指示画像編集など、任意の入出力機能に固有の高度な機能を示しています。

大規模言語モデルの誠実さに関する調査
A Survey on the Honesty of Large Language Models

Sep 27

BySiheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam

正直さは、大規模言語モデル（LLM）を人間の価値観と整合させるための基本原則であり、これらのモデルには自分が何を知っていて何を知らないかを認識し、その知識を忠実に表現する能力が求められます。有望なものの、現在のLLMは依然として確信を持って間違った回答を提示したり、自分が知っていることを表現できないなど、著しい不正直な行動を示すことがあります。さらに、LLMの正直さに関する研究は、正直さの定義の違い、既知と未知の知識の区別の難しさ、関連研究の包括的な理解の欠如など、さまざまな課題に直面しています。これらの問題に対処するために、私たちはLLMの正直さに関する調査を提供し、その明確化、評価アプローチ、および改善戦略についてカバーします。さらに、この重要な分野でのさらなる探求を促すことを目指して、将来の研究に向けた示唆を提供します。

MinerU: 正確な文書コンテンツ抽出のためのオープンソースソリューション
MinerU: An Open-Source Solution for Precise Document Content Extraction

Sep 27

ByBin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He

コンピュータビジョンにおける文書内容解析は重要な研究分野となっています。OCRやレイアウト検出、数式認識などの手法の大幅な進歩があるにもかかわらず、既存のオープンソースソリューションは、文書タイプや内容の多様性により高品質な内容抽出を一貫して提供することに苦労しています。これらの課題に対処するために、高精度な文書内容抽出のためのオープンソースソリューションであるMinerUを提案します。MinerUは、PDF-Extract-Kitモデルを活用してさまざまな文書から効果的にコンテンツを抽出し、細かく調整された前処理および後処理ルールを用いて最終結果の正確性を確保しています。実験結果は、MinerUがさまざまな文書タイプで高いパフォーマンスを一貫して達成し、コンテンツ抽出の品質と一貫性を大幅に向上させていることを示しています。MinerUオープンソースプロジェクトは、https://github.com/opendatalab/MinerU で入手可能です。

VPTQ: 大規模言語モデル向けの極低ビットベクトル事後トレーニング量子化
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

Sep 25

ByYifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang

モデルサイズのスケーリングは、大規模言語モデル（LLMs）の展開と推論に大きな課題をもたらします。LLMの重みに冗長性があるため、最近の研究では、重みのみの量子化を極めて低ビット（2ビットまで）に押し込めることに焦点を当てています。これにより、メモリ要件が削減され、ストレージコストが最適化され、推論時のメモリ帯域幅要件が低減されます。しかし、数値表現の制限により、従来のスカラーに基づく重み量子化は、このような極端に低いビット数を達成するのに苦労しています。LLMs向けのベクトル量子化（VQ）に関する最近の研究では、ベクトルをルックアップテーブルを使用してインデックスに圧縮することで、極端に低いビット数のモデル量子化の可能性が示されています。本論文では、極めて低ビットのLLMsの量子化のためのベクトル事後トレーニング量子化（VPTQ）を紹介します。LLM VQ問題を定式化し、最適化を解決することで、量子化アルゴリズムの設計を導くために、2次最適化を使用します。さらに、チャネルに独立した2次最適化を使用して、重みを微調整し、粒度の細かいVQを実現します。また、最適化問題を分解することで、簡潔で効果的なコードブックの初期化アルゴリズムを提案します。また、VPTQを残差および外れ値の量子化をサポートするよう拡張し、モデルの精度を向上させ、モデルをさらに圧縮します。実験結果によると、VPTQは、LLaMA-2において0.01-0.34、Mistral-7Bにおいて0.38-0.68、LLaMA-3において4.41-7.34のモデル量子化のパープレキシティをSOTAに比べて削減し、LLaMA-2において0.79-1.5％、Mistral-7Bにおいて1％、LLaMA-3において11-22％の平均精度向上を達成しました。また、量子化アルゴリズムの実行時間のみを10.4-18.6％利用し、SOTAに比べて推論スループットが1.6-1.8倍向上しました。

PhysGen：剛体物理学に基づく画像からビデオへの生成
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

Sep 27

ByShaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang

私たちは、PhysGenという新しい画像から動画を生成する手法を提案します。この手法は、単一の画像と入力条件（例：画像内のオブジェクトに適用される力とトルク）を使用して、現実的で物理的に妥当で時間的に整合性のあるビデオを生成します。私たちの主要な洞察は、モデルベースの物理シミュレーションとデータ駆動型のビデオ生成プロセスを統合し、画像空間のダイナミクスを可能にすることです。当システムの中心には、次の3つの主要なコンポーネントがあります：(i) 画像理解モジュールは、画像の幾何学、材料、および物理パラメータを効果的に捉えます。(ii) 画像空間のダイナミクスシミュレーションモデルは、剛体物理と推定されたパラメータを利用して現実的な振る舞いをシミュレートします。(iii) 画像ベースのレンダリングとリファインメントモジュールは、生成的ビデオ拡散を活用して、シミュレートされた動きを特徴とするリアルなビデオ映像を生成します。その結果得られるビデオは、物理的にも外観的にも現実的であり、既存のデータ駆動型画像からビデオを生成する作品と比較して、定量的な比較と包括的なユーザースタディを通じて優れた結果を示しています。PhysGenによって生成されたビデオは、画像をリアルなアニメーションに変換したり、ユーザーが画像と対話してさまざまなダイナミクスを作成したりするなど、さまざまな下流アプリケーションに使用できます。プロジェクトページ：https://stevenlsw.github.io/physgen/

調整された介入選好最適化（MIPO）：易しいものを保ち、難しいものを洗練する
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

Sep 26

ByCheolhun Jang

好みの最適化手法は通常、参照モデルとして訓練済みのSFTモデルを使用してトレーニングを開始します。RLHFとDPOでは、好みの最適化プロセス中に正則化項が使用され、ポリシーモデルが参照モデルの分布から大きく逸脱するのを防ぎ、異常な応答の生成を回避します。参照モデルが既に与えられたデータとよく整合しているか、わずかな調整のみが必要な場合、このアプローチはよく整合したモデルを生成できます。ただし、参照モデルが与えられたデータと整合せず、現在の状態から大きく逸脱する必要がある場合、正則化項は実際にはモデルの整合性を妨げる可能性があります。本研究では、この問題に対処するために、Modulated Intervention Preference Optimization（MIPO）を提案します。MIPOは、与えられたデータが参照モデルとどれだけ整合しているかに基づいて、参照モデルからの介入度を調整します。データがよく整合している場合、介入が増加してポリシーモデルが参照モデルから大きく逸脱するのを防ぎます。逆に、整合性が悪い場合、干渉を減らしてより広範なトレーニングを促進します。Alpaca Eval 2.0とMT-BenchでMistral-7BとLlama3-8Bを使用して、MIPOとDPOのパフォーマンスを比較します。実験結果は、MIPOがさまざまな評価シナリオでDPOを常に上回ることを示しています。

MSIエージェント：優れた計画と意思決定のために具現化エージェントにマルチスケールの洞察を組み込む
MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making

Sep 25

ByDayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou

長期記憶はエージェントにとって重要であり、洞察が重要な役割を果たします。しかし、不適切な洞察の出現や一般的な洞察の欠如は、洞察の効果を大きく損なう可能性があります。この問題を解決するため、本論文では、Multi-Scale Insight Agent（MSI-Agent）を導入します。これは、異なるスケールで効果的に洞察を要約し活用するために設計された具現化エージェントです。MSIは、経験セレクタ、洞察ジェネレータ、洞察セレクタを通じてこれを実現します。3つのパートからなるパイプラインを活用することで、MSIはタスク固有かつ高レベルな洞察を生成し、それをデータベースに保存し、それから意思決定を支援するために関連する洞察を使用できます。実験の結果、MSIはGPT3.5による計画時に別の洞察戦略を上回ることが示されました。さらに、シード経験と洞察を選択する戦略について探求し、LLMにより有用で適切な洞察を提供して意思決定を改善することを目指しています。また、MSIはドメインシフトシナリオに直面した際により優れた堅牢性を示すことが観察されました。

LML: データ拡張予測のためのデータセット学習
LML: Language Model Learning a Dataset for Data-Augmented Prediction

Sep 27

ByPraneeth Vadlapati

この論文は、通常は機械学習（ML）モデルを用いて処理される分類タスクにおいて、大規模言語モデル（LLMs）を使用する新しいアプローチを紹介しています。MLモデルがデータのクリーニングや特徴量エンジニアリングに大きく依存するのに対し、この手法はLLMsを使用することでプロセスを合理化しています。本論文では、「データ拡張予測（DAP）」と呼ばれる新しい手法によって推進される「言語モデル学習（LML）」という新しい概念を提案しています。分類は、LLMsによって行われ、人間がデータを手動で探索し理解し、データを参照して分類を決定するのと類似した方法で行われます。トレーニングデータは要約され、各ラベルの分類に最も影響を与える特徴を決定するために評価されます。DAPのプロセスでは、システムはデータの要約を使用して自動的にクエリを作成し、これを使用してデータセットから関連する行を取得します。LLMsによってデータの要約と関連する行が使用され、複雑なデータでも満足のいく精度で分類が生成されます。DAPにおけるデータの要約と類似データの使用により、文脈に即した意思決定が確保されます。提案された手法では、「説明可能な機械学習モデルとして機能する」という言葉を使用して、各予測の背後にあるロジックをユーザーが確認できるようにすることで予測の解釈可能性を向上させています。一部のテストケースでは、システムは90％以上の精度を記録し、システムの効果的な性能と従来のMLモデルをさまざまなシナリオで上回る可能性を証明しています。コードは以下のリンクから入手可能です：https://github.com/Pro-GenAI/LML-DAP

HDFlow：ハイブリッド思考と動的ワークフローによるLLM複雑な問題解決の向上
HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows

Sep 25

ByWenlin Yao, Haitao Mi, Dong Yu

最近の大規模言語モデル（LLMs）の進歩にもかかわらず、複数のスキルを組み合わせた多段階の思考を必要とする複雑な推論問題における性能は依然として限られています。この課題に対処するために、私たちはLLMsを用いた複雑な推論のための新しいフレームワークであるHDFlowを提案します。このフレームワークは、適応的に高速思考モードと遅速思考モードを組み合わせます。私たちのアプローチには、2つの主要なコンポーネントがあります。1つ目は、Dynamic Workflowと呼ばれる遅い慎重な推論の新しいアプローチであり、複雑な問題を自動的により管理しやすいサブタスクに分解し、専門のLLMや記号推論ツールを組み立てるためのワークフローを動的に設計します。2つ目は、問題の複雑さに基づいて高速思考と遅速思考を動的に組み合わせる一般的なフレームワークであるHybrid Thinkingです。最後に、27,000の難解な推論問題の大規模データセットを自動的に合成するための簡単にスケーラブルな手法と、このデータセットで小規模LLMsを訓練して高速/遅速ハイブリッド推論戦略を内部化するハイブリッド思考チューニング手法を提案します。4つの推論ベンチマークデータセットでの実験結果は、遅速思考と動的ワークフローがChain-of-Thoughtを大幅に上回り、ハイブリッド思考が最も高い精度を達成し、計算効率と性能の間で効果的なバランスを提供していることを示しています。ハイブリッド思考アプローチを使用したファインチューニングは、オープンソースの言語モデルの複雑な推論能力を大幅に向上させます。これらの結果は、遅速思考、動的ワークフロー、およびハイブリッド思考がLLMsを用いた複雑な問題解決のフロンティアを拡大する可能性を示しています。コードとデータは\url{https://github.com/wenlinyao/HDFlow.}で公開されます。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

調整された介入選好最適化（MIPO）：易しいものを保ち、難しいものを洗練する
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

Sep 26

ByCheolhun Jang

MSIエージェント：優れた計画と意思決定のために具現化エージェントにマルチスケールの洞察を組み込む
MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making

Sep 25

ByDayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou

LML: データ拡張予測のためのデータセット学習
LML: Language Model Learning a Dataset for Data-Augmented Prediction

Sep 27

ByPraneeth Vadlapati

HDFlow：ハイブリッド思考と動的ワークフローによるLLM複雑な問題解決の向上
HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows

Sep 25

ByWenlin Yao, Haitao Mi, Dong Yu