AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

GRAPE: 偏好整列を通じたロボットポリシーの一般化
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

最近の視覚言語行動（VLA）モデルの進歩にもかかわらず、様々なロボティクスタスクで苦しんでいる問題があります。これらのモデルは、未知のタスクへの一般化能力が低いという重要な問題を抱えており、成功したロールアウトからの行動クローニングに依存しているためです。さらに、これらのモデルは通常、異なる設定で専門家によって収集されたデモを複製するように微調整されているため、分布バイアスが導入され、効率、安全性、およびタスク完了など多様な操作目標への適応性が制限されています。このギャップを埋めるために、私たちはGRAPE（Generalizing Robot Policy via Preference Alignment）を導入します。具体的には、GRAPEは、成功と失敗の両方のトライアルから報酬を暗黙的にモデル化し、さまざまなタスクへの一般化能力を向上させるために、VLAsを軌道レベルで整列させます。さらに、GRAPEは複雑な操作タスクを独立した段階に分解し、大規模な視覚言語モデルによって提案されるキーポイントとともに、カスタマイズされた時空間制約を介して優先モデリングを自動的にガイドします。特筆すべきは、これらの制約は柔軟であり、安全性、効率、またはタスク成功などのさまざまな目標と整合させるためにカスタマイズできるという点です。私たちはGRAPEを実世界およびシミュレート環境でさまざまなタスクにわたって評価します。実験結果は、GRAPEが最先端のVLAモデルのパフォーマンスを向上させ、ドメイン内および未知の操作タスクにおける成功率をそれぞれ51.79％と60.36％向上させることを示しています。さらに、GRAPEは安全性や効率などのさまざまな目標と整合させることができ、衝突率を44.31％、ロールアウトのステップ長を11.15％削減することができます。すべてのコード、モデル、データはhttps://grape-vla.github.io/ で入手可能です。

ビデオモデルなしでのビデオの深度
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

ビデオの奥行き推定は、各フレームで密な奥行きを推論することによって、単眼ビデオクリップを3Dに昇華させます。大規模な基盤モデルの台頭と合成トレーニングデータの使用によってもたらされた最近の単一画像奥行き推定の進歩は、ビデオの奥行きに対する再び興味が高まっています。ただし、ビデオの各フレームに単一画像奥行き推定器を単純に適用することは、時間的な連続性を無視するため、フリッカリングを引き起こすだけでなく、カメラの動きによって深度範囲が急激に変化するときにも破綻する可能性があります。明らかで原則に基づいた解決策は、ビデオ基盤モデルをベースに構築することですが、これらには高コストなトレーニングと推論、不完全な3Dの一貫性、固定長（短い）の出力に対するステッチング手順など、独自の制約があります。私たちは一歩後退して、単一画像潜在拡散モデル（LDM）を最先端のビデオ奥行き推定器に変換する方法を示しました。私たちがRollingDepthと呼ぶこのモデルには、次の2つの主要な要素があります：（i）単一画像LDMから派生した複数フレーム奥行き推定器であり、非常に短いビデオスニペット（通常はフレームの三つ組）を奥行きスニペットにマッピングします。（ii）異なるフレームレートでサンプリングされた奥行きスニペットを最適に組み立てるための頑健な最適化ベースの登録アルゴリズム。RollingDepthは、数百フレームの長いビデオを効率的に処理し、専用のビデオ奥行き推定器および高性能な単一フレームモデルよりもより正確な奥行きビデオを提供します。プロジェクトページ：rollingdepth.github.io。

例を超えて：MCTSを介したインコンテキスト学習における高レベルの自動推論パラダイム
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

インコンテキストラーニング（ICL）は、大規模言語モデル（LLM）が洗練されたプロンプティングと高品質なデモンストレーションを通じて下流タスクに取り組むことを可能にします。ただし、この従来のICLパラダイムは、複雑な数学的推論タスクに直面する際に制約が現れます。これは、例の品質への強い依存と、困難なシナリオでの人間の介入の必要性に主に起因します。これらの制約に対処するため、本論文では、HiAR-ICLと呼ばれる高レベル自動推論パラダイムを提案します。これは、ICLにおいて具体的な例から抽象的な思考パターンに焦点を移し、ICLにおける従来のコンテキストの概念を拡張します。HiAR-ICLは、チェーン構造のパターンを構築するための基本的な要素として、5つの原子推論アクションを導入します。モンテカルロ木探索を使用して推論経路を探索し、後続の推論を導くための思考カードを構築します。その後、問題を適切な思考カードに動的にマッチングする認知的複雑性フレームワークを開発します。実験結果は、HiAR-ICLの効果を示し、Qwen2.5-7B-Instructを使用したMATHベンチマークで最先端の精度（79.6%）を達成し、GPT-4o（76.6%）やClaude 3.5（71.1%）を上回りました。

マルチモーダルな大規模言語モデルに対するドメイン固有の事後トレーニングについて
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

近年、一般的なマルチモーダル大規模言語モデル（MLLMs）の急速な発展が目覚ましいです。ただし、一般的なMLLMsを科学分野や産業応用など特定の領域に適応させることは、未だにあまり探求されていません。本論文では、データ合成、トレーニングパイプライン、およびタスク評価に焦点を当て、MLLMsのドメイン適応を体系的に調査しています。 (1) データ合成：オープンソースモデルを使用して、特定の領域の画像キャプションペアから多様なビジュアルインストラクションタスクを効果的に生成するビジュアルインストラクション合成器を開発しました。当該合成タスクは、手動ルール、GPT-4、およびGPT-4Vによって生成されたものを上回り、MLLMsの特定の領域でのパフォーマンスを向上させています。 (2) トレーニングパイプライン：一般的なMLLMsの開発には、通常、画像キャプションペアでの初期トレーニングに続いてビジュアルインストラクションタスクでの二段階トレーニングが採用されますが、私たちは特定の領域の後段トレーニングのタスク多様性を向上させるために単一段階のトレーニングパイプラインを適用しています。 (3) タスク評価：バイオ医学と食品の2つの領域で、異なるソースとスケール（例：Qwen2-VL-2B、LLaVA-v1.6-8B、Llama-3.2-11B）のMLLMsを後段トレーニングし、さまざまな特定の領域のタスクでMLLMsのパフォーマンスを評価しています。MLLMsのドメイン適応のさらなる研究を支援するために、当社の実装をオープンソース化します。

Yi-Lightning テクニカルレポート
Yi-Lightning Technical Report

Dec 2

By01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang

この技術レポートでは、当社の最新のフラッグシップ大規模言語モデル（LLM）であるYi-Lightningを紹介します。このモデルは、特に中国語、数学、コーディング、難しいプロンプトなどの専門カテゴリにおいて非常に強力な結果（2位から4位）を収め、Chatbot Arena全体で6位の成績を達成しています。Yi-Lightningは、強化された専門家のセグメンテーションおよびルーティングメカニズムと最適化されたKVキャッシング技術を組み合わせた、高度なMixture-of-Experts（MoE）アーキテクチャを活用しています。私たちの開発プロセスは、包括的な事前トレーニング、教師ありファインチューニング（SFT）、そして人間のフィードバックからの強化学習（RLHF）を含み、多段階トレーニング、合成データ構築、および報酬モデリングのために綿密な戦略を練ります。さらに、私たちは、安全性の問題に対処するための4つのコンポーネントからなるRAISE（責任あるAI安全エンジン）を実装しています。私たちのスケーラブルなスーパーコンピューティングインフラによって強化されたこれらの革新は、トレーニング、展開、推論のコストを大幅に削減しつつ、高いパフォーマンス基準を維持しています。公開されている学術ベンチマークでさらなる評価を行った結果、Yi-Lightningは実用的なアプリケーション向けにより知能ある強力なAIシステムの開発を導くための従来の静的ベンチマーク結果と実世界の動的な人間の選好との顕著な不一致を観察しています。この観察は、より知能ある強力なAIシステムの開発を導くための従来のベンチマークの有用性を重要な再評価する契機となっています。Yi-Lightningは、現在、https://platform.lingyiwanwu.com で当社の開発者プラットフォームを通じて利用可能です。

高度なビデオ拡散サンプリングのための時空間スキップガイダンス
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

拡散モデルは、高品質な画像、ビデオ、および3Dコンテンツを生成するための強力なツールとして登場しています。CFGなどのサンプリングガイダンス技術は品質を向上させますが、多様性と動きを減少させます。オートガイダンスはこれらの問題を緩和しますが、追加の弱いモデルトレーニングを必要とし、大規模モデルには実用的ではありません。本研究では、トランスフォーマーベースのビデオ拡散モデルを強化するためのシンプルでトレーニング不要のサンプリングガイダンス方法であるSpatiotemporal Skip Guidance（STG）を紹介します。STGは、自己摂動を介して暗黙の弱いモデルを使用し、外部モデルや追加のトレーニングの必要性を回避します。空間的および時間的レイヤーを選択的にスキップすることで、STGはサンプルの品質を向上させるために元のモデルの整列した劣化バージョンを生成し、多様性や動的度を損なうことなくサンプルの品質を向上させます。私たちの貢献は次の通りです：（1）ビデオ拡散モデル向けの効率的で高性能なガイダンス技術としてSTGを導入すること、（2）レイヤースキップを通じて弱いモデルをシミュレートすることにより、補助モデルの必要性を排除すること、および（3）CFGとは異なり、サンプルの多様性やダイナミクスを損なうことなく品質向上のガイダンスを確保すること。追加の結果については、https://junhahyung.github.io/STGuidance をご覧ください。

逆転思考はLLMをより強力な推論者にします。
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

逆思考は人間の推論において重要な役割を果たしています。人間は問題から解決策への推論だけでなく、逆に解決策から問題へと進むことができます。これにより、前方と後方の思考の整合性を確認することで、全体的な推論パフォーマンスが向上することがしばしばあります。大規模言語モデル（LLMs）に逆思考を行わせるために、データ拡張と学習目標から構成されるReverse-Enhanced Thinking（RevThink）フレームワークを導入します。RevThinkでは、元の質問、前方推論、逆質問、逆推論から構成される教師モデルから構造化された前進-後退推論を収集することでデータセットを拡張します。その後、3つの目標を使用して、マルチタスク学習の形式でより小さな学習モデルをトレーニングします：（a）質問から前方推論を生成する、（b）質問から逆質問を生成する、および（c）逆質問から逆推論を生成する。常識、数学、論理推論をカバーする12つのデータセットでの実験結果は、学習モデルのゼロショットパフォーマンスに対する平均13.53％の改善と、最も強力な知識蒸留のベースラインに対する6.84％の改善を示しています。さらに、我々の手法はサンプル効率性を示し、トレーニングデータから正しい前方推論のわずか10％のみを使用しても、10倍の前方推論でトレーニングされた標準のファインチューニング手法を上回ります。RevThinkは、分布外の保留データセットに対しても強力な汎化能力を示しています。

時間ステップ埋め込みによって示される：ビデオ拡散モデルのためのキャッシュの時間
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

ビデオ生成の基本的なバックボーンとして、拡散モデルは、ノイズ除去の連続的な性質による低推論速度の課題に直面しています。従来の手法は、モデルの出力をキャッシュし、一定のタイムステップで再利用することでモデルの速度を向上させてきました。しかし、このような戦略は、モデルの出力間の差異がタイムステップごとに一様でないという事実を無視しており、適切なモデルの出力をキャッシュする際のバランスを損ない、推論効率と視覚品質の間に適切なバランスを生じさせています。本研究では、トレーニング不要のキャッシング手法であるTimestep Embedding Aware Cache（TeaCache）を導入し、タイムステップ間でモデルの出力の変動する差異を推定して活用します。時間のかかるモデルの出力を直接使用するのではなく、TeaCacheは、計算コストをほとんどかけずにモデルの出力と強い相関関係を持つモデルの入力に焦点を当てます。TeaCacheは、最初にタイムステップ埋め込みを使用してノイズのある入力を調整し、その差異がモデルの出力により適切に近似するようにします。次に、TeaCacheは、推定された差異を洗練するための再スケーリング戦略を導入し、それらを出力のキャッシングを示すために利用します。実験結果によると、TeaCacheは、視覚品質の劣化がほとんどない（-0.07％のVbenchスコア）状態で、Open-Sora-Planよりも最大4.41倍の加速を実現しています。

パズル：推論最適化LLM向けの蒸留ベースNAS
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

ByAkhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv

大規模言語モデル（LLMs）は驚異的な能力を示していますが、推論時の高い計算コストによってその採用が制限されています。パラメータ数を増やすことが精度を向上させる一方で、最先端の能力と実用的な展開可能性との間にギャップを広げることにもなります。本研究では、Puzzleというフレームワークを提案し、LLMの推論を特定のハードウェア上で加速させながらその能力を維持します。前例のないスケールでニューラルアーキテクチャサーチ（NAS）を革新的に適用することで、Puzzleは数百億のパラメータを持つモデルをハードウェアの制約下で系統的に最適化します。当アプローチは、ブロック単位のローカル知識蒸留（BLD）を並列アーキテクチャ探索に利用し、精密な制約最適化のために混合整数計画法を採用しています。当フレームワークの実世界への影響を示すために、Llama-3.1-Nemotron-51B-Instruct（Nemotron-51B）というLlama-3.1-70B-Instructから派生した公開モデルを取り上げます。Nemotron-51Bは、オリジナルモデルの能力の98.4%を維持しながら、単一のNVIDIA H100 GPUに適合し、推論スループットを2.17倍高速化しています。Nemotron-51Bは、大規模なバッチサイズで推論が可能な最も正確な言語モデルとして現在の地位にあります。驚くべきことに、この変換にはわずか45Bのトレーニングトークンが必要であり、それは派生元の70Bモデルに使用された15Tのトークンと比較しています。これは、強力なモデルが、能力のほとんどを犠牲にすることなく効率的な展開のために最適化できる新たなパラダイムを確立し、パラメータ数だけでなく推論パフォーマンスがモデル選択を導くべきであることを示しています。Nemotron-51BのリリースとPuzzleフレームワークの発表により、実務家は著しく削減された計算コストで最先端の言語モデリング能力に直ちにアクセスできます。

FAM拡散：高解像度画像生成のための周波数と注意の調整による安定した拡散
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

拡散モデルは高品質な画像を生成するのに優れています。ただし、トレーニング時に使用された解像度でのみ効果的です。スケーリングされた解像度での推論は、繰り返しパターンや構造の歪みを引き起こします。高い解像度での再トレーニングはすぐに制約が生じます。したがって、既存の拡散モデルが柔軟なテスト時解像度で動作することを可能にする手法が非常に望ましいです。従来の研究は頻繁なアーティファクトに苦しんでおり、しばしば大きな遅延オーバーヘッドを導入しています。私たちは、これらの問題を解決するために組み合わせる2つのシンプルなモジュールを提案します。私たちは、グローバル構造の一貫性を向上させるためにフーリエ領域を活用する周波数変調（FM）モジュールと、従来の研究でほとんど無視されていた局所テクスチャパターンの一貫性を向上させるアテンション変調（AM）モジュールを導入します。私たちの手法であるFam拡散は、任意の潜在的な拡散モデルにシームレスに統合され、追加のトレーニングは必要ありません。包括的な質的結果は、私たちの手法が構造的および局所的なアーティファクトに対処する際の効果を示し、定量的な結果は最先端のパフォーマンスを示しています。また、私たちの手法は、パッチベースや段階的生成などの一貫性向上のための冗長な推論トリックを避け、無視できるほどの遅延オーバーヘッドをもたらします。

低ビットレート高品質音声符号化のためのTransformerのスケーリング
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

ニューラルオーディオコーデックモデルによる音声のトークン化は、音声の生成または理解のための現代のAIパイプラインにおいて重要な要素であり、単独であるか、またはマルチモーダルなコンテキストで行われます。従来、このようなトークン化モデルは、強い帰紵バイアスを持つコンポーネントのみを使用した低パラメータ数のアーキテクチャに集中してきました。本研究では、大規模なパラメータ数を持つトランスフォーマーアーキテクチャをこの問題にスケーリングし、柔軟な有限スカラー量子化（FSQ）ベースのボトルネックを適用することで、非常に低いビットレート（400または700ビット/秒）で最先端の音声品質に到達することが可能であることを示します。訓練されたモデルは、客観的および主観的テストの両方で既存のベースラインを大きく上回る結果を示しました。

細かい動画モーション制御のための軌跡注意
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

最近のビデオ生成の進歩は、ビデオ拡散モデルによって大きく推進されており、カメラの動き制御が視点に合わせたビジュアルコンテンツの作成における重要な課題として浮上しています。本論文では、トラジェクトリアテンションという新しいアプローチを紹介し、利用可能なピクセルの軌跡に沿ってアテンションを行い、細かいカメラの動き制御を実現します。従来の手法とは異なり、しばしば不正確な出力を生じるか、時間的相関を無視する傾向があるが、当該アプローチは、ビデオ生成プロセスに軌跡情報をシームレスに組み込む強力な帰納バイアスを有しています。重要なのは、当該アプローチが、従来の時間的アテンションと並行して補助的な枝としてトラジェクトリアテンションをモデル化している点です。この設計により、元の時間的アテンションとトラジェクトリアテンションが協調して作用し、正確な動き制御と新しいコンテンツ生成能力の両方を確保し、トラジェクトリが部分的にしか利用できない場合に重要です。画像やビデオのカメラ動き制御に関する実験では、高い品質の生成を維持しながら、精度と長距離の一貫性において著しい改善が示されます。さらに、当該アプローチが他のビデオ動き制御タスクに拡張可能であることを示し、例えば最初のフレームによるビデオ編集のようなタスクでは、広範囲な空間および時間範囲でコンテンツの一貫性を維持する点で優れていることを示します。

一度にすべてのフレームを見る：マルチ軸勾配チェックポイントを使用した効率的な長尺ビデオ理解のためのVideo-Ma^2mba
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

ビデオデータの規模と複雑さが増大するにつれ、既存のトランスフォーマーベースの大規模マルチモーダルモデル（LMMs）に伴うメモリおよび計算要件の二次的増加により、長いビデオシーケンスを効率的に処理することは著しい課題を提起します。これらの問題に対処するため、私たちはアテンションメカニズムを置き換えることで、Mamba-2フレームワーク内にState Space Models（SSMs）を組み込んだ新しいアーキテクチャであるVideo-Ma^2mbaを導入します。これにより、LMMsは時間およびメモリ要件に関して線形にスケーリングすることが可能となり、長時間のビデオコンテンツを処理することが実現します。さらに、マルチアクシス勾配チェックポイント（MA-GC）手法を導入することでメモリ効率を向上させ、複数の計算軸にわたって必要なアクティベーションのみを保持することで、標準的な勾配チェックポイントに比べて著しくメモリフットプリントを削減します。実証分析によると、Video-Ma^2mbaは1つのGPU上で数百万のトークンに相当する広範なビデオシーケンス、または2時間以上の連続シーケンスを1 FPSで処理することができます。時間的ダイナミクスの詳細なキャプチャを維持することで、当社のモデルは長いビデオ理解タスクにおいて応答の精度と関連性を向上させ、既存のフレームワークに比べて著しい利点を示します。

DisCoRD: 離散トークンから連続運動へのリクティファイドフローによるデコーディング
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

人間の動きは、本質的に連続的かつ動的であり、生成モデルにとって重要な課題を提供しています。その支配的な存在である離散量子化手法（例：VQ-VAEs）は、制約された表現力やフレームごとのノイズアーティファクトなどの固有の制限に苦しんでいます。一方、より滑らかで自然な動きを生み出す連続的なアプローチは、高次元の複雑さや限られたトレーニングデータのためにしばしば失敗します。離散的な表現と連続的な表現の「不一致」を解消するために、私たちはDisCoRD（Discrete Tokens to Continuous Motion via Rectified Flow Decoding）を導入します。この新しい手法は、離散的な動きトークンを連続的な動きに変換するために、修正フローを介してデコードします。連続空間での反復的な洗練プロセスを採用することで、DisCoRDは微細なダイナミクスを捉え、より滑らかで自然な動きを確保します。任意の離散ベースのフレームワークと互換性があり、当社の手法は、条件付け信号への忠実性を損なうことなく自然さを向上させます。包括的な評価により、DisCoRDがHumanML3Dで0.032、KIT-MLで0.169のFIDを達成し、最先端のパフォーマンスを実現していることが示されました。これらの結果は、DisCoRDが離散的な効率性と連続的なリアリズムとの間の溝を埋めるための堅牢な解決策であることを確認しています。当社のプロジェクトページは次でご覧いただけます：https://whwjdqls.github.io/discord.github.io/。

MATATA: 表形式アプリケーションのための弱教師付き数学ツール支援推論
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

数学的推論能力は、ツールによって補完された言語エージェントによって向上していますが、多くの方法がクローズドソースまたは大規模なモデル、外部データ、または詳細なプロンプトエンジニアリングに依存しています。この研究では、MATATAという新しいコスト効果の高い方法を紹介し、推論、計画、およびツールの使用を通じて表形式のデータ問題に対応するLLMエージェントを訓練します。進歩的な自己改善パラダイムと反復的な弱教示を備えており、データプライバシーが重要なローカルホスティングや機密性の高いビジネスコンテキストに特に適しています。さまざまなデータセットで柔軟かつ再利用可能なツールを使用することで、共有タスク全体で効果的なスケーラビリティを実現し、堅牢なパフォーマンスを達成します。実験の結果、MATATAは、オープンソースモデルに基づく推論フレームワークの中でFinQAとTAT-QAで最先端のパフォーマンスを達成します。さらに、MATATAモデルは、SLMであるにもかかわらず、TabMWPでGPT-4ベースのフレームワークと競合しています。

AC3D: ビデオ拡散における3Dカメラ制御の分析と改善
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

最近、多くの研究が基本的なテキストからビデオモデルへ3Dカメラ制御を統合していますが、その結果として得られるカメラ制御はしばしば不正確であり、ビデオ生成の品質が低下しています。本研究では、第一原理の観点からカメラの動きを分析し、合成品質を損なうことなく正確な3Dカメラ操作を可能にする洞察を明らかにします。まず、ビデオ内のカメラの動きによって引き起こされる動きが低周波数であることを確認します。これにより、訓練およびテストのポーズ条件付けスケジュールを調整し、訓練の収束を加速させつつ視覚的および動きの品質を向上させる動機が生まれます。次に、無条件のビデオ拡散トランスフォーマの表現を調査することで、その内部でカメラの姿勢推定が暗黙的に行われていることを発見し、その一部のレイヤーのみがカメラ情報を含んでいることを確認します。これにより、他のビデオ特徴との干渉を防ぐために、カメラ条件付けの注入をアーキテクチャの一部に制限することが提案され、訓練パラメータを4倍削減し、訓練速度を向上させ、視覚的品質を10%向上させることが可能となります。最後に、典型的なカメラ制御学習のためのデータセットに、20,000の多様な動的ビデオと静止したカメラを持つ厳選されたデータセットを補完することで、モデルがカメラとシーンの動きの違いを明確にし、ポーズ条件付きビデオのダイナミクスを向上させます。これらの知見を組み合わせて、Advanced 3D Camera Control（AC3D）アーキテクチャを設計し、カメラ制御を備えた生成ビデオモデリングの最先端モデルとなります。

AlphaTablets: 単眼ビデオからの3D平面再構築のための一般的な平面表現
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

AlphaTabletsは、連続的な3D表面と正確な境界の定義を特徴とする新しい汎用3D平面表現を紹介します。Alphaチャンネルを持つ矩形として3D平面を表現することで、AlphaTabletsは現在の2Dおよび3D平面表現の利点を組み合わせ、3D平面の正確で一貫性のある柔軟なモデリングを可能にします。AlphaTablets上で微分可能なラスタライゼーションを導出し、3D平面を効率的にイメージにレンダリングするとともに、単眼ビデオからの3D平面再構築のための革新的なボトムアップパイプラインを提案します。2Dスーパーピクセルと事前学習モデルからの幾何学的手掛かりを用いて、3D平面をAlphaTabletsとして初期化し、微分可能なレンダリングを通じて最適化します。成長と精緻化を促進するために効果的なマージングスキームが導入されています。反復的な最適化とマージングにより、堅固な表面と明確な境界を持つ完全で正確な3D平面を再構築します。ScanNetデータセットでの広範な実験により、3D平面再構築における最先端のパフォーマンスが示され、さまざまなアプリケーションにおける汎用3D平面表現としてのAlphaTabletsの大きな潜在能力が強調されています。プロジェクトページは以下でご覧いただけます：https://hyzcluster.github.io/alphatablets

DeMo: 分離されたモーメンタム最適化
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

大規模なニューラルネットワークのトレーニングには、専用の高速インターコネクトを介してアクセラレータ間で勾配を共有する必要があります。周波数分解とエネルギー圧縮の信号処理原則に基づいて、トレーニング中に完全なオプティマイザーの状態とモデルパラメーターを同期させる必要はないことを示します。モーメンタムの更新を分離し、アクセラレータ間でオプティマイザーの状態に制御された発散を許可することで、最新のオプティマイザーよりも改善された収束を達成します。私たちは、{De}coupled {Mo}mentum（DeMo）という融合オプティマイザーおよびデータ並列アルゴリズムを導入し、インターアクセラレータ間の通信要件を数桁削減します。これにより、限られたネットワーク帯域幅や異種ハードウェアでも大規模なニューラルネットワークのトレーニングが可能となります。私たちの手法はトポロジに依存せず、アーキテクチャに依存せず、計算およびメモリのオーバーヘッドが無視できるスケーラブルなクロック同期分散トレーニングをサポートします。実証結果では、DeMoでトレーニングされたモデルがAdamWでトレーニングされた同等のモデルと同等以上の性能を発揮することが示されており、大規模な基盤モデルの事前トレーニング時に高速インターコネクトが不要となります。GitHubにオープンソースの参照PyTorch実装が公開されています：https://github.com/bloc97/DeMo

手動で注釈付けされたデータのないテキスト分類のためのLLM教師生徒フレームワーク：IPTCニューストピック分類のケーススタディ
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

オンラインで利用可能なニュース記事の数が増加するにつれて、言語に関係なくトピックごとに分類することは、読者が関連コンテンツにアクセスするために重要になっています。この課題に対処するため、大規模言語モデル（LLMs）に基づく教師-生徒フレームワークを提案し、手動データ注釈の必要がない合理的なサイズの多言語ニュース分類モデルを開発します。このフレームワークは、Generative Pretrained Transformer（GPT）モデルを教師モデルとして使用し、スロベニア語、クロアチア語、ギリシャ語、カタロニア語のニュース記事を自動注釈してIPTCメディアトピックトレーニングデータセットを開発します。教師モデルは、4つの言語すべてで高いゼロショットパフォーマンスを示します。人間の注釈者同士の合意と同等の精度を持っています。1日に数百万のテキストを処理する必要がある計算上の制約を緩和するために、GPTで注釈付けされたデータセットで小さなBERTライクな生徒モデルをファインチューニングします。これらの生徒モデルは、教師モデルと同等の高いパフォーマンスを達成します。さらに、生徒モデルのパフォーマンスに対するトレーニングデータサイズの影響を探り、それらの単言語、多言語、ゼロショットのクロスリンガル能力を調査します。研究結果は、生徒モデルが比較的少数のトレーニングインスタンスで高いパフォーマンスを達成し、強力なゼロショットのクロスリンガル能力を示すことを示しています。最後に、最も優れたニューストピック分類器を公開し、IPTCメディアトピックスキーマのトップレベルカテゴリでの多言語分類を可能にします。

SpotLight：拡散を介した影案内オブジェクトの再照明
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

最近の研究では、拡散モデルが強力なニューラルレンダリングエンジンとして使用でき、仮想オブジェクトを画像に挿入するために活用できることが示されています。しかしながら、典型的な物理ベースのレンダラーとは異なり、ニューラルレンダリングエンジンはしばしば望ましい画像の結果を改善したり個人化するために重要な照明設定に対する手動制御の不足に制約されています。本論文では、オブジェクトのリライティングにおいて、単純にオブジェクトの影を指定することで正確な照明制御が達成できることを示します。驚くべきことに、事前にトレーニングされた拡散ベースのニューラルレンダラーにオブジェクトの影のみを注入することで、望ましい光の位置に従ってオブジェクトを正確にシェーディングし、オブジェクト（およびその影）を目標の背景画像内で適切に調和させることができます。当社の手法SpotLightは、既存のニューラルレンダリング手法を活用し、追加のトレーニングを必要とせずに制御可能なリライティング結果を達成します。具体的には、最近の文献から2つのニューラルレンダラーを使用してその有用性を実証します。SpotLightは、既存のリライティング用に特別に設計された拡散ベースのモデルを上回る、定量的および知覚的に優れたオブジェクトのコンポジット結果を達成することを、ユーザースタディによって確認します。

ノイズトークンの剪定訓練
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer

本研究では、ビジョントランスフォーマー向けのトレーニングノイズトークン（TNT）プルーニングを提案します。当該手法は、トレーニング中の滑らかな最適化を提供するために、離散的なトークンのドロップ条件を連続的な加法ノイズに緩和し、一方で展開環境において離散的なドロップによる計算上の利点を保持します。我々は、レート・ディストーションの文献との理論的な関連性を提供し、ViTおよびDeiTアーキテクチャを用いたImageNetデータセットにおける実証評価を行い、TNTの従来のプルーニング手法に対する利点を示します。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

GRAPE: 偏好整列を通じたロボットポリシーの一般化
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

ビデオモデルなしでのビデオの深度
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

例を超えて：MCTSを介したインコンテキスト学習における高レベルの自動推論パラダイム
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

マルチモーダルな大規模言語モデルに対するドメイン固有の事後トレーニングについて
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

Yi-Lightning テクニカルレポート
Yi-Lightning Technical Report

Dec 2

高度なビデオ拡散サンプリングのための時空間スキップガイダンス
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

逆転思考はLLMをより強力な推論者にします。
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

時間ステップ埋め込みによって示される：ビデオ拡散モデルのためのキャッシュの時間
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

パズル：推論最適化LLM向けの蒸留ベースNAS
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

FAM拡散：高解像度画像生成のための周波数と注意の調整による安定した拡散
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

低ビットレート高品質音声符号化のためのTransformerのスケーリング
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

細かい動画モーション制御のための軌跡注意
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

一度にすべてのフレームを見る：マルチ軸勾配チェックポイントを使用した効率的な長尺ビデオ理解のためのVideo-Ma^2mba
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

DisCoRD: 離散トークンから連続運動へのリクティファイドフローによるデコーディング
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

MATATA: 表形式アプリケーションのための弱教師付き数学ツール支援推論
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

AC3D: ビデオ拡散における3Dカメラ制御の分析と改善
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

AlphaTablets: 単眼ビデオからの3D平面再構築のための一般的な平面表現
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

DeMo: 分離されたモーメンタム最適化
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

手動で注釈付けされたデータのないテキスト分類のためのLLM教師生徒フレームワーク：IPTCニューストピック分類のケーススタディ
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

SpotLight：拡散を介した影案内オブジェクトの再照明
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

ノイズトークンの剪定訓練
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer