HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

26 papers found

1B LLMが405B LLMを超えることは可能か？計算最適なテスト時間スケーリングの再考
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Feb 10

ByRunze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou

152

テスト時間スケーリング（TTS）は、推論フェーズ中に追加の計算を使用することで、大規模言語モデル（LLMs）の性能を向上させる重要な手法です。ただし、現在の研究では、方針モデル、プロセス報酬モデル（PRMs）、および問題の難易度がTTSにどのように影響するかを体系的に分析していません。この分析の欠如は、TTS手法の理解と実用性を制限しています。本論文では、次の2つの中心的な問いに焦点を当てます：（1）異なる方針モデル、PRMs、および問題の難易度にわたるテスト時間計算をスケーリングするための最適なアプローチは何か？（2）拡張された計算がLLMsの性能を複雑なタスクでどの程度向上させることができ、このアプローチにより小さな言語モデルが大きなものを上回ることができるか？MATH-500および難解なAIME24タスクに関する包括的な実験を通じて、以下の観察結果が得られました：（1）計算最適なTTS戦略は、方針モデル、PRM、および問題の難易度の選択に大きく依存しています。（2）計算最適なTTS戦略を使用すると、極めて小さな方針モデルが大きなモデルを上回ることがあります。例えば、1B LLMはMATH-500で405B LLMを上回ることができます。さらに、MATH-500およびAIME24の両方で、0.5B LLMはGPT-4oを上回り、3B LLMは405B LLMを上回り、7B LLMはo1およびDeepSeek-R1を上回りますが、推論効率が高くなります。これらの知見は、TTS戦略を各タスクとモデルの特性に適応させることの重要性を示し、TTSがLLMsの推論能力を向上させる有望な手法であることを示しています。

SynthDetoxM：現代のLLMは、少数ショットの並列解毒データ注釈者です。
SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators

Feb 10

ByDaniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko

多言語テキストのデトックス処理に関する既存のアプローチは、並列の多言語データセットの希少性によって妨げられています。本研究では、多言語並列デトックスデータの生成のためのパイプラインを紹介します。また、SynthDetoxMという、ドイツ語、フランス語、スペイン語、ロシア語の16,000の高品質なデトックス文ペアからなる手動収集および合成生成された多言語並列テキストデトックスデータセットを紹介します。このデータは、異なる有害性評価データセットから入手し、その後、9つの現代のオープンソースLLMで少数ショット設定で書き直されました。私たちの実験は、生成された合成データセットでトレーニングされたモデルが、データが限られている状況でも、人間によって注釈が付けられたMultiParaDetoxデータセットでトレーニングされたモデルよりも優れたパフォーマンスを示すことを示しています。SynthDetoxMでトレーニングされたモデルは、少数ショット設定で評価されたすべてのLLMを上回ります。私たちは、多言語テキストのデトックス処理に関するさらなる研究を支援するために、当該データセットとコードを公開します。

数学的推論学習における結果報酬の限界を探る
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

Feb 10

ByChengqi Lyu, Songyang Gao, Yuzhe Gu, Wenwei Zhang, Jianfei Gao, Kuikun Liu, Ziyi Wang, Shuaibin Li, Qian Zhao, Haian Huang, Weihan Cao, Jiangning Liu, Hongwei Liu, Junnan Liu, Songyang Zhang, Dahua Lin, Kai Chen

推論能力、特に複雑な数学問題を解決する能力は、一般的な知能の重要な要素です。OpenAIのo-seriesモデルなど、特許企業による最近の進歩により、推論タスクで顕著な進歩が見られています。ただし、完全な技術的詳細は未公開であり、採用されると考えられる技術は強化学習（RL）と長い思考の連鎖のみです。本論文では、数学的推論タスクにおいてのOutcome REwArdベースの強化学習を追求する新しいRLフレームワークOREALを提案します。ここでは、バイナリアウトカム報酬のみが容易にアクセス可能である環境で、最適なポリシーをKL正則化するために、最良のN（BoN）サンプリングからの正の軌跡に対する行動クローンが学習に十分であることを理論的に証明します。この定式化は、負のサンプルの報酬を再形成して、正と負のサンプル間で勾配の一貫性を確保する必要があることをさらに示唆しています。RLにおける希薄な報酬によってもたらされる長年の困難を緩和するために、さらに、推論軌跡で重要なトークンをサンプリングするためのトークンレベルの報酬モデルを適用します。OREALにより、初めて7BモデルがRLを通じてMATH-500で94.0 pass@1の精度を達成し、32Bモデルと同等の性能を発揮します。OREAL-32Bも、MATH-500で95.0 pass@1の精度を達成する以前の32Bモデルを蒸留で訓練したモデルを上回ります。私たちの調査は、RLのための初期ポリシーモデルとトレーニングクエリの重要性も示しています。コード、モデル、データは、将来の研究のために公開されます。

大規模言語モデルにおける深さの呪い
The Curse of Depth in Large Language Models

Feb 9

ByWenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu

本論文では、深さの呪い（Curse of Depth）という概念を紹介し、最近の現代の大規模言語モデル（LLMs）において、ほぼ半数の層が予想よりも効果が低いという観察を強調し、説明し、対処します。まず、Llama、Mistral、DeepSeek、Qwenなどの最も人気のあるLLMsファミリー全体でこの現象が広く存在することを確認します。我々の分析は、理論的および経験的に、LLMsの深い層が効果がない理由は、Pre-Layer正規化（Pre-LN）の広範な使用にあることを特定しています。Pre-LNはTransformer LLMsのトレーニングを安定化させますが、その出力の分散はモデルの深さとともに指数関数的に増加し、深いTransformerブロックの導関数が恒等行列となり、トレーニングにほとんど寄与しないという望ましくない結果をもたらします。このトレーニングの落とし穴を解決するために、我々はLayerNorm Scalingを提案します。これは、層の出力の分散をその深さの平方根で逆にスケーリングするものです。この単純な変更により、より深いTransformer層の出力分散の爆発が緩和され、それらの貢献が向上します。130Mから1Bまでのモデルサイズにわたる実験結果は、LayerNorm ScalingがPre-LNと比較してLLMの事前トレーニング性能を大幅に向上させることを示しています。さらに、この改善は監督されたファインチューニングにもスムーズに引き継がれます。これらのすべての利点は、LayerNorm Scalingがトレーニング中により深い層がより効果的に貢献することを可能にするという事実に帰せられます。

マルチエージェント強化学習を用いた社会的推論のための言語モデルのトレーニング
Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning

Feb 9

ByBidipta Sarkar, Warren Xia, C. Karen Liu, Dorsa Sadigh

自然言語でのコミュニケーションは、マルチエージェント環境において強力なツールであり、部分的に観測可能な状況で独立したエージェントが情報を共有し、人間とのゼロショット調整を可能にします。しかし、従来の多くの研究は、大量の人間のデモンストレーションを用いたトレーニングに依存するか、自然で有用なコミュニケーション戦略を生成する能力を欠いているため、限界があります。本研究では、言語モデルを訓練して、人間のデモンストレーションなしに環境について自然言語で生産的な議論を行うようにします。コミュニケーション問題を聴くことと話すことに分解します。我々の主要なアイデアは、エージェントの目標を活用して、コミュニケーションを導く密な報酬信号として世界に関する有用な情報を予測することです。具体的には、モデルの聴くスキルを向上させるために、議論に基づいて環境に関する情報を予測するようにトレーニングし、同時に、モデルの話すスキルをマルチエージェント強化学習によって向上させ、メッセージが他のエージェントに与える影響に基づいて報酬を与えます。複雑な社会環境におけるコミュニケーションの役割と必要性を調査するために、Among Usに基づいた具体的な社会的推理ゲームを研究し、敵対的なインポスターの正体を特定することが鍵となる重要な質問を検討します。我々の手法による緊急行動、容疑者の非難や証拠提供などの分析を行い、標準RLと比較して勝率が倍増する強力な議論を可能にすることを発見します。コードとモデルは以下のURLから公開しています：https://socialdeductionllm.github.io/

マトリョーシカ量子化
Matryoshka Quantization

Feb 10

ByPranav Nair, Puranjay Datta, Jeff Dean, Prateek Jain, Aditya Kusupati

モデルの重みを量子化することは、大規模モデルの通信および推論コストを削減するために重要です。ただし、特にint4やint2などの低精度にモデルを量子化することは、モデルの品質とのトレードオフが必要とされます。特にint2は、モデルの品質を著しく低下させることが知られています。そのため、実務家はしばしば異なる量子化レベルを持つ複数のモデルを維持するか、品質とレイテンシのトレードオフを最も満たす単一のモデルを提供することを余儀なくされます。一方、int8などの整数データ型は、より小さなビット幅の整数（例：int4やint2）が最も重要なビット内にネストされた（マトリョーシカ）構造を持っています。本論文では、Matryoshka Quantization（MatQuant）という新しい多スケール量子化技術を提案し、複数の量子化されたモデルが必要とされる課題に対処します。これにより、訓練および維持する必要があるのは1つのモデルだけであり、それを異なる精度レベルで提供することが可能となります。さらに、MatQuantによって提供される共同訓練および共同蒸留の正則化により、MatQuantによって抽出されたint2精度モデルは、QATやOmniQuantなどの手法を使用した標準的なint2量子化よりも最大10%精度が向上します。これは、同じレシピを使用した場合、int2 FFN-量子化Gemma-2 9Bモデルがint8 FFN-量子化Gemma-2 2Bモデルよりも正確であるという事実によって示される、モデルの量子化における重要な進歩を表しています。

LM2: 大規模メモリモデル
LM2: Large Memory Models

Feb 9

ByJikun Kang, Wenqi Wu, Filippos Christianos, Alex J. Chan, Fraser Greenlee, George Thomas, Marvin Purtorab, Andy Toulis

本論文では、Large Memory Model（LM2）と呼ばれる、補助メモリモジュールを備えたデコーダー専用のTransformerアーキテクチャが紹介されており、これは標準のTransformerの制限に対処し、多段階の推論、関係論証、および長い文脈に分散された情報の統合に取り組んでいます。提案されたLM2は、入力トークンと相互作用し、ゲートメカニズムを介して更新されるコンテキスト表現リポジトリとして機能するメモリモジュールを組み込んでいます。Transformerの汎用性を維持するために、LM2は元の情報フローを維持しながら補完的なメモリ経路を統合しています。BABILongベンチマークでの実験結果によると、LM2モデルは、タスク全体で記憶拡張型RMTモデルを37.1%、ベースラインのLlama-3.2モデルを86.3% 平均的に上回ることを示しています。LM2は、マルチホップ推論、数値推論、および大規模文脈の質問応答において優れた能力を発揮します。MMLUデータセットでは、事前学習されたバニラモデルよりも5.0%の改善を達成し、そのメモリモジュールが一般的なタスクのパフォーマンスを低下させないことを示しています。さらに、私たちの分析では、メモリの解釈可能性、メモリモジュールの効果、およびテスト時の挙動について検討しています。私たちの調査結果は、Transformerアーキテクチャを向上させるための明示的なメモリの重要性を強調しています。

CODESIM：シミュレーション駆動型計画とデバッグを通じたマルチエージェントコード生成と問題解決
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

Feb 8

ByMd. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez

大規模言語モデル（LLMs）は、コード生成や問題解決において大きな進展を遂げています。現在のアプローチでは、さまざまな手法によって生成された荒いプログラムを洗練するために、コンパイラや他のツールベースのランタイムフィードバックを使用する外部ツールベースの反復デバッガが採用されています。しかしながら、これらのアプローチの効果は、初期のコード生成の品質に大きく依存しており、これは未解決の課題である。本論文では、プログラム合成の段階（計画、コーディング、デバッグ）を人間のような知覚アプローチを通じて包括的に対処する革新的なマルチエージェントコード生成フレームワークであるCodeSimを紹介します。人間が任意のアルゴリズムの理解を視覚的シミュレーションを通じて検証するように、CodeSimは入出力のステップバイステップのシミュレーションを通じた計画検証と内部デバッグの独自の手法を特徴としています。7つの厳しい競争的な問題解決およびプログラム合成のベンチマーク全体での広範な実験により、CodeSimの優れたコード生成能力が示されています。当フレームワークは、新しい最先端（pass@1）の結果（HumanEval 95.1％、MBPP 90.7％、APPS 22％、およびCodeContests 29.1％）を達成しています。さらに、当手法は外部デバッガと組み合わせることで、さらなる向上の可能性を示しています。この分野でのさらなる研究と開発を促進するために、当フレームワークを以下のリンク（https://kagnlp.github.io/codesim.github.io/）でオープンソース化しています。

ReasonFlux: スケーリングされた思考テンプレートを介した階層的LLM推論
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates

Feb 10

ByLing Yang, Zhaochen Yu, Bin Cui, Mengdi Wang

階層的なLLM推論によるスケーリング思考テンプレートを介した推論探索空間の効果的な最適化が可能であり、OpenAIのo1-previewやDeepSeek V3などの強力なLLMの数学的推論能力を上回ることを示します。ReasonFlux-32Bモデルをわずか8つのGPUで訓練し、3つの革新を導入します：(i) 約500個の高レベルな思考テンプレートを含む構造化された汎用思考テンプレートライブラリ、類似または関連する推論問題に一般化できる；(ii) 長いCoTsではなく一連の思考テンプレートに階層的な強化学習を行い、基本LLMを最適なテンプレート軌道を計画し、徐々に複雑な問題を処理するために最適化する；(iii) 推論時に思考テンプレートを適応的にスケーリングする新しい推論スケーリングシステム。連続した思考テンプレートを含むテンプレート軌道により、ReasonFlux-32Bは数学的推論能力を最先端のレベルに大幅に向上させます。特に、MATHベンチマークでは、91.2%の精度を達成し、o1-previewを6.7%上回ります。USA数学オリンピアード（AIME）ベンチマークでは、ReasonFlux-32Bは平均56.7%の問題を解決し、o1-previewやDeepSeek-V3をそれぞれ27%と45%上回ります。コード：https://github.com/Gen-Verse/ReasonFlux

ショーオターボ：加速統合マルチモーダル理解と生成に向けて
Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

Feb 8

ByChenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng

統合されたマルチモーダル理解および生成モデルの構築に対する研究関心が高まっており、その中で注目すべき代表例としてShow-oが挙げられます。Show-oは、テキストから画像への生成および画像からテキストへの生成にとって大きな可能性を示しています。Show-oの推論は、画像トークンの段階的なノイズ除去とテキストトークンの自己回帰的なデコーディングを含んでおり、したがって、両側から効率性の問題に苦しんでいます。本論文では、このギャップを埋めるためにShow-o Turboを紹介します。まず、Show-oにおける画像とテキストの生成に対する統合されたノイズ除去の視点を、テキストトークンの並列デコーディングに基づいて特定します。次に、拡散モデルのノイズ除去プロセスを短縮するための適格な手法である一貫性蒸留（CD）を、Show-oのマルチモーダルノイズ除去軌跡に拡張することを提案します。トラジェクトリ分割戦略とカリキュラム学習手法を導入して、トレーニングの収束を改善します。実験的には、テキストから画像への生成において、Show-o Turboは、分類器フリーガイダンス（CFG）を使用せずに4つのサンプリングステップで0.625のGenEvalスコアを示し、元のShow-oの8つのステップとCFGを上回ります。画像からテキストへの生成では、Show-o Turboはパフォーマンスを大きく犠牲することなく、1.5倍の高速化を実現します。コードはhttps://github.com/zhijie-group/Show-o-Turboで入手可能です。

大規模言語モデルの損失なし高速化：仮説的デコーディングにおける時間的局所性に基づく階層的起案
Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding

Feb 8

BySukmin Cho, Sangjin Choi, Taeho Hwang, Jeongyeon Seo, Soyeong Jeong, Huije Lee, Hoyun Song, Jong C. Park, Youngjin Kwon

大規模言語モデル（LLM）における推論の高速化はリアルタイムの相互作用において重要であり、これらは広く実世界のサービスに組み込まれています。推測的デコーディングは、トークンの起案と検証によって複数のトークンを単一の順方向パスで生成することで、推論速度の向上に貢献するとして、完全にアルゴリズムに基づく解決策として注目されています。ただし、現在の起案戦略は通常、かなりの微調整を必要とするか、タスク間で一貫性のないパフォーマンスを示します。これらの課題に対処するために、時間的局所性に基づいた階層的フレームワークに複数のデータベースに異なるトークンソースを整理する新しい損失のない起案手法であるHierarchy Drafting（HD）を提案します。起案ステップでは、HDは最も高い局所性から最も低い局所性までの複数のデータベースに順次アクセスして、異なるタスク間で一貫した加速を確保し、起案の遅延を最小限に抑えます。7Bおよび13Bのパラメータを持つLLMを使用したSpec-Benchでの実験では、HDが既存のデータベース起案手法を上回り、モデルサイズ、タスク、温度にわたって堅牢な推論の高速化を実現していることが示されました。

MetaChain: LLM エージェント向けの完全自動化およびゼロコードフレームワーク
MetaChain: A Fully-Automated and Zero-Code Framework for LLM Agents

Feb 9

ByJiabin Tang, Tianyu Fan, Chao Huang

大規模言語モデル（LLM）エージェントは、タスクの自動化や知的意思決定において顕著な能力を示し、LangChainやAutoGenなどのエージェント開発フレームワークの広範な採用を推進しています。しかしながら、これらのフレームワークは主に高度な技術的専門知識を持つ開発者を対象としており、世界人口のわずか0.03％しか必要なプログラミングスキルを持っていないことを考えると、これは重要な制約です。この著しいアクセシビリティのギャップは、根本的な問いを提起します。技術的バックグラウンドに関わらず、自然言語だけを用いて誰もが自分自身のLLMエージェントを構築できるようにすることは可能でしょうか？この課題に対処するために、私たちはMetaChainを導入します。これは、完全自動化された高度自己開発フレームワークであり、ユーザーが自然言語だけを用いてLLMエージェントを作成および展開できるようにします。MetaChainは、自律エージェントオペレーティングシステムとして機能し、次の4つの主要コンポーネントから構成されています：i）エージェントシステムユーティリティ、ii）LLMパワードのアクションエンジン、iii）自己管理ファイルシステム、およびiv）自己プレイエージェントカスタマイゼーションモジュール。この軽量かつ強力なシステムは、コーディング要件や手動介入なしに、効率的かつ動的なツール、エージェント、およびワークフローの作成と変更を可能にします。コードフリーのエージェント開発機能を超えて、MetaChainは汎用人工知能アシスタント向けの多目的マルチエージェントシステムとしても機能します。GAIAベンチマークでの包括的な評価は、MetaChainの一般的なマルチエージェントタスクにおける効果を示し、既存の最先端手法を上回っています。さらに、MetaChainのRetrieval-Augmented Generation（RAG）関連機能は、多くの代替LLMベースのソリューションと比較して、一貫して優れたパフォーマンスを示しています。

Lumina-Video: マルチスケールの次世代DiTを用いた効率的かつ柔軟なビデオ生成
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

Feb 10

ByDongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao

最近の進展により、拡散トランスフォーマー（DiTs）が生成モデリングにおいて主要なフレームワークとして確立されました。この成功を踏まえ、Lumina-NextはNext-DiTにより写実的な画像の生成において卓越した性能を達成しています。ただし、そのビデオ生成における潜在能力はほとんど開発されておらず、ビデオデータ固有の時空間的複雑さをモデリングする際には重要な課題があります。この課題に対処するため、我々はNext-DiTの強みを活用しつつ、ビデオ合成のための適切な解決策を導入したフレームワークであるLumina-Videoを提案します。Lumina-Videoは、効率性と柔軟性の両方を向上させるために複数のパッチ化を共同で学習するマルチスケールNext-DiTアーキテクチャを取り入れています。また、Lumina-Videoは生成されたビデオの動的度を直接制御することを可能にする明示的な条件としてモーションスコアを組み込んでいます。さらに、より高い解像度とFPSで段階的にトレーニングするトレーニングスキームと、天然と合成データを混在させたマルチソーストレーニングスキームを組み合わせることで、Lumina-Videoは高いトレーニングおよび推論効率で顕著な美的品質と動きの滑らかさを実現しています。さらに、生成されたビデオに同期した音声を作成するためのNext-DiTに基づくビデオ対オーディオモデルであるLumina-V2Aを提案しています。コードはhttps://www.github.com/Alpha-VLLM/Lumina-Videoで公開されています。

EVEv2: エンコーダー不使用のビジョン言語モデルの改良されたベースライン
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

Feb 10

ByHaiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang

既存のエンコーダーを使用しないビジョン言語モデル（VLM）は、エンコーダーを使用するモデルとの性能差を急速に縮めつつあり、構造的にシンプルで効率的な展開が可能な統合されたマルチモーダルシステムの有望な潜在能力が浮き彫りにされています。我々は、事前学習されたビジョンエンコーダー、離散トークナイザー、および最小限のビジュアルレイヤーをゼロから使用することで、エンコーダーを使用しないVLMの未検証の特性を深く掘り下げ、VLM間の性能差を体系的に明らかにします。我々は、主流のエンコーダーを使用するモデルに匹敵する効率的な戦略を開発します。詳細な調査の結果、新しく改良されたエンコーダーを使用しないVLMファミリーであるEVEv2.0を立ち上げます。我々は次のことを示します：(i) 統合モデル内でビジョンと言語を適切に分解し、階層的に関連付けることで、モダリティ間の干渉を減少させることができます。(ii) 良く設計されたトレーニング戦略により、エンコーダーを使用しないVLMの効果的な最適化が可能となります。幅広い評価を通じて、当社のEVEv2.0は、モダリティ間でデコーダーのみのアーキテクチャを開発するための包括的な研究を示し、優れたデータ効率性と強力なビジョン推論能力を実証しています。コードは以下のURLから公開されています：https://github.com/baaivision/EVE。

トークンの隠れた生活：視覚情報誘導を介した大視覚言語モデルの幻覚低減
The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering

Feb 5

ByZhuowei Li, Haizhou Shi, Yunhe Gao, Di Liu, Zhenting Wang, Yuxiao Chen, Ting Liu, Long Zhao, Hao Wang, Dimitris N. Metaxas

大規模ビジョン言語モデル（LVLMs）は、テキストおよび視覚入力の両方に効果的に推論できますが、構文的に整合性のあるが視覚的に根拠のない内容を幻視する傾向があります。本論文では、幻視の内部ダイナミクスを調査し、生成プロセス全体でトークンのロジットランキングを調査することにより、LVLMsが情報を処理する方法における3つの主要なパターンを明らかにします：（1）徐々に視覚情報の喪失―視覚的に根拠のあるトークンは生成の過程で徐々に好まれなくなり、（2）早期励起―意味のあるトークンが最終層よりも早い段階でピーク活性化を達成する、（3）隠れた真の情報―視覚的に根拠のあるトークンは最終的には決定されないままでも推論時に比較的高いランキングを維持します。これらの洞察に基づき、幻視を減少させながら真の情報を促進するVISTA（トークンロジット増強による視覚情報誘導）という、トレーニング不要の推論時介入フレームワークを提案します。VISTAは、活性化空間で視覚情報を強化し、意味のあるデコーディングを促進するために、2つの補完的アプローチを組み合わせて機能します。既存の手法と比較して、VISTAは外部監督を必要とせず、さまざまなデコーディング戦略に適用可能です。広範な実験では、VISTAが評価されたオープンエンドの生成タスクにおいて幻視を平均して約40％削減し、3つのデコーディング戦略の下で4つのアーキテクチャにわたる4つのベンチマークで、既存の手法を一貫して上回ることが示されました。

歴史に基づいたビデオ拡散
History-Guided Video Diffusion

Feb 10

ByKiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann

分類器を使用しないガイダンス（CFG）は、拡散モデルにおける条件付き生成の向上における重要な技術であり、より正確な制御とサンプル品質の向上を可能にします。この技術をビデオ拡散に拡張することは自然であり、変数長のコンテキストフレーム（履歴として総称）に基づいてビデオを生成するビデオ拡散に適用することが望ましいです。しかし、可変長の履歴によるガイダンスには2つの主要な課題があります。それは、固定サイズの条件付けのみをサポートするアーキテクチャと、CFGスタイルの履歴ドロップアウトが性能が低いという経験的観察です。これを解決するために、我々はDiffusion Forcing Transformer（DFoT）を提案します。これは、ビデオ拡散アーキテクチャと理論的に基づいたトレーニング目的を共に提供し、柔軟な数の履歴フレームに基づく条件付けを可能にします。その後、DFoTによってユニークに可能になる一連のガイダンス手法であるHistory Guidanceを紹介します。最も単純な形態であるバニラの履歴ガイダンスですでにビデオ生成の品質と時間的一貫性が大幅に向上することを示します。さらに進んだ手法である時間と周波数を横断する履歴ガイダンスは、動きのダイナミクスをさらに向上させ、分布外の履歴に対する合成的な一般化を可能にし、非常に長いビデオを安定して展開することができます。ウェブサイト：https://boyuan.space/history-guidance

CustomVideoX：3D参照アテンション駆動ダイナミック適応をゼロショットカスタマイズビデオ拡散トランスフォーマー
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers

Feb 10

ByD. She, Mushui Liu, Jingxuan Pang, Jin Wang, Zhen Yang, Wanggui He, Guanghao Zhang, Yi Wang, Qihan Huang, Haobin Tang, Yunlong Yu, Siming Fu

画像合成においては、カスタマイズされた生成は大きな進歩を遂げていますが、個人に合わせたビデオ生成は時間的な不整合と品質の低下のために依然として課題が残っています。本論文では、参照画像からの個人に合わせたビデオ生成のために、ビデオ拡散トランスフォーマーを活用する革新的なフレームワークであるCustomVideoXを紹介します。CustomVideoXは、事前学習されたビデオネットワークを活用し、LoRAパラメータを専らトレーニングして参照特徴を抽出することで、効率性と適応性の両方を確保しています。参照画像とビデオコンテンツとのシームレスな相互作用を促進するために、3D参照アテンションを提案しています。これにより、参照画像の特徴が時空間のすべてのビデオフレームと直接かつ同時に関わることが可能となります。推論時に生成されたビデオコンテンツに対する参照画像の特徴やテキストガイダンスの過度な影響を緩和するために、Time-Aware参照アテンションバイアス（TAB）戦略を実装し、異なる時間ステップで参照バイアスを動的に調整します。さらに、Entity Region-Aware Enhancement（ERAE）モジュールを導入し、主要エンティティトークンの高度に活性化された領域を調整することで、参照特徴の注入を行います。個人に合わせたビデオ生成を徹底的に評価するために、50以上のオブジェクトと100以上のプロンプトからなる新しいベンチマークであるVideoBenchを確立します。実験結果は、CustomVideoXがビデオの一貫性と品質の面で既存の手法を大幅に上回ることを示しています。

効率的vDiT: アテンションを備えた効率的なビデオ拡散トランスフォーマー(Tile)
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile

Feb 10

ByHangliang Ding, Dacheng Li, Runlong Su, Peiyuan Zhang, Zhijie Deng, Ion Stoica, Hao Zhang

高品質なビデオを合成するという可能性にもかかわらず、3D全体の注意を持つ拡散トランスフォーマー（DiTs）は、注意計算の複雑さと多数のサンプリングステップによる推論の高コスト化に苦しんでいます。たとえば、人気のあるOpen-Sora-Planモデルは、29フレームの単一ビデオを生成するのに9分以上かかります。本論文では、効率の問題について2つの側面から取り組んでいます：1）ビデオデータ内の冗長性に基づいて3D全体の注意を削減する。ビデオデータの3D注意マップには、タイルスタイルの繰り返しパターンが広く見られ、ビデオフレーム数に対して線形の複雑さを持つ新しいファミリーの疎な3D注意を提唱しています。2）既存の多段階一貫性蒸留を採用してサンプリングプロセスを短縮する。全体のサンプリング軌跡を複数のセグメントに分割し、各セグメント内で一貫性蒸留を実行して少数のステップ生成能力を活性化します。さらに、低複雑度の注意と少数のステップ生成能力を結合するための3段階のトレーニングパイプラインを考案しています。特筆すべきは、0.1％の事前トレーニングデータを使用して、Open-Sora-Plan-1.2モデルを効率的なものに変え、VBenchにおいてわずかな性能のトレードオフで、29および93フレーム720pビデオ生成において7.4〜7.8倍高速化させました。さらに、我々のアプローチが分散推論に適しており、4つのGPUでシーケンス並列処理を実行すると、追加で3.91倍の高速化が達成されることを示しています。

拡散モデルに対するデュアルキャプション選好の最適化
Dual Caption Preference Optimization for Diffusion Models

Feb 9

ByAmir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral

最近の人間の好み最適化の進歩は、元々大規模言語モデル（LLMs）向けに開発されたもので、テキストから画像への拡散モデルの改善において大きな潜在能力を示しています。これらの手法は、好ましいサンプルの分布を学習し、それらを好ましくないものと区別することを目指しています。しかし、既存の好みデータセットには、これらの分布の間に重なりが見られ、衝突する分布を引き起こしています。さらに、我々は、入力プロンプトが好ましくない画像に対して無関係な情報を含んでおり、好み最適化手法におけるノイズを正確に予測するためのノイズ除去ネットワークの能力を制限していることを特定しました。これは、無関係なプロンプトの問題として知られています。これらの課題に対処するために、我々はデュアルキャプション好み最適化（DCPO）という新しいアプローチを提案します。このアプローチは、無関係なプロンプトを軽減するために2つの異なるキャプションを利用します。衝突する分布に対処するために、我々はPick-a-Pic v2の変更版であるPick-Double Captionデータセットを導入し、好ましい画像と好ましくない画像用に別々のキャプションを提供します。さらに、異なるキャプションを生成するための3つの異なる戦略を提案します：キャプショニング、摂動、ハイブリッド手法。私たちの実験は、DCPOが画質とプロンプトへの関連性を著しく向上させ、Pickscore、HPSv2.1、GenEval、CLIPscore、ImageRewardなどの複数のメトリクスで、SD 2.1をバックボーンとして微調整された状態で、Stable Diffusion（SD）2.1、SFT_Chosen、Diffusion-DPO、およびMaPOを凌駕することを示しています。

エージェントのためのインターネット規模のトレーニングに向けて
Towards Internet-Scale Training For Agents

Feb 10

ByBrandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Ruslan Salakhutdinov

Webナビゲーションエージェントのトレーニングにおける主要なアプローチは、一連の人気ウェブサイトと手書きタスクのための人間のデモンストレーションを収集しますが、人間のデータは効率的なリソースではないことが明らかになっています。労力を要する人間の注釈なしでエージェントのインターネット規模のトレーニングを容易にするパイプラインを開発します。最初の段階では、LLMが多様な150kのウェブサイトのためのタスクを生成します。次の段階では、LLMエージェントがタスクを完了し、軌跡を生成します。最後の段階では、LLMが軌跡をレビューし、成功を判断します。言語モデルは、有害なコンテンツを97%の精度で検出およびフィルタリングし、89%の割合で実行可能なタスクを生成し、82.6%の精度で成功した軌跡を判断する点で人間の注釈者と競合しています。パイプラインをスケーリングすると、Llama 3.1 70Bに基づくエージェントは、150kサイトのタスクの16.7%を解決します。当社のパイプラインで生成されたデータでトレーニングすることは、人間のデモンストレーションでのトレーニングと競合しています。Mind2WebとWebLINXから派生したデータが限られた状況では、当社のパイプラインと人間のデータの混合でトレーニングされたエージェントによるステップ精度が最大+89.5%および+122.1%向上します。これらのベンチマークから利用可能なすべての人間のデータでエージェントをトレーニングすると、エージェントは多様な実際のサイトに一般化できず、当社のデータを追加することで、WebLINXでは+149.0%、Mind2Webでは+156.3%向上します。コードはこちらで入手可能：data-for-agents.github.io。

DreamDPO: 人間の好みに従ったテキストから3D生成を直接的な好み最適化によって整合させる
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization

Feb 5

ByZhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua

テキストから3D生成は、テキスト記述から3Dコンテンツの作成を自動化し、さまざまな分野で革新的な可能性を提供します。しかし、既存の手法はしばしば生成されたコンテンツを人間の好みに合わせるのに苦労し、その適用範囲や柔軟性が制限されることがあります。本論文では、これらの制限に対処するために、人間の好みを3D生成プロセスに統合する最適化ベースのフレームワークであるDreamDPOを提案します。具体的には、DreamDPOはまずペアワイズの例を構築し、次に報酬または大規模な多様なモデルを使用してそれらが人間の好みとどの程度一致しているかを比較し、最後に好みに基づいた損失関数で3D表現を最適化します。ペアワイズ比較を活用して好みを反映することで、DreamDPOは点ごとの質の評価に依存することを減らし、好みに基づいた最適化を通じて細かい制御が可能となります。実験では、DreamDPOが競争力のある結果を達成し、既存の手法と比較してより高品質でコントロール可能な3Dコンテンツを提供することが示されています。コードとモデルはオープンソースで公開されます。

APE: 適応並列エンコーディングを介した高速かつ長いコンテキスト拡張生成
APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding

Feb 8

ByXinyu Yang, Tianqi Chen, Beidi Chen

コンテキスト拡張生成（CAG）技術、RAGおよびICLを含む、ユーザークエリに対する応答を生成するために複数のコンテキストを効率的に組み合わせる必要があります。これらのコンテキストを直接シーケンスとして入力することは、各リクエストごとに組み合わせられた複数のコンテキストを再エンコードすることにより、かなりの計算負荷を導入します。この課題に対処するために、私たちは並列エンコーディングの有望な可能性を探求し、各コンテキストのKV状態を独立して事前計算およびキャッシュすることで、直接キャッシュされた状態を推論中にロードすることを可能にし、位置の再利用を通じてより多くのコンテキストを収容します。ただし、注意分布の不整合により、直接並列エンコーディングを適用すると、大幅な性能低下が発生します。効果的かつ効率的なCAGを実現するために、Adaptive Parallel Encoding（APE）を提案します。これにより、共有プレフィックス、注意温度、およびスケーリングファクターが導入され、並列エンコーディングの分布を直列エンコーディングと整合させます。RAGおよびICLタスクの結果は、APEが同じ入力を使用してシーケンシャルエンコーディングの性能を98％および93％維持しながら、それぞれ3.6％および7.9％の性能向上を達成することを示しています。また、APEは多数のコンテキストを効果的に並列エンコードし、エンドツーエンドで128K長のコンテキストに対して28倍のプリフィリング時間を削減することで、4.5倍の高速化を実現できることを効率評価で示しています。

Jakiro: MoEを介したデカップルされたマルチヘッドによるスペキュレイティブデコーディングのブースティング
Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE

Feb 10

ByHaiduo Huang, Fuwei Yang, Zhenhua Liu, Yixing Xu, Jinze Li, Yang Liu, Xuanwu Yin, Dong Li, Pengju Ren, Emad Barsoum

先読みデコーディング（SD）は、大規模言語モデルの推論を加速するために、より小さな下書きモデルを使用して複数のトークンを予測し、それらを後でより大きな対象モデルで並列に検証します。しかし、下書きモデルの容量が限られているため、予測精度を向上させるために木構造サンプリングがしばしば必要とされます。このアプローチの主要な制限を特定しました。すなわち、同じステップの候補は同じ表現から派生しており、多様性が制限され、全体的な効果が低下しています。これを解決するために、Mixture of Experts（MoE）を活用したJakiroを提案します。独立した専門家が多様な予測を生成し、候補者間の相関を効果的に分離します。さらに、初期トークンのための自己回帰デコーディングと、後続の段階のための並列デコーディングを組み合わせたハイブリッド推論戦略を導入し、後者を特徴の対比メカニズムで強化して精度を向上させます。当社の手法は予測精度を大幅に向上させ、推論の高速化を実現します。多様なモデルにわたる包括的な実験により、当社の手法の効果と堅牢性が確認され、先読みデコーディングにおける新たなSOTAが確立されました。当社のコードはhttps://github.com/haiduo/Jakiro で入手可能です。

Steel-LLM: ゼロからオープンソースへ-- 中国中心のLLMを構築する個人の旅
Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM

Feb 10

ByQingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang

Steel-LLMは、限られた計算リソースにもかかわらず、高品質でオープンソースのモデルを作成することを目指して、ゼロから開発された中国中心の言語モデルです。2024年3月に立ち上げられたこのプロジェクトは、大規模なデータセットで10億パラメータのモデルを訓練することを目指し、透明性と実践的な知見の共有を重視し、コミュニティ内の他者の支援を図っています。訓練プロセスは主に中国語データに焦点を当てており、一部の英語データも含まれており、既存のオープンソースの言語モデルの不足を補うことで、モデル構築の過程についてより詳細で実践的な説明を提供しています。Steel-LLMは、CEVALやCMMLUなどのベンチマークで競争力のあるパフォーマンスを示し、より大規模な機関の初期モデルを凌駕しています。本論文では、データ収集、モデル設計、訓練方法、および遭遇した課題など、プロジェクトの主要な貢献の包括的な要約を提供し、独自の言語モデルを開発しようとする研究者や実務家にとって貴重なリソースとなります。モデルのチェックポイントと訓練スクリプトは、https://github.com/zhanshijinwat/Steel-LLM で入手可能です。

ロボットの基盤モデルを監査するための具体的なレッドチーミング
Embodied Red Teaming for Auditing Robotic Foundation Models

Nov 27

BySathwik Karnik, Zhang-Wei Hong, Nishant Abhangi, Yen-Chen Lin, Tsun-Hsuan Wang, Christophe Dupuy, Rahul Gupta, Pulkit Agrawal

言語によって制御されたロボットモデルには、自然言語の指示に基づいて幅広いタスクを実行させる可能性があります。ただし、その安全性と効果を評価することは依然として困難であり、単一のタスクが表現されるさまざまな方法をすべてテストすることは難しいためです。現在のベンチマークには2つの主要な制限があります。それらは限られた人間によって生成された指示に依存しており、多くの困難なケースを見落としており、損傷を回避するなどの安全性を評価せずに、タスクのパフォーマンスにのみ焦点を当てています。これらのギャップに対処するために、私たちはEmbodied Red Teaming（ERT）という新しい評価方法を導入します。ERTは、これらのモデルをテストするために多様で困難な指示を生成するために、自動化されたレッドチーム技術とビジョン言語モデル（VLMs）を使用します。実験結果は、最先端の言語によって制御されたロボットモデルがERTで生成された指示で失敗したり、安全でない振る舞いをしたりすることを示し、現在のベンチマークが実世界のパフォーマンスと安全性を評価する際の欠点を強調しています。コードとビデオは以下で入手可能です：https://s-karnik.github.io/embodied-red-team-project-page。

禁じられた科学：デュアルユースAIチャレンジベンチマークと科学的拒否テスト
Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests

Feb 8

ByDavid Noever, Forrest McKee

大規模言語モデルの堅牢な安全基準の開発には、適切な有害コンテンツの拒否と合法的な科学的議論の過度な制限を両方測定できるオープンで再現可能なデータセットが必要です。我々は、主に制御された物質クエリを対象としたLLM安全メカニズムの評価のためのオープンソースデータセットとテストフレームワークを提供します。4つの主要モデルの応答を系統的に変化させたプロンプトを分析しました。結果は異なる安全プロファイルを示しました。Claude-3.5-sonnetは73%の拒否と27%の許可で最も保守的なアプローチを示し、一方Mistralは100%のクエリに回答しようとしました。GPT-3.5-turboは10%の拒否と90%の許可で中程度の制限を示し、Grok-2は20%の拒否と80%の許可を記録しました。プロンプト変化戦略のテストにより、応答の一貫性が85%から単一プロンプトで65%に低下することが明らかになりました。この公開されている基準は、必要な安全制限と合法的な科学的探求の過度な検閲の間の重要なバランスを系統的に評価することを可能にし、AI安全実装の進捗を測定する基盤を提供します。思考の連鎖分析は、安全メカニズムの潜在的な脆弱性を明らかにし、望ましいおよび妥当な科学的議論を過度に制限することなく堅牢な保護策を実装する複雑さを浮き彫りにします。