AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

言語モデルにおける解釈と調整の向上のために特徴フローを分析する
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

Feb 5

ByDaniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov

大規模言語モデルの連続する層において、疎なオートエンコーダによって発見された特徴を体系的にマッピングする新しいアプローチを紹介します。これは、以前に層間の特徴リンクを調査した研究を拡張したものです。データフリーのコサイン類似度技術を使用することで、特定の特徴が各段階でどのように持続し、変換されるか、または最初に現れるかを追跡します。この方法により、特徴の進化の詳細なフローグラフが生成され、モデルの計算に対する微細な解釈可能性と機械的洞察が可能となります。重要なのは、これらの層間特徴マップが、モデルの振る舞いを直接操作する手段を提供し、テキスト生成において選択された特徴を増幅または抑制することで、ターゲットとなるテーマの制御を実現する方法を示している点です。これらの知見は、前向きのパスを通じて特徴がどのように発展するかを明らかにするだけでなく、大規模言語モデルの透明な操作手段を提供する新しい手段を提供する、因果関係のある、層間の解釈可能性フレームワークの有用性を強調しています。

AlphaGeometry2を使用して、オリンピアードの幾何学問題を解決する際の金メダリストのパフォーマンス
Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

Feb 5

ByYuri Chervonyi, Trieu H. Trinh, Miroslav Olšák, Xiaomeng Yang, Hoang Nguyen, Marcelo Menegali, Junehyuk Jung, Vikas Verma, Quoc V. Le, Thang Luong

私たちは、Trinhら(2024)によって導入されたAlphaGeometryの大幅に改良されたバージョンであるAlphaGeometry2を発表します。このAlphaGeometry2は、オリンピアードの幾何学問題を解く際に平均的な金メダリストを上回るようになりました。このために、ますます難解な問題、物体の移動を含む問題、角度、比率、距離の線形方程式を含む問題に対応できるように、元のAlphaGeometry言語を拡張しました。これに加え、その他の追加機能と共に、AlphaGeometry言語の国際数学オリンピアード(IMO)2000-2024の幾何学問題に対するカバレッジ率を66%から88%に著しく向上させました。AlphaGeometry2の探索プロセスも、Geminiアーキテクチャを使用して言語モデリングを向上させ、複数の探索木を組み合わせた新しい知識共有メカニズムを導入することで大幅に改善されています。さらに、象徴エンジンと合成データ生成のさらなる強化を行った結果、過去25年間のすべての幾何学問題に対するAlphaGeometry2の解決率は、以前の54%から84%に大幅に向上しました。AlphaGeometry2は、IMO 2024で銀メダル基準を達成したシステムの一部でもありました。最後に、AlphaGeometry2を自然言語入力から直接幾何学問題を信頼性を持って解決する完全自動化システムの一部として使用する方向に進展していることを報告します。

ConceptAttention: 拡散トランスフォーマーは、高度に解釈可能な特徴を学習します。
ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

Feb 6

ByAlec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau

マルチモーダル拡散トランスフォーマー（DiTs）の豊かな表現は、その解釈可能性を高める独自の特性を示すでしょうか？私たちはConceptAttentionを導入します。これは、DiTの注意層の表現力を活用して、高品質な視覚的概念を画像内で正確に特定するサリエンシーマップを生成する革新的な手法です。追加のトレーニングを必要とせず、ConceptAttentionは、DiTの注意層のパラメータを再利用して、高度に文脈に即した概念の埋め込みを生成します。この手法は、DiTの注意層の出力空間での線形射影を行うことが、一般的に使用されるクロス注意メカニズムよりもはるかに鮮明なサリエンシーマップを生成することを示す主要な発見をもたらします。驚くべきことに、ConceptAttentionは、ゼロショット画像セグメンテーションのベンチマークで最先端の性能を達成し、ImageNet-SegmentationデータセットおよびPascalVOCの単一クラスサブセットで、他の11のゼロショット解釈可能性手法を凌駕します。私たちの研究は、FluxなどのマルチモーダルDiTモデルの表現が、セグメンテーションなどの視覚タスクに高度に移転可能であり、CLIPのようなマルチモーダル基盤モデルをも凌駕することを初めて示す証拠を提供します。

優れたモデルは似たように考えるため、これがAI監督を弱体化させる
Great Models Think Alike and this Undermines AI Oversight

Feb 6

ByShashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping

言語モデル（LM）の能力が向上するにつれて、人間にとっては規模の大きな評価や監督が困難になっています。他の言語モデルがこれらのタスクを自動化できる可能性があり、これを「AI監督」と呼んでいます。本研究では、モデルの類似性がAI監督の両側面にどのように影響するかを検討し、モデルの間違いの重複に基づくLM類似性の確率メトリックを提案しています。このメトリックを用いて、まずLLM-判定スコアが、判定モデルに類似したモデルを好むことを示し、最近の自己選好結果を一般化しています。次に、LM注釈のトレーニングを研究し、弱い監督者と強い学習モデルの間の補完的な知識が「弱から強への一般化」の利益に重要な役割を果たすことを見つけました。モデルの能力が向上するにつれて、彼らの間違いを見つけることが難しくなり、AI監督により多く依存する可能性があります。しかし、懸念すべき傾向を観察しています―モデルの間違いが能力の向上とともにより類似しており、相関した失敗からのリスクが指摘されています。私たちの研究は、特にAI監督の新興パラダイムにおいて、モデルの類似性の報告と修正の重要性を強調しています。

Ola: 進歩的なモダリティアラインメントによるオムニモーダル言語モデルのフロンティアの拡大
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

Feb 6

ByZuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao

最近の大規模言語モデルの進歩、特にGPT-4oに続くものは、さらなるモダリティを理解できるオムニモーダルモデルの開発に対する関心を高めています。いくつかのオープンソースの代替案が登場していますが、専門の単一モダリティモデルに比べて性能面でまだ著しい遅れがあります。本論文では、画像、ビデオ、および音声の理解において専門の対応モデルと競争力のあるパフォーマンスを達成するオムニモーダル言語モデルであるOlaを提案します。Olaの中核設計は、徐々に言語モデルのサポートモダリティを拡張する進行的なモダリティアラインメント戦略にあります。トレーニングパイプラインは、最も異なるモダリティである画像とテキストから始まり、次に言語と音声知識をつなぐ音声データ、そしてすべてのモダリティをつなぐビデオデータを使用してモデルのスキルセットを徐々に拡大しています。進行的な学習パイプラインは、クロスモーダルアラインメントデータの比較的小さなサイズを維持することも可能にし、既存のビジョン言語モデルからのオムニモーダルの開発を容易かつコストを抑えるものとしています。さらに、GPT-4oのような高度なインタラクティブ体験を実現するために、ストリーミング音声生成のための文単位のデコーディングソリューションを設計しています。広範な実験により、Olaはすべてのモダリティで既存のオープンオムニモーダルLLMを凌駕し、同様のサイズの最先端の専門モデルと非常に競争力のあるパフォーマンスを達成していることが示されています。私たちは、Olaを将来の研究を進めるための完全なオープンオムニモーダル理解ソリューションとして位置付けることを目指しています。モデルの重み、コード、データはhttps://github.com/Ola-Omni/Ola でオープンソースとして提供されています。

DynVFX: 動的コンテンツを用いたリアルなビデオの拡張
DynVFX: Augmenting Real Videos with Dynamic Content

Feb 5

ByDanah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel

我々は、実世界のビデオに新しく生成されたダイナミックなコンテンツを付加する方法を提案します。入力ビデオとユーザーが提供したシンプルなテキスト指示に基づき、我々の手法は既存のシーンと自然に相互作用するダイナミックなオブジェクトや複雑なシーン効果を合成します。新しいコンテンツの位置、外観、動きは、カメラの動き、遮蔽、シーン内の他のダイナミックなオブジェクトとの相互作用を考慮しながら、オリジナルの映像にシームレスに統合され、一体感のあるリアルな出力ビデオが生成されます。これは、事前トレーニング不要のゼロショットフレームワークを使用して実現され、事前トレーニング済みのテキストからビデオへの拡散トランスフォーマーを活用して新しいコンテンツを合成し、詳細に拡張されたシーンを想像するために事前トレーニング済みのビジョン言語モデルを使用しています。具体的には、注目メカニズム内の特徴を操作する新しい推論ベースの手法を導入し、新しいコンテンツの正確な位置特定とシームレスな統合を実現し、オリジナルシーンの完全性を保持します。我々の手法は完全に自動化されており、単純なユーザー指示のみが必要です。我々は、実世界のビデオに適用された幅広い編集においてその効果を実証し、カメラとオブジェクトの動きの両方を含む多様なオブジェクトとシナリオをカバーしています。

Llasa: ラマベースの音声合成のためのトレーニング時間と推論時間の計算のスケーリング
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

Feb 6

ByZhen Ye, Xinfa Zhu, Chi-Min Chan, Xinsheng Wang, Xu Tan, Jiahe Lei, Yi Peng, Haohe Liu, Yizhu Jin, Zheqi DAI, Hongzhan Lin, Jianyi Chen, Xingjian Du, Liumeng Xue, Yunlin Chen, Zhifei Li, Lei Xie, Qiuqiang Kong, Yike Guo, Wei Xue

最近のテキストベースの大規模言語モデル（LLM）の進歩、特にGPTシリーズとo1モデルにおいて、トレーニング時と推論時の計算のスケーリングの効果が示されました。ただし、現在の最先端のLLMを活用したTTSシステムは、しばしばマルチステージであり、別々のモデル（例：LLMの後の拡散モデル）が必要であり、特定のモデルをトレーニング中またはテスト中にスケーリングするかどうかの判断が複雑化しています。本研究では、以下の貢献を行っています。まず、音声合成のためのトレーニング時と推論時の計算のスケーリングを探究します。第二に、標準のLLMであるLlamaに完全に適合するように、単一層のベクトル量子化器（VQ）コーデックと単一のTransformerアーキテクチャを採用した音声合成のための簡潔なフレームワークLlasaを提案します。実験の結果、Llasaのトレーニング時の計算をスケーリングすることが、合成音声の自然さを一貫して向上させ、より複雑で正確な抑揚パターンの生成を可能にします。さらに、推論時の計算のスケーリングの観点から、サーチ中にスピーチ理解モデルを検証者として使用し、推論時の計算のスケーリングにより、サンプリングモードが特定の検証者の好みに向かい、感情表現力、音色の一貫性、およびコンテンツの正確性が向上します。さらに、私たちのTTSモデル（1B、3B、8B）およびコーデックモデルのチェックポイントとトレーニングコードを一般に公開しました。

BOLT: 蒸留なしで言語モデル内の長い連鎖思考をブートストラップする
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation

Feb 6

ByBo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong

大規模言語モデル（LLMs）は、OpenAIのo1など、卓越した推論能力を示しています。o1は、問いに答える前に長い思考連鎖（LongCoT）を生成します。LongCoTにより、LLMsは問題を分析し、計画を立て、考えを巡らせ、効果的に戻ることができます。これらの行動により、LLMsは複雑な問題を解決する力を持ちます。o1のリリース後、多くのチームがそのLongCoTと推論能力を模倣しようと試みています。方法論に関しては、彼らは主に既存のLongCoT能力を持つモデル（例：OpenAI-o1、Qwen-QwQ、DeepSeek-R1-Preview）からのデータを用いた知識蒸留に依存しており、このような推論能力を体系的に開発する上で大きな不確実性が残っています。データ領域に関しては、これらの研究は主に数学に焦点を当てており、一部はコーディングも含んでいますが、一般化を制限しています。本論文では、LLMのLongCoT能力をo1のようなモデルからの蒸留や高コストの人間の注釈なしで可能にする新しいアプローチを紹介します。このアプローチでは、標準のinstructモデルからLongCoT（BOLT）をブートストラップします。BOLTには3つの段階があります：1）標準のinstructモデルでのコンテキスト学習によるLongCoTデータのブートストラップ；2）LongCoTの教師付きファインチューニング；3）LongCoT能力をさらに洗練するためのオンライントレーニング。BOLTでは、ブートストラップ段階でわずかなコンテキスト例を作成する必要があります。実験では、このアプローチの実現可能性を示すために10の例を作成しました。私たちは、Llama-3.1-70B-Instructを使用してLongCoTをブートストラップし、さまざまなモデルスケール（7B、8B、70B）に私たちの手法を適用します。私たちは、多様なタスク解決と推論能力を評価する様々なベンチマーク、Arena-Hard、MT-Bench、WildBench、ZebraLogic、MATH500で印象的なパフォーマンスを達成しています。

ウルトラIF：野生からの指示遵守の向上
UltraIF: Advancing Instruction Following from the Wild

Feb 6

ByKaikai An, Li Sheng, Ganqu Cui, Shuzheng Si, Ning Ding, Yu Cheng, Baobao Chang

指示に従うことで、現代の大規模言語モデル（LLMs）が役立つアシスタントとなりました。ただし、複雑な指示に対してLLMsを制御する鍵は依然として謎のままであり、オープンソースコミュニティによって訓練されたモデルと主要企業によって訓練されたモデルの間には大きな隔たりがあります。この隔たりを埋めるために、私たちはオープンソースデータを用いて複雑な指示に従えるLLMsを構築するためのシンプルかつスケーラブルなアプローチであるUltraIFを提案します。UltraIFは、まず現実世界のユーザープロンプトをより単純なクエリ、制約、およびそれに対応する制約の評価質問に分解します。次に、UltraComposerを訓練して、制約に関連するプロンプトと評価質問を構成します。このプロンプトコンポーザーにより、複雑な指示を合成し、評価質問で応答をフィルタリングすることが可能となります。実験では、初めて、ベンチマーク情報を使用せずに、8Bモデルを応答生成器および評価器としてのみ使用して、LLaMA-3.1-8B-Baseを5つの指示に従うベンチマークに合わせることに成功しました。合わせられたモデルは他のベンチマークでも競争力のあるスコアを達成しました。さらに、UltraIFが、より広範な使用例を促進する自己合わせを通じてLLaMA-3.1-8B-Instructをさらに改善できることも示しています。当該手法のコードはhttps://github.com/kkk-an/UltraIF で入手可能です。

反射を伴う弱から強への拡散
Weak-to-Strong Diffusion with Reflection

Feb 1

ByLichen Bai, Masashi Sugiyama, Zeke Xie

拡散生成モデルの目標は、勾配スコアマッチングを通じて学習された分布を実データ分布と整合させることです。ただし、訓練データの品質、モデリング戦略、およびアーキテクチャ設計の固有の制限により、生成された出力と実データとの間に避けられないギャップが生じます。このギャップを縮小するために、既存の弱モデルと強モデルの推定された差（つまり、弱から強への差）を利用して理想モデルと強モデルの間のギャップを近似する革新的なフレームワークであるWeak-to-Strong Diffusion（W2SD）を提案します。弱から強への差を用いたdenoisingとinversionを交互に行う反射操作を採用することで、理論的にW2SDは潜在変数をリアルデータ分布の領域に向かうサンプリング軌跡に沿って誘導することが理解されます。W2SDは非常に柔軟で広範囲に適用可能であり、弱から強のモデルペア（例：DreamShaper vs. SD1.5、MoE内の優れた専門家 vs. 低品質専門家）の戦略的選択を通じて多様な改善を可能とします。包括的な実験により、W2SDは人間の好み、美的品質、およびプロンプトの遵守を大幅に向上させ、画像、ビデオなどさまざまなモダリティ（例：UNetベース、DiTベース、MoE）、アーキテクチャ、およびベンチマークでSOTAのパフォーマンスを達成します。たとえば、W2SDを使用したJuggernaut-XLは、元の結果に比べてHPSv2の勝率を最大90％向上させることができます。さらに、W2SDによって達成されたパフォーマンスの向上は、追加の計算オーバーヘッドを大幅に上回り、異なる弱から強への差からの累積的な改善がその実用性と展開性を一層確固たるものとしています。

MAGA: 大規模ジャンル・視聴者再構築による事前学習コーパスの拡張
MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion

Feb 6

ByXintong Hao, Ke Shen, Chenggang Li

大規模言語モデルの顕著な能力にもかかわらず、その継続的なスケーリングは重要な課題に直面しています：高品質の事前学習データの不足です。モデルのアーキテクチャが進化し続ける一方で、自然言語データはスケールアップに苦労しています。このボトルネックに取り組むために、既存のコーパスから多様で文脈豊かな事前学習データを体系的に合成するMAssive Genre-Audience（MAGA）再構築手法を提案します。この研究は主に3つの貢献をします：（1）軽量かつスケーラブルな事前学習コーパス拡張手法であるMAGA再構築手法を提案し、770BトークンのMAGACorpusを構築します。（2）異なるデータ予算スケーリング戦略でMAGACorpusを評価し、様々なモデルサイズ（134M-13B）で一貫した改善を示し、次世代の大規模合成事前学習言語モデルの必要性を確立します。（3）包括的な分析を通じて、合成トレーニングの崩壊に対するプロンプトエンジニアリングの影響を調査し、検証損失を使用した従来の崩壊検出メトリックの限界を明らかにします。私たちの研究は、MAGAがトレーニングデータセットを大幅に拡張し、品質を維持しながら、データの制約を超えてモデルをスケーリングするための信頼できる経路を提供できることを示しています。

ScoreFlow: スコアベースの選好最適化を通じたLLMエージェントワークフローのマスタリング
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

Feb 6

ByYinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam

最近の研究では、大規模言語モデルのマルチエージェントシステムを活用して複雑な問題解決に取り組んでおり、それらを構築するために必要な手作業を削減しようとしています。これにより、自動エージェントワークフローの最適化方法の開発が推進されています。ただし、既存の手法は、表現上の制約、適応性の欠如、離散最適化技術への依存時のスケーラビリティの低さなどから、柔軟性に欠けています。私たちは、これらの課題に対処するために、ScoreFlowというシンプルでありながら高性能なフレームワークを提供します。ScoreFlowは、連続空間で効率的な勾配ベースの最適化を活用しています。ScoreFlowには、量的フィードバックを考慮した直接選好最適化手法の新しいバリアントであるScore-DPOが組み込まれています。質問回答、コーディング、数理推論をカバーする6つのベンチマークを通じて、ScoreFlowは既存のベースラインに比べて8.2%の改善を達成しています。さらに、ScoreFlowは、推論コストを低く抑えながら、より小さなモデルがより大きなモデルを上回ることを可能にしています。プロジェクト: https://github.com/Gen-Verse/ScoreFlow

MotionLab: モーション条件モーションパラダイムを介した統一された人間の動作生成と編集
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

Feb 4

ByZiyan Guo, Zeyu Hu, Na Zhao, De Wen Soh

人間の動作生成と編集は、コンピュータグラフィックスとビジョンの重要な要素です。しかしながら、この分野の現在のアプローチは、特定のタスクに合わせた孤立した解決策を提供する傾向があり、現実世界の応用には非効率で実用的ではありません。動作関連のタスクを統一しようとする取り組みもありますが、これらの方法は単に異なるモダリティを条件として動作生成を誘導するだけであり、編集機能や細かい制御を欠き、さらにタスク間での知識共有を促進することができません。これらの制限に対処し、人間の動作生成と編集の両方を処理できる汎用的で統一されたフレームワークを提供するために、我々は新しいパラダイムを導入します：Motion-Condition-Motion。このパラダイムに基づいて、ソース動作、条件、およびターゲット動作という3つの概念を用いて、さまざまなタスクの統一された定式化を可能にします。このパラダイムに基づいて、ソース動作からターゲット動作へのマッピングを学習するための指定された条件によって誘導される修正されたフローを組み込んだ統一されたフレームワークであるMotionLabを提案します。MotionLabでは、1) タスク固有のモジュールを使用せずに条件付き生成と編集を向上させるためのMotionFlow Transformer、2) ソース動作とターゲット動作の時間同期を保証するためのAligned Rotational Position Encoding、3) タスク固有の指示モジュレーション、および4) 効果的なマルチタスク学習とタスク間の知識共有のためのMotion Curriculum Learningを導入しています。特筆すべきは、我々のMotionLabは、人間の動作に関する複数のベンチマークで有望な汎化能力と推論効率を示しています。我々のコードと追加のビデオ結果は、以下で入手可能です：https://diouo.github.io/motionlab.github.io/。

MotionCanvas: 制御可能な画像からビデオへのシネマティックショットデザイン
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

Feb 6

ByJinbo Xing, Long Mai, Cusuh Ham, Jiahui Huang, Aniruddha Mahapatra, Chi-Wing Fu, Tien-Tsin Wong, Feng Liu

本論文では、画像から動画を生成する文脈において、ユーザーがシネマティックなビデオショットを設計することを可能にする手法を提案しています。ショットデザインは映画製作の重要な側面であり、シーン内のカメラの動きとオブジェクトの動きを細心の注意を払って計画することを含みます。しかし、現代の画像から動画を生成するシステムにおいて直感的なショットデザインを実現することは、2つの主な課題を提起します。第一に、ユーザーの意図を効果的に捉えること、つまりカメラの動きとシーン内オブジェクトの動きを共同で指定する動きデザインにおいて、第二に、画像アニメーションを合成するためにビデオ拡散モデルによって効果的に利用されることができる動き情報を表現することです。これらの課題に対処するために、MotionCanvasという手法を導入しました。これは、画像から動画（I2V）生成モデルにユーザー主導のコントロールを統合し、シーンを認識した方法でユーザーがシーン内のオブジェクトとカメラの動きを制御できるようにします。古典的なコンピュータグラフィックスと現代のビデオ生成技術からの洞察を結びつけることで、高価な3D関連のトレーニングデータを必要とせずに、I2V合成において3Dを認識した動き制御を実現する能力を示します。MotionCanvasは、ユーザーがシーン内の動きの意図を直感的に描写し、それをビデオ拡散モデルのための時空間動き条件付け信号に変換します。私たちの手法の効果を、幅広い実世界の画像コンテンツとショットデザインシナリオで実証し、デジタルコンテンツ作成の創造的なワークフローを向上させ、さまざまな画像およびビデオ編集アプリケーションに適応させる潜在能力を強調します。

プロンプトの内容を超えて：コンテンツ形式統合型プロンプト最適化によるLLMパフォーマンスの向上
Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization

Feb 6

ByYuanye Liu, Jiahang Xu, Li Lyna Zhang, Qi Chen, Xuan Feng, Yang Chen, Zhongxin Guo, Yuqing Yang, Cheng Peng

大規模言語モデル（LLMs）は、さまざまなタスクで著しい能力を示しており、その実世界での効果はしばしばプロンプトの設計によって決定されます。最近の研究は、プロンプトの内容を最適化することに焦点を当ててきましたが、重要ながらもしばしば見過ごされがちなプロンプトのフォーマットについての役割は、限られた体系的な調査しか受けていませんでした。本論文では、コンテンツ-フォーマット統合プロンプト最適化（CFPO）という革新的な方法論を紹介し、反復的な洗練プロセスを通じてプロンプトの内容とフォーマットの両方を共同で最適化する方法を提案します。CFPOは、自然言語の変異を活用してコンテンツの変化を探索し、多様なフォーマットオプションを体系的に評価する動的フォーマット探索戦略を採用しています。複数のタスクとオープンソースのLLMsを対象とした幅広い評価により、CFPOがコンテンツのみを最適化する方法と比較して測定可能なパフォーマンス向上を実証しています。これは、統合されたコンテンツ-フォーマット最適化の重要性を強調し、LLMのパフォーマンス向上に向けた実用的でモデルに依存しないアプローチを提供しています。コードはhttps://github.com/HenryLau7/CFPO で入手可能です。

PILAF: 報酬モデリングのための最適な人間の選好サンプリング
PILAF: Optimal Human Preference Sampling for Reward Modeling

Feb 6

ByYunzhen Feng, Ariel Kwiatkowski, Kunhao Zheng, Julia Kempe, Yaqi Duan

大規模言語モデルが現実世界のアプリケーションをますます推進する中、人間の価値観との調整が極めて重要となります。人間の価値観がオラクルでアクセスできない場合、人間のフィードバックからの強化学習（RLHF）が主要な手法として登場しています。実践では、RLHF は主に近似報酬モデルに依存しており、これらは方針を一貫して最大化する人間の価値観に導かない可能性があります。私たちは、アラインメントされたフィードバックのためのポリシー補間学習（PILAF）を提案します。これは、好みのデータを報酬モデルに変換する新しい応答サンプリング戦略であり、明示的に好みの学習をオラクル報酬の最大化と整合させます。PILAF は理論的に基礎があり、最適化と統計の観点から最適性を示しています。この手法は実装が簡単であり、フィードバックのキュレーションが重要な反復的およびオンラインのRLHF設定で強力なパフォーマンスを示しています。

ビデオ生成における物理的理解へ向けて：3Dポイント正則化アプローチ
Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach

Feb 5

ByYunuo Chen, Junli Cao, Anil Kag, Vidit Goel, Sergei Korolev, Chenfanfu Jiang, Sergey Tulyakov, Jian Ren

我々は、3次元ジオメトリと動的認識を統合した新しいビデオ生成フレームワークを提案します。これを実現するために、2次元ビデオに3次元の点軌跡を追加し、それらをピクセル空間で整列させます。その結果得られる3次元認識ビデオデータセット、PointVidを用いて、潜在的な拡散モデルを微調整し、それによって2次元オブジェクトを3次元直交座標で追跡できるようにします。これに基づいて、ビデオ内のオブジェクトの形状と動きを規則化し、非望ましいアーティファクト（例：非物理的変形）を除去します。その結果、生成されるRGBビデオの品質が向上し、形状認識の不足によって現在のビデオモデルで一般的なオブジェクトの変形などの問題が軽減されます。3次元の拡張と規則化により、我々のモデルは、タスク指向のビデオなどのコンタクト豊富なシナリオを処理する能力を持ちます。これらのビデオは、固体の複雑な相互作用を含み、変形や接触を知覚するために3次元情報が不可欠です。さらに、我々のモデルは、移動オブジェクトの3次元的な一貫性を促進し、形状と動きの急激な変化を減らすことで、ビデオ生成の全体的な品質を向上させます。

ChartCitor: 細かいチャートビジュアルの帰属を行うためのマルチエージェントフレームワーク
ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution

Feb 3

ByKanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt

大規模言語モデル（LLMs）は、チャートの質問応答タスクを実行できますが、しばしば未検証の幻覚的な応答を生成します。既存の回答帰属方法は、視覚的意味コンテキストの制約、複雑な視覚テキストの整列要件、複雑なレイアウト全体にわたるバウンディングボックス予測の難しさにより、応答をソースチャートに根拠付けるのに苦労しています。本研究では、チャート画像内の支持証拠を特定することで、細かいバウンディングボックスの引用を提供するマルチエージェントフレームワークであるChartCitorを提案します。このシステムは、LLMエージェントを統括して、チャートからテーブルの抽出、回答の再構成、テーブルの拡張、事前フィルタリングおよび再ランキングを通じた証拠の取得、およびテーブルからチャートへのマッピングを実行します。ChartCitorは、さまざまなチャートタイプにわたって既存のベースラインを上回る性能を発揮します。質的ユーザースタディでは、ChartCitorが、LLM支援のチャートQAにおけるユーザーの信頼を高め、専門家がより生産的になるための強化された説明可能性を提供することが示されています。

PlotGen: マルチエージェントLLMに基づく科学データの視覚化：マルチモーダルフィードバックを介した
PlotGen: Multi-Agent LLM-based Scientific Data Visualization via Multimodal Feedback

Feb 3

ByKanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt

科学データの可視化は、生データを理解可能な視覚表現に変換するために重要であり、パターン認識、予測、データ駆動型の洞察の提示を可能にします。しかしながら、初心者のユーザーはしばしば適切なツールの選択や可視化技術の習得の複雑さによって困難に直面します。大規模言語モデル（Large Language Models、LLMs）は最近、コード生成を支援する潜在能力を示していますが、精度に苦しんでおり、反復的なデバッグが必要です。本論文では、厳密な科学的可視化の自動化を目的とした新しいマルチエージェントフレームワークであるPlotGenを提案します。PlotGenは、複数のLLMベースのエージェントを組み合わせて構成されており、複雑なユーザーリクエストを実行可能なステップに分解するクエリ計画エージェント、疑似コードを実行可能なPythonコードに変換するコード生成エージェント、およびデータの精度、テキストラベル、生成されたプロットの視覚的正確性を自己反映を通じて反復的に洗練するためにマルチモーダルLLMsを活用する数値フィードバックエージェント、語彙フィードバックエージェント、視覚フィードバックエージェントの3つの取得フィードバックエージェントを統括しています。広範な実験により、PlotGenがMatPlotBenchデータセットで強力なベースラインを上回り、LLMによる可視化へのユーザーの信頼向上と、プロットエラーのデバッグに必要な時間の短縮による初心者の生産性向上をもたらす、4〜6％の改善を達成していることが示されました。

異種マスク付き自己回帰を用いた実世界アクションビデオダイナミクスの学習
Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

Feb 6

ByLirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen

私たちは、高品質のデータ生成とスケーリングロボット学習における評価のために、アクションビデオのダイナミクスをモデリングするための異種マスク付き自己回帰（Heterogeneous Masked Autoregression、HMA）を提案します。ロボティクスのインタラクティブなビデオワールドモデルとポリシーを構築することは、多様な設定を扱いつつリアルタイムで実行するための計算効率を維持するという課題があるため困難です。HMAは、異なるロボットの具現化、ドメイン、タスク間での観測とアクションシーケンスからの異種事前トレーニングを使用します。HMAは、ビデオ予測のために量子化されたまたはソフトなトークンを生成するためにマスク付き自己回帰を使用します。\ourshort は、以前のロボットビデオ生成モデルよりも視覚的忠実度と制御性が向上し、リアルワールドで15倍高速です。ポストトレーニング後、このモデルは、ポリシーの評価や合成データの生成のための低レベルのアクション入力からのビデオシミュレータとして使用できます。詳細については、このリンクhttps://liruiw.github.io/hmaを参照してください。

低リソース言語のためのコード生成の向上：銀の弾丸はない
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet

Jan 31

ByAlessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota

大規模言語モデル（LLM）の登場により、自動コード生成の分野が大きく進歩しました。LLMは、プログラミング言語の構文、意味、および使用パターンを学習するために大規模かつ多様なデータセットに依存しています。低リソース言語（つまり、トレーニングデータが不足しているニッチなプログラミング言語）では、そのようなデータの入手が制限されているため、モデルが効果的に汎化する能力が妨げられ、高リソース言語と比較してコード生成のパフォーマンスが低下します。このため、このパフォーマンスの差を埋める技術の探求が行われています。本研究では、低リソース言語におけるLLMのパフォーマンス向上のいくつかのアプローチの効果を調査した経験的研究を提案します。具体的には、（i）トレーニングデータの不足によりサイズが制限されるクラシックなファインチューニング、（ii）プロンプトを工夫してLLMに対象言語の追加情報を提供するインコンテキストラーニングの3つのバリアント（例：対象言語の特徴を示すフューショット例など）、および（iii）高リソース言語と低リソース言語の間の翻訳方法をモデルに教える事前トレーニング目的です。本研究の文脈は、2つの低リソース言語（RおよびRacket）と異なるアーキテクチャとサイズを持つ6つのLLMです。研究結果から、小さなLLMにとっては通常、ファインチューニングが最良の選択肢であることがわかりました。おそらく、少量のデータでも十分にトレーニングできるため、その制限されたパラメータ数を訓練するのに十分だからです。モデルのサイズが大きくなるにつれて、インコンテキストラーニングがより効果的になり、安全でコストのかからない選択肢となります（つまり、常に助けになりますが、その効果は異なります）。一方、非常に大規模なLLMは、ファインチューニングを行うと低リソース言語でのパフォーマンスが低下する可能性があります。おそらく、効果的に重みを更新するために十分なデータが不足しているためです。

簡単なインタラクションでLLMから有害なジェイルブレイクを引き出す
Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

Feb 6

ByYik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi

広範な安全整合取り組みにもかかわらず、大規模言語モデル（LLM）は有害な行動を誘発するジェイルブレイク攻撃に依然として脆弱です。既存の研究は主に技術的専門知識を必要とする攻撃手法に焦点を当てていますが、未だに未探索の重要な2つの問いが残っています：（1）ジェイルブレイクされた応答が、一般ユーザーが有害な行動を行うのに本当に役立つのか？（2）より一般的で単純な人間-LLMの相互作用に安全上の脆弱性が存在するか？本論文では、LLMの応答が最も効果的に有害な行動を促進するのは、それらが実行可能で情報提供が容易な場合であることを示します。この洞察を活用して、有害行動を可能にするLLMの応答の効果を測定するジェイルブレイク指標であるHarmScoreと、簡単な多段階、多言語攻撃フレームワークであるSpeak Easyを提案します。特筆すべきは、Speak Easyを直接リクエストとジェイルブレイクの基準に組み込むことで、オープンソースおよびプロプライエタリLLMの4つの安全基準全体で、攻撃成功率が平均0.319、HarmScoreが平均0.426向上することです。私たちの研究は、悪意のあるユーザーが一般的な相互作用パターンを容易に悪用して有害な意図を実行できるという、重要でありながらしばしば見過ごされている脆弱性を明らかにします。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

言語モデルにおける解釈と調整の向上のために特徴フローを分析する
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

Feb 5

ByDaniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov

AlphaGeometry2を使用して、オリンピアードの幾何学問題を解決する際の金メダリストのパフォーマンス
Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

Feb 5

ByYuri Chervonyi, Trieu H. Trinh, Miroslav Olšák, Xiaomeng Yang, Hoang Nguyen, Marcelo Menegali, Junehyuk Jung, Vikas Verma, Quoc V. Le, Thang Luong

ConceptAttention: 拡散トランスフォーマーは、高度に解釈可能な特徴を学習します。
ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

Feb 6

ByAlec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau

優れたモデルは似たように考えるため、これがAI監督を弱体化させる
Great Models Think Alike and this Undermines AI Oversight

Feb 6

ByShashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping