翻訳付きの日次キュレーションされたAI研究論文
生成モデルは、データ、計算リソース、およびモデルサイズを増やすことでトレーニング中にスケーリングする能力により、さまざまな領域に大きな影響を与えています。この現象はスケーリング則によって特徴付けられます。最近の研究では、大規模言語モデル(LLMs)における推論時のスケーリング挙動を探索し始め、追加の計算によってパフォーマンスをさらに向上させる方法が明らかになっています。LLMsとは異なり、拡散モデルはノイズリダクションステップの数を調整する柔軟性を持っていますが、パフォーマンスの向上は通常、数十回のステップの後に頭打ちになります。本研究では、拡散モデルの推論時のスケーリング挙動を、ノイズリダクションステップの増加を超えて探求し、増加した計算によって生成パフォーマンスをさらに向上させる方法を調査します。具体的には、拡散サンプリングプロセスのためのより良いノイズを特定するための検索問題を考えます。我々は、フィードバックを提供する検証者と、より良いノイズ候補を見つけるために使用されるアルゴリズムという2つの軸に沿って設計空間を構築します。クラス条件付きおよびテキスト条件付きの画像生成ベンチマークでの広範な実験を通じて、我々の調査結果は、拡散モデルによって生成されたサンプルの品質が大幅に向上することを示し、画像の複雑な性質において、フレームワーク内のコンポーネントの組み合わせが異なるアプリケーションシナリオに適合するように特に選択できることを示唆しています。
大規模言語モデルを用いた機械による文章生成は、しばしば検索拡張生成に依存しています。しかしながら、これらの手法はモデルの事前定義された範囲内に閉じ込められており、情報豊かなコンテンツの生成を制限しています。具体的には、バニラ検索された情報は深さや有用性に欠け、冗長性があり、生成された記事の品質に悪影響を与え、浅い、繰り返しの多い、非オリジナルな出力をもたらします。これらの問題に対処するために、私たちはOmniThinkを提案します。これは、反復的な拡張と反映の人間らしいプロセスを模倣した機械文章作成フレームワークです。OmniThinkの核となるアイデアは、学習者がトピックの知識を徐々に深める過程をシミュレートすることです。実験結果は、OmniThinkが一貫性や深さなどの指標を損なうことなく、生成された記事の知識密度を向上させることを示しています。人間の評価と専門家のフィードバックは、OmniThinkが長文記事の生成における現実世界の課題に対処する潜在能力をさらに強調しています。
言語は長らく人間の推論における重要なツールとして捉えられてきました。 大規模言語モデル(LLMs)の突破は、これらのモデルを活用して複雑な推論タスクに取り組むための研究関心を高めました。 研究者たちは、自己回帰的なトークン生成を超えて、「思考」という概念を導入することで、推論プロセスの中間ステップを表すトークンのシーケンスを導入しました。この革新的なパラダイムにより、LLMsは木探索や反射的思考などの複雑な人間の推論プロセスを模倣することが可能になりました。最近では、推論を学習する新しいトレンドが台頭し、強化学習(RL)を用いてLLMsに推論プロセスを習得させることが行われています。このアプローチにより、試行錯誤の探索アルゴリズムを通じて高品質な推論経路を自動生成することが可能となり、大幅に多くのトレーニングデータを提供することでLLMsの推論能力を大幅に拡張しています。さらに、最近の研究では、テスト時の推論精度をさらに大幅に向上させるために、LLMsにより多くのトークンで「考える」ことを奨励することが示されています。したがって、トレーニング時とテスト時のスケーリングが組み合わさり、大規模推論モデルへの道を示す新たな研究フロンティアが明らかになりました。OpenAIのo1シリーズの導入は、この研究方向における重要な節目となっています。この調査では、LLM推論の最近の進歩について包括的なレビューを提供します。まず、LLMsの基礎的背景を紹介し、その後、大規模推論モデルの開発を推進する主要な技術要素に焦点を当て、自動データ構築、推論学習技術、およびテスト時のスケーリングについて探求します。また、大規模推論モデルの構築における人気のあるオープンソースプロジェクトを分析し、オープンな課題と将来の研究方向で締めくくります。
自動符号化を介した視覚的トークン化は、ピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを強化します。最近の進歩においてTransformerベースのジェネレータのスケーリングが中心的である一方、トークナイザー部分自体はほとんどスケーリングされておらず、自動符号化の設計選択が再構成の目的と下流の生成パフォーマンスの両方にどのように影響するかという未解決の問題が残されています。本研究は、この空白を埋めるために自動符号化のスケーリングに関する探索を行うことを目的としています。この探索を容易にするために、通常の畳み込みバックボーンを強化したVision Transformerアーキテクチャをトークナイゼーション用に使用したViTokを導入します。ViTokをImageNet-1Kをはるかに超える大規模な画像およびビデオデータセットで訓練し、トークナイザーのスケーリングに関するデータ制約を除去します。まず、自動符号化のボトルネックのスケーリングが再構成と生成の両方にどのように影響するかを調査し、再構成と強く相関する一方で生成との関係はより複雑であることがわかりました。次に、自動符号化のエンコーダーとデコーダーを別々にスケーリングした場合の再構成と生成パフォーマンスへの影響を探りました。重要なのは、エンコーダーのスケーリングは再構成または生成のいずれに対してもわずかな利益しかもたらさず、一方でデコーダーのスケーリングは再構成を向上させますが、生成に対する利点は混在しています。私たちの探索を基に、ViTokを軽量な自動符号化器として設計し、ImageNet-1KおよびCOCOの再構成タスク(256pおよび512p)で最先端の自動符号化器と競争力のあるパフォーマンスを達成し、UCF-101の16フレーム128pビデオ再構成では既存の自動符号化器を2〜5倍のFLOPsで上回りました。Diffusion Transformersと統合すると、ViTokはImageNet-1Kで画像生成において競争力のあるパフォーマンスを発揮し、UCF-101でのクラス条件付きビデオ生成の新たな最先端ベンチマークを設定しました。
AIビデオ生成は革命を遂げており、品質とリアリズムが急速に進化しています。これらの進歩により、情熱的な科学的論争が生まれました。ビデオモデルは物理法則を発見する「ワールドモデル」を学習するのか、あるいは単なる洗練されたピクセル予測機械であり、物理的原理を理解せずに視覚的リアリズムを実現するのか、という問いに対処します。私たちは、物理学-IQという包括的なベンチマークデータセットを開発することで、流体力学、光学、固体力学、磁気学、熱力学などのさまざまな物理的原理を深く理解することでのみ解決できるデータセットであることを明らかにします。現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、VideoPoet)において、物理理解は著しく制限され、視覚的リアリズムとは関係がないことがわかりました。同時に、一部のテストケースは既に成功裏に解決されています。これは、観察だけで特定の物理的原理を獲得することが可能かもしれないことを示唆していますが、重要な課題が残っています。今後の急速な進歩が期待される一方、私たちの研究は、視覚的リアリズムが物理理解を意味しないことを示しています。プロジェクトページはhttps://physics-iq.github.ioにあり、コードはhttps://github.com/google-deepmind/physics-IQ-benchmarkにあります。
オートレグレッション系列モデル、例えばTransformerベースのビジョン言語行動(VLA)ポリシーは、複雑で汎用性のあるロボットの振る舞いを捉えるのに非常に効果的です。ただし、このようなモデルでは、連続的なアクション信号のトークン化を選択する必要があります。これにより、モデルによって予測される離散的なシンボルが連続的なロボットのアクションにどのようにマップされるかが決まります。現在のロボットアクションのトークン化手法は、単純な次元ごと、タイムステップごとのビニングスキームに基づいているため、高頻度のロボットデータから熟練したスキルを学習する際に通常は性能が低いことがわかっています。この課題に対処するために、離散コサイン変換に基づく新しい圧縮ベースのロボットアクションのトークン化スキームを提案します。このトークン化手法、Frequency-space Action Sequence Tokenization(FAST)は、標準の離散化手法が完全に失敗する高度な熟練度と高頻度のタスクのためにオートレグレッションVLAをトレーニングすることを可能にします。FASTに基づいて、1Mの実際のロボットアクショントラジェクトリでトレーニングされた汎用ロボットアクショントークナイザーであるFAST+をリリースします。これは、多様なアクションスペースと制御周波数を持つ幅広い範囲のロボットアクションシーケンスに対してブラックボックストークナイザーとして使用できます。最後に、pi0 VLAと組み合わせることで、当社の手法は、最大10k時間のロボットデータでトレーニングし、拡散VLAの性能に匹敵しながら、トレーニング時間を最大5倍短縮できることを示します。
SynthLightという、ポートレートのリライティングのための拡散モデルを紹介します。当手法は、画像のリライティングを再レンダリング問題として捉え、ピクセルを環境光条件の変化に応じて変換します。物理ベースのレンダリングエンジンを用いて、3Dヘッドアセットを用いたさまざまな光条件下での変換をシミュレートするデータセットを合成します。我々は、合成と実画像のドメイン間のギャップを埋めるための2つのトレーニングおよび推論戦略を提案します:(1)照明ラベルのない実際の人物のポートレートを活用するマルチタスクトレーニング;(2)入力ポートレートを活用して詳細をよりよく保持する、クラシファイアフリーガイダンスに基づく推論時の拡散サンプリング手法。当手法は多様な実写真に汎化し、光沢のあるハイライトや影の投影を含むリアルな照明効果を生成し、被写体の特徴を保持します。Light Stageデータにおける定量的実験では、最先端のリライティング手法と比較可能な結果を示します。野外の画像に対する質的結果は、豊かでこれまでにない照明効果を示しています。プロジェクトページ:https://vrroom.github.io/synthlight/
オンライン医療相談(OMC)は、医師が患者情報を問診を通じてのみ収集することに制限され、すでに複雑な診断の連続的意思決定プロセスをさらに困難にしています。最近、大規模言語モデルの急速な進歩がOMCを変革する可能性を示しています。しかし、ほとんどの研究は、比較的十分な情報条件下での診断精度の向上に主に焦点を当てており、相談プロセスの「問診」段階には限られた注意が払われています。この焦点の欠如により、「問診」と「診断」の関係が不十分に探求されています。本論文では、まず、本物の医師と患者の会話から実際の患者とのやり取り戦略を抽出し、これらの戦略を使用して現実世界の行動を密接に模倣する患者シミュレータのトレーニングをガイドします。医療記録を患者シミュレータに入力して患者の反応をシミュレートし、相談プロセスにおける「問診」と「診断」の関係を探るために幅広い実験を行います。実験結果は、問診と診断がリービッヒの法則に従うことを示しています:質の低い問診は、診断能力にかかわらず、診断の効果を制限し、その逆もまた然りです。さらに、実験は、さまざまなモデルの問診パフォーマンスにおける著しい違いを明らかにします。この現象を調査するために、問診プロセスを次の4つのタイプに分類します:(1)主訴の問診;(2)既知の症状の特定;(3)合併症状の問診;および(4)家族や医療歴の収集。異なるモデルにおけるこれら4つのタイプの問診の分布を分析し、その著しいパフォーマンスの違いの背後にある理由を探ります。当社の患者シミュレータの重みと関連コードをオープンソース化する予定であり、https://github.com/LIO-H-ZEN/PatientSimulator で公開する予定です。
テキストやビジュアル入力から高品質な3Dアセットを合成することは、現代の生成モデリングにおける中心的な目標となっています。3D生成アルゴリズムが増加しているものの、それらはしばしば多視点の不一致、遅い生成時間、低い忠実度、および表面再構築の問題に苦しんでいます。これらの問題のいくつかは一部の研究で取り組まれていますが、包括的な解決策はまだ見つかっていません。本論文では、高忠実度な3Dアセットを効率的に生成するCarve-and-Paint(CaPa)フレームワークを紹介します。CaPaは、ジオメトリ生成とテクスチャ合成を分離した2段階プロセスを採用しています。最初に、3D潜在拡散モデルがマルチビュー入力によって誘導されたジオメトリを生成し、視点間で構造的一貫性を確保します。その後、新しいモデルに依存しない空間的に分離された注意を活用して、フレームワークは指定されたジオメトリに対して高解像度(最大4K)のテクスチャを合成します。さらに、未テクスチャ領域を埋める3D認識オクルージョンインペインティングアルゴリズムを提案し、モデル全体で一貫した結果を生み出します。このパイプラインは、30秒未満で高品質な3Dアセットを生成し、商業用アプリケーションに使用できる出力を提供します。実験結果は、CaPaがテクスチャの忠実度と幾何学的安定性の両方で優れており、実用的でスケーラブルな3Dアセット生成の新基準を確立しています。
最近、大規模生成モデルは優れたテキストから画像生成能力を示しています。ただし、特定の被写体を持つ高品質な個人画像を生成することは、特に複数の被写体が関わる場合にはまだ課題が残っています。本論文では、個人化された被写体生成のための統一アプローチであるAnyStoryを提案します。AnyStoryは、単一の被写体に対する高品質な個人化だけでなく、複数の被写体に対しても、被写体の忠実度を犠牲にすることなく達成します。具体的には、AnyStoryは被写体の個人化問題を「エンコードしてからルーティングする」方法でモデル化します。エンコードステップでは、AnyStoryは普遍的で強力な画像エンコーダであるReferenceNetを使用し、CLIPビジョンエンコーダと組み合わせて被写体特徴の高品質なエンコードを実現します。ルーティングステップでは、AnyStoryは分離されたインスタンス認識型被写体ルータを使用して、潜在空間内で対応する被写体の潜在的な位置を正確に認識し予測し、被写体条件の導入をガイドします。詳細な実験結果は、当社の手法が被写体の詳細を保持し、テキストの説明と整合し、複数の被写体に対して個人化することで優れたパフォーマンスを発揮することを示しています。プロジェクトページは https://aigcdesigngroup.github.io/AnyStory/ にあります。
最近、大規模言語モデルの人気が高まっており、それに伴い、それらを訓練するために必要な大規模なコードデータセットの開発が進んでいます。これにより、特定の振る舞いの調査や大規模言語モデルの評価を行う際にデータの混入を避けるためのコードが限られてしまいました。この問題に対処するために、57のプログラミング言語をカバーする大規模な多言語データセットである「The Heap」を公開します。このデータセットは、他のオープンデータセットとの重複を排除しており、研究者が大規模言語モデルの公平な評価を行う際に、大幅なデータクリーニングの手間をかけることなく利用できます。
ファウンデーション・モデル(FMs)などの生成型AIシステムは、その振る舞いが有益で信頼性があり、人間の価値観とよく一致している必要があります。人間の判断を用いた強化学習(RLHF)は、モデルのパフォーマンスを最適化するための有望な手法として示されていますが、既存のRLHFパイプラインは主に即時フィードバックに依存しており、ユーザーの効用に対する相互作用の下流への影響を正確に反映できない可能性があります。我々は、評価者の先見の見積もりに基づくフィードバックが、Goodhartの法則のダイナミクスを系統的に引き起こし、おべっかや欺瞞のような非整合な振る舞いを促進し、最終的にユーザーの結果を悪化させることを示します。この問題を解消するために、我々は評価と予測を分離することを提案し、RLHFを後見的フィードバックに再焦点化することを提案します。理論的な分析により、評価者のフィードバックを下流の観察に依存させることで、非整合を緩和し、期待される人間の効用を向上させることが示されました。この洞察を実践的な整合アルゴリズムに活用するために、我々は後見的シミュレーションからの強化学習(RLHS)を導入し、まず可能な結果をシミュレートしてから、後見的に真に有益だった行動を評価するためのフィードバックを引き出します。我々は、このRLHSを、広く用いられているオンラインおよびオフラインの好み最適化手法であるProximal Policy Optimization(PPO)およびDirect Preference Optimization(DPO)に適用し、両手法ともに非整合が大幅に軽減されることを実証します。オンラインのヒューマンユーザースタディを通じて、RLHSがユーザーが目標を達成するのを助ける点でRLHFを一貫して上回り、満足度の評価が高いことを示します。これらの結果は、RLHFにおける非整合を緩和するために、長期的な結果に焦点を当てることの重要性を強調しています。