翻訳付きの日次キュレーションされたAI研究論文
最近の大規模な拡散モデルは高品質な画像を生成する一方、新しい個人の芸術的スタイルを学習するのに苦労しており、独自のスタイルテンプレートの作成を制限しています。参照画像を使用したファインチューニングは最も有望なアプローチですが、しばしば事前トレーニングで使用された目的やノイズレベル分布を盲目的に利用するため、最適でないスタイルの整列が起こります。私たちは、スタイルに適したSNRサンプラーを提案し、ファインチューニング中に信号対雑音比(SNR)分布を積極的に高いノイズレベルにシフトさせることで、スタイル的特徴が現れるノイズレベルに焦点を当てます。これにより、モデルは独自のスタイルをよりよく捉え、スタイル整列の高い画像を生成することが可能となります。私たちの手法は、拡散モデルが新しい「スタイルテンプレート」を学習し共有することを可能にし、個人のコンテンツ作成を向上させます。私たちは、個人の水彩画、ミニマルなフラットな漫画、3Dレンダリング、複数パネル画像、およびテキスト付きのミームなど、様々なスタイルの生成能力を示し、スタイル駆動型生成の範囲を広げています。
言語モデルの事後トレーニングは、広範囲にわたる最新の言語モデルで行動を洗練させ、新しいスキルを開発するために適用されていますが、これらの技術を適用するためのオープンな手順は、プロプライエタリな手法に遅れをとっています。事後トレーニングの基礎となるトレーニングデータや手順は、パズルの中で最も重要な部分でありながら、最も透明性に欠ける部分です。このギャップを埋めるために、私たちはT\"ULU 3を紹介します。これは最新の事後トレーニング技術の包括的なガイドとして、完全にオープンな最先端の事後トレーニングモデルのファミリーであり、そのデータ、コード、トレーニング手順を提供します。T\"ULU 3は、Llama 3.1ベースモデルを基盤としており、Llama 3.1、Qwen 2.5、Mistralなどのinstructバージョン、さらにはGPT-4o-miniやClaude 3.5-Haikuなどのクローズドモデルを凌駕する結果を達成しています。私たちのモデルのトレーニングアルゴリズムには、教師ありファインチューニング(SFT)、直接的な選好最適化(DPO)、およびReinforcement Learning with Verifiable Rewards(RLVR)と呼ばれる新しい手法が含まれています。T\"ULU 3では、開発および未知の評価、標準的なベンチマーク実装、およびこれらのベンチマークにおける既存のオープンデータセットの実質的な浄化を伴う、事後トレーニング手順のマルチタスク評価スキームを導入します。信頼性のないパフォーマンス向上をもたらさなかったトレーニング手法の分析と議論で締めくくります。 T\"ULU 3モデルの重みとデモに加えて、私たちは、多様な基本スキル用のデータセット、データキュレーションと評価のための堅牢なツールキット、トレーニングコードとインフラ、そして、T\"ULU 3アプローチを他の領域にさらに適応するための詳細なレポートを再現およびさらなる適応のために公開します。
本論文では、画像条件を事前学習された拡散トランスフォーマー(DiT)モデルに統合する高い汎用性とパラメータ効率を備えたフレームワークであるOminiControlを紹介します。OminiControlの核となるのは、パラメータ再利用メカニズムを活用し、DiTが自らを強力なバックボーンとして画像条件をエンコードし、柔軟なマルチモーダルアテンションプロセッサで処理することができるようになります。既存の方法とは異なり、OminiControlは追加のエンコーダモジュールに複雑なアーキテクチャを大幅に依存することなく、(1)わずか約0.1%の追加パラメータで画像条件を効果的かつ効率的に組み込み、(2)主体駆動生成やエッジ、深度などの空間に整列した条件を含む幅広い画像調整タスクを統一的に対処します。これらの機能は、特に主体駆動生成には有益であるDiT自体によって生成された画像でトレーニングすることで実現されます。包括的な評価により、OminiControlは既存のUNetベースおよびDiTに適合させたモデルを主体駆動および空間に整列した条件付き生成の両方で上回ることが示されています。さらに、200,000以上のアイデンティティに整合した多様な画像コレクションであるトレーニングデータセットSubjects200Kと、主体に整合した生成の研究を推進する効率的なデータ合成パイプラインを公開しています。
顔の老化は、性別、民族性、ライフスタイルなどの複数の要因に大きく依存する複雑なプロセスであり、個々の個人の老化を正確に予測するためには、グローバルな老化を学習することが非常に困難です。既存の技術はしばしば現実的であり、納得のいく老化結果を生み出しますが、再老化された画像はしばしば対象年齢での人物の外見に似ておらず、そのため個人化が必要です。映画やテレビ番組のVFXなど、仮想老化の多くの実用的な応用では、ユーザーの少なくとも50枚の画像を使用して、小さな時間間隔(20〜40年)での老化を描写した個人の写真コレクションにアクセスできることがよくあります。しかし、個人の写真コレクションでグローバルな老化技術を個人化する単純な試みはしばしば失敗します。このため、私たちはMyTimeMachine(MyTM)を提案します。これは、グローバルな老化事前情報と個人の写真コレクション(50枚の画像でも可能)を組み合わせて個人化された年齢変換を学習します。私たちは、個人化された老化特徴とグローバルな老化特徴を組み合わせ、StyleGAN2で再老化画像を生成する新しいアダプターネットワークを導入します。また、個人化された老化損失、外挿正則化、適応的なw-norm正則化を使用した3つの損失関数を導入します。私たちの手法は、ビデオにも拡張でき、高品質でアイデンティティを維持し、時間的に一貫した老化効果を実現し、対象年齢での実際の外見に似たものを示し、最先端のアプローチよりも優れていることを示しています。
大規模言語モデルは、オフトピックな誤用に対して脆弱であり、ユーザーがこれらのモデルに意図された範囲を超えるタスクを実行するよう促す可能性があります。現在のガードレールは、しばしばキュレーションされた例やカスタム分類器に依存しており、高い誤検知率、限られた適応性、および本番前には利用できない実世界データを要求することの非現実性に苦しんでいます。本論文では、これらの課題に対処する柔軟でデータフリーなガードレール開発手法を紹介します。問題空間を定性的に徹底的に定義し、これをLLMに渡して多様なプロンプトを生成させることで、合成データセットを構築し、ヒューリスティックアプローチを凌駕するオフトピックなガードレールをベンチマーク化およびトレーニングします。さらに、ユーザープロンプトがシステムプロンプトに関連するかどうかを分類するタスクとしてフレーム化することで、当社のガードレールは、ジェイルブレイクや有害なプロンプトを含む他の誤用カテゴリに効果的に汎化します。最後に、当社は合成データセットとオフトピックなガードレールモデルの両方をオープンソース化し、本番前環境でのガードレール開発やLLM安全性に関する将来の研究開発を支援するための貴重なリソースを提供します。
大規模言語モデル(LLMs)およびビジョン言語モデル(VLMs)は幅広い知識を持ち、有望な推論能力を示すが、複雑で動的な環境での優れたパフォーマンスには依然として苦労している。実世界のタスクでは、複雑な相互作用、高度な空間推論、長期的な計画、新しい戦略の継続的な探索が必要とされるが、これらの能力を包括的に評価するための効果的な方法論が不足している。このギャップを埋めるために、私たちはBALROGを導入し、LLMsおよびVLMsのエージェント能力を多様な難解なゲームを通じて評価するための新しいベンチマークを提案する。当該ベンチマークは、難易度の異なる既存の強化学習環境を取り入れ、非専門家でも数秒で解決可能なタスクから数年かかる可能性のある非常に困難なタスク(例:NetHack Learning Environment)までを含んでいる。私たちはパフォーマンスを測定するための細かいメトリクスを設計し、いくつかの一般的なオープンソースおよびクローズドソースのLLMsおよびVLMsを広範囲に評価する。我々の調査結果は、現行のモデルが簡単なゲームでは一部成功を収めている一方、より困難なタスクには著しく苦戦していることを示している。特に、ビジョンベースの意思決定において深刻な欠陥が見られ、環境の視覚表現が提供されるとモデルのパフォーマンスが低下することが観察されている。私たちはBALROGをオープンで使いやすいベンチマークとして公開し、将来のエージェントコミュニティにおける研究と開発を促進することを目的としている。
最近の大規模多モーダルモデル(LMMs)の進歩により、学術界と産業の両方で重要な突破口が生まれています。その中で生じる疑問の1つは、我々人間がそれらの内部ニューラル表現を理解する方法です。本論文は、LMMs内の意味を特定し解釈するための汎用フレームワークを提案することで、この問いに取り組む初歩的な一歩を踏み出します。具体的には、1)まず、スパースオートエンコーダ(SAE)を適用して表現を人間が理解できる特徴に分解します。2)次に、SAEで学習されたオープンセマンティック特徴をLMMs自体によって解釈するための自動解釈フレームワークを提示します。我々は、このフレームワークを用いて、LLaVA-NeXT-8BモデルをLLaVA-OV-72Bモデルを用いて分析し、これらの特徴がモデルの振る舞いを効果的に誘導できることを示します。我々の結果は、LMMsが特定のタスク、EQテストを含む、でなぜ優れているのか、そして彼らの誤りの本質とそれらを修正するための潜在的戦略を明らかにすることで、より深い理解に貢献します。これらの知見は、LMMsの内部メカニズムについての新たな洞察を提供し、人間の脳の認知プロセスとの類似点を示唆しています。
大規模ビジョン言語モデル(LVLMs)の進歩により、マルチモーダル理解が大幅に向上しましたが、ビデオ推論タスクには高品質で大規模なデータセットが不足しているため、課題が残っています。既存のビデオ質問応答(VideoQA)データセットは、しばしば高コストな手動注釈や十分な粒度を持たない自動構築方法に依存しており、冗長なフレーム単位の分析によってスケーラビリティと複雑な推論の効果が制限されています。これらの課題に対処するために、本研究では、VideoQAペアを特徴とするVideoEspressoという新しいデータセットを紹介します。このデータセットは、必要な空間的詳細と時間的一貫性を保持し、中間推論ステップのマルチモーダル注釈も備えています。我々の構築パイプラインは、冗長性を減らすために意味論に基づいた手法を採用し、その後、GPT-4oを使用してQAペアを生成します。さらに、ビデオのChain-of-Thought(CoT)注釈を開発して、推論プロセスを豊かにし、GPT-4oがQAペアとビデオコンテンツから論理関係を抽出するのをサポートします。高品質なVideoQAペアの潜在能力を活用するために、Frame Selectorと2段階の指示微調整推論LVLMを備えたHybrid LVLMs Collaborationフレームワークを提案します。このフレームワークは、コアフレームを選択し、マルチモーダル証拠を使用してCoT推論を実行します。14のタスクに対する提案されたベンチマークで9つの一般的なLVLMに対して評価した結果、我々の手法はほとんどのタスクで既存のベースラインを上回り、優れたビデオ推論能力を示しています。我々のコードとデータセットは以下で公開されます:https://github.com/hshjerry/VideoEspresso
ビデオの効率的なトークン化は、長いビデオを処理できるビジョンモデルの訓練において依然として課題です。有望な方向の1つは、長いビデオクリップをエンコードできるトークナイザーを開発することであり、これにより、ビデオの時間的な整合性をトークン化により効果的に活用できるようになります。ただし、既存のトークナイザーを長いビデオで訓練することは、すべてのフレームを一度に再構築するように訓練されているため、非常に高い訓練コストがかかることがしばしばあります。本論文では、最近の3D生成モデルの進歩に触発され、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学習するビデオトークナイザーであるCoordTokを紹介します。具体的には、CoordTokはビデオを因子化された三面体表現にエンコードし、ランダムにサンプリングされた(x,y,t)座標に対応するパッチを再構築します。これにより、大規模なトークナイザーモデルを長いビデオに直接訓練することが可能となり、過剰な訓練リソースが必要ありません。実験では、CoordTokが長いビデオクリップをエンコードするためのトークン数を劇的に削減できることを示しています。例えば、CoordTokは、128フレームの128×128解像度のビデオを1280トークンにエンコードできますが、ベースラインでは同様の再構築品質を達成するために6144または8192トークンが必要です。さらに、この効率的なビデオトークン化により、一度に128フレームを生成できる拡散トランスフォーマーのメモリ効率の良いトレーニングが可能であることも示しています。
小説的視点合成の分野は、放射輝度場手法の発展により、大きな進歩を遂げています。しかし、ほとんどの放射輝度場技術は、新しい視点の内挿よりも、観測されたトレーニング視点をはるかに超えた新しい視点の外挿において優れています。私たちは、Stable Video Diffusion(SVD)の生成事前知識を活用した実在的な新しい視点の外挿のためのViewExtrapolatorという新しい視点合成アプローチを設計しました。SVDのノイズ除去プロセスを再設計することで、ViewExtrapolatorは、放射輝度場によってレンダリングされたアーティファクトの多い視点を洗練し、合成された新しい視点の明瞭さとリアリズムを大幅に向上させます。ViewExtrapolatorは、単一の視点または単眼ビデオが利用可能な場合に、ポイントクラウドからレンダリングされた視点など、さまざまな種類の3Dレンダリングと連携できる汎用的な新しい視点の外挿器です。さらに、ViewExtrapolatorはSVDの微調整を必要とせず、データ効率と計算効率の両方が高いです。幅広い実験により、ViewExtrapolatorの新しい視点の外挿における優位性が証明されています。プロジェクトページ: https://kunhao-liu.github.io/ViewExtrapolator/。
最近のテキストからビデオ(T2V)拡散モデルは、さまざまな領域で印象的な生成能力を示しています。しかし、これらのモデルはしばしば、複数のオブジェクトや属性を持つ複雑なシーンを記述するプロンプトに対して、テキストとの整合性のないビデオを生成します。この課題に対処するために、我々はVideoRepairを導入します。これは、モデルに依存しないトレーニング不要のビデオリファインメントフレームワークであり、細かいテキスト-ビデオの不整合を自動的に特定し、明示的な空間的およびテキストフィードバックを生成することで、T2V拡散モデルが対象とする場所に焦点を当てたローカライズされたリファインメントを行うことを可能にします。VideoRepairは、次の4つの段階で構成されています:(1)ビデオ評価では、MLLMを用いて細かい評価質問を生成し、それに回答することで不整合を検出します。 (2)リファインメント計画では、正確に生成されたオブジェクトを特定し、他の領域をリファインするためのローカライズされたプロンプトを作成します。次に、(3)領域分解では、結合されたグラウンディングモジュールを使用して正しく生成された領域をセグメント化します。我々は、(4)ローカライズされたリファインメントで、不整合した領域を調整しながら正しい領域を保持することでビデオを再生成します。人気のあるビデオ生成ベンチマーク(EvalCrafterおよびT2V-CompBench)において、VideoRepairはさまざまなテキスト-ビデオ整合メトリクスで最近のベースラインを大幅に上回る性能を発揮します。我々はVideoRepairのコンポーネントの包括的な分析と質的な例を提供します。
「野生」のモバイル操作は、多様な現実世界の環境にロボットを展開することを目指しており、そのためには、ロボットが(1)オブジェクトの配置に一般化されるスキルを持つこと、(2)多様な環境での長期的なタスク実行が可能であること、および(3)ピックアンドプレースを超えた複雑な操作を行うことが求められます。マニピュレータを持つ四足ロボットは、ワークスペースを拡張し、頑健な移動を可能にする可能性を秘めていますが、既存の結果はそのような能力を調査していません。本論文では、これらの問題に対処するために、次の3つのコンポーネントを持つWildLMaを提案します:(1)VRを介した全身遠隔操作とトラバーサビリティのための学習された低レベルコントローラの適応、(2)WildLMa-Skill -- 模倣学習またはヒューリスティックを通じて獲得された一般化可能な視覚運動スキルのライブラリ、および(3)WildLMa-Planner -- 長期的なタスクのためにLLMプランナーがスキルを調整するための学習されたスキルのインターフェース。我々は、数十のデモンストレーションのみを使用して、既存のRLベースラインよりも高いグラスピング成功率を達成することで、高品質なトレーニングデータの重要性を実証します。WildLMaは、言語条件付き模倣学習のためにCLIPを利用し、訓練デモンストレーションで見られないオブジェクトに経験的に一般化します。包括的な定量評価に加えて、大学の廊下や屋外地形のゴミの片付け、関節付きオブジェクトの操作、本棚のアイテムの再配置など、実用的なロボットアプリケーションを質的に示します。
クラウドセグメンテーションはリモートセンシング画像の解釈において重要な課題であり、その精度は後続のデータ処理と分析の効果に直接影響します。最近、ビジョン基盤モデル(VFM)はさまざまな視覚タスクで強力な汎化能力を示しています。本論文では、精度と頑健性を向上させるために設計されたパラメータ効率の高い適応アプローチであるCloud-Adapterを提案します。当該手法は、一般ドメインデータで事前学習されたVFMを活用し、追加のトレーニングを必要とせず凍結された状態を維持します。Cloud-Adapterには、最初に畳み込みニューラルネットワーク(ConvNet)を使用して密な空間表現を抽出する軽量な空間知覚モジュールが組み込まれています。これらの多スケールの特徴は、適応モジュールへの文脈入力として集約され、VFM内の凍結トランスフォーマーレイヤーを調整します。実験結果は、凍結バックボーンの訓練可能パラメータのわずか0.6%のみを使用するCloud-Adapterアプローチが、実質的な性能向上を達成することを示しています。Cloud-Adapterは、複数の衛星ソース、センサーシリーズ、データ処理レベル、土地被覆シナリオ、注釈の粒度にわたるさまざまなクラウドセグメンテーションデータセットで常に最先端のパフォーマンスを達成します。さらなる研究を支援するために、ソースコードと事前学習モデルをhttps://github.com/XavierJiezou/Cloud-Adapter で公開しています。
近年、人間とロボットの相互作用の研究は、複雑な人間の指示を理解し、動的かつ多様な環境でタスクを実行できるロボットの開発に焦点を当てています。これらのシステムは、個人支援から産業用ロボティクスまで幅広い応用があり、柔軟かつ自然で安全に人間と対話するロボットの重要性が強調されています。本論文では、大規模言語モデル(LLMs)を用いたコミュニケーション、知覚、計画を統合したロボットのアクションプランニングの高度なアーキテクチャを提案しています。当システムは、自然言語で表現されたコマンドを実行可能なロボットアクションに変換し、環境情報を組み込み、リアルタイムのフィードバックに基づいて計画を動的に更新します。プランナーモジュールは、LLMsを組み込んだ改良されたReActフレームワークを使用してユーザーコマンドを解釈し実行するシステムの中核です。事前にトレーニングされた幅広い知識を活用することで、LLMsは環境の変化に新しい知識を導入する必要なく、ユーザーのリクエストを効果的に処理できます。改良されたReActフレームワークは、リアルタイムの環境認識と物理アクションの結果を提供することで、実行空間をさらに拡張します。堅牢で動的な意味マップ表現をグラフとして組み合わせ、制御コンポーネントと失敗の説明と共に、このアーキテクチャは、ロボットの適応性、タスク実行能力、および共有された動的環境での人間ユーザーとのシームレスな協力を向上させます。継続的なフィードバックループを環境と統合することで、システムは予期せぬ変更に対応するために計画を動的に調整し、ロボットのタスク実行能力を最適化します。過去の経験データセットを使用して、失敗に関する詳細なフィードバックを提供することが可能であり、次のイテレーションのLLMsコンテキストを更新して問題を克服する方法の提案ができます。