翻訳付きの日次キュレーションされたAI研究論文
近年のビデオ生成技術は印象的なモーションリアリズムを実現してきたが、キャラクター主導のストーリーテリングという自動化された映画・アニメーション生成における重要な課題を見落としがちである。本論文では、音声とテキストから直接話すキャラクターアニメーションを生成する、より現実的なタスクである「Talking Characters」を提案する。Talking Headとは異なり、Talking Charactersは顔領域を超えた1人または複数のキャラクターの全身像を生成することを目指す。本論文では、話すキャラクターを生成する初の手法としてMoChaを提案する。ビデオと音声の正確な同期を確保するため、音声とビデオトークンを効果的に整列させる音声-ビデオウィンドウアテンションメカニズムを提案する。大規模な音声ラベル付きビデオデータセットの不足に対処するため、音声ラベル付きとテキストラベル付きのビデオデータの両方を活用する共同学習戦略を導入し、多様なキャラクターアクションにわたる汎化性能を大幅に向上させる。さらに、キャラクタータグ付きの構造化プロンプトテンプレートを設計し、初めてターンベースの対話による複数キャラクターの会話を可能にし、AI生成キャラクターが文脈を意識した映画的な一貫性のある会話を展開できるようにする。人間の嗜好調査やベンチマーク比較を含む広範な定性的・定量的評価により、MoChaがAI生成の映画的ストーリーテリングにおいて新たな基準を確立し、優れたリアリズム、表現力、制御性、汎化性能を達成していることを実証する。
本論文では、視覚画像内の多様な領域に分散した複雑なテキストコンテンツを生成するタスクであるComplex Visual Text Generation(CVTG)を探求する。CVTGにおいて、画像生成モデルはしばしば歪んだりぼやけた視覚テキストを生成したり、一部の視覚テキストを欠落させたりする。これらの課題に対処するため、我々は新しいマルチ視覚テキストレンダリング手法であるTextCrafterを提案する。TextCrafterは、複雑な視覚テキストを個別のコンポーネントに分解しつつ、テキストコンテンツとその視覚的キャリアとの堅牢な整合性を確保するための漸進的戦略を採用する。さらに、生成プロセス中に視覚テキストの顕著性を増幅するためのトークンフォーカス強化メカニズムを組み込んでいる。TextCrafterは、テキストの混乱、欠落、ぼやけといったCVTGタスクの主要な課題に効果的に対処する。また、CVTGタスクにおける生成モデルの性能を厳密に評価するために、新しいベンチマークデータセットCVTG-2Kを提示する。広範な実験により、我々の手法が最先端のアプローチを凌駕することが実証された。
私たちは、スケーラビリティ、シンプルさ、アクセシビリティに焦点を当てた大規模な推論指向の強化学習(RL)トレーニングの最初のオープンソース実装であるOpen-Reasoner-Zeroを紹介します。広範な実験を通じて、KL正則化を一切行わず、GAE(lambda=1、gamma=1)を用いたシンプルなPPOと、直感的なルールベースの報酬というミニマリストアプローチが、DeepSeek-R1-Zeroで観察された現象と同様に、応答の長さとベンチマーク性能の両方をスケールアップするのに十分であることを実証しました。DeepSeek-R1-Zero-Qwen-32Bと同じベースモデルを使用して、私たちの実装はAIME2024、MATH500、およびGPQA Diamondベンチマークで優れた性能を発揮し、DeepSeek-R1-Zeroパイプラインと比較してわずか10分の1のトレーニングステップで顕著な効率性を示しました。オープンソースの精神に則り、私たちはソースコード、パラメータ設定、トレーニングデータ、およびさまざまなサイズのモデルウェイトを公開します。
事前学習時代における計算リソース(データとパラメータ)のスケーリングへの熱意が徐々に薄れる中、テストタイムスケーリング(TTS)、別名「テストタイムコンピューティング」が注目を集める研究分野として浮上してきました。最近の研究では、TTSが大規模言語モデル(LLMs)の問題解決能力をさらに引き出し、数学やコーディングなどの専門的な推論タスクだけでなく、オープンエンドのQ&Aのような一般的なタスクにおいても重要なブレークスルーを可能にすることが示されています。しかし、この分野での最近の取り組みが爆発的に増加しているにもかかわらず、体系的な理解を提供する包括的な調査が急務となっています。このギャップを埋めるため、私たちはTTS研究の4つの核心的な次元(何をスケールするか、どのようにスケールするか、どこでスケールするか、どれだけうまくスケールするか)に沿って構造化された統一的な多次元フレームワークを提案します。この分類体系に基づき、手法、適用シナリオ、評価側面について広範なレビューを行い、TTSの広範な領域における個々の技術の独自の機能的な役割を強調する体系的な分解を提示します。この分析から、これまでのTTSの主要な発展軌跡を抽出し、実践的な展開のための実践的なガイドラインを提供します。さらに、いくつかの未解決の課題を特定し、さらなるスケーリング、技術の機能的エッセンスの明確化、より多くのタスクへの一般化、そしてより多くの属性化など、将来の有望な方向性についての洞察を提供します。
大規模推論モデル(LRM)は、推論を学習することで大規模言語モデル(LLM)の推論能力を大幅に向上させ、複雑なタスク解決において有望な性能を示しています。しかし、その熟慮型の推論プロセスは、トークンの使用効率、メモリ消費、推論時間において非効率性を引き起こします。したがって、本調査では、推論品質を維持しつつトークンの非効率性を軽減するために設計された効率的な推論手法をレビューします。まず、最近の手法を2つの主要なカテゴリに分類するための分類法を紹介します:(a) 明示的コンパクトなChain-of-Thought(CoT)で、明示的な推論構造を保ちつつトークンを削減する手法、(b) 暗黙的な潜在CoTで、推論ステップを明示的なトークンではなく隠れた表現にエンコードする手法です。同時に、これらの手法の長所と短所について議論します。次に、既存の手法を性能と効率の観点から実証分析します。さらに、人間中心の制御可能な推論、推論の解釈可能性と効率性のトレードオフ、効率的な推論の安全性の確保、効率的な推論の幅広い応用など、この分野における未解決の課題を提示します。加えて、モデル統合、新しいアーキテクチャ、エージェントルーターなどの技術を通じてLRMの推論効率を向上させるための重要な洞察を強調します。本研究が、この活気ある分野の課題を克服するための貴重なガイドとなることを願っています。https://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs
多様で物理的に妥当な人間-シーンインタラクション(HSI)の合成は、コンピュータアニメーションとエンボディードAIの両方にとって極めて重要です。近年の進展は目覚ましいものの、現在の手法は主に特定のインタラクションタスクに特化した個別のコントローラの開発に焦点を当てています。これにより、複数のスキルの統合を必要とする多様なHSIタスク(例えば、物体を持ちながら座る動作など)に対応する能力が大幅に制限されています。この問題を解決するため、我々はTokenHSIを提案します。これは、複数のスキルを統合し、柔軟に適応可能な単一のトランスフォーマーベースのポリシーです。重要な洞察は、ヒューマノイドの固有感覚を別個の共有トークンとしてモデル化し、マスキングメカニズムを通じて異なるタスクトークンと組み合わせることです。この統合されたポリシーにより、スキル間での効果的な知識共有が可能となり、マルチタスク学習が促進されます。さらに、我々のポリシーアーキテクチャは可変長の入力をサポートし、学習済みのスキルを新しいシナリオに柔軟に適応させることができます。追加のタスクトークナイザを訓練することで、インタラクションターゲットの幾何学を変更するだけでなく、複数のスキルを調整して複雑なタスクに対応することも可能です。実験結果は、我々のアプローチが様々なHSIタスクにおいて汎用性、適応性、拡張性を大幅に向上させることを示しています。ウェブサイト: https://liangpan99.github.io/TokenHSI/
視覚言語モデル(VLM)の訓練には通常、大規模で高品質な画像-テキストペアが必要ですが、そのようなデータを収集または合成するにはコストがかかります。一方、テキストデータは豊富で安価であり、以下の疑問が生じます:高品質なマルチモーダル訓練データをテキストのみから合成できるか?この課題に取り組むため、我々はクロス統合型の3段階マルチモーダルデータ合成フレームワークを提案し、Unicorn-1.2MとUnicorn-471K-Instructionという2つのデータセットを生成します。第1段階:多様なキャプションデータ合成では、大規模言語モデル(LLM)を使用してスパースなキャプションシードを拡張し、120万の意味的に多様な高品質キャプションを構築します。第2段階:指示チューニングデータ生成では、47万1千のキャプションをさらに処理し、複雑な推論をサポートする多ターン指示チューニングタスクに変換します。最後に、第3段階:モダリティ表現変換では、これらのテキストキャプション表現を視覚表現に変換し、多様な合成画像表現を生成します。この3段階プロセスにより、実画像に依存せずに、事前訓練用のUnicorn-1.2Mと指示チューニング用のUnicorn-471K-Instructionを構築できます。実画像への依存を排除しながらデータの品質と多様性を維持することで、我々のフレームワークはVLM訓練のためのコスト効率が高くスケーラブルなソリューションを提供します。コードはhttps://github.com/Yu-xm/Unicorn.gitで公開されています。
複雑なオープンワールド環境で動作するエンボディードエージェントにとって、行動前の推論と潜在的な結果の想像(すなわち、世界モデル)は不可欠である。しかし、従来の研究では、エンドツーエンドのエージェントにこれらの能力のいずれか一方のみを組み込むか、あるいは複数の専門化されたモデルをエージェントシステムに統合するにとどまり、ポリシーの学習効率と汎化性能が制限されていた。そこで本論文では、推論と想像をエンドツーエンドのジェネラリストポリシー(RIGと称する)に統合する初めての試みを行う。RIGをエンドツーエンドで訓練するために、既存のエージェントから収集した軌跡において、想像と推論の内容を段階的に統合・充実させるデータパイプラインを構築する。推論と次の画像生成の共同学習は、推論、行動、環境のダイナミクス間の内在的な相関を明示的にモデル化し、従来の研究と比較して17倍以上のサンプル効率の向上と汎化性能を示す。推論時には、RIGはまず次の行動を推論し、潜在的な行動を生成し、その後行動の結果を予測する。これにより、エージェントは実際の行動を取る前に想像に基づいてレビューと自己修正を行う機会を得る。実験結果は、推論と想像の統合がジェネラリストポリシーの頑健性、汎化性能、相互運用性を向上させるだけでなく、テスト時のスケーリングによって全体の性能を向上させることも可能にすることを示している。
検証可能な報酬を伴う強化学習(RLVR)は、構造化された参照回答が利用可能な数学的推論やコーディングタスクにおいて有望な結果を示しています。しかし、より広範な領域への適用性はまだ十分に検討されていません。本研究では、RLVRを医学、化学、心理学、経済学など多様な領域に拡張することを検討します。客観的な参照回答が存在する場合、異なる大規模言語モデル(LLM)間で二値判断の高い一致が見られ、これにより領域固有の報酬モデルを訓練するための大規模なアノテーションの必要性が問われます。非構造化の参照回答を扱う際の二値報酬の限界に対処するため、モデルベースのソフトスコアリングをRLVRに組み込み、その柔軟性を向上させます。実験では、蒸留された生成型報酬モデルが効果的なクロスドメイン検証器として機能し、領域固有のアノテーションを必要とせずにRLに信頼性の高い報酬信号を提供できることが示されています。7Bのベースモデルを様々なRLアルゴリズムで報酬モデルに対してファインチューニングすることで、Qwen2.5-72B-InstructやDeepSeek-R1-Distill-Qwen-32Bなどの最先端のオープンソース整列LLMを大幅に上回るポリシーを、自由形式の回答設定において複数の領域で得ることができました。これにより、RLVRの堅牢性と拡張性が強化され、ノイズの多いまたは弱いラベルを伴う実世界のアプリケーションにおける潜在的可能性が強調されています。
テキストプロンプトや画像に基づくビデオ生成と編集は、大きな進展を遂げてきました。しかし、テキストのみによるグローバルなレイアウトや幾何学的詳細の正確な制御、および画像を通じたモーション制御と局所的な修正のサポートには、依然として課題が残されています。本論文では、スケッチに基づく空間的およびモーション制御を実現し、実写または合成ビデオの細粒度編集をサポートすることを目指します。DiTビデオ生成モデルを基盤として、スキップされたDiTブロックの残差特徴を予測するスケッチ制御ブロックを備えたメモリ効率の高い制御構造を提案します。スケッチは、任意の時間点における1つまたは2つのキーフレームに描画され、容易なインタラクションを可能にします。このような時間的に疎なスケッチ条件をすべてのフレームに伝播させるために、キーフレームと各ビデオフレーム間の関係を分析するフレーム間アテンションメカニズムを提案します。スケッチに基づくビデオ編集のために、新たに編集された内容と元のビデオの空間的特徴および動的モーションの一貫性を維持する追加のビデオ挿入モジュールを設計します。推論時には、未編集領域の正確な保存のために潜在融合を使用します。大規模な実験により、私たちのSketchVideoが制御可能なビデオ生成と編集において優れた性能を発揮することが実証されました。
推論能力を強化した大規模言語モデル(LLMs)は、最終的な回答を生成する前に中間的な推論ステップを明示的に生成し、複雑な問題解決において優れた性能を発揮します。本論文では、この新たな生成フレームワークが、モデルの挙動をより細かく制御するためのユニークな機会を提供することを示します。私たちは、特定の思考トークンを戦略的に挿入または修正することで、LLMsの内部推論プロセスを明示的に導く新しいパラダイム「Thinking Intervention」を提案します。IFEvalにおける指示追従、SEPにおける指示階層、XSTestおよびSORRY-Benchにおける安全性アライメントなど、複数のタスクにわたる包括的な評価を実施しました。その結果、Thinking Interventionはベースラインのプロンプト手法を大幅に上回り、指示追従シナリオでは最大6.7%の精度向上、指示階層の推論では15.4%の改善、オープンソースのDeepSeek R1モデルを使用した安全でないプロンプトに対する拒否率では40.0%の増加を達成しました。全体として、本研究は推論LLMsを制御するための有望な新たな研究分野を開拓するものです。
複雑な出力を生成するための新しいアプローチを提案し、テキストからSQLへの変換タスクにおいて精度を大幅に向上させます。本手法は、実行結果を活用して複数の候補から最も意味的に一貫性のあるクエリを選択し、計算集約的な推論手法(o1、o3-mini、DeepSeek R1など)を凌駕しながら、推論コストを最大30分の1に削減することを可能にします。既存のモデルとシームレスに統合可能で、最新のSQL生成技術への実用的かつスケーラブルな道筋を提供します。
テキストプロンプトからわずか数秒で高品質な3Dメッシュを生成できるモデルの実現は非常に望ましい。最近の試みでは、Stable Diffusion(SD)のような事前学習済みテキスト・画像拡散モデルを3D表現(例:Triplane)の生成器に適応させているが、十分な高品質な3D学習データの不足により、品質が低いことが多い。このデータ不足を克服するため、我々はProgressive Rendering Distillation(PRD)と呼ばれる新しい学習スキームを提案し、3Dのグラウンドトゥルースを必要とせず、マルチビュー拡散モデルを蒸留し、SDをネイティブな3D生成器に適応させる。PRDの各学習イテレーションでは、U-Netを使用してランダムノイズから潜在変数を数ステップで段階的にノイズ除去し、各ステップでノイズ除去された潜在変数を3D出力にデコードする。MVDreamやRichDreamerなどのマルチビュー拡散モデルをSDと組み合わせて使用し、スコア蒸留を通じてテキストに一貫したテクスチャとジオメトリを3D出力に蒸留する。PRDは3Dグラウンドトゥルースなしで学習をサポートするため、学習データを容易にスケールアップし、創造的な概念を含む難しいテキストプロンプトに対する生成品質を向上させることができる。同時に、PRDは生成モデルの推論速度をわずか数ステップで加速できる。PRDを使用して、Triplane生成のためにSDを適応させるためにわずか2.5%の学習可能なパラメータを追加したTriplaneTurboというTriplane生成器を学習した。TriplaneTurboは、効率と品質の両面で従来のテキスト・3D生成器を上回る。具体的には、1.2秒で高品質な3Dメッシュを生成し、難しいテキスト入力に対しても良好に汎化する。コードはhttps://github.com/theEricMa/TriplaneTurboで公開されている。
テレコム詐欺の検出は、音声信号と推論指向のテキスト分析を統合した高品質なマルチモーダル訓練データの不足により、大きな課題に直面しています。このギャップを埋めるため、我々は自動化されたテレコム詐欺分析のために特別に設計された初のオープンソース音声-テキスト遅延思考データセット「TeleAntiFraud-28k」を提示します。本データセットは、以下の3つの戦略を通じて構築されました:(1)自動音声認識(ASR)によって文字起こしされた通話記録(匿名化されたオリジナル音声)を使用したプライバシー保護型テキスト-真実サンプル生成。テキスト音声合成(TTS)モデルによる再生成を通じて現実世界の一貫性を確保。(2)本物のASR出力に対する大規模言語モデル(LLM)ベースの自己指導サンプリングによる意味的拡張。シナリオカバレッジを拡大。(3)事前定義された通信シナリオと詐欺類型を通じて新興詐欺手法をシミュレートするマルチエージェント敵対的合成。生成されたデータセットは28,511の厳密に処理された音声-テキストペアを含み、詐欺推論のための詳細なアノテーションが付属しています。データセットは3つのタスクに分割されます:シナリオ分類、詐欺検出、詐欺類型分類。さらに、データセットから比例的にサンプリングされたインスタンスで構成される標準化された評価ベンチマーク「TeleAntiFraud-Bench」を構築し、テレコム詐欺検出タスクにおけるモデル性能の体系的なテストを容易にします。また、ハイブリッド実データ/合成データで訓練された生産最適化された教師あり微調整(SFT)モデルを提供し、コミュニティ主導のデータセット拡張を可能にするデータ処理フレームワークをオープンソース化します。本作業は、データプライバシーとシナリオ多様性における重要な課題に対処しながら、マルチモーダル詐欺防止研究の基盤となるフレームワークを確立します。本プロジェクトはhttps://github.com/JimmyMa99/TeleAntiFraudで公開されます。
アクションモデルは、自律エージェントが複雑なタスクを実行するために不可欠です。しかし、エージェント環境の多様性やエージェントデータの複雑さにより、大規模なアクションモデルのトレーニングは依然として困難です。関心が高まる中、既存のインフラストラクチャはスケーラブルでエージェント固有のファインチューニングを限定的にしかサポートしていません。本論文では、大規模アクションモデル向けに設計された軽量で拡張可能なデータおよびトレーニングフレームワークであるActionStudioを紹介します。ActionStudioは、標準化されたフォーマットを通じて異種混在のエージェント軌跡を統合し、LoRA、完全なファインチューニング、分散セットアップを含む多様なトレーニングパラダイムをサポートし、堅牢な前処理および検証ツールを統合しています。その有効性を公開ベンチマークと現実的な産業ベンチマークの両方で検証し、優れたパフォーマンスと実用的なスケーラビリティを実証しています。コミュニティの研究を促進するため、コードとデータをhttps://github.com/SalesforceAIResearch/xLAMでオープンソース化しました。
近年、大規模言語モデル(LLM)は様々な人工知能の問題において顕著な能力を示してきた。しかし、計画タスクの詳細な定義を与えられた場合でも、LLMは信頼性のある計画を立てることができない。チェーン・オブ・ソートプロンプティング、ファインチューニング、明示的な「推論」など、その計画能力を向上させようとする試みは、依然として誤った計画を生成し、通常はより大きなタスクに一般化できない。本論文では、LLMを使用して、分布外のタスクや規模が増大するタスクに対しても正しい計画を生成する方法を示す。与えられた計画ドメインに対して、LLMにPythonコード形式のドメイン依存ヒューリスティック関数をいくつか生成させ、貪欲最良優先探索を用いて一連の訓練タスクで評価し、最も強力なものを選択する。その結果、LLMが生成したヒューリスティックは、古典的計画における最先端のドメイン独立ヒューリスティックよりも、はるかに多くの未見のテストタスクを解決する。さらに、ドメイン依存計画における最強の学習アルゴリズムとも競合する。これらの発見は、我々の概念実証実装が最適化されていないPythonプランナーに基づいており、ベースラインがすべて高度に最適化されたC++コードに基づいていることを考えると、特に注目に値する。いくつかのドメインでは、LLMが生成したヒューリスティックはベースラインよりも少ない状態を展開し、それらが効率的に計算可能であるだけでなく、時には最先端のヒューリスティックよりも情報量が多いことを明らかにしている。全体として、我々の結果は、計画ヒューリスティック関数プログラムのセットをサンプリングすることが、LLMの計画能力を大幅に向上させることができることを示している。
本研究は、オープンドメインの4Dアバター化に焦点を当て、任意のスタイルの肖像画から4Dアバターを作成することを目的としています。中間的な4D表現としてパラメトリックなトライプレーンを選択し、生成敵対ネットワーク(GAN)と拡散モデルの両方の利点を活かした実用的なトレーニングパラダイムを提案します。この設計は、4D GANが教師なしで画像とトライプレーンを橋渡しするのに優れているものの、多様なデータ分布を扱う際に課題に直面することが多いという観察に基づいています。堅牢な2D拡散事前分布が解決策として現れ、GANがさまざまなドメイン間でその専門知識を移行するのを支援します。これらの専門家間の相乗効果により、マルチドメインの画像-トライプレーンデータセットの構築が可能となり、汎用的な4Dアバタークリエーターの開発が促進されます。広範な実験により、我々のモデルであるAvatarArtistが、さまざまなソース画像ドメインに対して強いロバスト性を持つ高品質な4Dアバターを生成できることが示唆されています。今後の研究を促進するため、コード、データ、およびモデルを公開する予定です。
DUSt3Rの最近の進展により、Transformerネットワークアーキテクチャと大規模3Dデータセットに対する直接的な教師あり学習を活用して、静的なシーンの密な点群とカメラパラメータの頑健な推定が可能になりました。一方で、利用可能な4Dデータセットの規模と多様性の限界は、高度に汎用性の高い4Dモデルの訓練における主要なボトルネックとなっています。この制約により、従来の4D手法では、オプティカルフローや深度などの追加の幾何学的な事前情報を用いて、スケーラブルな動的ビデオデータに対して3Dモデルをファインチューニングする必要がありました。本研究では、これとは逆のアプローチを取り、4D再構成のためのシンプルでありながら効率的な訓練不要の手法であるEasi3Rを提案します。我々のアプローチでは、推論中にアテンション適応を適用し、ゼロからの事前訓練やネットワークのファインチューニングを不要とします。DUSt3Rのアテンションレイヤーが、カメラと物体の動きに関する豊富な情報を本質的にエンコードしていることを発見しました。これらのアテンションマップを注意深く分離することで、正確な動的領域セグメンテーション、カメラポーズ推定、および4D密な点マップ再構成を実現します。実世界の動的ビデオに対する広範な実験により、我々の軽量なアテンション適応が、大規模な動的データセットで訓練またはファインチューニングされた従来の最先端手法を大幅に上回ることを示しています。我々のコードは研究目的でhttps://easi3r.github.io/に公開されています。
3Dコンテンツ制作の領域において、AIモデルを通じて最適なメッシュトポロジーを実現することは、長らく3Dアーティストたちの追求目標でした。従来の手法、例えばMeshGPTは、メッシュの自己回帰技術を用いて即座に使用可能な3Dオブジェクトを生成する方法を探求してきました。これらの手法は視覚的に印象的な結果を生み出すものの、自己回帰プロセスにおけるトークンごとの予測への依存により、いくつかの重大な制限が生じます。これには、極めて遅い生成速度や、制御不能なメッシュ面の数が含まれます。本論文では、効率的かつ制御可能なメッシュ生成のための新しいフレームワークであるMeshCraftを紹介します。MeshCraftは、連続的な空間拡散を活用して離散的な三角形面を生成します。具体的には、MeshCraftは2つのコアコンポーネントで構成されています:1) 生のメッシュを連続的な面レベルトークンにエンコードし、元のメッシュにデコードするトランスフォーマーベースのVAE、および2) 面の数に条件付けられたフローベースの拡散トランスフォーマーで、事前に定義された面の数を持つ高品質な3Dメッシュを生成します。拡散モデルを活用してメッシュトポロジー全体を同時に生成することにより、MeshCraftは自己回帰手法と比較して大幅に高速な高忠実度メッシュ生成を実現します。具体的には、MeshCraftは800面のメッシュをわずか3.2秒で生成できます(既存のベースラインよりも35倍高速)。ShapeNetデータセットにおける定性的および定量的評価において、MeshCraftは最先端の技術を凌駕し、Objaverseデータセットでも優れた性能を示します。さらに、既存の条件付きガイダンス戦略とシームレスに統合され、メッシュ作成に伴う時間のかかる手作業からアーティストを解放する可能性を示しています。
ほとんどの3Dオブジェクト生成器は美的品質に焦点を当てており、アプリケーションに必要な物理的制約をしばしば無視しています。そのような制約の一つは、3Dオブジェクトが自己支持性を持つこと、つまり重力下でバランスを保つことです。安定した3Dオブジェクトを生成するための従来のアプローチでは、微分可能な物理シミュレータを使用してテスト時に幾何学を最適化していましたが、これは遅く、不安定で、局所最適に陥りやすいものでした。生成モデルを外部フィードバックに整合させる研究に着想を得て、我々はDirect Simulation Optimization(DSO)というフレームワークを提案します。これは、(微分不可能な)シミュレータからのフィードバックを使用して、3D生成器が直接安定した3Dオブジェクトを出力する確率を高めるものです。我々は、物理シミュレータから得られた安定性スコアでラベル付けされた3Dオブジェクトのデータセットを構築します。その後、安定性スコアを整合指標として使用し、直接選好最適化(DPO)または直接報酬最適化(DRO)という新しい目的関数を用いて3D生成器を微調整します。DROは、ペアワイズ選好を必要とせずに拡散モデルを整合させるために我々が導入した新しい目的関数です。実験結果は、DPOまたはDRO目的関数を使用して微調整されたフィードフォワード生成器が、テスト時の最適化よりもはるかに高速で、安定したオブジェクトを生成する可能性が高いことを示しています。特に、DSOフレームワークは、トレーニング用の真の3Dオブジェクトがなくても機能し、3D生成器が自身の出力に対するシミュレーションフィードバックを自動的に収集することで自己改善を可能にします。
マルチモーダル大規模言語モデル(MLLMs)は、視覚的質問応答(VQA)の課題に対処するために登場し、これらのモデルに対する客観的評価を行う新たな研究焦点を引き起こしています。既存の評価方法は、視覚画像に対する質問と回答のペアを設計するために必要な多大な人的作業量に制約を受け、評価の規模と範囲が本質的に制限されています。自動化されたMLLM-as-judgeアプローチは、自動評価を通じて人的作業量を削減しようと試みますが、しばしばバイアスを導入してしまいます。これらの問題に対処するため、我々は教師なしピアレビューMLLM評価フレームワークを提案します。このフレームワークは画像データのみを利用し、モデルが自動的に質問を生成し、他のモデルからの回答をピアレビュー評価することを可能にし、人的作業量への依存を効果的に軽減します。さらに、バイアス問題を緩和するために、視覚言語スコアリングシステムを導入します。このシステムは以下の3つの側面に焦点を当てています:(i) 応答の正確性、(ii) 視覚的理解と推論、(iii) 画像とテキストの関連性。実験結果は、UPMEがMMstarデータセットで人間の評価とのピアソン相関0.944、ScienceQAデータセットで0.814を達成し、我々のフレームワークが人間が設計したベンチマークと人間の本質的な選好に密接に一致していることを示しています。
大規模言語モデルの数学的問題解決能力は、研究の焦点となっており、自己生成された推論パスを活用してこれらのモデルを洗練・強化する有望な方法として注目を集めています。これらのパスは、段階的な論理的プロセスを捉える一方で、正解のみを教師信号として必要とします。自己学習法は、外部モデルや手動アノテーションを必要とせずに推論タスクにおいて有効であることが示されています。しかし、モデル学習における自己生成データの最適な活用方法は未解決の課題です。本研究では、自己学習中の不確実なデータを優先する適応的ウェイト付け戦略であるEntropy-Based Adaptive Weighting for Self-Training (EAST)を提案します。具体的には、EASTは調整可能なパラメータを持つマッピング関数を使用し、モデルがより不確実性を示すデータに高い重みを割り当てます。このアプローチにより、モデルはより有益で挑戦的な例に焦点を当て、その推論能力を向上させます。我々は、GSM8KとMATHベンチマークでこのアプローチを評価しました。実験結果によると、標準的な方法ではMATHにおいてほとんど改善が見られない(0%)のに対し、EASTはバックボーンモデルに対して約1%の向上を達成しました。GSM8Kでは、EASTは標準的な方法と比較してさらに1-2%の性能向上を実現しました。
大規模視覚言語モデル(VLMs)の最近の台頭により、そのようなモデルを評価するための多様なベンチマークが生まれています。しかしながら、既存の評価方法の多くは、事前に決められた回答から選択させることで開放性を犠牲にするか、または審査モデルを使用して回答を評価することで主観的で信頼性の低い評価につながるという問題を抱えていることが観察されます。さらに、韓国語におけるVLMsのベンチマークが不足していることも指摘されます。生成言語モデルの性能は使用される言語によって大きく異なるため、より一般的な英語のベンチマークとは別の指標として必要です。そこで、我々はKOFFVQAを提案します。これは、韓国語における汎用の自由形式視覚質問応答ベンチマークであり、VLMsの評価を目的としています。我々のベンチマークは、275の慎重に作成された質問と画像、そしてVLMの性能を10の異なる側面でカバーする評価基準で構成されています。評価基準は、審査モデルが事前に決められたルールに基づいて各回答を評価することを可能にすることで、信頼性の問題を排除します。評価基準を客観的に定義することで、小さなオープンソースモデルでも我々のベンチマーク上でモデルを信頼性高く評価することができます。我々のベンチマークで多数の既存VLMsを評価するだけでなく、既存の評価方法よりも我々の評価方法がはるかに信頼性が高いことを実験的に検証しました。我々の評価コードはhttps://github.com/maum-ai/KOFFVQAで公開されています。
進化的多目的最適化(EMO)は、過去20年間で大きな進歩を遂げてきました。しかし、問題の規模と複雑さが増すにつれ、従来のEMOアルゴリズムは並列性とスケーラビリティの不足により、性能上の大きな制約に直面しています。これらの課題に対処するためのアルゴリズム設計に焦点が当てられてきた一方で、ハードウェアアクセラレーションにはほとんど注目が集まっておらず、EMOアルゴリズムとGPUなどの先進的な計算デバイスとの間に明確なギャップが生じています。このギャップを埋めるため、我々はテンソル化手法を用いてEMOアルゴリズムをGPU上で並列化することを提案します。テンソル化を採用することで、EMOアルゴリズムのデータ構造と操作が簡潔なテンソル表現に変換され、GPU計算の自動的な利用が可能となります。我々は、このアプローチの有効性を、NSGA-III、MOEA/D、HypEという3つの代表的なEMOアルゴリズムに適用することで実証します。本手法を包括的に評価するため、GPUアクセラレーションされた物理エンジンを用いた多目的ロボット制御ベンチマークを導入します。実験結果から、テンソル化されたEMOアルゴリズムは、CPUベースの実装と比較して最大1113倍の高速化を達成しつつ、解の品質を維持し、個体群サイズを数十万まで効果的にスケールさせることが示されました。さらに、テンソル化されたEMOアルゴリズムは、複雑な多目的ロボット制御タスクに効率的に取り組み、多様な動作を伴う高品質な解を生成します。ソースコードはhttps://github.com/EMI-Group/evomoで公開されています。
事前学習済みのビデオ大規模言語モデル(Video LLM)は優れた推論能力を示しますが、追加のモダリティやデータタイプ(例:音声や3D情報)を含む新しいタスクに適応させることは依然として課題です。本論文では、音声、3D手がかり、マルチビュービデオなどのサイドチャネル信号を伴う下流タスクに事前学習済みVideo LLMを適応させるための柔軟なフレームワークであるPAVEを提案します。PAVEは「パッチ」と呼ばれる軽量アダプターを導入し、ベースモデルのアーキテクチャや事前学習済みの重みを変更することなく、少数のパラメータと操作を追加します。これにより、PAVEは事前学習済みのベースモデルを効果的に適応させ、音声視覚質問応答、3D推論、マルチビュービデオ認識、高フレームレートビデオ理解など、多様な下流タスクをサポートできます。これらのタスクにおいて、PAVEはベースモデルの性能を大幅に向上させ、最先端のタスク特化モデルを上回りながら、わずか約0.1%の追加FLOPsとパラメータコストを発生させます。さらに、PAVEはマルチタスク学習をサポートし、異なるVideo LLM間で良好な汎化性能を示します。私たちのコードはhttps://github.com/dragonlzm/PAVEで公開されています。
パラメータ効率的なファインチューニング(PEFT)手法は、大規模な事前学習モデルの普及に伴い、近年注目を集めています。これらの手法は、最小限の計算コストで下流タスクに迅速に適応することを可能にします。しかし、LoRAのような一般的なファインチューニング手法は、ハイパーパラメータの選択や長期間のトレーニングにおいて堅牢性に欠け、最適な性能を発揮することが難しいという課題があります。一方、ETHERのような境界付きアプローチは、より高い堅牢性を提供しますが、極めて低ランクの適応と固定強度の変換に限定されるため、適応表現力が制限されます。本研究では、学習可能な低ランク行列を正規化しスケーリングする新しいファインチューニング手法であるDecoupled Low-rank Adaptation(DeLoRA)を提案します。DeLoRAは変換の距離を制限することで、角度学習と適応強度を効果的に分離し、性能を損なうことなく堅牢性を向上させます。主題駆動型画像生成、自然言語理解、指示チューニングにおける評価を通じて、DeLoRAが競合するPEFT手法と同等またはそれ以上の性能を発揮し、より強い堅牢性を示すことを実証します。コードはhttps://github.com/ExplainableML/DeLoRAで公開されています。
共話ジェスチャーは非言語コミュニケーションにおいて重要な役割を果たします。本論文では、自然環境下での共話ジェスチャー理解のための新しいフレームワークを提案します。具体的には、モデルのジェスチャー・テキスト・音声の関連性を理解する能力を評価するための3つの新しいタスクとベンチマークを提示します:(i) ジェスチャーに基づく検索、(ii) ジェスチャー付き単語の特定、(iii) ジェスチャーを用いたアクティブスピーカー検出。これらのタスクを解決するために、音声・テキスト・映像・ジェスチャーの三モーダル表現を学習する新しいアプローチを提案します。グローバルなフレーズコントラスト損失とローカルなジェスチャー・単語結合損失を組み合わせることで、自然環境下の映像から弱教師あり学習によって強力なジェスチャー表現を学習できることを実証します。我々の学習した表現は、大規模な視覚言語モデル(VLM)を含む従来手法を全てのタスクで上回りました。さらに分析を行った結果、音声とテキストのモダリティが異なるジェスチャー関連信号を捉えていることが明らかになり、共有の三モーダル埋め込み空間を学習することの利点が強調されました。データセット、モデル、コードは以下で公開されています:https://www.robots.ox.ac.uk/~vgg/research/jegal