翻訳付きの日次キュレーションされたAI研究論文
人間の動作生成は、デジタル人間やヒューマノイドロボット制御などのアプリケーションにおいて重要な役割を果たしています。しかし、ほとんどの既存手法は物理制約を無視しており、浮遊や足の滑りなどの顕著なアーティファクトを伴う物理的に信じがたい動作が頻繁に生成されています。本論文では、MorphというMotion-free物理最適化フレームワークを提案します。これには、物理的な信憑性を向上させるために高価な現実世界の動作データに頼らないMotion GeneratorとMotion Physics Refinementモジュールが含まれています。具体的には、Motion Generatorは大規模な合成動作データを提供する責務を持ち、一方、Motion Physics Refinementモジュールはこれらの合成データを使用して物理シミュレータ内で動作模倣者を訓練し、ノイズのある動作を物理的に信じられる空間に射影するための物理的制約を強制します。これらの物理的に洗練された動作は、さらなる能力向上のためにMotion Generatorを微調整するために使用されます。テキストから動作へ、音楽からダンスへの生成タスクの両方での実験により、当フレームワークが最先端の動作生成品質を達成し、物理的信憑性を著しく向上させることが示されました。
ビジョン言語モデル(VLMs)は、多様なモーダル推論タスクにおいて顕著な進歩を示しています。しかしながら、しばしば幻覚的な画像理解や未熟な推論経路などの問題により、不正確または関連性のない応答を生成することがあります。これらの課題に対処するために、私たちはActor-Criticパラダイムに着想を得た新しいフレームワークであるCritic-Vを導入します。このフレームワークは、VLMsの推論能力を向上させるために設計されており、ReasonerとCriticという2つの独立したコンポーネントを統合することで、推論プロセスと批評プロセスを分離します。Reasonerは、視覚的およびテキスト入力に基づいて推論経路を生成する一方、Criticはこれらの経路を洗練するための建設的な批評を提供します。このアプローチでは、Reasonerはテキストプロンプトに従って推論応答を生成し、Criticからのフィードバックに基づいて方策として反復的に進化することができます。この相互作用プロセスは、Criticがスカラー報酬ではなく自然言語の批評を提供することで、複雑な推論タスクにおけるReasonerの能力を向上させるように理論的に駆動された強化学習フレームワークによって実現されました。Criticモデルは、ルールベースの報酬(RBR)によってランク付けされた批評の好みデータセットを活用して、その批評能力を向上させるためにDirect Preference Optimization(DPO)を使用してトレーニングされます。評価結果は、Critic-Vフレームワークが、GPT-4Vを含む既存の手法を8つのベンチマークのうち5つで大幅に上回り、特に推論の正確性と効率性に関して優れていることを示しています。Reasonerのための動的なテキストベースの方策と、好みに最適化されたCriticからの建設的なフィードバックを組み合わせることで、より信頼性が高くコンテキストに敏感な多様なモーダル推論プロセスが実現されます。私たちのアプローチは、自動運転や具現知能などの現実世界の推論重視の多様なモーダルアプリケーションにおいて、VLMsの信頼性を向上させ、パフォーマンスを向上させる有望な解決策を提供します。
本論文では、仮想試着(VTOFF)という新しいタスクを紹介します。このタスクは、着衣した個人の単一写真から標準化された衣料品画像を生成することに焦点を当てています。従来の仮想試着(VTON)がモデルにデジタル的に服を着せるのに対し、VTOFFはカノニカルな衣料品画像を抽出することを目指しており、衣料品の形状、質感、複雑なパターンを捉えるという独自の課題があります。この明確に定義されたターゲットにより、VTOFFは生成モデルにおける再構成の忠実度を評価するのに特に効果的です。私たちは、高い忠実度と詳細の保持を確実にするために、Stable DiffusionとSigLIPベースのビジュアルコンディショニングを採用したTryOffDiffモデルを提案します。改良されたVITON-HDデータセットでの実験では、当社のアプローチがポーズ転送や仮想試着に基づくベースライン手法を上回り、より少ない前処理および後処理ステップであることが示されました。私たちの分析により、従来の画像生成メトリクスが再構成の品質を不適切に評価していることが明らかになり、より正確な評価のためにDISTSに頼る必要があることが示されました。当社の結果は、VTOFFがeコマースアプリケーションにおける製品画像を向上させ、生成モデルの評価を前進させ、高忠実度の再構成に関する将来の研究を促す潜在能力を強調しています。デモ、コード、モデルは以下で入手可能です:https://rizavelioglu.github.io/tryoffdiff/
テキストから画像への生成モデル(T2I)の重要な進展にもかかわらず、実践的なシナリオでユーザーはしばしば試行錯誤の課題に直面します。この課題は、適切なプロンプトの作成、適切なモデルの選択、および特定の引数の設定などの煩雑な手順の複雑さと不確実性から生じ、ユーザーは望ましい画像のために労力を要する試みに頼らざるを得ません。本論文では、自動T2I生成を提案し、これらの煩雑な手順を自動化し、ユーザーが自由なチャットのようにニーズを簡単に説明できるようにすることを目指しています。この問題を体系的に研究するために、まずAutomatic T2I向けに設計された新しいベンチマークであるChatGenBenchを紹介します。これには多様な自由な入力を持つ高品質のペアデータが特徴として組み込まれており、全ステップで自動T2Iモデルを包括的に評価することが可能です。さらに、自動T2Iを複雑な多段階の推論タスクと認識し、モデルに必要な自動化スキルを段階的に付与する多段階進化戦略であるChatGen-Evoを提案しています。ステップごとの精度と画像品質を通じた包括的な評価を通じて、ChatGen-Evoはさまざまなベースラインに比べて性能を著しく向上させます。評価により、自動T2Iの進展に向けた貴重な示唆も明らかになります。すべてのデータ、コード、モデルはhttps://chengyou-jia.github.io/ChatGen-Homeで入手可能です。
私たちは、SelfSplatという新しい3Dガウススプラッティングモデルを提案しています。このモデルは、ポーズフリーであり、3D事前情報を必要とせず、未ポーズのマルチビュー画像からの3D再構築を汎用的に行うよう設計されています。これらの設定は、正確な3D再構築を達成する必要があるにもかかわらず、正解データや学習された幾何学情報が不足しているため、従来の方法が高品質な結果を達成するのが難しいという困難を抱えています。私たちのモデルは、明示的な3D表現を自己監督型の深度およびポーズ推定技術と効果的に統合することで、ポーズの精度と3D再構築の品質の相互的な改善を実現しています。さらに、一致を考慮したポーズ推定ネットワークと深度の調整モジュールを組み込むことで、ビュー間のジオメトリの整合性を向上させ、より正確で安定した3D再構築を実現しています。私たちの手法の性能を示すために、RealEstate10K、ACID、DL3DVなどの大規模な実世界データセットで評価しました。SelfSplatは、外観およびジオメトリの品質の両方で従来の最先端の手法よりも優れた結果を達成し、また強力なクロスデータセットの汎化能力を示しています。包括的な削除研究と分析も、私たちの提案手法の有効性を検証しています。コードと事前学習済みモデルは、https://gynjn.github.io/selfsplat/ で入手可能です。
拡散モデルは、テキストから画像(T2I)やテキストから動画(T2V)の合成などの生成タスクで印象的な成果を上げています。しかし、T2V生成において正確なテキストの整列を実現することは、フレーム間の複雑な時間依存関係のために依然として困難です。既存の強化学習(RL)ベースのアプローチは、テキストの整列を向上させるためにしばしば微分可能な報酬関数を必要とするか、限られたプロンプトに制約されるため、拡張性と適用範囲が制限されます。本論文では、追加のモデルトレーニングを必要とせずに生成された動画をテキストプロンプトに整列させるための新しい勾配フリーフレームワークであるFree^2Guideを提案します。経路積分制御の原則を活用し、Free^2Guideは微分不可能な報酬関数を用いて拡散モデルのためのガイダンスを近似し、強力なブラックボックス大規模ビジョン言語モデル(LVLMs)を報酬モデルとして統合することを可能にします。さらに、当フレームワークは、大規模な画像ベースのモデルを含む複数の報酬モデルを柔軟にアンサンブル化し、計算コストを大幅に増やすことなく整列を協力的に向上させることができます。Free^2Guideが、さまざまな次元でテキストの整列を大幅に改善し、生成された動画の全体的な品質を向上させることを示します。
情報過多の時代において、膨大で増加し続ける文書や学術論文の手作業による注釈付けはますます実用的ではありません。自動キーフレーズ抽出は、テキスト内の代表的な用語を特定することでこの課題に対処します。しかし、ほとんどの既存手法は短い文書(最大512トークンまで)に焦点を当てており、長文書の処理には課題が残っています。本論文では、長文書からキーフレーズを抽出するための新しいフレームワークであるLongKeyを紹介します。このフレームワークは、エンコーダーベースの言語モデルを使用して拡張テキストの複雑さを捉えます。LongKeyは、キーフレーズ候補の表現を向上させるために最大プーリング埋め込みを使用します。包括的なLDKPデータセットと6つの異なる未知のデータセットで検証された結果、LongKeyは一貫して既存の教師なしおよび言語モデルベースのキーフレーズ抽出手法を上回ります。我々の調査結果は、LongKeyの汎用性と優れた性能を示し、異なるテキスト長や領域におけるキーフレーズ抽出の進歩を示しています。
最近、医療の多肢選択問題(MCQ)のベンチマークにおける大規模言語モデル(LLM)の性能向上が、世界中の医療提供者や患者の関心を高めています。特に、医師不足や専門家不足に直面している低所得および中所得国(LMICs)では、LLMは医療アクセスの向上とコスト削減のための拡張可能な手段を提供しています。しかし、特にアフリカ大陸全体を含むグローバルサウスにおけるその有効性は確立されていません。本研究では、初めての大規模パンアフリカン英語マルチスペシャリティ医療質問応答(QA)データセットであるAfriMed-QAを紹介します。このデータセットには、16カ国の60以上の医学校から収集された15,000の質問(開放形式および閉鎖形式)が含まれており、32の医療専門分野をカバーしています。さらに、正確性や人口統計の偏りを含む複数の軸にわたって30のLLMを評価します。我々の調査結果によると、専門分野や地理によって性能に大きなばらつきがあり、MCQの性能は明らかにUSMLE(MedQA)に遅れています。バイオメディカルLLMは一般モデルよりも性能が低く、小規模でエッジに優しいLLMは合格点を達成するのに苦労しています。興味深いことに、人間の評価では、臨床医の回答と比較して、LLMの回答と説明に対する一貫した消費者の好みが示されています。