翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルにおける推論時間の計算スケーリングのための進化的探索戦略を探求します。提案された手法であるMind Evolution は、言語モデルを使用して候補応答を生成し、再結合し、洗練します。提案された手法は、解決手法の評価者が利用可能な場合には、基礎となる推論問題を形式化する必要がありません。推論コストを制御した結果、TravelPlanner および Natural Plan のベンチマークにおいて、Mind Evolution は、Best-of-N や Sequential Revision などの他の推論戦略を大きく上回ります。Gemini 1.5 Pro を使用し、形式的なソルバーを使用せずに、Mind Evolution は問題インスタンスの98%以上を解決します。
私たちは、大規模な言語モデルによって強化された高度な論文検索エージェントPaSaを紹介します。PaSaは、検索ツールの起動、論文の読み込み、関連参照の選択など、一連の決定を自律的に行い、複雑な学術的クエリに対して包括的かつ正確な結果を得ることができます。私たちは、合成データセットAutoScholarQueryを用いてPaSaを強化学習によって最適化しました。このデータセットには、トップティアのAI学会出版物から収集された35,000件の細かく粒状な学術クエリと対応する論文が含まれています。さらに、より現実的なシナリオでPaSaのパフォーマンスを評価するために、実世界の学術クエリを収集したベンチマークであるRealScholarQueryを開発しました。合成データにトレーニングされているにもかかわらず、PaSaは、Google、Google Scholar、Google with GPT-4(言い換えクエリ用)、chatGPT(検索可能なGPT-4o)、GPT-o1、およびPaSa-GPT-4o(GPT-4oをプロンプトして実装されたPaSa)を含む既存のベースラインを大幅に上回ります。特に、PaSa-7Bは、最高のGoogleベースラインであるGoogle with GPT-4oをrecall@20で37.78%、recall@50で39.90%上回ります。また、recallでPaSa-GPT-4oを30.36%、precisionで4.25%上回ります。モデル、データセット、コードは、https://github.com/bytedance/pasa で入手可能です。
LLM(Large Language Models)を評価するための最も広く使用されている方法の1つは、Multiple Choice Question(MCQ)テストです。MCQのベンチマークは、結果を自動的に処理できるため、ほぼどんなトピックに対しても規模でLLMの知識をテストすることができます。LLMが答えるのを支援するために、プロンプトにはフューショットと呼ばれるいくつかの例が含まれることがあります。さらに、LLMには、選択したオプションで直接問題に答えるか、まず理由を述べてから選択した答えを提供するよう求めることもできます。これは推論の連鎖として知られています。選択した答えが正しいかどうかを確認するだけでなく、評価では、LLMがその回答に対する信頼度の指標として、その応答のLLMによる推定確率を調べることができます。本論文では、LLMが回答に対する自信度が、モデルに直接回答するか理由を提供してから回答するかに依存するかを調査しています。7つの異なるモデルで幅広いトピックの質問の評価結果は、LLMが回答前に理由を提供すると、回答に対してより自信を持つことを示しています。これは選択した回答が正しいかどうかに関わらず起こります。私たちの仮説は、この行動が、LLMが入力質問と選択した理由を支持する推論に基づいて回答を予測することによって、選択した回答の確率を変更する推論に起因していると考えています。したがって、LLMの推定確率には理解すべき固有の制限があるようであり、評価手順でそれらを使用するためには理解する必要があります。興味深いことに、同じ行動が人間でも観察されており、回答を説明することで正解への自信が高まることが報告されています。
2Dのアニメ風スタイルは、デジタルキャラクター作成における顕著な芸術形態であり、特に若い観客に人気があります。デジタルヒューマンテクノロジーの進歩により、フォトリアルなデジタルヒューマンや3Dキャラクターへの研究が盛んに行われていますが、インタラクティブな2Dアニメキャラクターは比較的注目されていませんでした。3Dキャラクターとは異なり、高度な構築とリソース集約型のレンダリングが必要な3Dモデルの構築を必要とせず、2Dアニメキャラクターを3Dの動きをシミュレートする方法でアニメーションすることができる、広く使用されているLive2Dフォーマットがより効率的な代替手段を提供しています。さらに、Live2Dは軽量なHTML5(H5)レンダリングを採用しており、アクセシビリティと効率の両方を向上させています。本技術レポートでは、テキスト記述に基づいてLive2D形式で多様な2Dアニメキャラクターを生成する革新的な手法であるTextoonを紹介します。Textoonは、最新の言語モデルとビジョンモデルを活用してテキストの意図を理解し、2Dの外観を生成し、1分以内に驚くほど多様でインタラクティブな2Dキャラクターを作成する能力を持っています。プロジェクトのホームページはhttps://human3daigc.github.io/Textoon_webpage/です。
大規模言語モデル(LLMs)をリアルタイムAPIで拡張することで、より正確で最新の応答を生成するのに役立ちます。ただし、LLMsの関数呼び出し能力を実世界のシナリオで評価することは、データ収集と評価の複雑さのために未だに未開拓の領域です。本研究では、複数の実世界シナリオでの複雑な関数呼び出しを対象としたベンチマークであるComplexFuncBenchを紹介します。既存のベンチマークと比較して、ComplexFuncBenchは複数段階および制約付きの関数呼び出しを包括し、長いパラメータの記入、パラメータ値の推論、および128kの長いコンテキストが必要です。さらに、複雑な関数呼び出しタスクを定量的に評価するための自動フレームワークであるComplexEvalを提案します。包括的な実験を通じて、最先端のLLMsの関数呼び出しにおける不足点を示し、これらの能力を最適化するための将来の方向性を提案します。データとコードは以下のリンクから入手可能です:https://github.com/THUDM/ComplexFuncBench。
X-Dynaという新しいゼロショット、拡散ベースのパイプラインを紹介します。このパイプラインは、単一の人物画像をアニメーション化するために、ドライビングビデオから導かれた表情や身体の動きを使用し、被写体と周囲の環境のリアルでコンテキストに応じたダイナミクスを生成します。人間のポーズ制御を中心とした従来のアプローチを基にして、X-Dynaは、ダイナミックな詳細の損失を引き起こす主要な欠点に対処し、人間のビデオアニメーションのリアルな特性を向上させます。当アプローチの中核には、Dynamics-Adapterという軽量モジュールがあり、拡散バックボーンの空間的な注意に参照外観コンテキストを効果的に統合するとともに、モーションモジュールの容量を保持し、流体的で複雑なダイナミックな詳細を合成します。身体のポーズ制御に加えて、ローカル制御モジュールをモデルに接続して、アイデンティティを分離した表情を捉え、アニメーション化されたシーンのリアリズムを向上させるための正確な表情転送を容易にします。これらのコンポーネントは、多様な人間とシーンのビデオから物理的な人間の動きと自然なシーンのダイナミクスを学習できる統一されたフレームワークを形成します。包括的な定性的および定量的評価により、X-Dynaが最先端の手法を凌駕し、非常にリアルで表現豊かなアニメーションを作成することが示されています。コードはhttps://github.com/bytedance/X-Dynaで入手可能です。
本論文では、多言語理解と医学知識の両方に優れた大規模言語モデル(LLMs)を開発する際の課題について調査します。医学データを単に翻訳するだけでは、対象言語の臨床タスクで強力なパフォーマンスが保証されるわけではないことを示します。実験から、トレーニングデータ内の最適な言語ミックスは、異なる医学タスクにおいて大きく異なることが明らかになります。慎重にキャリブレーションされた言語比率を持つより大きなモデルが、母国語の臨床タスクで優れたパフォーマンスを達成することがわかります。さらに、新しい言語知識をLLMsに組み込むための最も効果的なアプローチとして、単にファインチューニングに依存することが最善ではない可能性が示唆されます。代わりに、データと計算量の多い事前学習手法が、多言語医学環境で最適なパフォーマンスを達成するために依然として必要であるかもしれません。これらの知見は、異なる言語コミュニティ向けに効果的で包括的な医療AIシステムを構築するための貴重なガイダンスを提供します。
最近、中間表現(例えばメルスペクトログラム)に基づく音声の超解像(SR)を進化させるために、生成的対立ネットワーク(GANs)の応用が進んできました。しかしながら、通常は独立してトレーニングされた結合されたネットワークに依存する既存のSR手法は、一貫性のない表現と特にドメイン外シナリオにおいて音声品質の低下につながる可能性があります。本研究では、高忠実度音声の超解像を達成するためにエンドツーエンドの対立的トレーニングを活用する統合ネットワークであるHiFi-SRを提案します。当モデルは、潜在表現の予測とそれらを時間領域の波形に変換することの両方をシームレスに処理するように設計された統合トランスフォーマー畳み込みジェネレータを特徴としています。トランスフォーマーネットワークは、低解像度のメルスペクトログラムを潜在空間表現に変換する強力なエンコーダとして機能し、畳み込みネットワークはこれらの表現を高解像度の波形にアップスケールします。高周波数の忠実度を向上させるために、多バンド、多スケールの時間周波数判別器と、対立トレーニングプロセスにおける多スケールのメル再構成損失を組み込んでいます。HiFi-SRは汎用性があり、4 kHzから32 kHzの入力音声信号を48 kHzのサンプリングレートにアップスケールすることができます。実験結果は、HiFi-SRが既存の音声SR手法を、客観的な指標とABX選好テストの両方で、インドメインおよびアウトオブドメインのシナリオの両方で大幅に上回ることを示しています(https://github.com/modelscope/ClearerVoice-Studio)。
GaussianAvatar-Editorは、表情、ポーズ、視点を完全に制御できるアニメーション可能なガウス頭部アバターのテキスト駆動編集の革新的なフレームワークを紹介します。静的な3Dガウス編集とは異なり、アニメーション可能な4Dガウスアバターの編集には、動きの遮蔽と空間的時間的不整合に関連する課題があります。これらの問題に対処するために、Weighted Alpha Blending Equation(WABE)を提案します。この関数は、可視ガウスのブレンディング重みを強化し、非可視ガウスへの影響を抑制することで、編集中の動きの遮蔽を効果的に処理します。さらに、編集品質を向上させ、4Dの一貫性を確保するために、条件付き敵対的学習を編集プロセスに組み込んでいます。この戦略は、編集結果を洗練し、アニメーション全体での一貫性を維持するのに役立ちます。これらの手法を統合することで、GaussianAvatar-Editorは、アニメーション可能な4Dガウス編集で写実的かつ一貫した結果を達成します。提案された手法の効果を検証するために、さまざまな被験者を対象とした包括的な実験を実施し、既存の手法に対する当社のアプローチの優越性を示しています。詳細な結果とコードは、[プロジェクトリンク](https://xiangyueliu.github.io/GaussianAvatar-Editor/)で入手できます。