翻訳付きの日次キュレーションされたAI研究論文
シーンダイナミクスに対する画像空間上の事前分布をモデル化するアプローチを提案する。本手法の事前分布は、木々、花、ろうそく、風になびく衣服など、自然な振動運動を含む実写映像シーケンスから抽出された運動軌跡の集合から学習される。単一の画像が与えられると、学習済みモデルは周波数調整された拡散サンプリングプロセスを用いて、フーリエ領域におけるピクセル単位の長期運動表現を予測する。これをニューラル確率運動テクスチャと呼ぶ。この表現は、映像全体にわたる密な運動軌跡に変換可能である。画像ベースのレンダリングモジュールと組み合わせることで、静止画をシームレスにループする動画に変換したり、実写画像内の物体と現実的にインタラクションしたりするなど、様々な下流タスクに活用できる。
大規模言語モデル(LLMs)の最近の進展により、研究者や開発者は、自然言語インターフェースを介して様々なタスクを自動的に解決し、環境、人間、および他のエージェントと相互作用する自律型言語エージェントを構築できるようになりました。私たちは、言語エージェントを人工汎用知能(AGI)に向けた有望な方向性と考え、これらの進展をより広範な非専門家の聴衆に開放することを目的としたオープンソースライブラリ「Agents」をリリースしました。Agentsは、計画、記憶、ツールの使用、マルチエージェント通信、および細かいシンボリック制御といった重要な機能をサポートするよう慎重に設計されています。Agentsはユーザーフレンドリーであり、非専門家がコーディングをほとんどせずに、最先端の自律型言語エージェントを構築、カスタマイズ、テスト、チューニング、およびデプロイできるようにします。また、このライブラリは研究フレンドリーでもあり、モジュール化された設計により研究者が容易に拡張できるようになっています。Agentsはhttps://github.com/aiwaves-cn/agentsで利用可能です。
オーディオ超解像は、低解像度のオーディオに対して高周波成分を予測し、デジタルアプリケーションにおける音質を向上させる基本的なタスクです。従来の手法では、扱えるオーディオの種類(例:音楽、音声)や特定の帯域設定(例:4kHzから8kHz)に制限がありました。本論文では、拡散モデルに基づく生成モデルであるAudioSRを紹介します。このモデルは、効果音、音楽、音声など、多様なオーディオタイプに対してロバストなオーディオ超解像を実行することができます。具体的には、AudioSRは2kHzから16kHzの帯域範囲内の任意の入力オーディオ信号を、48kHzのサンプリングレートで24kHz帯域の高解像度オーディオ信号にアップサンプリングすることができます。様々なオーディオ超解像ベンチマークでの広範な客観的評価により、提案モデルが達成した強力な結果が示されています。さらに、主観的評価では、AudioSRがプラグアンドプレイモジュールとして機能し、AudioLDM、Fastspeech2、MusicGenなど、幅広いオーディオ生成モデルの生成品質を向上させることができることが示されています。私たちのコードとデモはhttps://audioldm.github.io/audiosrで公開されています。
膨大なテキストデータを精査し、重要な情報を要約することは、臨床医の時間配分に多大な負担を課します。大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて非常に有望な成果を示していますが、多様な臨床要約タスクにおける有効性はまだ厳密に検証されていません。本研究では、8つのLLMに対してドメイン適応手法を適用し、6つのデータセットと4つの異なる要約タスク(放射線レポート、患者の質問、経過記録、医師と患者の対話)を網羅しました。詳細な定量的評価により、モデルと適応手法の間のトレードオフが明らかになり、LLMの最近の進歩が必ずしも改善された結果につながらない事例も示されました。さらに、6人の医師による臨床読者調査では、最適に適応されたLLMの要約が、完全性と正確性の点で人間の要約よりも好まれることが示されました。その後の質的分析では、LLMと人間の専門家がともに直面する共通の課題が明らかになりました。最後に、従来の定量的NLPメトリクスと読者調査のスコアを相関させることで、これらのメトリクスが医師の好みとどのように一致するかをより深く理解しました。本研究は、複数のタスクにおいてLLMが人間の専門家を凌駕する初めての証拠を示すものです。これは、LLMを臨床ワークフローに統合することで、文書化作業の負担を軽減し、臨床医がより個別化された患者ケアやその他の代替不可能な人間的な医療の側面に集中できるようになる可能性を示唆しています。
ビデオマット処理は、カジュアルに撮影された動画に面白い効果を加えることから、ビデオ制作の専門家を支援することまで、幅広い応用があります。影や反射などの関連効果を伴うマット処理も、研究活動が活発化しており、Omnimatteのような手法が提案され、動的な前景オブジェクトを独自のレイヤーに分離することが可能になりました。しかし、従来の研究ではビデオの背景を2D画像レイヤーとして表現しており、より複雑なシーンを表現する能力が制限され、実世界のビデオへの応用が妨げられていました。本論文では、動的な2D前景レイヤーと3D背景モデルを組み合わせた新しいビデオマット処理手法、OmnimatteRFを提案します。2Dレイヤーは被写体の詳細を保持し、3D背景は実世界のビデオにおけるシーンを頑健に再構築します。広範な実験により、本手法が様々なビデオにおいてより高品質なシーン再構築を実現することが示されています。
インコンテクスト学習(ICL)、すなわち大規模言語モデル(LLM)にタスク固有の少数のデモンストレーションを示すことで、タスク固有のファインチューニングを必要とせずに下流の性能向上がもたらされることが明らかになっています。しかし、LLMはプロンプトの選択に敏感であり、そのため重要な研究課題は、ICLのための良いデモンストレーションをどのように選択するかです。一つの有効な戦略は、テキスト検索器を使用してICLデモンストレーションとテスト入力間の意味的類似性を活用することですが、これはLLMがそのタスクについて持つ既存の知識を考慮しないため、最適とは言えません。先行研究(Min et al., 2022)から、デモンストレーションとペアになったラベルがモデルの予測にバイアスをかけることが既にわかっています。これにより、特に出力ラベル空間に関してLLMの既存の知識を考慮することが、より良いデモンストレーション選択戦略に役立つかどうかという仮説を立てました。3つのテキスト分類タスクにおける広範な実験を通じて、意味的に類似したICLデモンストレーションを選択するだけでなく、テスト例に内在するラベルの曖昧さを解決するのに役立つデモンストレーションを選択することが有益であることを発見しました。興味深いことに、LLMが以前に誤分類したデモンストレーションで、かつテスト例の決定境界上にあるものを含めることが、最も大きな性能向上をもたらすことがわかりました。
大規模言語モデル(LLM)は、質問応答、要約、分類などの自然言語処理(NLP)タスクにおいて、印象的な性能を発揮しています。他のモデル(通常はLLM)の出力をランク付けまたはスコア付けする評価者としてLLMを使用することが、適切なベンチマークやメトリクスの不足、コスト、人間のアノテーターへのアクセスの制限など、現在の評価手法の限界により、ますます一般的になっています。LLMは約100の言語を扱うことができますが、上位20言語を超える大多数の言語では、さまざまなタスク、メトリクス、ベンチマークにわたる体系的な評価が不足しています。これにより、多様な言語におけるLLMの性能を正確に理解するために、多言語評価を拡大することが急務となっています。LLMベースの評価者は、人間のアノテーターや人間が作成した参照データ、ベンチマークを必要とせず、理論的にはLLMがカバーするあらゆる言語を評価できるため、この問題に対する完璧な解決策のように思われます。本論文では、LLMベースの評価者が多言語評価の拡大に役立つかどうかを調査します。具体的には、8つの言語における3つのテキスト生成タスクにわたる5つのメトリクスに対する20,000件の人間の判断に対して、LLMベースの評価を較正します。我々の調査結果は、LLMベースの評価者が高得点に偏る可能性があり、特に低リソース言語や非ラテン文字言語では、母語話者の判断データセットで常に較正する必要があることを示唆しています。