翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の法的分析能力をより深く理解することは、法律サービスの効率化、人工知能のガバナンス、および法律の不整合を特定するためのLLMの活用に貢献することができる。本論文では、LLMが税法を適用する能力について探求する。この法律分野を選んだ理由は、数千の事例にわたる自動検証パイプラインを構築可能な構造を持ち、論理的推論と数学的スキルを必要とし、市民や企業の現実の経済生活に関連する形でLLMの能力をテストできるためである。我々の実験では、OpenAIの各モデルリリースごとに性能が向上し、新たな法的理解能力が示された。関連する法的権威を取得し活用することで、追加の法的文脈をLLMに提供することの影響を評価した。質問と回答のペアの例を示すFew-shotプロンプティングは、最も先進的なモデルであるGPT-4の性能を大幅に向上させることも明らかになった。研究結果は、特にプロンプティングの強化と適切な法的テキストを組み合わせた場合、LLMが高い精度で機能するが、まだ専門の税務弁護士レベルには達していないことを示している。LLMが進化を続けるにつれ、法律について自律的に推論する能力は、法律専門職やAIガバナンスに重要な影響を与える可能性がある。
拡散モデルは多様な画像生成において優れた可能性を示しています。しかし、反復的なノイズ除去プロセスのため、生成速度が遅いという課題があります。最近、知識蒸留がこの問題に対する解決策として提案され、推論ステップ数を1回または数回に削減しながらも品質の大幅な低下を防ぐことが可能となりました。しかし、既存の蒸留手法では、教師モデルから合成トレーニングデータを生成するために大量のオフライン計算が必要か、あるいは実データを用いた高コストなオンライン学習を必要とします。本研究では、これらの制約を克服する効率的なデータフリー蒸留アルゴリズムであるBOOTを提案します。その核となるアイデアは、任意のタイムステップにおいて事前学習済みの拡散モデル教師の出力を予測する時間条件付きモデルを学習することです。このモデルは、連続する2つのサンプリングステップからのブートストラップに基づいて効率的に学習できます。さらに、本手法は大規模なテキストから画像への拡散モデルにも容易に適用可能であり、従来の手法では困難であった大規模でアクセスが難しいトレーニングセットに対しても有効です。DDIM設定における複数のベンチマークデータセットで本手法の有効性を実証し、拡散教師モデルと同等の生成品質を維持しながらも桁違いに高速な生成を実現しました。テキストから画像への生成結果は、本手法が高度に複雑な分布を扱えることを示しており、より効率的な生成モデリングへの道を開くものです。
特定のシーンの「雰囲気」とは何で構成されるのか?「賑やかで汚れた都会の通り」、「牧歌的な田園地帯」、あるいは「廃墟となったリビングルームの犯罪現場」には何が見つかるべきか?抽象的なシーン記述からスタイライズされたシーン要素への変換は、既存のシステムでは、硬直的で限定的な屋内データセットで訓練されたものでは一般的に行うことができません。本論文では、この変換を達成するためにファウンデーションモデルが持つ知識を活用することを提案します。短いフレーズで記述された3Dシーンのためのスタイライズされたアセットを生成するツールとして機能するシステムを紹介します。このシステムは、シーン内に見つかるべきオブジェクトを列挙したり、それらの外観に関する指示を与える必要がありません。さらに、従来の限定的なデータで訓練された方法ではできないオープンワールドの概念に対して頑健であり、3Dアーティストにより多くの創造的自由を提供します。私たちのシステムは、大規模言語モデル、視覚言語モデル、および複数の画像拡散モデルで構成されるファウンデーションモデル「チーム」を使用してこれを実証します。これらのモデルは、解釈可能でユーザー編集可能な中間表現を使用して通信し、3Dアーティストのためのより多様で制御可能なスタイライズされたアセット生成を可能にします。このタスクのための新しいメトリクスを導入し、人間による評価を通じて、91%のケースで私たちのシステムの出力が入力シーン記述の意味により忠実であると判断されることを示し、このアプローチが3Dコンテンツ作成プロセスを劇的に加速する可能性を強調します。
テキスト、画像、音声、ビデオなど多様なモダリティにわたる生成AIシステムは、広範な社会的影響を及ぼしますが、それらの影響を評価する手段や、どの影響を評価すべきかについて公式な標準は存在しません。私たちは、あらゆるモダリティの生成AIシステムを評価するための標準的なアプローチを、2つの主要なカテゴリに分けて進めています:特定のアプリケーションが定められていない基本システムで評価可能なものと、社会において評価可能なものです。具体的な社会的影響のカテゴリと、基本技術システム、そして人々と社会において評価を実施する方法について説明します。基本システムのためのフレームワークでは、7つの社会的影響カテゴリを定義しています:バイアス、ステレオタイプ、および表現的害;文化的価値とセンシティブなコンテンツ;不均一なパフォーマンス;プライバシーとデータ保護;財務コスト;環境コスト;データとコンテンツモデレーションの労働コスト。評価のための提案された方法はすべてのモダリティに適用され、既存の評価の限界の分析は、将来の評価に必要な投資の出発点として役立ちます。社会において評価可能なものについて、5つの主要なカテゴリを提供し、それぞれにサブカテゴリがあります:信頼性と自律性;不平等、周縁化、および暴力;権威の集中;労働と創造性;生態系と環境。各サブカテゴリには、害を軽減するための推奨事項が含まれています。私たちは同時に、AI研究コミュニティが与えられたカテゴリに沿って既存の評価を貢献できる評価リポジトリを作成しています。このバージョンは、ACM FAccT 2023でのCRAFTセッション後に更新される予定です。
本論文の目的は、オープン語彙物体検出(OVOD)の実現である。これは、学習時に見たカテゴリのセットを超えた物体を検出できるモデルを構築し、推論時にユーザーが興味のあるカテゴリを指定できるようにするもので、モデルの再学習を必要としない。我々は標準的な2段階物体検出器のアーキテクチャを採用し、新規カテゴリを指定する3つの方法を探求する:言語記述によるもの、画像例によるもの、または両者の組み合わせによるものである。我々は3つの貢献を行う:第一に、大規模言語モデル(LLM)をプロンプトして物体クラスの有益な言語記述を生成し、強力なテキストベースの分類器を構築する;第二に、任意の数の画像を入力として取り込むことができる視覚的アグリゲータを画像例に適用し、視覚ベースの分類器を形成する;第三に、言語記述と画像例からの情報を融合するシンプルな方法を提供し、マルチモーダル分類器を実現する。挑戦的なLVISオープン語彙ベンチマークで評価した結果、(i) 我々のテキストベース分類器は、これまでのすべてのOVOD研究を上回る性能を示す;(ii) 我々の視覚ベース分類器は、従来の研究におけるテキストベース分類器と同等の性能を発揮する;(iii) マルチモーダル分類器を使用すると、単一のモダリティよりも優れた性能を発揮する;そして最後に、(iv) 我々のテキストベースおよびマルチモーダル分類器は、完全教師あり検出器よりも優れた性能を達成する。
プロフェッショナルフォトグラファーが行う一般的な編集操作には、クリーニング作業が含まれます。これには、注意をそらす要素を目立たなくすることや、被写体を強調することが挙げられます。これらの編集は、視聴者の注意を操作しながらも写真のリアリズムを維持するという微妙なバランスを必要とするため、非常に困難です。最近のアプローチでは、注意の減衰や増幅に成功した例が報告されていますが、その多くは非現実的な編集が頻繁に発生するという問題を抱えています。我々は、サリエンシー(顕著性)に基づく画像強調において、リアリズムを維持するためのリアリズム損失を提案します。これにより、さまざまな画像タイプにおいて高いリアリズムを保ちつつ、注意をそらす要素を減衰させ、興味のある対象を増幅することが可能となります。プロフェッショナルフォトグラファーによる評価では、リアリズムと効果性の両立を達成し、最近のアプローチを自らのデータセットにおいて上回る結果を示しました。さらに、メモリ使用量と実行時間を削減しながらも、画像強調と写真クリーニング操作の自動化における実用的なソリューションを提供します。
ニューラルラジアンスフィールド(NeRF)は、新しい視点からの合成において印象的な結果を示している。しかし、徹底的な記録を行った場合でも、観測が不十分な領域やわずかな照明変化などにより、再構成に不完全さが生じることがある。我々の目標は、これらのさまざまな原因による不完全さを、共同のソリューションで軽減することである。具体的には、生成的敵対ネットワーク(GAN)が現実的な画像を生成する能力を活用し、NeRFを用いた3Dシーン再構成のリアリズムを向上させる。この目的のために、敵対的識別器を用いてシーンのパッチ分布を学習し、ラジアンスフィールド再構成にフィードバックを提供することで、3D整合性のある形でリアリズムを向上させる。これにより、レンダリングアーティファクトは、多視点パスレンダリング制約を課すことで、基盤となる3D表現において直接修復される。さらに、多解像度NeRFレンダリングを条件とした生成器を敵対的に訓練し、レンダリング品質をさらに向上させる。我々のアプローチが、レンダリング品質を大幅に向上させることを実証する。例えば、Tanks and Templesの高度な屋内シーンにおいて、LPIPSスコアをNerfactoと比較してほぼ半減させると同時に、PSNRを1.4dB向上させることが示された。