ByMoo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
本論文では、新たなマルチ解像度ネットワークと時間依存型レイヤー正規化を統合することで、拡散モデルに革新的な改良を加えることを提案します。拡散モデルは、高忠実度の画像生成においてその有効性が注目されています。従来のアプローチでは畳み込みU-Netアーキテクチャが用いられてきましたが、最近ではTransformerベースの設計が優れた性能とスケーラビリティを示しています。しかし、Transformerアーキテクチャは入力データをトークン化(「パッチ化」)するため、トークン長に対する自己注意機構の二次的な計算複雑性により、視覚的忠実度と計算効率の間でトレードオフに直面しています。大きなパッチサイズは注意計算の効率化を可能にしますが、細かい視覚的詳細を捉えることが難しく、画像の歪みを引き起こします。この課題に対処するため、我々は拡散モデルにマルチ解像度ネットワーク(DiMR)を組み込むことを提案します。DiMRは、複数の解像度にわたって特徴を洗練し、低解像度から高解像度へと段階的に詳細を向上させるフレームワークです。さらに、時間依存型レイヤー正規化(TD-LN)を導入します。これは、時間情報を注入し優れた性能を達成するために、レイヤー正規化に時間依存のパラメータを組み込むパラメータ効率の良いアプローチです。我々の手法の有効性は、クラス条件付きImageNet生成ベンチマークで実証され、DiMR-XLバリアントは従来の拡散モデルを上回り、ImageNet 256 x 256で1.70、ImageNet 512 x 512で2.89という新たな最先端のFIDスコアを達成しました。プロジェクトページ: https://qihao067.github.io/projects/DiMR
大規模言語モデル(LLMs)の急速な進歩に伴い、堅牢で挑戦的なベンチマークが求められています。Chatbot Arenaのようなリーダーボードは、LLMsの応答が人間の好みにどれだけ一致するかに基づいてランク付けを行います。しかし、感情的知性、創造的ライティング、説得力などのタスクは非常に主観的であり、多くの場合、大多数の人間の合意を欠いています。審査員は、どの応答が優れているかについて和解不可能な意見の相違を持つ可能性があります。高度に主観的なタスクにおいてLLMsをランク付けするという課題に対処するため、我々は新しいベンチマークフレームワークである「言語モデル評議会(Language Model Council, LMC)」を提案します。LMCは民主的なプロセスを通じて運営され、1)平等な参加を通じてテストセットを策定し、2)評議会メンバー間でテストを実施し、3)集団の陪審として応答を評価します。我々は、20の最新LLMsで構成される評議会を、対人ジレンマに対する応答というオープンエンドの感情的知性タスクに展開しました。結果は、LMCが個々のLLM審査員よりも分離可能で堅牢、偏りが少ないランキングを生成し、他のベンチマークと比較して人間が確立したリーダーボードとの一貫性が高いことを示しています。