ByAaron Serianni, Tyler Zhu, Olga Russakovsky, Vikram V. Ramaswamy
7
1
コンピュータビジョンモデルは、多様なデータセットやタスクにおいてバイアスを示し、増幅することが示されています。既存の分類モデルのバイアスを定量化する手法は、主にデータセットの分布とサブグループに対するモデルの性能に焦点を当てており、モデルの内部動作を見落としています。本研究では、Attention-IoU(Attention Intersection over Union)メトリックと関連スコアを導入し、アテンションマップを使用してモデルの内部表現におけるバイアスを明らかにし、バイアスの原因となる可能性のある画像特徴を特定します。まず、合成データセットであるWaterbirdsデータセットでAttention-IoUを検証し、このメトリックがモデルのバイアスを正確に測定することを示します。次に、CelebAデータセットを分析し、Attention-IoUが精度の差異を超えた相関関係を明らかにすることを確認します。保護属性である「男性」を通じて個々の属性を調査し、CelebAにおけるバイアスの表現方法の違いを検討します。最後に、訓練セットをサブサンプリングして属性間の相関を変化させることで、Attention-IoUがデータセットラベルに存在しない潜在的な交絡変数を明らかにすることを実証します。
プロセス監視型報酬モデルは、モデルの応答に対して詳細なステップごとのフィードバックを提供する細粒度の関数として機能し、複雑なタスクにおける推論軌跡の効果的な選択を促進します。その利点にもかかわらず、特にマルチモーダル領域におけるPRM(プロセス報酬モデル)の評価はまだ十分に検討されていません。このギャップを埋めるため、本論文ではまず、現在の視覚大規模言語モデル(VLLM)を2種類の報酬モデル、すなわち出力報酬モデル(ORM)とプロセス報酬モデル(PRM)として複数の視覚言語ベンチマークで評価しました。その結果、ORMもPRMもすべてのタスクで一貫して優れているわけではなく、優れたVLLMが必ずしも優れた報酬性能を発揮するわけではないことが明らかになりました。評価をさらに進めるため、我々は集中的なプロセス報酬信号を必要とする視覚言語ベンチマーク「ViLBench」を導入しました。注目すべきは、OpenAIのGPT-4o with Chain-of-Thought(CoT)がわずか27.3%の精度しか達成できなかったことで、このベンチマークが現在のVLLMにとって挑戦的であることを示しています。最後に、一般的なVLLMと報酬モデルのギャップを埋める有望な道筋を予備的に示しました。強化されたツリーサーチアルゴリズムを使用して73.6Kの視覚言語プロセス報酬データを収集し、OpenAI o1の生成を選択することで、我々の3Bモデルは標準的なCoTと比較して平均3.3%、未学習のモデルと比較して最大2.5%の改善をViLBenchで達成しました。我々は、コード、モデル、データとともに、実装をhttps://ucsc-vlaa.github.io/ViLBenchで公開しています。
ByBrian R. Bartoldson, Siddarth Venkatraman, James Diffenderfer, Moksh Jain, Tal Ben-Nun, Seanie Lee, Minsu Kim, Johan Obando-Ceron, Yoshua Bengio, Bhavya Kailkhura
4
3
強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素です。しかし、ポストトレーニングに使用される既存のオンポリシーアルゴリズムは、経験再生バッファの使用と本質的に互換性がありません。このバッファは、分散型オフポリシーアクターによってスケーラブルにデータを蓄積し、計算リソースが増えるにつれて探索を強化することができます。本論文では、Trajectory Balance with Asynchrony(TBA)という大規模スケーラブルなLLM RLシステムを通じて、この再生バッファの利点を効率的に得ることを提案します。既存のアプローチとは異なり、TBAは計算リソースの大部分を探索に割り当て、常にオフポリシーデータを生成して中央の再生バッファに蓄積します。トレーニングノードは、このバッファから報酬や新しさに基づいてデータをサンプリングし、Trajectory Balance(TB)を使用してポリシーを更新します。TBは、GFlowNets向けに導入された多様性を追求するRL目的関数です。TBAは以下の3つの主要な利点を提供します:(1)トレーニングと探索を分離し、トレーニングの実時間を4倍以上高速化する、(2)大規模なオフポリシーサンプリングを通じて多様性を向上させる、(3)スパースな報酬設定におけるスケーラブルな探索を実現する。数学的推論、選好チューニング、自動化されたレッドチーミング(多様で代表的なポストトレーニングタスク)において、TBAは強力なベースラインを上回る速度と性能の向上をもたらします。
ByAlex Jinpeng Wang, Linjie Li, Zhengyuan Yang, Lijuan Wang, Min Li
4
3
最近の自己回帰モデルと拡散モデルの進歩により、短いシーンテキストの画像生成において強力な性能が実現されています。しかし、スライドや文書内の段落のような、長文テキストを含む画像を一貫して生成することは、現在の生成モデルにとって依然として大きな課題です。本論文では、長文テキスト画像生成に特化した初めての研究を提示し、通常は短いフレーズや単一文しか扱えない既存のテキスト画像生成システムの重要なギャップに対処します。最先端の自己回帰生成モデルを包括的に分析することで、画像トークナイザがテキスト生成品質の重要なボトルネックであることを特定しました。これに対処するため、詳細なシーンテキストの特徴を捉えるために最適化された、テキストに焦点を当てた新しいバイナリトークナイザを導入します。このトークナイザを活用し、高品質な長文テキスト画像を前例のない忠実度で生成する多モーダル自己回帰モデルである\ModelNameを開発しました。本モデルは、フォントスタイル、サイズ、色、配置などのテキストプロパティをカスタマイズ可能な強力な制御性を提供します。広範な実験により、\ModelNameがSD3.5 Large~sd3やGPT4o~gpt4o with DALL-E 3~dalle3を大幅に上回り、長文テキストを正確かつ一貫して柔軟に生成することが実証されました。技術的な成果を超えて、\ModelNameは、文書とPowerPointのインタリーブ生成のような革新的なアプリケーションの可能性を開拓し、長文テキスト画像生成の新たなフロンティアを確立します。