翻訳付きの日次キュレーションされたAI研究論文
Bielik v3を紹介します。これは、ポーランド語処理に最適化されたパラメータ効率の高い生成テキストモデル(1.5Bおよび4.5B)のシリーズです。これらのモデルは、より小さくても最適化されたアーキテクチャが、大幅に少ない計算リソースで、はるかに大規模なモデルと同等の性能を達成できることを示しています。私たちのアプローチには、いくつかの重要な革新が含まれています:トークン効率を大幅に向上させるカスタムポーランド語トークナイザー(APT4)、指示タイプ間の学習バランスを取るための重み付き指示クロスエントロピー損失、そしてトレーニングの進捗に基づいて動的に調整する適応学習率です。303百万ドキュメントにわたる2920億トークンの慎重に選ばれたコーパスでトレーニングされたこれらのモデルは、Open PL LLMリーダーボード、複雑なポーランド語テキスト理解ベンチマーク、ポーランドEQ-Bench、ポーランド医療リーダーボードなど、複数のベンチマークで優れた性能を発揮します。4.5Bパラメータモデルは、そのサイズの2〜3倍のモデルと競合する結果を達成し、1.5Bモデルはその非常にコンパクトなプロファイルにもかかわらず強力な性能を提供します。これらの進歩により、十分に代表されていない言語におけるパラメータ効率の高い言語モデリングの新しいベンチマークが確立され、リソースに制約のあるアプリケーション向けに高品質なポーランド語AIがよりアクセスしやすくなりました。
Bielik 11B v2を紹介します。これは、ポーランド語テキスト処理に最適化された最先端の言語モデルです。Mistral 7B v0.2アーキテクチャを基盤とし、深度スケーリングを用いて11Bパラメータに拡張されたこのモデルは、ポーランド語のベンチマークで卓越した性能を発揮しつつ、強力な多言語対応能力を維持しています。本モデルでは、2つの重要な技術的革新を導入しています。1つ目は、学習例に品質に基づく重みを付けることで多様な指示タイプにわたる学習を最適化する「重み付き指示クロスエントロピー損失」、2つ目は、文脈長に基づいて動的に調整する「適応型学習率」です。複数のベンチマークにわたる包括的な評価により、Bielik 11B v2は、パラメータ数が2~6倍多い大規模モデルを上回り、言語理解から複雑な推論に至るタスクにおいて、他の専門的なポーランド語モデルを大幅に凌駕することが示されました。本モデルのパラメータ効率性と広範な量子化オプションにより、様々なハードウェア構成での展開が可能となり、ポーランド語AIの能力を向上させ、リソース効率の良い言語モデリングにおいて、あまり代表されない言語の新たなベンチマークを確立しています。
汎用ロボットは、様々な環境下で効果的に動作するべきである。しかし、既存のアプローチの多くは、能力を向上させるためにアクション注釈付きデータのスケーリングに大きく依存している。その結果、単一の物理仕様に限定されやすく、異なる実装形態や環境間で転移可能な知識を学習するのに苦労する。これらの制約に対処するため、我々はクロスエンボディメントの視覚-言語-アクション(VLA)ポリシーを学習する新しいフレームワークであるUniVLAを提案する。我々の重要な革新は、潜在アクションモデルを用いてビデオからタスク中心のアクション表現を導出することである。これにより、幅広い実装形態と視点にわたる大量のデータを活用することが可能となる。タスクに関連しないダイナミクスの影響を軽減するため、言語指示を組み込み、DINO特徴空間内に潜在アクションモデルを確立する。インターネット規模のビデオから学習された汎用ポリシーは、効率的な潜在アクション復号を通じて様々なロボットに展開可能である。我々は、複数の操作およびナビゲーションベンチマーク、そして実ロボット展開において、最先端の結果を得た。UniVLAは、OpenVLAを上回る性能を、事前学習計算量の1/20未満、下流データの1/10で達成した。異種データ、さらには人間のビデオさえもトレーニングパイプラインに組み込むことで、継続的な性能向上が観察された。これらの結果は、UniVLAがスケーラブルで効率的なロボットポリシー学習を促進する可能性を強調している。
ユーザーインターフェース(UI)デザインの効果を評価する際、その範囲は美的側面を超えてユーザーの行動に影響を与える点にまで及びます。これは「デザインの説得力」の中核をなす原則です。A/Bテストは、どのUIバリエーションがより高いユーザーエンゲージメントを促すかを判断する主要な方法ですが、コストと時間がかかります。最近のVision-Language Models(VLM)は自動化されたUI分析を処理できますが、現在のアプローチは孤立したデザイン属性に焦点を当てており、ユーザーインタラクションを最適化するための鍵となる「比較的説得力」には注目していません。この問題に対処するため、我々はWiserUI-Benchを導入しました。これは、300組の実世界のUI画像ペアにA/Bテスト結果と専門家の根拠をラベル付けした、ペアワイズUIデザイン説得力評価タスク向けのベンチマークです。さらに、G-FOCUSという新しい推論時戦略を提案します。これは、位置バイアスを低減し、評価精度を向上させることで、VLMベースの説得力評価を強化します。実験結果は、G-FOCUSが既存の推論戦略を上回り、ペアワイズUI評価における一貫性と精度で優れていることを示しています。VLM駆動のUI説得力評価を促進することで、我々の研究はA/Bテストを補完するアプローチを提供し、スケーラブルなUI選好モデリングとデザイン最適化の進展を推進します。コードとデータは公開されます。
大規模言語モデル(LLMs)の最近の進展は、事前学習のスケーリングから、事後学習およびテスト時のスケーリングへと移行しています。これらの進展を通じて、一つの重要な統一パラダイムが浮上しています。それが「報酬からの学習」であり、報酬信号がLLMの行動を導く指針として機能します。このパラダイムは、強化学習(RLHF、DPO、GRPOなど)、報酬誘導デコーディング、事後修正など、幅広い主要技術の基盤となっています。特に重要なのは、このパラダイムが静的データからの受動的学習から、動的フィードバックからの能動的学習への移行を可能にすることです。これにより、LLMは整合した選好と深い推論能力を獲得します。本調査では、報酬からの学習パラダイムについて包括的な概観を提供します。このパラダイムに基づく戦略を、学習、推論、事後推論の各段階にわたって分類・分析します。さらに、報酬モデルのベンチマークと主要な応用例について議論します。最後に、課題と今後の方向性を強調します。関連論文のコレクションはhttps://github.com/bobxwu/learning-from-rewards-llm-papersで公開しています。
大規模言語モデル(LLMs)が広く利用可能になるにつれ、特定のドメインにおけるそれらの知識を詳細に理解することが、実世界での成功した使用に必要となっています。これは特に公衆衛生において重要であり、関連性があり正確で最新の情報を取得できないことは、英国の住民に重大な影響を及ぼす可能性があります。しかし、現在のところ、LLMsが英国政府の公衆衛生情報をどの程度理解しているかについてはほとんど知られていません。この問題に対処するため、本論文では、8000以上の質問を含む新しいベンチマーク「PubHealthBench」を導入し、LLMsの多肢選択問題解答(MCQA)と自由形式の回答を評価するための自動化されたパイプラインを作成しました。また、PubHealthBenchのソーステキストとして使用された英国政府の公衆衛生ガイダンス文書の新しいデータセットも公開します。PubHealthBenchで24のLLMsを評価した結果、最新のプライベートLLMs(GPT-4.5、GPT-4.1、o1)は高い知識を持ち、MCQA設定で90%以上を達成し、簡易的な検索エンジン使用の人間を上回りました。しかし、自由形式の設定では、どのモデルも75%を超えるスコアを達成せず、性能は低くなりました。したがって、最先端(SOTA)のLLMsが公衆衛生情報の正確な情報源としてますます信頼できる兆候が見られる一方で、公衆衛生トピックに関する自由形式の回答を提供する際には、追加の安全策やツールが必要となる可能性があります。
OpenAIのGPT-4oモデルは、自己回帰型アーキテクチャ内でマルチモーダルな入出力を統合し、画像生成において前例のない性能を発揮しています。本研究では、このモデルが画像復元コミュニティに与える潜在的な影響を調査します。私たちは、GPT-4oを多様な復元タスクにわたって初めて体系的に評価しました。実験の結果、GPT-4oによる復元出力は視覚的に魅力的であるものの、ピクセルレベルの構造的忠実度において、正解画像と比較してしばしば問題があることが明らかになりました。一般的な問題として、画像の比率の変化、オブジェクトの位置や数のずれ、視点の変化などが挙げられます。これに対処するため、画像の曇り除去、雨除去、低照度強調を代表的なケーススタディとして取り上げ、GPT-4oの出力が強力な視覚的プライアとして機能し、既存の曇り除去ネットワークの性能を大幅に向上させることを示します。本研究は、GPT-4oを将来の画像復元パイプラインに統合するための実用的なガイドラインとベースラインフレームワークを提供します。GPT-4oによる画像復元の研究が、画像生成分野全体の革新を加速することを期待しています。さらなる研究を支援するため、10以上の広く使用されている画像復元データセットからGPT-4oによって復元された画像を公開する予定です。
点群の剛体登録は、3Dコンピュータビジョンにおける基本的な問題である。多視点の場合、一連のオブジェクトを整列させるための6D姿勢のセットを見つけることを目指す。ペアワイズ登録に基づく手法は、後続の同期アルゴリズムに依存しており、視点の数に対してスケーラビリティが低い。生成的なアプローチはこの制限を克服するが、ガウス混合モデルに基づいており、期待値最大化アルゴリズムを使用する。そのため、大きな変換を扱うには適していない。さらに、既存の手法の多くは高度な劣化を扱うことができない。本論文では、POLAR(POint cloud LAtent Registration)を紹介する。これは、多数の視点を効率的に扱いながら、高度な劣化や大きな初期角度に対して頑健な多視点登録手法である。これを実現するために、登録問題を事前学習されたオートエンコーダの潜在空間に変換し、劣化を考慮した損失関数を設計し、効率的なマルチスタート最適化戦略を開発した。提案手法は、合成データおよび実データにおいて、最先端のアプローチを大幅に上回る性能を示す。POLARは、github.com/pypolar/polarで利用可能であり、pip install polaregistrationでインストール可能なスタンドアロンパッケージとしても提供されている。