翻訳付きの日次キュレーションされたAI研究論文
最近の視覚言語行動(VLA)モデルの進歩にもかかわらず、様々なロボティクスタスクで苦しんでいる問題があります。これらのモデルは、未知のタスクへの一般化能力が低いという重要な問題を抱えており、成功したロールアウトからの行動クローニングに依存しているためです。さらに、これらのモデルは通常、異なる設定で専門家によって収集されたデモを複製するように微調整されているため、分布バイアスが導入され、効率、安全性、およびタスク完了など多様な操作目標への適応性が制限されています。このギャップを埋めるために、私たちはGRAPE(Generalizing Robot Policy via Preference Alignment)を導入します。具体的には、GRAPEは、成功と失敗の両方のトライアルから報酬を暗黙的にモデル化し、さまざまなタスクへの一般化能力を向上させるために、VLAsを軌道レベルで整列させます。さらに、GRAPEは複雑な操作タスクを独立した段階に分解し、大規模な視覚言語モデルによって提案されるキーポイントとともに、カスタマイズされた時空間制約を介して優先モデリングを自動的にガイドします。特筆すべきは、これらの制約は柔軟であり、安全性、効率、またはタスク成功などのさまざまな目標と整合させるためにカスタマイズできるという点です。私たちはGRAPEを実世界およびシミュレート環境でさまざまなタスクにわたって評価します。実験結果は、GRAPEが最先端のVLAモデルのパフォーマンスを向上させ、ドメイン内および未知の操作タスクにおける成功率をそれぞれ51.79%と60.36%向上させることを示しています。さらに、GRAPEは安全性や効率などのさまざまな目標と整合させることができ、衝突率を44.31%、ロールアウトのステップ長を11.15%削減することができます。すべてのコード、モデル、データはhttps://grape-vla.github.io/ で入手可能です。
ビデオの奥行き推定は、各フレームで密な奥行きを推論することによって、単眼ビデオクリップを3Dに昇華させます。大規模な基盤モデルの台頭と合成トレーニングデータの使用によってもたらされた最近の単一画像奥行き推定の進歩は、ビデオの奥行きに対する再び興味が高まっています。ただし、ビデオの各フレームに単一画像奥行き推定器を単純に適用することは、時間的な連続性を無視するため、フリッカリングを引き起こすだけでなく、カメラの動きによって深度範囲が急激に変化するときにも破綻する可能性があります。明らかで原則に基づいた解決策は、ビデオ基盤モデルをベースに構築することですが、これらには高コストなトレーニングと推論、不完全な3Dの一貫性、固定長(短い)の出力に対するステッチング手順など、独自の制約があります。私たちは一歩後退して、単一画像潜在拡散モデル(LDM)を最先端のビデオ奥行き推定器に変換する方法を示しました。私たちがRollingDepthと呼ぶこのモデルには、次の2つの主要な要素があります:(i)単一画像LDMから派生した複数フレーム奥行き推定器であり、非常に短いビデオスニペット(通常はフレームの三つ組)を奥行きスニペットにマッピングします。 (ii)異なるフレームレートでサンプリングされた奥行きスニペットを最適に組み立てるための頑健な最適化ベースの登録アルゴリズム。RollingDepthは、数百フレームの長いビデオを効率的に処理し、専用のビデオ奥行き推定器および高性能な単一フレームモデルよりもより正確な奥行きビデオを提供します。プロジェクトページ:rollingdepth.github.io。
インコンテキストラーニング(ICL)は、大規模言語モデル(LLM)が洗練されたプロンプティングと高品質なデモンストレーションを通じて下流タスクに取り組むことを可能にします。ただし、この従来のICLパラダイムは、複雑な数学的推論タスクに直面する際に制約が現れます。これは、例の品質への強い依存と、困難なシナリオでの人間の介入の必要性に主に起因します。これらの制約に対処するため、本論文では、HiAR-ICLと呼ばれる高レベル自動推論パラダイムを提案します。これは、ICLにおいて具体的な例から抽象的な思考パターンに焦点を移し、ICLにおける従来のコンテキストの概念を拡張します。HiAR-ICLは、チェーン構造のパターンを構築するための基本的な要素として、5つの原子推論アクションを導入します。モンテカルロ木探索を使用して推論経路を探索し、後続の推論を導くための思考カードを構築します。その後、問題を適切な思考カードに動的にマッチングする認知的複雑性フレームワークを開発します。実験結果は、HiAR-ICLの効果を示し、Qwen2.5-7B-Instructを使用したMATHベンチマークで最先端の精度(79.6%)を達成し、GPT-4o(76.6%)やClaude 3.5(71.1%)を上回りました。
近年、一般的なマルチモーダル大規模言語モデル(MLLMs)の急速な発展が目覚ましいです。ただし、一般的なMLLMsを科学分野や産業応用など特定の領域に適応させることは、未だにあまり探求されていません。本論文では、データ合成、トレーニングパイプライン、およびタスク評価に焦点を当て、MLLMsのドメイン適応を体系的に調査しています。 (1) データ合成:オープンソースモデルを使用して、特定の領域の画像キャプションペアから多様なビジュアルインストラクションタスクを効果的に生成するビジュアルインストラクション合成器を開発しました。当該合成タスクは、手動ルール、GPT-4、およびGPT-4Vによって生成されたものを上回り、MLLMsの特定の領域でのパフォーマンスを向上させています。 (2) トレーニングパイプライン:一般的なMLLMsの開発には、通常、画像キャプションペアでの初期トレーニングに続いてビジュアルインストラクションタスクでの二段階トレーニングが採用されますが、私たちは特定の領域の後段トレーニングのタスク多様性を向上させるために単一段階のトレーニングパイプラインを適用しています。 (3) タスク評価:バイオ医学と食品の2つの領域で、異なるソースとスケール(例:Qwen2-VL-2B、LLaVA-v1.6-8B、Llama-3.2-11B)のMLLMsを後段トレーニングし、さまざまな特定の領域のタスクでMLLMsのパフォーマンスを評価しています。MLLMsのドメイン適応のさらなる研究を支援するために、当社の実装をオープンソース化します。
この技術レポートでは、当社の最新のフラッグシップ大規模言語モデル(LLM)であるYi-Lightningを紹介します。このモデルは、特に中国語、数学、コーディング、難しいプロンプトなどの専門カテゴリにおいて非常に強力な結果(2位から4位)を収め、Chatbot Arena全体で6位の成績を達成しています。Yi-Lightningは、強化された専門家のセグメンテーションおよびルーティングメカニズムと最適化されたKVキャッシング技術を組み合わせた、高度なMixture-of-Experts(MoE)アーキテクチャを活用しています。私たちの開発プロセスは、包括的な事前トレーニング、教師ありファインチューニング(SFT)、そして人間のフィードバックからの強化学習(RLHF)を含み、多段階トレーニング、合成データ構築、および報酬モデリングのために綿密な戦略を練ります。さらに、私たちは、安全性の問題に対処するための4つのコンポーネントからなるRAISE(責任あるAI安全エンジン)を実装しています。私たちのスケーラブルなスーパーコンピューティングインフラによって強化されたこれらの革新は、トレーニング、展開、推論のコストを大幅に削減しつつ、高いパフォーマンス基準を維持しています。公開されている学術ベンチマークでさらなる評価を行った結果、Yi-Lightningは実用的なアプリケーション向けにより知能ある強力なAIシステムの開発を導くための従来の静的ベンチマーク結果と実世界の動的な人間の選好との顕著な不一致を観察しています。この観察は、より知能ある強力なAIシステムの開発を導くための従来のベンチマークの有用性を重要な再評価する契機となっています。Yi-Lightningは、現在、https://platform.lingyiwanwu.com で当社の開発者プラットフォームを通じて利用可能です。
拡散モデルは、高品質な画像、ビデオ、および3Dコンテンツを生成するための強力なツールとして登場しています。CFGなどのサンプリングガイダンス技術は品質を向上させますが、多様性と動きを減少させます。オートガイダンスはこれらの問題を緩和しますが、追加の弱いモデルトレーニングを必要とし、大規模モデルには実用的ではありません。本研究では、トランスフォーマーベースのビデオ拡散モデルを強化するためのシンプルでトレーニング不要のサンプリングガイダンス方法であるSpatiotemporal Skip Guidance(STG)を紹介します。STGは、自己摂動を介して暗黙の弱いモデルを使用し、外部モデルや追加のトレーニングの必要性を回避します。空間的および時間的レイヤーを選択的にスキップすることで、STGはサンプルの品質を向上させるために元のモデルの整列した劣化バージョンを生成し、多様性や動的度を損なうことなくサンプルの品質を向上させます。私たちの貢献は次の通りです:(1)ビデオ拡散モデル向けの効率的で高性能なガイダンス技術としてSTGを導入すること、(2)レイヤースキップを通じて弱いモデルをシミュレートすることにより、補助モデルの必要性を排除すること、および(3)CFGとは異なり、サンプルの多様性やダイナミクスを損なうことなく品質向上のガイダンスを確保すること。追加の結果については、https://junhahyung.github.io/STGuidance をご覧ください。
逆思考は人間の推論において重要な役割を果たしています。人間は問題から解決策への推論だけでなく、逆に解決策から問題へと進むことができます。これにより、前方と後方の思考の整合性を確認することで、全体的な推論パフォーマンスが向上することがしばしばあります。大規模言語モデル(LLMs)に逆思考を行わせるために、データ拡張と学習目標から構成されるReverse-Enhanced Thinking(RevThink)フレームワークを導入します。RevThinkでは、元の質問、前方推論、逆質問、逆推論から構成される教師モデルから構造化された前進-後退推論を収集することでデータセットを拡張します。その後、3つの目標を使用して、マルチタスク学習の形式でより小さな学習モデルをトレーニングします:(a)質問から前方推論を生成する、(b)質問から逆質問を生成する、および(c)逆質問から逆推論を生成する。常識、数学、論理推論をカバーする12つのデータセットでの実験結果は、学習モデルのゼロショットパフォーマンスに対する平均13.53%の改善と、最も強力な知識蒸留のベースラインに対する6.84%の改善を示しています。さらに、我々の手法はサンプル効率性を示し、トレーニングデータから正しい前方推論のわずか10%のみを使用しても、10倍の前方推論でトレーニングされた標準のファインチューニング手法を上回ります。RevThinkは、分布外の保留データセットに対しても強力な汎化能力を示しています。
ビデオ生成の基本的なバックボーンとして、拡散モデルは、ノイズ除去の連続的な性質による低推論速度の課題に直面しています。従来の手法は、モデルの出力をキャッシュし、一定のタイムステップで再利用することでモデルの速度を向上させてきました。しかし、このような戦略は、モデルの出力間の差異がタイムステップごとに一様でないという事実を無視しており、適切なモデルの出力をキャッシュする際のバランスを損ない、推論効率と視覚品質の間に適切なバランスを生じさせています。本研究では、トレーニング不要のキャッシング手法であるTimestep Embedding Aware Cache(TeaCache)を導入し、タイムステップ間でモデルの出力の変動する差異を推定して活用します。時間のかかるモデルの出力を直接使用するのではなく、TeaCacheは、計算コストをほとんどかけずにモデルの出力と強い相関関係を持つモデルの入力に焦点を当てます。TeaCacheは、最初にタイムステップ埋め込みを使用してノイズのある入力を調整し、その差異がモデルの出力により適切に近似するようにします。次に、TeaCacheは、推定された差異を洗練するための再スケーリング戦略を導入し、それらを出力のキャッシングを示すために利用します。実験結果によると、TeaCacheは、視覚品質の劣化がほとんどない(-0.07%のVbenchスコア)状態で、Open-Sora-Planよりも最大4.41倍の加速を実現しています。
大規模言語モデル(LLMs)は驚異的な能力を示していますが、推論時の高い計算コストによってその採用が制限されています。パラメータ数を増やすことが精度を向上させる一方で、最先端の能力と実用的な展開可能性との間にギャップを広げることにもなります。本研究では、Puzzleというフレームワークを提案し、LLMの推論を特定のハードウェア上で加速させながらその能力を維持します。前例のないスケールでニューラルアーキテクチャサーチ(NAS)を革新的に適用することで、Puzzleは数百億のパラメータを持つモデルをハードウェアの制約下で系統的に最適化します。当アプローチは、ブロック単位のローカル知識蒸留(BLD)を並列アーキテクチャ探索に利用し、精密な制約最適化のために混合整数計画法を採用しています。 当フレームワークの実世界への影響を示すために、Llama-3.1-Nemotron-51B-Instruct(Nemotron-51B)というLlama-3.1-70B-Instructから派生した公開モデルを取り上げます。Nemotron-51Bは、オリジナルモデルの能力の98.4%を維持しながら、単一のNVIDIA H100 GPUに適合し、推論スループットを2.17倍高速化しています。Nemotron-51Bは、大規模なバッチサイズで推論が可能な最も正確な言語モデルとして現在の地位にあります。驚くべきことに、この変換にはわずか45Bのトレーニングトークンが必要であり、それは派生元の70Bモデルに使用された15Tのトークンと比較しています。これは、強力なモデルが、能力のほとんどを犠牲にすることなく効率的な展開のために最適化できる新たなパラダイムを確立し、パラメータ数だけでなく推論パフォーマンスがモデル選択を導くべきであることを示しています。Nemotron-51BのリリースとPuzzleフレームワークの発表により、実務家は著しく削減された計算コストで最先端の言語モデリング能力に直ちにアクセスできます。
拡散モデルは高品質な画像を生成するのに優れています。ただし、トレーニング時に使用された解像度でのみ効果的です。スケーリングされた解像度での推論は、繰り返しパターンや構造の歪みを引き起こします。高い解像度での再トレーニングはすぐに制約が生じます。したがって、既存の拡散モデルが柔軟なテスト時解像度で動作することを可能にする手法が非常に望ましいです。従来の研究は頻繁なアーティファクトに苦しんでおり、しばしば大きな遅延オーバーヘッドを導入しています。私たちは、これらの問題を解決するために組み合わせる2つのシンプルなモジュールを提案します。私たちは、グローバル構造の一貫性を向上させるためにフーリエ領域を活用する周波数変調(FM)モジュールと、従来の研究でほとんど無視されていた局所テクスチャパターンの一貫性を向上させるアテンション変調(AM)モジュールを導入します。私たちの手法であるFam拡散は、任意の潜在的な拡散モデルにシームレスに統合され、追加のトレーニングは必要ありません。包括的な質的結果は、私たちの手法が構造的および局所的なアーティファクトに対処する際の効果を示し、定量的な結果は最先端のパフォーマンスを示しています。また、私たちの手法は、パッチベースや段階的生成などの一貫性向上のための冗長な推論トリックを避け、無視できるほどの遅延オーバーヘッドをもたらします。
ニューラルオーディオコーデックモデルによる音声のトークン化は、音声の生成または理解のための現代のAIパイプラインにおいて重要な要素であり、単独であるか、またはマルチモーダルなコンテキストで行われます。従来、このようなトークン化モデルは、強い帰紵バイアスを持つコンポーネントのみを使用した低パラメータ数のアーキテクチャに集中してきました。本研究では、大規模なパラメータ数を持つトランスフォーマーアーキテクチャをこの問題にスケーリングし、柔軟な有限スカラー量子化(FSQ)ベースのボトルネックを適用することで、非常に低いビットレート(400または700ビット/秒)で最先端の音声品質に到達することが可能であることを示します。訓練されたモデルは、客観的および主観的テストの両方で既存のベースラインを大きく上回る結果を示しました。
最近のビデオ生成の進歩は、ビデオ拡散モデルによって大きく推進されており、カメラの動き制御が視点に合わせたビジュアルコンテンツの作成における重要な課題として浮上しています。本論文では、トラジェクトリアテンションという新しいアプローチを紹介し、利用可能なピクセルの軌跡に沿ってアテンションを行い、細かいカメラの動き制御を実現します。従来の手法とは異なり、しばしば不正確な出力を生じるか、時間的相関を無視する傾向があるが、当該アプローチは、ビデオ生成プロセスに軌跡情報をシームレスに組み込む強力な帰納バイアスを有しています。重要なのは、当該アプローチが、従来の時間的アテンションと並行して補助的な枝としてトラジェクトリアテンションをモデル化している点です。この設計により、元の時間的アテンションとトラジェクトリアテンションが協調して作用し、正確な動き制御と新しいコンテンツ生成能力の両方を確保し、トラジェクトリが部分的にしか利用できない場合に重要です。画像やビデオのカメラ動き制御に関する実験では、高い品質の生成を維持しながら、精度と長距離の一貫性において著しい改善が示されます。さらに、当該アプローチが他のビデオ動き制御タスクに拡張可能であることを示し、例えば最初のフレームによるビデオ編集のようなタスクでは、広範囲な空間および時間範囲でコンテンツの一貫性を維持する点で優れていることを示します。
ビデオデータの規模と複雑さが増大するにつれ、既存のトランスフォーマーベースの大規模マルチモーダルモデル(LMMs)に伴うメモリおよび計算要件の二次的増加により、長いビデオシーケンスを効率的に処理することは著しい課題を提起します。これらの問題に対処するため、私たちはアテンションメカニズムを置き換えることで、Mamba-2フレームワーク内にState Space Models(SSMs)を組み込んだ新しいアーキテクチャであるVideo-Ma^2mbaを導入します。これにより、LMMsは時間およびメモリ要件に関して線形にスケーリングすることが可能となり、長時間のビデオコンテンツを処理することが実現します。さらに、マルチアクシス勾配チェックポイント(MA-GC)手法を導入することでメモリ効率を向上させ、複数の計算軸にわたって必要なアクティベーションのみを保持することで、標準的な勾配チェックポイントに比べて著しくメモリフットプリントを削減します。実証分析によると、Video-Ma^2mbaは1つのGPU上で数百万のトークンに相当する広範なビデオシーケンス、または2時間以上の連続シーケンスを1 FPSで処理することができます。時間的ダイナミクスの詳細なキャプチャを維持することで、当社のモデルは長いビデオ理解タスクにおいて応答の精度と関連性を向上させ、既存のフレームワークに比べて著しい利点を示します。
人間の動きは、本質的に連続的かつ動的であり、生成モデルにとって重要な課題を提供しています。その支配的な存在である離散量子化手法(例:VQ-VAEs)は、制約された表現力やフレームごとのノイズアーティファクトなどの固有の制限に苦しんでいます。一方、より滑らかで自然な動きを生み出す連続的なアプローチは、高次元の複雑さや限られたトレーニングデータのためにしばしば失敗します。離散的な表現と連続的な表現の「不一致」を解消するために、私たちはDisCoRD(Discrete Tokens to Continuous Motion via Rectified Flow Decoding)を導入します。この新しい手法は、離散的な動きトークンを連続的な動きに変換するために、修正フローを介してデコードします。連続空間での反復的な洗練プロセスを採用することで、DisCoRDは微細なダイナミクスを捉え、より滑らかで自然な動きを確保します。任意の離散ベースのフレームワークと互換性があり、当社の手法は、条件付け信号への忠実性を損なうことなく自然さを向上させます。包括的な評価により、DisCoRDがHumanML3Dで0.032、KIT-MLで0.169のFIDを達成し、最先端のパフォーマンスを実現していることが示されました。これらの結果は、DisCoRDが離散的な効率性と連続的なリアリズムとの間の溝を埋めるための堅牢な解決策であることを確認しています。当社のプロジェクトページは次でご覧いただけます:https://whwjdqls.github.io/discord.github.io/。
数学的推論能力は、ツールによって補完された言語エージェントによって向上していますが、多くの方法がクローズドソースまたは大規模なモデル、外部データ、または詳細なプロンプトエンジニアリングに依存しています。この研究では、MATATAという新しいコスト効果の高い方法を紹介し、推論、計画、およびツールの使用を通じて表形式のデータ問題に対応するLLMエージェントを訓練します。進歩的な自己改善パラダイムと反復的な弱教示を備えており、データプライバシーが重要なローカルホスティングや機密性の高いビジネスコンテキストに特に適しています。さまざまなデータセットで柔軟かつ再利用可能なツールを使用することで、共有タスク全体で効果的なスケーラビリティを実現し、堅牢なパフォーマンスを達成します。実験の結果、MATATAは、オープンソースモデルに基づく推論フレームワークの中でFinQAとTAT-QAで最先端のパフォーマンスを達成します。さらに、MATATAモデルは、SLMであるにもかかわらず、TabMWPでGPT-4ベースのフレームワークと競合しています。
最近、多くの研究が基本的なテキストからビデオモデルへ3Dカメラ制御を統合していますが、その結果として得られるカメラ制御はしばしば不正確であり、ビデオ生成の品質が低下しています。本研究では、第一原理の観点からカメラの動きを分析し、合成品質を損なうことなく正確な3Dカメラ操作を可能にする洞察を明らかにします。まず、ビデオ内のカメラの動きによって引き起こされる動きが低周波数であることを確認します。これにより、訓練およびテストのポーズ条件付けスケジュールを調整し、訓練の収束を加速させつつ視覚的および動きの品質を向上させる動機が生まれます。次に、無条件のビデオ拡散トランスフォーマの表現を調査することで、その内部でカメラの姿勢推定が暗黙的に行われていることを発見し、その一部のレイヤーのみがカメラ情報を含んでいることを確認します。これにより、他のビデオ特徴との干渉を防ぐために、カメラ条件付けの注入をアーキテクチャの一部に制限することが提案され、訓練パラメータを4倍削減し、訓練速度を向上させ、視覚的品質を10%向上させることが可能となります。最後に、典型的なカメラ制御学習のためのデータセットに、20,000の多様な動的ビデオと静止したカメラを持つ厳選されたデータセットを補完することで、モデルがカメラとシーンの動きの違いを明確にし、ポーズ条件付きビデオのダイナミクスを向上させます。これらの知見を組み合わせて、Advanced 3D Camera Control(AC3D)アーキテクチャを設計し、カメラ制御を備えた生成ビデオモデリングの最先端モデルとなります。
AlphaTabletsは、連続的な3D表面と正確な境界の定義を特徴とする新しい汎用3D平面表現を紹介します。Alphaチャンネルを持つ矩形として3D平面を表現することで、AlphaTabletsは現在の2Dおよび3D平面表現の利点を組み合わせ、3D平面の正確で一貫性のある柔軟なモデリングを可能にします。AlphaTablets上で微分可能なラスタライゼーションを導出し、3D平面を効率的にイメージにレンダリングするとともに、単眼ビデオからの3D平面再構築のための革新的なボトムアップパイプラインを提案します。2Dスーパーピクセルと事前学習モデルからの幾何学的手掛かりを用いて、3D平面をAlphaTabletsとして初期化し、微分可能なレンダリングを通じて最適化します。成長と精緻化を促進するために効果的なマージングスキームが導入されています。反復的な最適化とマージングにより、堅固な表面と明確な境界を持つ完全で正確な3D平面を再構築します。ScanNetデータセットでの広範な実験により、3D平面再構築における最先端のパフォーマンスが示され、さまざまなアプリケーションにおける汎用3D平面表現としてのAlphaTabletsの大きな潜在能力が強調されています。プロジェクトページは以下でご覧いただけます:https://hyzcluster.github.io/alphatablets
大規模なニューラルネットワークのトレーニングには、専用の高速インターコネクトを介してアクセラレータ間で勾配を共有する必要があります。周波数分解とエネルギー圧縮の信号処理原則に基づいて、トレーニング中に完全なオプティマイザーの状態とモデルパラメーターを同期させる必要はないことを示します。モーメンタムの更新を分離し、アクセラレータ間でオプティマイザーの状態に制御された発散を許可することで、最新のオプティマイザーよりも改善された収束を達成します。私たちは、{De}coupled {Mo}mentum(DeMo)という融合オプティマイザーおよびデータ並列アルゴリズムを導入し、インターアクセラレータ間の通信要件を数桁削減します。これにより、限られたネットワーク帯域幅や異種ハードウェアでも大規模なニューラルネットワークのトレーニングが可能となります。私たちの手法はトポロジに依存せず、アーキテクチャに依存せず、計算およびメモリのオーバーヘッドが無視できるスケーラブルなクロック同期分散トレーニングをサポートします。実証結果では、DeMoでトレーニングされたモデルがAdamWでトレーニングされた同等のモデルと同等以上の性能を発揮することが示されており、大規模な基盤モデルの事前トレーニング時に高速インターコネクトが不要となります。GitHubにオープンソースの参照PyTorch実装が公開されています:https://github.com/bloc97/DeMo
オンラインで利用可能なニュース記事の数が増加するにつれて、言語に関係なくトピックごとに分類することは、読者が関連コンテンツにアクセスするために重要になっています。この課題に対処するため、大規模言語モデル(LLMs)に基づく教師-生徒フレームワークを提案し、手動データ注釈の必要がない合理的なサイズの多言語ニュース分類モデルを開発します。このフレームワークは、Generative Pretrained Transformer(GPT)モデルを教師モデルとして使用し、スロベニア語、クロアチア語、ギリシャ語、カタロニア語のニュース記事を自動注釈してIPTCメディアトピックトレーニングデータセットを開発します。教師モデルは、4つの言語すべてで高いゼロショットパフォーマンスを示します。人間の注釈者同士の合意と同等の精度を持っています。1日に数百万のテキストを処理する必要がある計算上の制約を緩和するために、GPTで注釈付けされたデータセットで小さなBERTライクな生徒モデルをファインチューニングします。これらの生徒モデルは、教師モデルと同等の高いパフォーマンスを達成します。さらに、生徒モデルのパフォーマンスに対するトレーニングデータサイズの影響を探り、それらの単言語、多言語、ゼロショットのクロスリンガル能力を調査します。研究結果は、生徒モデルが比較的少数のトレーニングインスタンスで高いパフォーマンスを達成し、強力なゼロショットのクロスリンガル能力を示すことを示しています。最後に、最も優れたニューストピック分類器を公開し、IPTCメディアトピックスキーマのトップレベルカテゴリでの多言語分類を可能にします。
最近の研究では、拡散モデルが強力なニューラルレンダリングエンジンとして使用でき、仮想オブジェクトを画像に挿入するために活用できることが示されています。しかしながら、典型的な物理ベースのレンダラーとは異なり、ニューラルレンダリングエンジンはしばしば望ましい画像の結果を改善したり個人化するために重要な照明設定に対する手動制御の不足に制約されています。本論文では、オブジェクトのリライティングにおいて、単純にオブジェクトの影を指定することで正確な照明制御が達成できることを示します。驚くべきことに、事前にトレーニングされた拡散ベースのニューラルレンダラーにオブジェクトの影のみを注入することで、望ましい光の位置に従ってオブジェクトを正確にシェーディングし、オブジェクト(およびその影)を目標の背景画像内で適切に調和させることができます。当社の手法SpotLightは、既存のニューラルレンダリング手法を活用し、追加のトレーニングを必要とせずに制御可能なリライティング結果を達成します。具体的には、最近の文献から2つのニューラルレンダラーを使用してその有用性を実証します。SpotLightは、既存のリライティング用に特別に設計された拡散ベースのモデルを上回る、定量的および知覚的に優れたオブジェクトのコンポジット結果を達成することを、ユーザースタディによって確認します。
本研究では、ビジョントランスフォーマー向けのトレーニングノイズトークン(TNT)プルーニングを提案します。当該手法は、トレーニング中の滑らかな最適化を提供するために、離散的なトークンのドロップ条件を連続的な加法ノイズに緩和し、一方で展開環境において離散的なドロップによる計算上の利点を保持します。我々は、レート・ディストーションの文献との理論的な関連性を提供し、ViTおよびDeiTアーキテクチャを用いたImageNetデータセットにおける実証評価を行い、TNTの従来のプルーニング手法に対する利点を示します。