翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の最近の進歩により、LLMベースのエージェントがインタラクティブな計画タスクを成功裏に処理できるようになりました。しかし、その成功にもかかわらず、既存のアプローチは計画の幻覚(planning hallucinations)に悩まされることが多く、新しいエージェントごとに再学習が必要です。これらの課題に対処するため、我々はメタ計画最適化(Meta Plan Optimization, MPO)フレームワークを提案します。MPOは、明示的なガイダンスを直接組み込むことでエージェントの計画能力を強化します。従来の方法とは異なり、MPOは複雑な知識に依存せず、人間の多大な労力を必要とするか、品質保証が欠如しているような問題を回避します。代わりに、MPOはメタ計画を通じて高レベルの一般的なガイダンスを活用し、エージェントの計画を支援するとともに、エージェントのタスク実行からのフィードバックに基づいてメタ計画を継続的に最適化します。2つの代表的なタスクで実施した実験により、MPOが既存のベースラインを大幅に上回ることが示されました。さらに、分析の結果、MPOはプラグアンドプレイのソリューションとして、タスク完了効率と未経験シナリオにおける汎化能力の両方を向上させることが明らかになりました。
大規模言語モデル(LLM)は自律エージェントとして顕著な能力を示しているが、既存のベンチマークは単一エージェントタスクに焦点を当てるか、狭い領域に限定されており、マルチエージェント間の協調と競争のダイナミクスを捉えられていない。本論文では、多様なインタラクティブなシナリオにわたるLLMベースのマルチエージェントシステムを評価するための包括的なベンチマーク、MultiAgentBenchを紹介する。我々のフレームワークは、タスクの完了だけでなく、新たなマイルストーンベースの主要業績評価指標を用いて協力と競争の質も測定する。さらに、スター、チェーン、ツリー、グラフといった様々な協調プロトコルや、グループディスカッションや認知的計画といった革新的な戦略を評価する。特に、gpt-4o-miniは平均で最高のタスクスコアを達成し、研究シナリオではグラフ構造が協調プロトコルの中で最も優れたパフォーマンスを示し、認知的計画はマイルストーン達成率を3%向上させた。コードとデータセットはhttps://github.com/MultiagentBench/MARBLEで公開されている。
GPTやGeminiなどの大規模言語モデル(LLMs)によって悪化した誤情報の拡散は、特にベトナム語のような低リソース言語において、堅牢なファクトチェックソリューションを必要としています。既存の手法は、意味的な曖昧さ、同音異義語、複雑な言語構造に対処するのに苦労しており、しばしば精度を効率と引き換えにしています。我々は、Semantic-based Evidence Retrieval(SER)とTwo-step Verdict Classification(TVC)を統合した新しいベトナム語ファクトチェックフレームワークであるSemViQAを紹介します。このアプローチは精度と速度のバランスを取り、ISE-DSC01で78.97%の厳密な精度、ViWikiFCで80.82%の精度を達成し、UIT Data Science Challengeで1位を獲得しました。さらに、SemViQA Fasterは推論速度を7倍に向上させながら、競争力のある精度を維持しています。SemViQAはベトナム語のファクト検証における新たなベンチマークを設定し、誤情報との戦いを前進させます。ソースコードは以下で公開されています: https://github.com/DAVID-NGUYEN-S16/SemViQA。
本論文では、大規模言語モデル(LLM)がWikipediaに与える影響について詳細な分析を行い、既存のデータを通じてWikipediaの進化を検証し、シミュレーションを用いて潜在的なリスクを探ります。まず、ページビューと記事内容を分析し、Wikipediaの最近の変化を研究し、LLMの影響を評価します。続いて、機械翻訳や検索拡張生成(RAG)など、Wikipediaに関連するさまざまな自然言語処理(NLP)タスクにLLMがどのように影響を与えるかを評価します。我々の調査結果とシミュレーション結果から、Wikipediaの記事はLLMの影響を受けており、特定のカテゴリーでは約1%~2%の影響が見られることが明らかになりました。Wikipediaに基づく機械翻訳のベンチマークがLLMの影響を受ける場合、モデルのスコアが過大評価される可能性があり、モデル間の比較結果も変化する可能性があります。さらに、知識ベースがLLM生成コンテンツによって汚染されると、RAGの有効性が低下する可能性があります。LLMはまだWikipediaの言語と知識構造を完全には変えていませんが、我々の実証的発見は、将来の潜在的なリスクを慎重に考慮する必要性を示唆していると考えます。
我々はLADDER(Learning through Autonomous Difficulty-Driven Example Recursion)を紹介する。これは、大規模言語モデルが複雑な問題の段階的に単純化されたバリエーションを再帰的に生成し解決することで、自律的に問題解決能力を向上させるフレームワークである。従来のアプローチでは精選されたデータセットや人間のフィードバックが必要であったが、LADDERはモデル自身の能力を活用してより簡単な問題バリエーションを生成する。我々は数学的積分の分野でLADDERの有効性を実証し、Llama 3.2 3Bの大学レベルの問題に対する正答率を1%から82%に向上させ、Qwen2.5 7B Deepseek-R1 DistilledがMIT Integration Bee予選試験で73%を達成できることを示した。また、TTRL(Test-Time Reinforcement Learning)を導入し、推論時にテスト問題のバリエーションに対して強化学習を実行する。TTRLにより、Qwen2.5 7B Deepseek-R1 DistilledはMIT Integration Bee予選試験で90%という最先端のスコアを達成し、OpenAI o1の性能を上回った。これらの結果は、アーキテクチャのスケーリングや人間の監督に依存せずに、自己主導型の戦略的学習が大幅な能力向上を実現できることを示している。
大規模言語モデル(LLM)は、様々な領域でAIアシスタントとして機能する際に、幻覚(すなわち、信頼できないまたは無意味な情報)を示すことがある。幻覚は常にLLMの応答内で真実の内容と共に現れるため、従来の事実性アライメント手法では、応答レベルでの選好学習を行う際に、トレーニング中にノイズが導入されてしまう。そこで本論文では、Direct Preference Optimization(DPO)に基づく細粒度の事実性アライメント手法であるMask-DPOを提案する。Mask-DPOは、文レベルの事実性をマスク信号として組み込み、選好サンプル内の事実に基づく正しい文のみを学習し、非選好サンプル内の事実内容に対するペナルティを防ぐことで、選好学習における曖昧さを解決する。広範な実験結果は、Mask-DPOが、トレーニング中に見られなかったドメイン内およびドメイン外のデータセットからの質問に対するLLMの応答の事実性を大幅に向上させることを示している。ANAHトレーニングセットでのみトレーニングされたLlama3.1-8B-InstructのANAHテストセットでのスコアは、49.19%から77.53%に向上し、Llama3.1-70B-Instructのスコア(53.44%)を上回った。また、ドメイン外のBiographyデータセットでのFactScoreも、30.29%から39.39%に向上した。さらに、異なるトレーニングサンプルのスケーリング戦略を用いてMask-DPOの一般化特性を研究し、データセット内のトピック数をスケーリングすることが質問数をスケーリングするよりも効果的であることを発見した。我々は、LLMにおける事実性アライメントが何を行っているかについての仮説を提示し、この現象の意味合いについて考察し、それを検証するための概念実証実験を行った。本手法とその発見が、将来の事実性アライメントのスケーリング研究の道を開くことを期待する。
大規模言語モデル(LLM)の最近の進展は、人間の期待に応え、共有される価値観に沿った応答を生成することに焦点を当てています。このプロセスは「アラインメント」と呼ばれています。しかし、人間の価値観の複雑さと、それに対処するために設計された技術的アプローチの狭さとの間に本質的な隔たりがあるため、LLMのアラインメントは依然として困難です。現在のアラインメント手法は、しばしば誤った目的設定を引き起こし、これは不完全な契約というより広範な問題を反映しています。つまり、モデル開発者とモデルの間で、LLMのアラインメントにおけるあらゆるシナリオを考慮した契約を指定することは非現実的です。本論文では、LLMのアラインメントを改善するためには、社会的、経済的、契約的アラインメントを含む社会的アラインメントフレームワークからの洞察を取り入れる必要があると主張し、これらの領域から得られる潜在的な解決策について議論します。社会的アラインメントフレームワーク内での不確実性の役割を考慮し、それがLLMのアラインメントにどのように現れるかを調査します。最後に、LLMのアラインメントの目的が未指定であることを、その仕様を完璧にするのではなく、機会として捉える代替的な視点を提供します。LLMのアラインメントにおける技術的改善を超えて、参加型アラインメントインターフェース設計の必要性についても議論します。
特定のドメインに生成モデルを適応させることは、専門的な要件を満たすための効果的な解決策を提供します。しかし、複雑なドメインへの適応は依然として課題であり、特にこれらのドメインが対象とする分布を捉えるために大量のペアデータを必要とする場合に顕著です。視覚や言語といった単一モダリティの非ペアデータはより容易に入手可能であるため、我々は統一生成モデルによって学習された視覚と言語間の双方向マッピングを活用し、ドメイン適応のための非ペアデータでの学習を可能にします。具体的には、テキストから画像へ、そして再びテキストへというマルチモーダルサイクルと、画像からテキストへ、そして再び画像へというサイクルを統合したDoraCycleを提案します。このモデルは、サイクルの終点で計算されるクロスエントロピー損失を通じて最適化され、両終点は同じモダリティを共有します。これにより、注釈付きテキスト-画像ペアに依存せずにモデルの自己進化が促進されます。実験結果は、スタイライゼーションのようなペア知識に依存しないタスクにおいて、DoraCycleが非ペアデータのみを使用して統一モデルを効果的に適応できることを示しています。特定のアイデンティティのような新しいペア知識を必要とするタスクでは、少数のペア画像-テキスト例と大規模な非ペアデータの組み合わせが、効果的なドメイン指向の適応に十分であることが確認されました。コードはhttps://github.com/showlab/DoraCycleで公開されます。
パイプライン並列処理(PP)は大規模言語モデル(LLM)のトレーニングに広く使用されていますが、そのスケーラビリティは、PPの次数が増えるにつれてインフライトマイクロバッチの数が増加し、アクティベーションメモリ消費が高くなることによって制約されることがよくあります。本論文では、PPにおける未開拓のメモリオフロード戦略を活用してこの課題に取り組むことに焦点を当てます。実証研究を通じて、標準的な構成の大多数において、少なくとも半分、場合によってはすべてのアクティベーションを無視できるオーバーヘッドでオフロードできることを発見しました。完全なオフロードが不可能な場合には、ピークアクティベーションメモリを線形以上に減少させる新たな選択的オフロード戦略を導入します。さらに、メモリオフロードを他の技術と統合し、全体のスループットとメモリ制限を共同で考慮します。私たちの実験では、デバイスごとのアクティベーションメモリがステージの総数に応じて効果的に減少し、PPがTPよりも強力な代替手段となり、メモリ消費をさらに低く抑えながら最大19%の加速を提供することが証明されました。実装はhttps://github.com/sail-sg/zero-bubble-pipeline-parallelism{このURL}でオープンソース化されています。
人間のフィードバックによる強化学習(RLHF)は言語モデルの出力を制御する主要な手法となっているが、高い計算コストと訓練の不安定性という課題を抱えている。ガイド付きデコード、特に価値誘導型の手法は、モデルの再訓練なしに出力を制御するコスト効率の良い代替手段を提供する。しかし、価値誘導型デコードにおいては価値関数の精度が重要であり、不正確な場合には最適でない意思決定や性能の低下を招く可能性がある。既存の手法では最適な価値関数を正確に推定することが難しく、効果的な制御が実現されていない。本研究では、これらの課題を解決する新しいフレームワーク「反復的価値関数最適化」を提案する。このフレームワークは、多様な軌跡を探索することで推定の分散を低減するモンテカルロ価値推定と、価値誘導型ポリシーから軌跡を収集することで価値推定を段階的に改善する反復的オンライン最適化の2つの主要な要素で構成されている。テキスト要約、多ターン対話、指示追従タスクにおける広範な実験を通じて、価値誘導型デコード手法が言語モデルのアライメントにおいて有効であることを実証した。これらの手法はアライメントを達成するだけでなく、原理に基づいた価値関数最適化を活用することで計算コストを大幅に削減し、効率的かつ効果的な制御を実現している。
ビデオとアクションを統合したモデルは、ロボティクスにおいて大きな可能性を秘めています。ビデオはアクション予測のための豊富なシーン情報を提供し、アクションはビデオ予測のためのダイナミクス情報を提供します。しかし、ビデオ生成とアクション予測を効果的に組み合わせることは依然として困難であり、現在のビデオ生成ベースの手法は、アクションの精度と推論速度において直接的なポリシー学習の性能に匹敵するには至っていません。このギャップを埋めるために、我々はビデオとアクションの予測を共同で最適化し、高い精度と効率的なアクション推論を実現するUnified Video Actionモデル(UVA)を提案します。その鍵は、ビデオとアクションの共同潜在表現を学習し、ビデオとアクションのデコードを分離することにあります。共同潜在表現は、視覚とアクションのドメインを橋渡しし、ビデオとアクションシーケンスの関係を効果的にモデル化します。一方、2つの軽量な拡散ヘッドによって実現される分離デコードは、推論中にビデオ生成をバイパスすることで高速なアクション推論を可能にします。このような統合フレームワークは、マスクされた入力トレーニングを通じて多機能性をさらに実現します。アクションやビデオを選択的にマスクすることで、単一のモデルがポリシー学習を超えた多様なタスク、例えば順方向および逆方向のダイナミクスモデリングやビデオ生成に取り組むことができます。広範な実験を通じて、UVAが特定のアプリケーションに特化した手法と比較しても性能を損なうことなく、ポリシー学習、順方向/逆方向ダイナミクス、ビデオ観測予測など、幅広いロボティクスタスクに対する汎用ソリューションとして機能することを実証します。結果はhttps://unified-video-action-model.github.io/でご覧いただけます。
拡散モデルは、様々な画像生成タスクにおいて顕著な進歩を遂げてきました。しかし、訓練時に使用した解像度よりも高い解像度で画像を生成する場合、その性能は著しく低下します。高解像度画像を生成するための多くの手法が存在するにもかかわらず、それらは非効率であるか、複雑な操作に阻まれています。本論文では、訓練不要の高解像度画像生成のための効率的で簡潔なソリューションであるRectifiedHRを提案します。具体的には、ノイズリフレッシュ戦略を導入し、理論的にはわずか数行のコードでモデルの高解像度生成能力を解放し、効率を向上させます。さらに、高解像度画像生成プロセスにおいて画像のぼやけを引き起こす可能性のあるエネルギー減衰現象を初めて観察しました。この問題に対処するため、分類器不要ガイダンスのハイパーパラメータを修正することで生成性能を効果的に改善するエネルギー補正戦略を提案します。我々の手法は完全に訓練不要であり、実装ロジックもシンプルです。多数のベースラインメソッドとの広範な比較を通じて、RectifiedHRは優れた有効性と効率性を実証しています。
大規模言語モデル(LLMs)の最近の進展により、グラフィカルユーザーインターフェース(GUI)と対話可能なインテリジェントなLLMベースのエージェントの開発が進んでいます。これらのエージェントは、強力な推論能力と適応性を示し、従来は事前定義されたルールを必要としていた複雑なタスクを実行することができます。しかし、LLMベースのエージェントが段階的な推論に依存するため、特に日常的なタスクにおいて非効率性が生じることがあります。一方、従来のルールベースのシステムは効率性に優れていますが、新しいシナリオに適応するための知能や柔軟性に欠けています。この課題に対処するため、我々は、効率性を向上させつつ知能と柔軟性を保持するGUIエージェントのための新しい進化的フレームワークを提案します。我々のアプローチでは、エージェントのタスク実行履歴を記録するメモリメカニズムを組み込んでいます。この履歴を分析することで、エージェントは繰り返し発生するアクションシーケンスを特定し、これらの低レベルの操作を置き換えて効率を向上させるショートカットとして機能する高レベルのアクションを進化させます。これにより、エージェントはより複雑な推論を必要とするタスクに集中しつつ、日常的なアクションを簡素化することができます。複数のベンチマークタスクにおける実験結果は、我々のアプローチが既存の手法を効率性と精度の両面で大幅に上回ることを示しています。コードはオープンソース化され、さらなる研究を支援します。
多段階推論タスクにおける正解タスク完了報酬や人間によるデモンストレーションの収集は、特にウェブタスクのようなインタラクティブな領域では、コストがかかり時間もかかることが多い。このボトルネックに対処するため、我々は自己教師あり手法である「自己学習型先読み(self-taught lookahead)」を提案する。この手法は、状態遷移ダイナミクスを活用して、言語モデル制御の探索を効果的に導く価値モデルを訓練する。我々は、自己学習型先読みで改善された中規模(80億パラメータ)のオープンウェイト価値モデルが、gpt-4oのような最先端の大規模言語モデル(LLM)を価値モデルとして使用した場合の性能に匹敵することを発見した。さらに、自己学習型先読みは、正解報酬に依存することなく、従来のLLMベースの木探索と比較して性能を20%向上させ、コストを37分の1に削減することを確認した。
自己回帰型言語モデルは、生成時に過去の隠れ状態を再計算する必要をなくし、処理を高速化するためのKey-Value(KV)キャッシュに依存しています。しかし、モデルサイズやコンテキスト長が増大するにつれ、このKVキャッシュはメモリのボトルネックとなり、生成中にそのサイズを制限する圧縮手法が求められています。本論文では、アテンションスコアをアテンションマップを計算することなく効率的に近似することを可能にする、Query(Q)ベクトルとKey(K)ベクトルの驚くべき特性を発見しました。我々は、Q-Filtersというトレーニング不要のKVキャッシュ圧縮手法を提案します。これは、単一のコンテキスト非依存の射影に基づいて、重要度の低いKey-Valueペアをフィルタリングするものです。多くの代替手法とは異なり、Q-FiltersはFlashAttentionと互換性があり、アテンション重みへの直接アクセスを必要としません。長文コンテキスト設定での実験結果は、Q-Filtersが検索タスクにおいてSnapKVのようなアテンションベースの圧縮手法と競合し、生成設定ではStreaming-LLMのような効率的な圧縮スキームを一貫して上回ることを示しています。特に、Q-Filtersは、針を干し草の山から探すタスクにおいてx32の圧縮レベルで99%の精度を達成し、テキスト生成においてStreaming-LLMと比較して生成時のパープレキシティ低下を最大65%削減しました。
大規模言語モデル(LLM)エージェントは、複数ドメインにわたるタスクにおいて顕著な汎化能力を発揮しています。既存のエージェントチューニング手法では、通常、専門家の軌跡全体に対して教師ありファインチューニングを行います。しかし、軌跡全体の行動クローニングは、専門家のバイアスを導入し、専門家データでカバーされていない状態への汎化を弱める可能性があります。さらに、計画立案、中間サブタスクのための複雑な推論、戦略的意思決定といった重要なステップは、エージェントタスクの成功に不可欠であり、これらのステップを学習することがLLMエージェントの改善の鍵となります。より効果的かつ効率的なエージェントチューニングのために、我々はATLaSを提案します。ATLaSは、専門家の軌跡における重要なステップを特定し、これらのステップのみに焦点を当ててLLMをファインチューニングすることで、コストを削減します。トレーニングの焦点を少数の重要なステップに絞ることで、我々の手法は軌跡全体の過学習リスクを軽減し、異なる環境やタスク間での汎化を促進します。大規模な実験において、ATLaSによって選択されたわずか30%の重要なステップでファインチューニングされたLLMは、全てのステップでファインチューニングされたLLMや最近のオープンソースLLMエージェントを上回りました。ATLaSは、多様な環境と相互作用する汎用エージェントとしての基盤LLMのスキルを維持し、向上させます。
汎用モデルは、言語タスクと視覚言語タスクの両方で顕著な成功を収め、統一されたモデリングの可能性を示しています。しかし、検出やセグメンテーションのような細粒度の知覚タスクをこれらのモデルに効果的に統合することは、依然として重要な課題です。これは主に、これらのタスクがしばしばタスク固有の設計やアーキテクチャに大きく依存しており、モデリングプロセスを複雑にするためです。この課題に対処するため、我々は\oursを提案します。これは、オープンエンドの言語インターフェースを通じて細粒度の視覚知覚タスクを統合するフレームワークです。すべての知覚ターゲットを言語空間に変換することで、\oursはオブジェクトレベルの検出、ピクセルレベルのセグメンテーション、および画像レベルの視覚言語タスクを単一のモデルに統合します。さらに、セグメンテーションタスクをサポートするために、言語インターフェースのみに依存する新しい埋め込み検索アプローチを導入します。我々のフレームワークは、細粒度の知覚と視覚言語タスクの間のギャップを埋め、複雑なタスク固有の設計を必要とする方法と同等またはそれ以上の性能を達成しながら、アーキテクチャ設計とトレーニング戦略を大幅に簡素化します。5つの標準的な視覚知覚データセットでのマルチタスクトレーニング後、\oursはCOCOインスタンスセグメンテーションで12.3 mAP、ADE20Kセマンティックセグメンテーションで3.3 mIoUを達成し、以前の最先端の汎用モデルを上回りました。さらに、我々の方法は既存のMLLMとシームレスに統合され、細粒度の知覚能力と高度な言語能力を効果的に組み合わせることで、推論セグメンテーションのようなより挑戦的なタスクを可能にします。コードとモデルは公開されます。
推測サンプリングは、大規模言語モデル(LLM)の自己回帰生成プロセスを加速する重要な技術として登場し、ドラフト・アンド・ベリファイ機構を利用して1回のフォワードパスで複数のトークンを生成します。最先端の推測サンプリング手法は、単一の層と言語モデリング(LM)ヘッドをドラフトモデルとして使用することで印象的な層圧縮を実現していますが、128kトークンの語彙を持つLlama-3-8Bのような大語彙LLMでは、その効率向上が大幅に低下します。この問題に対処するため、我々はFR-Specを提案します。これは、語彙空間の圧縮を通じてドラフト候補の選択を最適化する頻度順位付け推測サンプリングフレームワークです。ドラフト検索を頻度優先のトークンサブセットに制約することで、LMヘッドの計算オーバーヘッドを75%削減しつつ、最終的な出力分布の等価性を保証します。複数のデータセットでの実験により、最先端の推測サンプリング手法EAGLE-2に対して平均1.12倍の高速化を実証しました。
テキストから視覚コンテンツを評価する際には、視覚的品質と整合性という2つの重要な側面が鍵となります。これらを評価するための客観的モデルの開発は大きく進展していますが、その性能は人間によるアノテーションの規模と品質に大きく依存します。スケーリング法則によれば、人間によるラベル付けのインスタンス数を増やすことで、評価モデルの性能を予測可能なパターンで向上させることができます。そこで本研究では、テキストから視覚コンテンツの視覚的品質と整合性レベルを評価するための包括的なデータセット(Q-EVAL-100K)を提案します。このデータセットは、前述の2つの側面に関する人間による平均意見スコア(MOS)の最大規模のコレクションを特徴としています。Q-EVAL-100Kデータセットは、テキストから画像およびテキストから動画のモデルを網羅し、100Kインスタンス(60K画像と40K動画)の視覚的品質と整合性に特化した960Kの人間によるアノテーションを含んでいます。このデータセットをコンテキストプロンプトと共に活用し、長文プロンプトの整合性処理に特別な改良を加えた視覚的品質と整合性の両方を評価可能な統一モデル、Q-Eval-Scoreを提案します。実験結果は、提案されたQ-Eval-Scoreが視覚的品質と整合性の両方で優れた性能を達成し、他のベンチマークに対しても強い汎化能力を持つことを示しています。これらの発見は、Q-EVAL-100Kデータセットの重要な価値を強調しています。データとコードはhttps://github.com/zzc-1998/Q-Evalで公開予定です。
選好学習は、相対的な品質比較を活用することで、教師ありファインチューニングを超えたCode LLMの性能向上を実現します。既存の手法では、テストケースの成功率に基づいて候補から選好ペアを構築し、高い合格率のサンプルを正例、低い合格率のサンプルを負例として扱います。しかし、このアプローチではコード内の特定のエラーを特定できないため、モデルがより有益なエラー修正パターンを学習することを妨げます。なぜなら、失敗したコード全体を整列させる方法では、意味のあるエラー解決の関係性を捉えるために必要な細粒度が欠けているからです。これらの課題に対処するため、我々はIterPrefという新しい選好整列フレームワークを提案します。IterPrefは、人間の反復的なデバッグを模倣してCode LLMを洗練させます。IterPrefはエラー領域を明示的に特定し、対応するトークンをカスタマイズされたDPOアルゴリズムを通じて整列させます。有益なペアを生成するために、我々はCodeFlowデータセットを導入しました。このデータセットでは、サンプルがテストに合格するまで反復的に改良され、エラー修正を捉えた変更が記録されています。大規模な実験により、IterPrefを搭載した多様なCode LLMがコード生成において大幅な性能向上を達成し、BigCodeBenchのような難しいタスクでも改善を示すことが明らかになりました。詳細な分析により、IterPrefがより少ないエラーを生み出すことが判明しました。我々のコードとデータは公開される予定です。
表現学習において、均一性(uniformity)とは潜在空間(すなわち単位超球面)における特徴の均一な分布を指します。これまでの研究では、均一性を向上させることが、過小表現されたクラスの学習に寄与することが示されています。しかし、これまでの研究のほとんどは分類に焦点を当てており、不均衡回帰の表現空間は未開拓のままです。分類ベースの手法は、回帰に不可欠な連続的かつ順序付けられた性質を考慮せずに特徴を異なるグループにクラスタリングするため、回帰タスクには適していません。幾何学的な観点から、我々は不均衡回帰のための潜在空間における均一性を確保することに独自に焦点を当て、2つの主要な損失関数、すなわち包絡損失(enveloping loss)と均質性損失(homogeneity loss)を提案します。包絡損失は、誘導されたトレースが超球面の表面を均一に占めることを促し、均質性損失は、表現が一定の間隔で均等に配置される滑らかさを保証します。我々の手法は、これらの幾何学的原理をSurrogate-driven Representation Learning(SRL)フレームワークを介してデータ表現に統合します。実世界の回帰および演算子学習タスクを用いた実験は、不均衡回帰における均一性の重要性を強調し、我々の幾何学ベースの損失関数の有効性を検証します。
計算病理学におけるAIの進展には、大規模で高品質かつ多様なデータセットが必要ですが、既存の公開データセットは臓器の多様性、クラスカバレッジ、またはアノテーション品質において制限されることが多いです。このギャップを埋めるため、私たちはSPIDER(Supervised Pathology Image-DEscription Repository)を紹介します。これは、皮膚、大腸、胸部を含む複数の臓器タイプをカバーする最大の公開パッチレベルデータセットで、各臓器に対する包括的なクラスカバレッジを提供します。SPIDERは、専門の病理学者によって検証された高品質なアノテーションを提供し、空間的コンテキストを提供することで分類性能を向上させる周辺コンテキストパッチも含んでいます。 データセットとともに、Hibou-L基盤モデルを特徴抽出器として使用し、アテンションベースの分類ヘッドと組み合わせてSPIDERでトレーニングされたベースラインモデルを提示します。これらのモデルは、複数の組織カテゴリーにおいて最先端の性能を達成し、将来のデジタル病理学研究のための強力なベンチマークとして機能します。パッチ分類を超えて、このモデルは重要な領域の迅速な識別、定量的組織メトリクス、およびマルチモーダルアプローチの基盤を確立します。 データセットとトレーニング済みモデルの両方が公開されており、研究、再現性、およびAI駆動の病理学開発を推進します。以下からアクセスできます:https://github.com/HistAI/SPIDER
近年、汎用視覚基盤モデル(VFMs)の採用が増加しており、特に多モーダル大規模言語モデル(MLLMs)の画像エンコーダーとして広く利用されています。しかし、意味的に細かい監督がなければ、これらのモデルは下流のテキスト画像関連タスク、すなわち小さく密集したテキストを含む画像の知覚、理解、推論において基本的な予測エラーに直面します。このギャップを埋めるため、我々はテキスト画像関連タスクに特化した初のトークンレベル視覚基盤モデル、TokenOCRを開発しました。これは、さまざまな伝統的な下流アプリケーションをサポートするように設計されています。TokenOCRの事前学習を促進するため、我々はまた、初のトークンレベル画像テキストデータセット、TokenITを構築する高品質なデータ生産パイプラインを考案しました。TokenITは2000万枚の画像と18億のトークン-マスクペアで構成されています。さらに、この優れた画像-テキスト能力を基盤として、我々は従来のVFMsをTokenOCRにシームレスに置き換え、VQAベースのドキュメント理解タスクのためのドキュメントレベルMLLM、TokenVLを構築しました。最後に、広範な実験により、TokenOCRとTokenVLの有効性が実証されました。コード、データセット、および重みはhttps://token-family.github.io/TokenOCR_projectで公開されます。
大規模言語モデル(LLM)の進歩により、近年では合成テキストデータの品質が大幅に向上している一方で、表形式データの合成には比較的注目が集まっていません。本研究では、この格差を解消するため、標準的なTransformer言語モデルアーキテクチャにシンプルながら強力な事後学習修正を加えたTabbyを提案します。Tabbyは、カラムごとにパラメータセットを持つGated Mixture-of-Expertsを用いて、カラム間の差異を表現することを可能にします。実験的には、Tabbyによって生成されたデータの品質は、実データに匹敵するかそれに近いレベルに達しています。また、我々が開発した新しいLLMテーブル学習手法PlainとTabbyを組み合わせることで、従来の手法と比較して最大44%の品質向上を観測しました。さらに、Tabbyは表形式データにとどまらず、より一般的な構造化データにも適用可能であり、ネストされたJSONデータセットにおいても実データと同等の品質を達成しています。
ここ数十年、神経科学と心理学の研究は、味覚と聴覚の知覚との間に直接的な関係があることを明らかにしてきた。本稿では、この基礎研究を基盤として、味覚情報を音楽に変換可能なマルチモーダル生成モデルを探求する。本分野における最先端の研究動向を概観し、主要な発見と方法論を紹介する。また、各楽曲に対して提供された詳細な味覚記述に基づいて音楽を生成するために、生成音楽モデル(MusicGEN)のファインチューニング版を用いた実験を実施する。その結果は有望であり、参加者(n=111)の評価によると、ファインチューニングされたモデルは、ファインチューニングされていないモデルと比較して、入力された味覚記述をより一貫して反映した音楽を生成することが示された。本研究は、AI、音、味覚の間の具現的相互作用を理解し、発展させる上で重要な一歩を表しており、生成AIの分野における新たな可能性を開くものである。データセット、コード、事前学習済みモデルを以下で公開する:https://osf.io/xs5jy/
本論文では、軌道のセグメンテーションやイベント関数の学習を必要とせずにモード切り替えを識別・実行するための、オン・ポリシー強化学習を用いたフレームワークであるDiscrete-time Hybrid Automata Learning (DHAL)を紹介する。連続的な流れと離散的なモード切り替えを含むハイブリッド力学系は、脚式ロボットの移動などのロボティクスタスクをモデル化することができる。モデルベース手法は通常、事前定義された歩容に依存し、モデルフリー手法では明示的なモード切り替えの知識が欠如している。現在の手法では、連続的な流れを回帰する前にセグメンテーションによって離散モードを識別するが、軌道ラベルやセグメンテーションなしで高次元の複雑な剛体力学を学習することは未解決の難しい問題である。我々のアプローチでは、接触誘導運動をモデル化するためにベータ政策分布とマルチクリティックアーキテクチャを組み込んでおり、難しい四足ロボットのスケートボードタスクでその有効性を示している。シミュレーションと実世界でのテストを通じて本手法を検証し、ハイブリッド力学系における堅牢な性能を実証する。