ByAlejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
ByIddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
18
3
OpenAIのo1、o3やDeepSeekのR1といった推論型LLMは、数学やコーディングにおいて大きな進歩を遂げていますが、国際数学オリンピック(IMO)の組み合わせ問題、Abstraction and Reasoning Corpus(ARC)パズル、Humanity's Last Exam(HLE)問題といった高度な課題には依然として苦戦しています。我々は、テスト時に複数のモデルと手法を組み合わせた多様な推論アプローチを採用しています。数学やコード問題の検証、および他の問題に対するリジェクションサンプリングがシンプルかつ効果的であることを確認しました。IMO問題の正しさはLeanによって、ARCパズルはコードによって自動的に検証し、HLE問題に対してはbest-of-Nが有効であることを見出しました。我々のアプローチにより、IMO組み合わせ問題の正答率は33.3%から77.8%に、HLE問題の正答率は8%から37%に向上し、948人の人間が解けなかったARCパズルの80%、o3高計算リソースでも解けなかったARCパズルの26.5%を解決しました。テスト時のシミュレーション、強化学習、および推論フィードバックを用いたメタ学習により、エージェントのグラフ表現を適応させ、プロンプト、コード、データセットを変化させることで汎化性能を向上させています。我々のアプローチは信頼性、堅牢性、拡張性を備えており、再現可能な研究の精神に則り、公開時に一般公開する予定です。
ByJeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
ByHsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
5
4
現在の自動運転車両は、周囲のシーンを理解し将来の軌道を計画するために主に個々のセンサーに依存していますが、センサーが故障したり遮蔽されたりすると信頼性が低下する可能性があります。この問題に対処するため、車両間通信(V2V)を利用した協調知覚手法が提案されていますが、これまでの研究は主に検出と追跡に焦点を当ててきました。これらのアプローチが全体的な協調計画性能にどのように寄与するかは、まだ十分に検討されていません。大規模言語モデル(LLM)を用いた自動運転システムの最近の進展に触発され、我々はLLMを協調自動運転に統合する新しい問題設定を提案します。これには、提案するVehicle-to-Vehicle Question-Answering(V2V-QA)データセットとベンチマークが含まれます。また、我々はVehicle-to-Vehicle Large Language Model(V2V-LLM)というベースライン手法を提案します。この手法は、複数の接続された自動運転車両(CAV)からの知覚情報を融合し、運転関連の質問(グラウンディング、注目すべき物体の識別、計画)に答えるためにLLMを使用します。実験結果は、提案するV2V-LLMが協調自動運転における様々なタスクを実行するための有望な統一モデルアーキテクチャであり、異なる融合アプローチを使用する他のベースライン手法を上回ることを示しています。我々の研究は、将来の自動運転システムの安全性を向上させる新しい研究方向性を創出します。プロジェクトウェブサイト: https://eddyhkchiu.github.io/v2vllm.github.io/