Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы демонстрируем, что обучение с подкреплением с верифицируемой наградой с использованием одного обучающего примера (1-shot RLVR) эффективно стимулирует математические способности крупных языковых моделей (LLM). Применяя RLVR к базовой модели Qwen2.5-Math-1.5B, мы выделяем один пример, который повышает производительность модели на тесте MATH500 с 36,0% до 73,6% и улучшает среднюю производительность на шести стандартных тестах математического рассуждения с 17,6% до 35,7%. Этот результат соответствует производительности, достигнутой с использованием подмножества DeepScaleR из 1,2 тыс. примеров (MATH500: 73,6%, среднее: 35,9%), которое включает упомянутый пример. Подобные значительные улучшения наблюдаются для различных моделей (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), алгоритмов обучения с подкреплением (GRPO и PPO) и различных математических примеров (многие из которых дают улучшение на MATH500 примерно на 30% или более при использовании в качестве единственного обучающего примера). Кроме того, мы выявляем некоторые интересные явления в ходе 1-shot RLVR, включая кросс-доменную генерализацию, увеличение частоты саморефлексии и устойчивое улучшение тестовой производительности даже после насыщения точности обучения — явление, которое мы называем пост-насыщенной генерализацией. Более того, мы подтверждаем, что эффективность 1-shot RLVR в основном обусловлена потерей градиента политики, что отличает её от феномена "grokking". Мы также показываем критическую роль стимулирования исследования (например, путём добавления энтропийной потери с подходящим коэффициентом) в обучении 1-shot RLVR. В качестве бонуса мы наблюдаем, что применение только энтропийной потери, без какой-либо награды за результат, значительно улучшает производительность Qwen2.5-Math-1.5B на MATH500 на 27,4%. Эти результаты могут вдохновить будущие исследования эффективности данных в RLVR и побудить к пересмотру как недавних достижений, так и базовых механизмов в RLVR. Наш код, модель и данные доступны в открытом доступе по адресу https://github.com/ypwang61/One-Shot-RLVR.
Измерение прогресса является основополагающим для развития любой научной области. Поскольку бенчмарки играют всё более центральную роль, они также становятся более подверженными искажениям. Chatbot Arena стала основной платформой для ранжирования наиболее мощных ИИ-систем. Однако в данной работе мы выявляем системные проблемы, которые привели к искажению условий соревнования. Мы обнаруживаем, что нераскрытые практики частного тестирования выгодны ограниченному числу провайдеров, которые могут тестировать несколько вариантов перед публичным выпуском и отзывать результаты, если это необходимо. Мы устанавливаем, что способность этих провайдеров выбирать лучший результат приводит к смещённым оценкам в Arena из-за избирательного раскрытия данных о производительности. В крайнем случае, мы выявляем 27 частных вариантов LLM, протестированных Meta перед выпуском Llama-4. Мы также показываем, что проприетарные закрытые модели чаще участвуют в тестах (количество "битв") и реже удаляются из Arena по сравнению с открытыми и open-source альтернативами. Оба этих подхода приводят к значительной асимметрии в доступе к данным с течением времени. Провайдеры, такие как Google и OpenAI, получили, по нашим оценкам, 19,2% и 20,4% всех данных на платформе соответственно. В то же время 83 open-weight модели вместе получили лишь около 29,7% от общего объёма данных. Мы демонстрируем, что доступ к данным Chatbot Arena приносит существенные преимущества; даже ограниченное дополнительное количество данных может привести к относительному улучшению производительности до 112% на распределении Arena, согласно нашим консервативным оценкам. В совокупности эти динамики приводят к переобучению на специфические особенности Arena, а не на общее качество модели. Arena основана на значительных усилиях как организаторов, так и открытого сообщества, поддерживающего эту ценную платформу для оценки. Мы предлагаем практические рекомендации для реформирования системы оценки Chatbot Arena и продвижения более справедливого и прозрачного бенчмаркинга в этой области.
Метод генерации с усилением поиска (Retrieval-Augmented Generation, RAG) продемонстрировал значительный потенциал в повышении фактической точности, обогащая ответы модели внешними знаниями, релевантными запросам. Однако большинство существующих подходов RAG ограничиваются текстовыми корпусами, и хотя недавние работы расширили RAG на другие модальности, такие как изображения и видео, они обычно работают с корпусами, специфичными для одной модальности. В то же время реальные запросы сильно различаются по типу требуемых знаний, что не может быть охвачено одним типом источника знаний. Для решения этой проблемы мы представляем UniversalRAG — новый RAG-фреймворк, предназначенный для извлечения и интеграции знаний из гетерогенных источников с различными модальностями и уровнями детализации. В частности, основываясь на наблюдении, что принудительное объединение всех модальностей в единое пространство представлений, полученное из одного общего корпуса, вызывает разрыв модальностей, при котором поиск склонен отдавать предпочтение элементам той же модальности, что и запрос, мы предлагаем механизм маршрутизации с учетом модальностей, который динамически определяет наиболее подходящий корпус для конкретной модальности и выполняет целенаправленный поиск в нем. Кроме того, помимо модальностей, мы организуем каждую модальность на несколько уровней детализации, что позволяет проводить точный поиск, адаптированный к сложности и объему запроса. Мы проверяем UniversalRAG на 8 тестовых наборах, охватывающих несколько модальностей, демонстрируя его превосходство над подходами, специфичными для одной модальности, и унифицированными базовыми методами.
Мы представляем ReasonIR-8B — первый ретривер, специально обученный для задач общего рассуждения. Существующие ретриверы демонстрируют ограниченные успехи в задачах рассуждения, отчасти потому, что доступные обучающие наборы данных сосредоточены на коротких фактологических запросах, связанных с документами, которые прямо отвечают на них. Мы разработали синтетический конвейер генерации данных, который для каждого документа создает сложный и релевантный запрос, а также правдоподобно связанный, но в конечном итоге бесполезный сложный негативный пример. Обучая модель на смеси наших синтетических данных и существующих публичных данных, ReasonIR-8B достигает нового рекорда в 29.9 nDCG@10 без реранкера и 36.9 nDCG@10 с реранкером на BRIGHT — широко используемом бенчмарке для задач интенсивного рассуждения в информационном поиске (IR). При применении к задачам RAG ReasonIR-8B улучшает производительность на MMLU и GPQA на 6.4% и 22.6% соответственно по сравнению с базовым закрытым подходом, превосходя другие ретриверы и поисковые системы. Кроме того, ReasonIR-8B более эффективно использует вычислительные ресурсы на этапе тестирования: на BRIGHT его производительность последовательно увеличивается с более длинными и информационно насыщенными переписанными запросами; он продолжает превосходить другие ретриверы при использовании совместно с реранкером на основе LLM. Наш подход к обучению является универсальным и может быть легко адаптирован для будущих LLM; в связи с этим мы открываем исходный код, данные и модель.
Методы выравнивания крупных языковых моделей (LLM), основанные на вознаграждении, сталкиваются с двумя ключевыми ограничениями: уязвимостью к "взлому вознаграждения", когда модели эксплуатируют недостатки в сигнале вознаграждения, и зависимостью от хрупкого, трудоемкого проектирования промптов, когда LLM используются в качестве моделей вознаграждения. Мы представляем Meta Policy Optimization (MPO) — фреймворк, который решает эти проблемы за счет интеграции мета-модели вознаграждения, динамически уточняющей промпт модели вознаграждения в процессе обучения. В MPO мета-модель вознаграждения отслеживает изменяющийся контекст обучения и непрерывно корректирует промпт модели вознаграждения для поддержания высокого уровня выравнивания, предоставляя адаптивный сигнал вознаграждения, устойчивый к эксплуатации со стороны политики. Этот мета-обучающий подход способствует более стабильной оптимизации политики и значительно снижает необходимость ручного проектирования промптов вознаграждения. Он демонстрирует производительность на уровне или выше моделей, управляемых тщательно разработанными промптами вознаграждения. Более того, мы показываем, что MPO сохраняет свою эффективность в различных задачах, таких как ответы на вопросы и математические рассуждения, без необходимости специализированного проектирования вознаграждений. Выходя за рамки стандартного RLAIF, мета-обучающая формулировка MPO легко расширяется на более высокоуровневые фреймворки выравнивания. В целом, этот метод решает теоретические и практические проблемы выравнивания LLM, основанного на вознаграждении, прокладывая путь к более устойчивым и адаптируемым стратегиям выравнивания. Код и модели будут публично доступны.
В данной статье представлен эффективный подход к обучению новых 4D-моделей воплощённого мира, которые предсказывают динамическую эволюцию 3D-сцен во времени в ответ на действия воплощённого агента, обеспечивая как пространственную, так и временную согласованность. Мы предлагаем обучать 4D-модель мира на основе RGB-DN (RGB, глубина и нормали) видео. Это не только превосходит традиционные 2D-модели, включая детали формы, конфигурации и временные изменения в их предсказания, но также позволяет эффективно изучать точные обратные динамические модели для воплощённого агента. В частности, мы сначала расширяем существующие наборы данных видео с манипуляциями роботов, добавляя информацию о глубине и нормалях с использованием готовых моделей. Затем мы дообучаем модель генерации видео на этом аннотированном наборе данных, которая совместно предсказывает RGB-DN (RGB, глубину и нормали) для каждого кадра. Далее мы представляем алгоритм для прямого преобразования сгенерированных видео RGB, глубины и нормалей в высококачественную 4D-сцену мира. Наш метод обеспечивает временную и пространственную согласованность в предсказаниях 4D-сцен для воплощённых сценариев, позволяет синтезировать новые виды для воплощённых сред и способствует обучению стратегий, которые значительно превосходят те, что получены из предыдущих видео-моделей мира.
Редактирование изображений на основе инструкций позволяет выполнять надежное изменение изображений с помощью текстовых запросов на естественном языке, однако современные методы сталкиваются с компромиссом между точностью и эффективностью. Методы тонкой настройки требуют значительных вычислительных ресурсов и больших наборов данных, в то время как методы без обучения испытывают трудности с пониманием инструкций и качеством редактирования. Мы решаем эту дилемму, используя улучшенные возможности генерации и встроенную контекстную осведомленность крупномасштабного Diffusion Transformer (DiT). Наше решение включает три ключевых вклада: (1) фреймворк для редактирования в контексте, обеспечивающий выполнение инструкций без обучения (zero-shot) с использованием контекстных подсказок, избегая структурных изменений; (2) гибридную стратегию настройки LoRA-MoE, которая повышает гибкость за счет эффективной адаптации и динамической маршрутизации экспертов без необходимости масштабного переобучения; и (3) метод масштабирования на этапе вывода с использованием моделей "визуальный язык" (VLMs) для выбора лучшего начального шума на ранних этапах, что улучшает качество редактирования. Обширные оценки демонстрируют превосходство нашего метода: он превосходит современные подходы, требуя всего 0,5% обучающих данных и 1% обучаемых параметров по сравнению с традиционными базовыми методами. Эта работа устанавливает новую парадигму, позволяющую выполнять высокоточное и эффективное редактирование под руководством инструкций. Коды и демонстрации доступны по ссылке: https://river-zhang.github.io/ICEdit-gh-pages/.
Использование защищенных авторским правом материалов при предварительном обучении больших языковых моделей (LLM) вызывает опасения по поводу непреднамеренного нарушения авторских прав после их внедрения. Это стимулировало разработку методов "удаления авторского контента" — подходов, применяемых после обучения и направленных на предотвращение генерации моделями контента, существенно схожего с защищенным. Хотя существующие методы смягчения рисков эффективны в среднем, мы показываем, что они упускают из виду наихудшие сценарии нарушения авторских прав, которые проявляются в виде длинных дословных цитат из защищенных источников. Мы предлагаем BloomScrub — удивительно простой, но высокоэффективный подход, применяемый на этапе вывода, который обеспечивает гарантированное удаление авторского контента. Наш метод последовательно сочетает обнаружение цитат с техниками переписывания для преобразования потенциально нарушающих сегментов. Используя эффективные структуры данных (фильтры Блума), наш подход позволяет масштабировать проверку на авторские права даже для крупных реальных корпусов. Если цитаты, превышающие пороговую длину, не могут быть удалены, система может воздержаться от ответа, обеспечивая гарантированное снижение риска. Экспериментальные результаты показывают, что BloomScrub снижает риск нарушения авторских прав, сохраняет полезность модели и адаптируется к различным уровням строгости применения с помощью адаптивного воздержания. Наши результаты свидетельствуют, что легковесные методы, применяемые на этапе вывода, могут быть удивительно эффективными для предотвращения нарушений авторских прав.
Мы представляем X-Fusion — фреймворк, который расширяет возможности предобученных больших языковых моделей (LLM) для мультимодальных задач, сохраняя при этом их языковые способности. X-Fusion использует архитектуру с двумя башнями и модально-специфичными весами, оставляя параметры LLM замороженными, но интегрируя информацию, специфичную для визуальной модальности, как для понимания, так и для генерации. Наши эксперименты показывают, что X-Fusion стабильно превосходит альтернативные архитектуры как в задачах "изображение-в-текст", так и "текст-в-изображение". Мы обнаружили, что включение данных, ориентированных на понимание, улучшает качество генерации, снижение шума в изображениях повышает общую производительность, а выравнивание признаков ускоряет сходимость для меньших моделей, но оказывает минимальное влияние на более крупные. Наши результаты предоставляют ценные инсайты для создания эффективных унифицированных мультимодальных моделей.
Крупные мультимодальные модели (например, GPT-4, Gemini, Chameleon) превратились в мощные инструменты с миллионами пользователей. Однако они остаются универсальными моделями и не обладают персонализированными знаниями о конкретных концепциях пользователей. Предыдущие работы исследовали персонализацию для генерации текста, но до сих пор неясно, как эти методы можно адаптировать к новым модальностям, таким как генерация изображений. В данной статье мы представляем Yo'Chameleon — первую попытку изучить персонализацию для крупных мультимодальных моделей. Получив 3–5 изображений конкретной концепции, Yo'Chameleon использует настройку мягких подсказок (soft-prompt tuning) для встраивания информации, специфичной для объекта, чтобы (i) отвечать на вопросы о нем и (ii) воссоздавать детали на уровне пикселей для генерации изображений объекта в новых контекстах. Yo'Chameleon обучается с использованием (i) механизма оптимизации с самоподсказкой для балансировки производительности в нескольких модальностях и (ii) подхода генерации изображений с «мягким позитивом» (soft-positive) для повышения качества изображений в условиях ограниченного количества примеров.
Обучение больших языковых моделей (LLMs) в качестве интерактивных агентов ставит уникальные задачи, включая принятие решений на длительных горизонтах и взаимодействие со стохастической обратной связью среды. Хотя обучение с подкреплением (RL) позволило добиться прогресса в статических задачах, обучение агентов RL в многоходовых сценариях остается малоизученным. Мы предлагаем StarPO (State-Thinking-Actions-Reward Policy Optimization), универсальную структуру для RL агентов на уровне траекторий, и представляем RAGEN, модульную систему для обучения и оценки агентов на основе LLM. Наше исследование в трех стилизованных средах выявило три ключевых результата. Во-первых, обучение агентов RL демонстрирует повторяющийся режим "Эхо-ловушки", где наблюдаются резкие скачки дисперсии наград и градиентов; мы решаем эту проблему с помощью StarPO-S, стабилизированной версии с фильтрацией траекторий, включением критика и раздельным ограничением. Во-вторых, мы обнаружили, что формирование RL-сценариев выиграет от разнообразных начальных состояний, средней гранулярности взаимодействия и более частого сэмплирования. В-третьих, мы показываем, что без детализированных сигналов наград, учитывающих рассуждения, рассуждения агентов едва ли возникают в ходе многоходового RL, и они могут демонстрировать поверхностные стратегии или галлюцинированные мысли. Код и среды доступны по адресу https://github.com/RAGEN-AI/RAGEN.
Генерация многомодальной иммерсивной пространственной драмы сосредоточена на создании непрерывной бинауральной речи с участием нескольких говорящих, обладающей драматической просодией, на основе многомодальных подсказок, с потенциальным применением в AR, VR и других областях. Эта задача требует одновременного моделирования пространственной информации и драматической просодии на основе многомодальных входных данных, что сопряжено с высокими затратами на сбор данных. Насколько нам известно, наша работа является первой попыткой решения этих задач. Мы создаем MRSDrama, первый многомодальный набор данных с записанной пространственной драмой, содержащий бинауральные аудиодорожки драмы, сценарии, видео, геометрические позы и текстовые подсказки. Затем мы предлагаем ISDrama, первую модель генерации иммерсивной пространственной драмы с использованием многомодальных подсказок. ISDrama включает следующие основные компоненты: 1) Многомодальный кодировщик поз, основанный на контрастном обучении, учитывающий эффект Доплера, вызванный движением говорящих, для извлечения унифицированной информации о позах из многомодальных подсказок. 2) Иммерсивный трансформер драмы, модель на основе потока и mamba-трансформера, которая генерирует высококачественную драму, включая Drama-MOE для выбора подходящих экспертов для улучшения контроля над просодией и позами. Мы также разработали стратегию контекстно-согласованного классификатор-свободного управления для согласованной генерации полной драмы. Результаты экспериментов показывают, что ISDrama превосходит базовые модели по объективным и субъективным метрикам. Демонстрации и набор данных доступны по адресу https://aaronz345.github.io/ISDramaDemo.
Системы генерации с усилением поиска (RAG) сталкиваются с серьезными вызовами в задачах многошагового ответа на вопросы (MHQA), где сложные запросы требуют синтеза информации из нескольких фрагментов документов. Существующие подходы обычно полагаются на итеративное переформулирование и маршрутизацию запросов с использованием больших языковых моделей (LLM), что приводит к высоким вычислительным затратам из-за повторных вызовов LLM и многоэтапных процессов. Для преодоления этих ограничений мы предлагаем TreeHop — фреймворк на уровне эмбеддингов, не требующий использования LLM для уточнения запросов. TreeHop динамически обновляет эмбеддинги запросов, объединяя семантическую информацию из предыдущих запросов и извлеченных документов, что позволяет выполнять итеративный поиск исключительно за счет операций в пространстве эмбеддингов. Этот метод заменяет традиционный цикл "Извлечь-Переформулировать-Векторизовать-Извлечь" на упрощенный цикл "Извлечь-Эмбеддинг-Извлечь", значительно снижая вычислительные затраты. Кроме того, вводится правило остановки на основе правил для дальнейшего сокращения избыточных извлечений, балансируя эффективность и полноту охвата. Экспериментальные результаты показывают, что TreeHop конкурирует с передовыми методами RAG на трех наборах данных для открытых доменов MHQA, достигая сопоставимой производительности при использовании всего 5\%–0,4\% размера параметров модели и сокращая задержку запросов примерно на 99\% по сравнению с современными подходами. Это делает TreeHop более быстрым и экономически эффективным решением для развертывания в различных приложениях, требующих интенсивного использования знаний. Для обеспечения воспроизводимости коды и данные доступны по ссылке: https://github.com/allen-li1231/TreeHop.
Современные подходы к обучению с подкреплением на основе человеческой обратной связи (RLHF) для согласования больших языковых моделей (LLM) обычно присваивают скалярные награды последовательностям, используя финальный токен как суррогатный индикатор качества всей последовательности. Однако это приводит к разреженной обратной связи и субоптимальному распределению наград на уровне токенов. В данной работе мы формулируем формирование наград как задачу оптимизации, сосредоточенную на распределении наград на уровне токенов. Мы предлагаем функцию формирования наград, которая использует методы объяснимости, такие как SHAP и LIME, для оценки наград на уровне токенов на основе модели наград. Для обучения параметров этой функции мы применяем двухуровневую оптимизационную структуру, которая интегрирует байесовскую оптимизацию и обучение политики для обработки шума в оценках наград на уровне токенов. Наши эксперименты показывают, что достижение более сбалансированного распределения наград на уровне токенов приводит к улучшению производительности по сравнению с базовыми подходами на последующих задачах и ускоряет нахождение оптимальной политики в процессе обучения. Кроме того, мы теоретически показываем, что методы объяснимости, являющиеся аддитивными функциями атрибуции признаков, сохраняют оптимальную политику, соответствующую исходной награде.
Юридические специалисты, особенно те, кто только начинает свою карьеру, сталкиваются со сложными, высокоответственными задачами, требующими адаптивного, контекстно-зависимого мышления. Хотя искусственный интеллект (ИИ) обещает поддержку в юридической работе, текущие наборы данных и модели узко сфокусированы на изолированных подзадачах и не охватывают сквозного процесса принятия решений, необходимого в реальной практике. Чтобы устранить этот пробел, мы представляем LawFlow — набор данных, содержащий полные сквозные юридические рабочие процессы, собранные у подготовленных студентов-юристов, основанные на реальных сценариях создания бизнес-структур. В отличие от предыдущих наборов данных, ориентированных на пары "вход-выход" или линейные цепочки рассуждений, LawFlow фиксирует динамические, модульные и итеративные процессы мышления, отражающие неоднозначность, пересмотр и клиентоориентированные стратегии юридической практики. Используя LawFlow, мы сравниваем рабочие процессы, созданные людьми и языковыми моделями (LLM), выявляя систематические различия в структуре, гибкости рассуждений и выполнении планов. Человеческие рабочие процессы, как правило, модульные и адаптивные, тогда как рабочие процессы LLM более последовательные, исчерпывающие и менее чувствительные к последствиям на последующих этапах. Наши результаты также показывают, что юридические специалисты предпочитают, чтобы ИИ выполнял поддерживающие роли, такие как мозговой штурм, выявление слепых зон и предложение альтернатив, а не реализовывал сложные рабочие процессы от начала до конца. Основываясь на этих выводах, мы предлагаем набор рекомендаций по проектированию, основанных на эмпирических наблюдениях, которые согласуют помощь ИИ с человеческими целями ясности, полноты, креативности и эффективности через гибридное планирование, адаптивное выполнение и поддержку в точках принятия решений. Наши результаты подчеркивают как текущие ограничения LLM в поддержке сложных юридических рабочих процессов, так и возможности для разработки более совместных, осознающих рассуждения систем юридического ИИ. Все данные и код доступны на странице нашего проекта (https://minnesotanlp.github.io/LawFlow-website/).
Последние достижения в области генерации говорящих голов (THG) позволили добиться впечатляющей синхронизации губ и высокого визуального качества благодаря использованию диффузионных моделей; однако существующие методы сталкиваются с трудностями при создании эмоционально выразительных портретов с сохранением идентичности говорящего. Мы выделяем три ключевых ограничения в текущих подходах к генерации эмоциональных говорящих голов: недостаточное использование эмоциональных сигналов, заложенных в аудио, утечка идентичности в представлениях эмоций и изолированное изучение корреляций между эмоциями. Для решения этих проблем мы предлагаем новую структуру под названием DICE-Talk, основанную на идее разделения идентичности и эмоций с последующим объединением эмоций, обладающих схожими характеристиками. Во-первых, мы разрабатываем разделяемый эмоциональный эмбеддер, который совместно моделирует аудиовизуальные эмоциональные сигналы с помощью кросс-модального внимания, представляя эмоции в виде идентичностно-независимых гауссовских распределений. Во-вторых, мы вводим модуль усиленного корреляциями эмоционального кондиционирования с обучаемыми "Банками Эмоций", которые явно фиксируют взаимосвязи между эмоциями через векторное квантование и агрегацию признаков на основе внимания. В-третьих, мы разрабатываем цель дискриминации эмоций, которая обеспечивает аффективную согласованность в процессе диффузии через классификацию в латентном пространстве. Эксперименты на наборах данных MEAD и HDTF демонстрируют превосходство нашего метода, превосходящего современные подходы по точности передачи эмоций при сохранении конкурентоспособной синхронизации губ. Качественные результаты и пользовательские исследования дополнительно подтверждают способность нашего метода создавать портреты с сохранением идентичности, богатыми и взаимосвязанными эмоциональными выражениями, которые естественно адаптируются к новым идентичностям.
Метод цепочки рассуждений (chain-of-thought prompting) продемонстрировал значительный успех в улучшении способностей крупных языковых моделей к рассуждению. В данной работе мы исследуем, как эти улучшенные способности к рассуждению могут быть использованы для повышения устойчивости крупных языковых моделей в задачах, которые не обязательно сосредоточены на рассуждениях. В частности, мы показываем, что широкий спектр крупных языковых моделей демонстрирует значительно улучшенную устойчивость к искажению ссылок с использованием простого метода, называемого цепочкой защитных рассуждений (chain-of-defensive-thought), где в качестве демонстраций предоставляется лишь несколько примеров с структурированным и защитным рассуждением. Эмпирически, улучшения могут быть поразительными, особенно учитывая простоту и применимость метода. Например, в задаче Natural Questions точность GPT-4o снижается с 60% до всего 3% при стандартном запросе, когда 1 из 10 предоставленных ссылок искажается атаками инъекции запроса. В то же время, GPT-4o, использующий метод цепочки защитных рассуждений, сохраняет точность на уровне 50%.
Мы исследуем обучение с подкреплением (RL) для привилегированного планирования в автономном вождении. Современные подходы к этой задаче основаны на правилах, но такие методы не масштабируются на длинный хвост распределения. RL, с другой стороны, масштабируем и не страдает от накопления ошибок, как обучение с подражанием. Современные RL-подходы для вождения используют сложные составные вознаграждения, суммирующие несколько отдельных вознаграждений, например, за прогресс, позицию или ориентацию. Мы показываем, что PPO не может оптимизировать популярную версию этих вознаграждений при увеличении размера мини-батча, что ограничивает масштабируемость таких подходов. Вместо этого мы предлагаем новый дизайн вознаграждения, основанный в первую очередь на оптимизации одного интуитивного термина: завершения маршрута. Нарушения штрафуются завершением эпизода или мультипликативным уменьшением завершения маршрута. Мы обнаруживаем, что PPO хорошо масштабируется с большими размерами мини-батчей при обучении с нашим простым вознаграждением, даже улучшая производительность. Обучение с большими размерами мини-батчей позволяет эффективно масштабироваться за счет распределенного параллелизма данных. Мы масштабируем PPO до 300 миллионов выборок в CARLA и 500 миллионов выборок в nuPlan с использованием одного узла с 8 GPU. Полученная модель достигает 64 DS на бенчмарке CARLA longest6 v2, значительно превосходя другие RL-методы с более сложными вознаграждениями. Требуя лишь минимальных адаптаций по сравнению с использованием в CARLA, тот же метод становится лучшим подходом на основе обучения в nuPlan. Он набирает 91.3 в нереактивном и 90.6 в реактивном трафике на бенчмарке Val14, при этом работая на порядок быстрее, чем предыдущие работы.
Данный обзор представляет собой систематический анализ всестороннего исследования задач 3D-детекции объектов с использованием моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), — быстро развивающейся области на стыке 3D-компьютерного зрения и мультимодального искусственного интеллекта. Изучив более 100 научных статей, мы предлагаем первый систематический анализ, посвящённый 3D-детекции объектов с применением моделей, объединяющих зрение и язык. Мы начинаем с описания уникальных задач, связанных с 3D-детекцией объектов в рамках таких моделей, подчеркивая различия с 2D-детекцией в аспектах пространственного мышления и сложности данных. Традиционные подходы, использующие облака точек и воксельные сетки, сравниваются с современными фреймворками, такими как CLIP и 3D LLMs, которые обеспечивают открытую словарную детекцию и обобщение в условиях нулевого обучения. Мы рассматриваем ключевые архитектуры, стратегии предварительного обучения и методы инженерии промптов, которые согласуют текстовые и 3D-признаки для эффективной 3D-детекции объектов с использованием моделей, объединяющих зрение и язык. Примеры визуализации и оценочные бенчмарки обсуждаются для иллюстрации производительности и поведения моделей. В заключение мы выделяем текущие проблемы, такие как ограниченность наборов данных, сочетающих 3D и язык, и высокие вычислительные требования, а также предлагаем направления для будущих исследований, направленных на развитие 3D-детекции объектов с использованием моделей, объединяющих зрение и язык. >Детекция объектов, Модели, объединяющие зрение и язык, Агенты, VLMs, LLMs, ИИ