Ежедневно отобранные исследовательские статьи по ИИ с переводами
Чтобы выживать и процветать в сложных условиях, люди развили изощренные механизмы самосовершенствования через исследование окружающей среды, иерархическую абстракцию опыта в повторно используемые навыки и совместное создание постоянно растущего репертуара умений. Несмотря на недавние достижения, автономные веб-агенты все еще испытывают недостаток в ключевых способностях к самосовершенствованию, сталкиваясь с трудностями в абстракции процедурных знаний, улучшении навыков и их композиции. В данной работе мы представляем SkillWeaver — ориентированную на навыки структуру, которая позволяет агентам самосовершенствоваться путем автономного синтеза повторно используемых навыков в виде API. При работе с новым веб-сайтом агент самостоятельно обнаруживает навыки, выполняет их для практики и извлекает из опыта практики надежные API. Итеративное исследование непрерывно расширяет библиотеку легковесных, готовых к использованию API, значительно повышая возможности агента. Эксперименты на WebArena и реальных веб-сайтах демонстрируют эффективность SkillWeaver, достигая относительного улучшения показателей успешности на 31,8% и 39,8% соответственно. Кроме того, API, синтезированные сильными агентами, существенно улучшают возможности слабых агентов за счет передачи навыков, что приводит к улучшению до 54,3% на WebArena. Эти результаты подтверждают эффективность преобразования разнообразных взаимодействий с веб-сайтами в API, которые могут быть легко использованы различными веб-агентами.
Мы представляем OLMoTrace — первую систему, которая в режиме реального времени отслеживает выходные данные языковых моделей до их полных обучающих данных объемом в несколько триллионов токенов. OLMoTrace находит и отображает дословные совпадения между фрагментами выходных данных языковой модели и документами в обучающих текстовых корпусах. Благодаря расширенной версии infini-gram (Liu et al., 2024), наша система возвращает результаты трассировки за несколько секунд. OLMoTrace помогает пользователям понять поведение языковых моделей через призму их обучающих данных. Мы демонстрируем, как её можно использовать для исследования проверки фактов, галлюцинаций и креативности языковых моделей. OLMoTrace доступна публично и полностью открыта для использования.
Диффузионные трансформеры продемонстрировали выдающееся качество генерации, хотя и требуют более длительных итераций обучения и множества шагов вывода. На каждом шаге удаления шума диффузионные трансформеры кодируют зашумленные входные данные для извлечения низкочастотной семантической составляющей, а затем декодируют высокочастотную составляющую с использованием идентичных модулей. Эта схема создает внутреннюю оптимизационную дилемму: кодирование низкочастотной семантики требует уменьшения высокочастотных компонентов, что создает напряжение между семантическим кодированием и высокочастотным декодированием. Для решения этой проблемы мы предлагаем новый \color{ddtD}разделенный \color{ddtD}диффузионный \color{ddtT}трансформер~(\color{ddtDDT}), с разделенной архитектурой, включающей выделенный кодировщик условий для извлечения семантики и специализированный декодировщик скорости. Наши эксперименты показывают, что более мощный кодировщик приводит к улучшению производительности с увеличением размера модели. Для ImageNet 256×256 наш DDT-XL/2 достигает нового рекордного показателя {1.31 FID}~(почти в 4 раза быстрее сходимости обучения по сравнению с предыдущими диффузионными трансформерами). Для ImageNet 512×512 наш DDT-XL/2 достигает нового рекордного FID 1.28. Кроме того, как полезный побочный эффект, наша разделенная архитектура повышает скорость вывода за счет возможности совместного использования самокондиционирования между соседними шагами удаления шума. Для минимизации снижения производительности мы предлагаем новый подход статистического динамического программирования для определения оптимальных стратегий совместного использования.
Мы обнаружили, что длина ответов рассуждающих языковых моделей (LLM), независимо от того, обучены ли они с подкреплением или с учителем, резко увеличивается для некорректных вопросов с отсутствующими предпосылками (MiP), что приводит к избыточному и неэффективному мышлению. Этот новый сценарий значительно усугубляет общую проблему чрезмерного мышления, которую мы называем MiP-Overthinking. Такие сбои противоречат «закону масштабирования на этапе тестирования», но широко наблюдаются на нескольких наборах данных, которые мы создали с MiP, что указывает на вред дешевого чрезмерного мышления и отсутствие критического мышления. Удивительно, но LLM, не предназначенные специально для рассуждений, демонстрируют гораздо лучшую производительность в сценарии MiP, выдавая гораздо более короткие ответы, которые быстро идентифицируют некорректные запросы. Это указывает на критический недостаток текущего подхода к обучению рассуждающих LLM, который недостаточно поощряет эффективное мышление, что приводит к злоупотреблению шаблонами мышления. Чтобы глубже изучить причины таких сбоев, мы проводим детальный анализ длины рассуждений, паттернов чрезмерного мышления и местоположения критического мышления у различных типов LLM. Более того, наше расширенное исследование с исключением факторов показывает, что чрезмерное мышление заразно через дистилляцию ответов моделей рассуждений. Эти результаты улучшают понимание проблемы чрезмерного мышления и предлагают новые идеи для её смягчения.
Создание реалистичного анимируемого аватара из одного статичного портрета остается сложной задачей. Существующие подходы часто не могут точно передать тонкие выражения лица, связанные с ними глобальные движения тела и динамичный фон. Чтобы устранить эти ограничения, мы предлагаем новую структуру, которая использует предварительно обученную модель видео-диффузионного трансформера для генерации высококачественных, согласованных говорящих портретов с контролируемой динамикой движений. В основе нашей работы лежит двухэтапная стратегия аудиовизуального согласования. На первом этапе мы применяем схему обучения на уровне клипов для установления согласованных глобальных движений путем выравнивания аудио-управляемой динамики по всей сцене, включая референсный портрет, контекстные объекты и фон. На втором этапе мы уточняем движения губ на уровне кадров с использованием маски трассировки губ, обеспечивая точную синхронизацию с аудиосигналами. Для сохранения идентичности без ущерба для гибкости движений мы заменяем обычно используемую референсную сеть на модуль кросс-внимания, сфокусированный на лице, который эффективно поддерживает согласованность лица на протяжении всего видео. Кроме того, мы интегрируем модуль модуляции интенсивности движений, который явно контролирует интенсивность выражений и движений тела, позволяя управлять движениями портрета за пределами простого движения губ. Обширные экспериментальные результаты показывают, что наш подход достигает более высокого качества с лучшей реалистичностью, согласованностью, интенсивностью движений и сохранением идентичности. Наша страница проекта: https://fantasy-amap.github.io/fantasy-talking/.
Генерация изображений с условиями привлекает значительное внимание благодаря своей способности персонализировать контент. Однако в этой области существуют сложности в разработке универсальных, надежных и объяснимых метрик оценки. В данной статье представлен CIGEval — унифицированный агентный фреймворк для комплексной оценки задач генерации изображений с условиями. CIGEval использует крупные мультимодальные модели (LMM) в качестве ядра, интегрируя многофункциональный инструментарий и создавая детализированную систему оценки. Кроме того, мы синтезируем траектории оценки для тонкой настройки, позволяя меньшим LMM автономно выбирать подходящие инструменты и проводить детальный анализ на основе их результатов. Эксперименты на семи ключевых задачах генерации изображений с условиями показывают, что CIGEval (версия GPT-4o) достигает высокой корреляции 0,4625 с оценками людей, что близко к межэкспертной корреляции 0,47. Более того, при реализации с использованием открытых LMM объемом 7B и всего 2,3K обучающих траекторий CIGEval превосходит предыдущий метод, основанный на GPT-4o. Кейс-стади по генерации изображений с помощью GPT-4o подчеркивают способность CIGEval выявлять тонкие проблемы, связанные с согласованностью объектов и соблюдением управляющих указаний, что указывает на его большой потенциал для автоматизации оценки задач генерации изображений с надежностью, сопоставимой с человеческой.
Проектирование траектории камеры играет ключевую роль в производстве видео, являясь фундаментальным инструментом для передачи режиссерского замысла и усиления визуального повествования. В кинематографии операторы-постановщики тщательно продумывают движения камеры, чтобы достичь выразительного и осмысленного кадрирования. Однако существующие методы генерации траекторий камеры остаются ограниченными: традиционные подходы опираются на геометрическую оптимизацию или ручные процедурные системы, в то время как современные методы, основанные на обучении, часто наследуют структурные предубеждения или не учитывают текстовое соответствие, что ограничивает творческий синтез. В данной работе мы представляем авторегрессивную модель, вдохновленную опытом операторов-постановщиков, для генерации художественных и выразительных траекторий камеры. Сначала мы представляем DataDoP — крупномасштабный мультимодальный набор данных, содержащий 29 тысяч реальных съемок с траекториями свободного движения камеры, картами глубины и подробными описаниями, включающими конкретные движения, взаимодействие со сценой и режиссерский замысел. Благодаря всеобъемлющей и разнообразной базе данных, мы обучаем авторегрессивный декодер-трансформер для генерации высококачественных, контекстно-зависимых движений камеры на основе текстовых указаний и RGBD-входов, названный GenDoP. Многочисленные эксперименты показывают, что по сравнению с существующими методами GenDoP обеспечивает лучшую управляемость, более тонкую настройку траекторий и более высокую стабильность движений. Мы считаем, что наш подход устанавливает новый стандарт для обучения в области кинематографии, прокладывая путь для будущих достижений в управлении камерой и кинопроизводстве. Наш проект доступен по адресу: https://kszpxxzmc.github.io/GenDoP/.
Рассуждения стали следующим важным рубежом для языковых моделей (ЯМ), с быстрыми достижениями как в академических, так и в промышленных лабораториях. Однако этот прогресс часто опережает методологическую строгость, при этом многие оценки основываются на практиках тестирования, которым не хватает прозрачности, устойчивости или статистической обоснованности. В данной работе мы проводим всестороннее эмпирическое исследование и обнаруживаем, что текущие бенчмарки для математических рассуждений крайне чувствительны к незначительным изменениям в реализации — включая параметры декодирования, случайные начальные значения, форматирование запросов и даже конфигурации аппаратного и программного обеспечения. Улучшения производительности, заявленные в последних исследованиях, часто зависят от неясных сравнений или неучтённых источников вариативности. Чтобы решить эти проблемы, мы предлагаем стандартизированную систему оценки с чётко определёнными лучшими практиками и стандартами отчётности. Используя эту систему, мы переоцениваем недавние методы и обнаруживаем, что подходы с обучением с подкреплением (RL) дают лишь скромные улучшения — значительно ниже предыдущих заявлений — и склонны к переобучению, особенно на небольших бенчмарках, таких как AIME24. В то же время методы тонкой настройки с учителем (SFT) демонстрируют более стабильную способность к обобщению. Для обеспечения воспроизводимости мы публикуем весь код, запросы и выходные данные моделей для бенчмарков рассуждений, закладывая более строгие основы для будущих исследований.
Мы представляем OmniCaptioner — универсальную систему генерации текстовых описаний для создания детализированных текстовых описаний в широком спектре визуальных областей. В отличие от предыдущих методов, ограниченных конкретными типами изображений (например, естественные изображения или геометрические визуализации), наша система предлагает единое решение для описания естественных изображений, визуального текста (например, плакатов, интерфейсов, учебников) и структурированных визуальных данных (например, документов, таблиц, графиков). Преобразуя низкоуровневую пиксельную информацию в семантически насыщенные текстовые представления, наша система устраняет разрыв между визуальными и текстовыми модальностями. Наши результаты подчеркивают три ключевых преимущества: (i) Улучшенное визуальное рассуждение с использованием LLM, где длинные контекстные описания визуальных модальностей позволяют LLM, в частности серии DeepSeek-R1, эффективно рассуждать в мультимодальных сценариях; (ii) Улучшенная генерация изображений, где детализированные описания улучшают задачи, такие как генерация изображений по тексту и преобразование изображений; и (iii) Эффективная контролируемая тонкая настройка (SFT), которая обеспечивает более быструю сходимость с меньшим объемом данных. Мы считаем, что универсальность и адаптивность OmniCaptioner могут предложить новый взгляд на устранение разрыва между языковыми и визуальными модальностями.
Хотя рассуждения во время тестирования позволяют языковым моделям справляться со сложными задачами, поиск или планирование на естественном языке могут быть медленными, затратными и подверженными ошибкам. Однако даже когда языковые модели (LM) испытывают трудности с точным воспроизведением шагов рассуждений, необходимых для решения задачи, они часто преуспевают в описании её абстрактной структуры — как в проверке решений, так и в поиске этих решений. В данной статье представлен метод DisCIPL, который позволяет языковым моделям "самоуправляться": модель-планировщик генерирует специфическую для задачи программу вывода, которая выполняется группой моделей-исполнителей. Наш подход наделяет языковые модели способностью создавать рекурсивные процедуры поиска, которые направляют вывод LM, открывая новые возможности для проверяемого и эффективного рассуждения. При использовании небольшой модели-исполнителя (например, Llama-3.2-1B) DisCIPL демонстрирует результаты, сопоставимые (а иногда и превосходящие) с гораздо более крупными моделями, включая GPT-4o и o1, на сложных задачах генерации с ограничениями. Разделяя планирование и выполнение, наша работа открывает пространство для разработки высокопараллельных стратегий вывода методом Монте-Карло, которые превосходят стандартный метод выборки best-of-N, не требуют тонкой настройки и могут быть автоматически реализованы существующими языковыми моделями.
Мы представляем CAT-V (Caption AnyThing in Video) — обучение-независимую структуру для детализированного объектно-ориентированного описания видео, которая позволяет создавать подробные описания выбранных пользователем объектов с течением времени. CAT-V объединяет три ключевых компонента: Сегментатор на основе SAMURAI для точного выделения объектов на кадрах, Временной Анализатор, работающий на базе TRACE-Uni для точного определения границ событий и временного анализа, и Описатель, использующий InternVL-2.5 для генерации детализированных объектно-ориентированных описаний. Благодаря пространственно-временным визуальным подсказкам и цепочке рассуждений, наша структура создает подробные, временно-осознанные описания атрибутов, действий, состояний, взаимодействий и контекстов окружающей среды объектов без необходимости дополнительных обучающих данных. CAT-V поддерживает гибкое взаимодействие с пользователем через различные визуальные подсказки (точки, ограничивающие рамки и неправильные области) и сохраняет временную чувствительность, отслеживая состояния и взаимодействия объектов на разных временных отрезках. Наш подход устраняет ограничения существующих методов описания видео, которые либо создают слишком абстрактные описания, либо не обладают точностью на уровне объектов, обеспечивая детализированные, объектно-специфичные описания с сохранением временной согласованности и пространственной точности. Репозиторий GitHub для этого проекта доступен по адресу https://github.com/yunlong10/CAT-V.
Последние достижения в области обучения с подкреплением значительно расширили возможности рассуждения мультимодальных больших языковых моделей (MLLM). Хотя такие подходы, как оптимизация групповой относительной политики (GRPO) и механизмы вознаграждения на основе правил, демонстрируют перспективность в текстовых и визуальных доменах, их применение для понимания видео остается ограниченным. В данной статье представлено систематическое исследование тонкой настройки с подкреплением (RFT) с использованием GRPO для видео-MLLM, направленное на улучшение пространственно-временного восприятия при сохранении общих возможностей. Наши эксперименты показывают, что RFT является высокоэффективным с точки зрения данных для улучшения, специфичных для задач. Благодаря многоцелевой RFT на задачах пространственно-временного восприятия с ограниченным количеством образцов мы разработали VideoChat-R1 — мощную видео-MLLM, которая достигает передовых результатов в задачах пространственно-временного восприятия, не жертвуя способностью к диалогу, и демонстрирует зарождающиеся способности к пространственно-временному рассуждению. По сравнению с Qwen2.5-VL-7B, VideoChat-R1 значительно улучшает производительность в таких задачах, как временная локализация (+31,8) и отслеживание объектов (+31,2). Кроме того, она существенно улучшает результаты на общих бенчмарках вопросов и ответов, таких как VideoMME (+0,9), MVBench (+1,0) и Perception Test (+0,9). Наши результаты подчеркивают потенциал RFT для специализированного улучшения задач видео-MLLM. Мы надеемся, что наша работа предоставит ценные идеи для будущих исследований в области обучения с подкреплением для видео-MLLM.
Создание естественных и детализированных движений слушателя в ходе продолжительных взаимодействий остается нерешенной задачей. Существующие методы часто полагаются на низкоразмерные коды движений для генерации мимики с последующим фотореалистичным рендерингом, что ограничивает как визуальное качество, так и выразительное богатство. Для решения этих проблем мы представляем DiTaiListener, основанный на модели видеодиффузии с мультимодальными условиями. Наш подход сначала генерирует короткие сегменты реакций слушателя, обусловленные речью и мимикой говорящего, с помощью DiTaiListener-Gen. Затем он уточняет переходные кадры через DiTaiListener-Edit для обеспечения плавного перехода. В частности, DiTaiListener-Gen адаптирует Diffusion Transformer (DiT) для задачи генерации портрета головы слушателя, вводя Causal Temporal Multimodal Adapter (CTM-Adapter) для обработки аудио- и визуальных сигналов говорящего. CTM-Adapter интегрирует входные данные говорящего в процесс генерации видео причинно-следственным образом, чтобы обеспечить временную согласованность реакций слушателя. Для генерации длинных видео мы представляем DiTaiListener-Edit, модель видеодиффузии для уточнения переходов. Эта модель объединяет видеосегменты в плавные и непрерывные видео, обеспечивая временную согласованность мимики и качества изображения при слиянии коротких видеосегментов, созданных DiTaiListener-Gen. Количественно DiTaiListener демонстрирует наилучшие результаты на эталонных наборах данных как в пространстве фотореализма (+73,8% по FID на RealTalk), так и в пространстве представления движений (+6,1% по метрике FD на VICO). Пользовательские исследования подтверждают превосходство DiTaiListener, причем модель явно предпочитается по отзывам, разнообразию и плавности, значительно опережая конкурентов.
Мы представляем WildGS-SLAM — надежную и эффективную систему монокулярного RGB SLAM, разработанную для работы в динамических средах с использованием геометрического картографирования, учитывающего неопределенность. В отличие от традиционных SLAM-систем, которые предполагают статичные сцены, наш подход интегрирует информацию о глубине и неопределенности для улучшения отслеживания, картографирования и рендеринга в присутствии движущихся объектов. Мы вводим карту неопределенности, предсказываемую с помощью неглубокого многослойного перцептрона и признаков DINOv2, чтобы направлять удаление динамических объектов как при отслеживании, так и при картографировании. Эта карта неопределенности улучшает плотную настройку связок и оптимизацию карты Гаусса, повышая точность реконструкции. Наша система протестирована на нескольких наборах данных и демонстрирует синтез изображений без артефактов. Результаты показывают превосходство WildGS-SLAM в динамических средах по сравнению с современными методами.
Самообучение произвело революцию в двумерной компьютерной зрении, позволив моделям, обученным на больших, неразмеченных наборах данных, предоставлять универсальные готовые функции, которые работают на уровне моделей, обученных с использованием меток. Однако в задачах понимания трехмерных сцен методы самообучения обычно используются только как этап инициализации весов для последующей тонкой настройки под конкретные задачи, что ограничивает их полезность для извлечения общих признаков. В данной статье мы устраняем этот недостаток, предлагая надежный протокол оценки, специально разработанный для проверки качества признаков, полученных с помощью самообучения, в задачах понимания 3D-сцен. Наш протокол использует многоуровневую выборку признаков из иерархических моделей для создания богатых точечных представлений, которые отражают семантические возможности модели и, следовательно, подходят для оценки с помощью линейного зондирования и методов ближайших соседей. Кроме того, мы представляем первую самообучаемую модель, которая демонстрирует результаты, сопоставимые с контролируемыми моделями, когда используются только готовые признаки в рамках линейного зондирования. В частности, наша модель обучается непосредственно в 3D с использованием нового подхода к самообучению, основанного на задаче Masked Scene Modeling, которая восстанавливает глубокие признаки замаскированных участков снизу вверх и специально адаптирована для иерархических 3D-моделей. Наши эксперименты не только показывают, что наш метод достигает конкурентоспособных результатов по сравнению с контролируемыми моделями, но и значительно превосходит существующие подходы к самообучению. Модель и код для обучения доступны в нашем репозитории на GitHub (https://github.com/phermosilla/msm).
Обучение с фокусом на объектах (Object-centric learning, OCL) стремится к изучению представлений, которые кодируют только объект, изолированный от других объектов или фоновых элементов в сцене. Этот подход лежит в основе различных целей, включая обобщение за пределами распределения (out-of-distribution, OOD), эффективное композиционирование с использованием малого числа примеров и моделирование структурированных сред. Большинство исследований сосредоточено на разработке неконтролируемых механизмов, которые разделяют объекты на дискретные слоты в пространстве представлений, оценивая их с помощью неконтролируемого обнаружения объектов. Однако с появлением современных моделей сегментации, эффективных по количеству примеров, мы можем разделять объекты в пространстве пикселей и кодировать их независимо. Это позволяет достичь впечатляющей производительности на тестах OOD для обнаружения объектов, масштабируется до базовых моделей и может работать с переменным числом слотов "из коробки". Таким образом, цель методов OCL — получение объектно-ориентированных представлений — в значительной степени достигнута. Несмотря на этот прогресс, ключевой вопрос остается: как способность разделять объекты в сцене способствует более широким целям OCL, таким как обобщение OOD? Мы исследуем эту проблему, рассматривая вызов OOD, вызванный ложными фоновыми элементами, через призму OCL. Мы предлагаем новый, не требующий обучения метод под названием "Классификация с фокусом на объектах с применением масок" (Object-Centric Classification with Applied Masks, OCCAM), демонстрируя, что кодирование отдельных объектов на основе сегментации значительно превосходит методы OCL, основанные на слотах. Однако в реальных приложениях остаются вызовы. Мы предоставляем инструментарий для сообщества OCL, позволяющий использовать масштабируемые объектно-ориентированные представления, и сосредотачиваемся на практических приложениях и фундаментальных вопросах, таких как понимание восприятия объектов в человеческом познании. Наш код доступен {здесь}(https://github.com/AlexanderRubinstein/OCCAM).
Крупные языковые модели (LLM) продемонстрировали потенциал в качестве инструментов для научных открытий. Это вызвало растущий интерес к их использованию в гуманитарных дисциплинах, таких как историческая лингвистика и литературоведение. В этих областях аргументы часто строятся на основе классификаций, таких как жанр, или более жестких критериев, таких как временной период. Хотя предпринимались попытки ограничить вывод моделей конкретными областями с помощью тонкой настройки или редактирования моделей, мы утверждаем, что единственной истинной гарантией является предварительное обучение в ограниченной области — как правило, ресурсоемкий процесс, требующий значительных объемов данных и вычислительных мощностей. Мы показываем, что эффективные методы предварительного обучения могут создавать полезные модели на корпусах, которые слишком велики для ручного анализа, но слишком малы для "типичных" подходов с использованием LLM. Мы применяем инновационный конвейер для атрибуции дат, чтобы получить временно сегментированный набор данных из пяти срезов по 10 миллионов слов. Мы обучаем две соответствующие группы из пяти моделей на этих сегментах корпуса: одну с использованием эффективного предварительного обучения, а другую — с эффективной тонкой настройкой модели Llama3-8B. Мы обнаруживаем, что модели, прошедшие предварительное обучение, обучаются быстрее, чем базовые модели с тонкой настройкой, и лучше учитывают исторические разделения нашего корпуса. Акцент на скорости и точности, а не на аисторической всеобъемлемости, позволяет разработать ряд новых подходов к обнаружению и проверке гипотез в наших целевых областях. Используя диахроническую лингвистику в качестве тестовой площадки, мы показываем, что наш метод позволяет обнаруживать разнообразные явления, включая массовые лексические изменения, нелексические (грамматические и морфологические) изменения, а также введение и устаревание значений слов. Мы предоставляем готовый к использованию конвейер, который позволяет адаптировать наш подход к другим целевым областям с минимальными изменениями.
Надежный захват различных объектов на основе однокадрового восприятия является фундаментальной задачей для ловких роботов. Предыдущие работы часто полагаются на полностью наблюдаемые объекты, экспертные демонстрации или статические позы захвата, что ограничивает их способность к обобщению и адаптации к внешним возмущениям. В данной статье мы представляем основанный на обучении с подкреплением фреймворк, который позволяет выполнять динамический захват широкого спектра невидимых объектов на основе однокадрового восприятия с нулевым обучением, одновременно адаптируясь к внешним возмущениям. Мы используем представление объектов, центрированное на руке, для извлечения признаков формы, что подчеркивает локальные формы, релевантные взаимодействию, повышая устойчивость к вариациям формы и неопределенности. Для эффективной адаптации руки к возмущениям при ограниченных наблюдениях мы предлагаем смешанную стратегию обучения с постепенным усложнением, которая сначала использует имитационное обучение для извлечения политики, обученной с привилегированным визуально-тактильным обратным связью в реальном времени, а затем постепенно переходит к обучению с подкреплением для изучения адаптивных движений при возмущениях, вызванных шумами наблюдения и динамической рандомизацией. Наши эксперименты демонстрируют сильное обобщение в захвате невидимых объектов с случайными позами, достигая успешности 97,0% на 247 786 симулированных объектах и 94,6% на 512 реальных объектах. Мы также показываем устойчивость нашего метода к различным возмущениям, включая неожиданное движение объектов и внешние силы, с помощью количественных и качественных оценок. Страница проекта: https://zdchan.github.io/Robust_DexGrasp/
В данной статье мы представляем задачу Dialogue Evaluation по извлечению структурированных мнений из русскоязычных новостных текстов. Цель конкурса заключается в извлечении кортежей мнений для заданного предложения; эти кортежи состоят из источника мнения, его объекта, выражения и настроения, направленного от источника к объекту. Всего на задачу было подано более 100 решений. Участники экспериментировали в основном с крупными языковыми моделями в форматах zero-shot, few-shot и тонкой настройки. Лучший результат на тестовом наборе данных был достигнут с использованием тонкой настройки крупной языковой модели. Мы также сравнили 30 промптов и 11 открытых языковых моделей с параметрами от 3 до 32 миллиардов в условиях 1-shot и 10-shot и определили лучшие модели и промпты.
Основной подход к генерации с использованием языковых моделей с учетом определенных ограничений — это локально ограниченное декодирование (LCD), при котором на каждом шаге пошагово выбираются токены, не нарушающие заданное ограничение. Обычно это достигается с помощью маскирования токенов: перебора всего словаря и исключения токенов, не соответствующих ограничению. Однако у этого подхода есть две важные проблемы. (i) Проверка ограничения для каждого токена может быть чрезмерно затратной — словари языковых моделей часто превышают 100 000 токенов. (ii) LCD может искажать глобальное распределение строк, выбирая токены только на основе локальной информации, даже если это ведет к тупиковым путям. В данной работе представлен новый алгоритм, который решает обе эти проблемы. Во-первых, чтобы избежать проверки ограничения на всем словаре на каждом шаге генерации, мы предлагаем адаптивный алгоритм отбраковки, который обычно требует на порядки меньше проверок ограничений. Во-вторых, мы показываем, как этот алгоритм можно расширить для получения низкодисперсионных и несмещенных оценок весов важности с минимальными дополнительными затратами — оценки, которые можно надежно использовать в ранее предложенных алгоритмах последовательного Монте-Карло для коррекции близорукого поведения локального применения ограничений. Благодаря обширной эмпирической оценке в областях текста в SQL, синтеза молекул, вывода целей, сопоставления шаблонов и JSON, мы показываем, что наш подход превосходит современные базовые методы, поддерживая более широкий класс ограничений и улучшая как время выполнения, так и производительность. Дополнительные теоретические и эмпирические анализы показывают, что эффективность времени выполнения нашего метода обусловлена динамическим использованием вычислений, масштабируемым в зависимости от расхождения между неограниченной и ограниченной языковой моделью, и, как следствие, улучшения времени выполнения более значительны для более качественных моделей.