ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

OLMoTrace: Отслеживание выходных данных языковых моделей до триллионов обучающих токенов
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9
ByJiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge
76
3

Мы представляем OLMoTrace — первую систему, которая в режиме реального времени отслеживает выходные данные языковых моделей до их полных обучающих данных объемом в несколько триллионов токенов. OLMoTrace находит и отображает дословные совпадения между фрагментами выходных данных языковой модели и документами в обучающих текстовых корпусах. Благодаря расширенной версии infini-gram (Liu et al., 2024), наша система возвращает результаты трассировки за несколько секунд. OLMoTrace помогает пользователям понять поведение языковых моделей через призму их обучающих данных. Мы демонстрируем, как её можно использовать для исследования проверки фактов, галлюцинаций и креативности языковых моделей. OLMoTrace доступна публично и полностью открыта для использования.

2

DDT: Декомбинированный диффузионный трансформер
DDT: Decoupled Diffusion Transformer

Apr 8
ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang
76
3

Диффузионные трансформеры продемонстрировали выдающееся качество генерации, хотя и требуют более длительных итераций обучения и множества шагов вывода. На каждом шаге удаления шума диффузионные трансформеры кодируют зашумленные входные данные для извлечения низкочастотной семантической составляющей, а затем декодируют высокочастотную составляющую с использованием идентичных модулей. Эта схема создает внутреннюю оптимизационную дилемму: кодирование низкочастотной семантики требует уменьшения высокочастотных компонентов, что создает напряжение между семантическим кодированием и высокочастотным декодированием. Для решения этой проблемы мы предлагаем новый \color{ddtD}разделенный \color{ddtD}диффузионный \color{ddtT}трансформер~(\color{ddtDDT}), с разделенной архитектурой, включающей выделенный кодировщик условий для извлечения семантики и специализированный декодировщик скорости. Наши эксперименты показывают, что более мощный кодировщик приводит к улучшению производительности с увеличением размера модели. Для ImageNet 256×256 наш DDT-XL/2 достигает нового рекордного показателя {1.31 FID}~(почти в 4 раза быстрее сходимости обучения по сравнению с предыдущими диффузионными трансформерами). Для ImageNet 512×512 наш DDT-XL/2 достигает нового рекордного FID 1.28. Кроме того, как полезный побочный эффект, наша разделенная архитектура повышает скорость вывода за счет возможности совместного использования самокондиционирования между соседними шагами удаления шума. Для минимизации снижения производительности мы предлагаем новый подход статистического динамического программирования для определения оптимальных стратегий совместного использования.

3

Отсутствие предпосылок усугубляет чрезмерное обдумывание: Теряют ли модели рассуждений навыки критического мышления?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9
ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou
39
3

Мы обнаружили, что длина ответов рассуждающих языковых моделей (LLM), независимо от того, обучены ли они с подкреплением или с учителем, резко увеличивается для некорректных вопросов с отсутствующими предпосылками (MiP), что приводит к избыточному и неэффективному мышлению. Этот новый сценарий значительно усугубляет общую проблему чрезмерного мышления, которую мы называем MiP-Overthinking. Такие сбои противоречат «закону масштабирования на этапе тестирования», но широко наблюдаются на нескольких наборах данных, которые мы создали с MiP, что указывает на вред дешевого чрезмерного мышления и отсутствие критического мышления. Удивительно, но LLM, не предназначенные специально для рассуждений, демонстрируют гораздо лучшую производительность в сценарии MiP, выдавая гораздо более короткие ответы, которые быстро идентифицируют некорректные запросы. Это указывает на критический недостаток текущего подхода к обучению рассуждающих LLM, который недостаточно поощряет эффективное мышление, что приводит к злоупотреблению шаблонами мышления. Чтобы глубже изучить причины таких сбоев, мы проводим детальный анализ длины рассуждений, паттернов чрезмерного мышления и местоположения критического мышления у различных типов LLM. Более того, наше расширенное исследование с исключением факторов показывает, что чрезмерное мышление заразно через дистилляцию ответов моделей рассуждений. Эти результаты улучшают понимание проблемы чрезмерного мышления и предлагают новые идеи для её смягчения.

4

FantasyTalking: Генерация реалистичных говорящих портретов через синтез согласованных движений
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7
ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
35
4

Создание реалистичного анимируемого аватара из одного статичного портрета остается сложной задачей. Существующие подходы часто не могут точно передать тонкие выражения лица, связанные с ними глобальные движения тела и динамичный фон. Чтобы устранить эти ограничения, мы предлагаем новую структуру, которая использует предварительно обученную модель видео-диффузионного трансформера для генерации высококачественных, согласованных говорящих портретов с контролируемой динамикой движений. В основе нашей работы лежит двухэтапная стратегия аудиовизуального согласования. На первом этапе мы применяем схему обучения на уровне клипов для установления согласованных глобальных движений путем выравнивания аудио-управляемой динамики по всей сцене, включая референсный портрет, контекстные объекты и фон. На втором этапе мы уточняем движения губ на уровне кадров с использованием маски трассировки губ, обеспечивая точную синхронизацию с аудиосигналами. Для сохранения идентичности без ущерба для гибкости движений мы заменяем обычно используемую референсную сеть на модуль кросс-внимания, сфокусированный на лице, который эффективно поддерживает согласованность лица на протяжении всего видео. Кроме того, мы интегрируем модуль модуляции интенсивности движений, который явно контролирует интенсивность выражений и движений тела, позволяя управлять движениями портрета за пределами простого движения губ. Обширные экспериментальные результаты показывают, что наш подход достигает более высокого качества с лучшей реалистичностью, согласованностью, интенсивностью движений и сохранением идентичности. Наша страница проекта: https://fantasy-amap.github.io/fantasy-talking/.

5

Унифицированный агентный фреймворк для оценки условной генерации изображений
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9
ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
30
2

Генерация изображений с условиями привлекает значительное внимание благодаря своей способности персонализировать контент. Однако в этой области существуют сложности в разработке универсальных, надежных и объяснимых метрик оценки. В данной статье представлен CIGEval — унифицированный агентный фреймворк для комплексной оценки задач генерации изображений с условиями. CIGEval использует крупные мультимодальные модели (LMM) в качестве ядра, интегрируя многофункциональный инструментарий и создавая детализированную систему оценки. Кроме того, мы синтезируем траектории оценки для тонкой настройки, позволяя меньшим LMM автономно выбирать подходящие инструменты и проводить детальный анализ на основе их результатов. Эксперименты на семи ключевых задачах генерации изображений с условиями показывают, что CIGEval (версия GPT-4o) достигает высокой корреляции 0,4625 с оценками людей, что близко к межэкспертной корреляции 0,47. Более того, при реализации с использованием открытых LMM объемом 7B и всего 2,3K обучающих траекторий CIGEval превосходит предыдущий метод, основанный на GPT-4o. Кейс-стади по генерации изображений с помощью GPT-4o подчеркивают способность CIGEval выявлять тонкие проблемы, связанные с согласованностью объектов и соблюдением управляющих указаний, что указывает на его большой потенциал для автоматизации оценки задач генерации изображений с надежностью, сопоставимой с человеческой.

6

GenDoP: Авторегрессионная генерация траектории камеры как операторская работа
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9
ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
22
2

Проектирование траектории камеры играет ключевую роль в производстве видео, являясь фундаментальным инструментом для передачи режиссерского замысла и усиления визуального повествования. В кинематографии операторы-постановщики тщательно продумывают движения камеры, чтобы достичь выразительного и осмысленного кадрирования. Однако существующие методы генерации траекторий камеры остаются ограниченными: традиционные подходы опираются на геометрическую оптимизацию или ручные процедурные системы, в то время как современные методы, основанные на обучении, часто наследуют структурные предубеждения или не учитывают текстовое соответствие, что ограничивает творческий синтез. В данной работе мы представляем авторегрессивную модель, вдохновленную опытом операторов-постановщиков, для генерации художественных и выразительных траекторий камеры. Сначала мы представляем DataDoP — крупномасштабный мультимодальный набор данных, содержащий 29 тысяч реальных съемок с траекториями свободного движения камеры, картами глубины и подробными описаниями, включающими конкретные движения, взаимодействие со сценой и режиссерский замысел. Благодаря всеобъемлющей и разнообразной базе данных, мы обучаем авторегрессивный декодер-трансформер для генерации высококачественных, контекстно-зависимых движений камеры на основе текстовых указаний и RGBD-входов, названный GenDoP. Многочисленные эксперименты показывают, что по сравнению с существующими методами GenDoP обеспечивает лучшую управляемость, более тонкую настройку траекторий и более высокую стабильность движений. Мы считаем, что наш подход устанавливает новый стандарт для обучения в области кинематографии, прокладывая путь для будущих достижений в управлении камерой и кинопроизводстве. Наш проект доступен по адресу: https://kszpxxzmc.github.io/GenDoP/.

7

Трезвый взгляд на прогресс в рассуждениях языковых моделей: ловушки и пути к воспроизводимости
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9
ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
21
3

Рассуждения стали следующим важным рубежом для языковых моделей (ЯМ), с быстрыми достижениями как в академических, так и в промышленных лабораториях. Однако этот прогресс часто опережает методологическую строгость, при этом многие оценки основываются на практиках тестирования, которым не хватает прозрачности, устойчивости или статистической обоснованности. В данной работе мы проводим всестороннее эмпирическое исследование и обнаруживаем, что текущие бенчмарки для математических рассуждений крайне чувствительны к незначительным изменениям в реализации — включая параметры декодирования, случайные начальные значения, форматирование запросов и даже конфигурации аппаратного и программного обеспечения. Улучшения производительности, заявленные в последних исследованиях, часто зависят от неясных сравнений или неучтённых источников вариативности. Чтобы решить эти проблемы, мы предлагаем стандартизированную систему оценки с чётко определёнными лучшими практиками и стандартами отчётности. Используя эту систему, мы переоцениваем недавние методы и обнаруживаем, что подходы с обучением с подкреплением (RL) дают лишь скромные улучшения — значительно ниже предыдущих заявлений — и склонны к переобучению, особенно на небольших бенчмарках, таких как AIME24. В то же время методы тонкой настройки с учителем (SFT) демонстрируют более стабильную способность к обобщению. Для обеспечения воспроизводимости мы публикуем весь код, запросы и выходные данные моделей для бенчмарков рассуждений, закладывая более строгие основы для будущих исследований.

8

OmniCaptioner: Единый генератор описаний для всех задач
OmniCaptioner: One Captioner to Rule Them All

Apr 9
ByYiting Lu, Jiakang Yuan, Zhen Li, Shitian Zhao, Qi Qin, Xinyue Li, Le Zhuo, Licheng Wen, Dongyang Liu, Yuewen Cao, Xiangchao Yan, Xin Li, Botian Shi, Tao Chen, Zhibo Chen, Lei Bai, Bo Zhang, Peng Gao
20
2

Мы представляем OmniCaptioner — универсальную систему генерации текстовых описаний для создания детализированных текстовых описаний в широком спектре визуальных областей. В отличие от предыдущих методов, ограниченных конкретными типами изображений (например, естественные изображения или геометрические визуализации), наша система предлагает единое решение для описания естественных изображений, визуального текста (например, плакатов, интерфейсов, учебников) и структурированных визуальных данных (например, документов, таблиц, графиков). Преобразуя низкоуровневую пиксельную информацию в семантически насыщенные текстовые представления, наша система устраняет разрыв между визуальными и текстовыми модальностями. Наши результаты подчеркивают три ключевых преимущества: (i) Улучшенное визуальное рассуждение с использованием LLM, где длинные контекстные описания визуальных модальностей позволяют LLM, в частности серии DeepSeek-R1, эффективно рассуждать в мультимодальных сценариях; (ii) Улучшенная генерация изображений, где детализированные описания улучшают задачи, такие как генерация изображений по тексту и преобразование изображений; и (iii) Эффективная контролируемая тонкая настройка (SFT), которая обеспечивает более быструю сходимость с меньшим объемом данных. Мы считаем, что универсальность и адаптивность OmniCaptioner могут предложить новый взгляд на устранение разрыва между языковыми и визуальными модальностями.

9

Самонаправляемые языковые модели
Self-Steering Language Models

Apr 9
ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas
18
2

Хотя рассуждения во время тестирования позволяют языковым моделям справляться со сложными задачами, поиск или планирование на естественном языке могут быть медленными, затратными и подверженными ошибкам. Однако даже когда языковые модели (LM) испытывают трудности с точным воспроизведением шагов рассуждений, необходимых для решения задачи, они часто преуспевают в описании её абстрактной структуры — как в проверке решений, так и в поиске этих решений. В данной статье представлен метод DisCIPL, который позволяет языковым моделям "самоуправляться": модель-планировщик генерирует специфическую для задачи программу вывода, которая выполняется группой моделей-исполнителей. Наш подход наделяет языковые модели способностью создавать рекурсивные процедуры поиска, которые направляют вывод LM, открывая новые возможности для проверяемого и эффективного рассуждения. При использовании небольшой модели-исполнителя (например, Llama-3.2-1B) DisCIPL демонстрирует результаты, сопоставимые (а иногда и превосходящие) с гораздо более крупными моделями, включая GPT-4o и o1, на сложных задачах генерации с ограничениями. Разделяя планирование и выполнение, наша работа открывает пространство для разработки высокопараллельных стратегий вывода методом Монте-Карло, которые превосходят стандартный метод выборки best-of-N, не требуют тонкой настройки и могут быть автоматически реализованы существующими языковыми моделями.

10

Описание всего в видео: детализированное объектно-ориентированное описание с помощью пространственно-временного мультимодального промптинга
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7
ByYunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu
15
1

Мы представляем CAT-V (Caption AnyThing in Video) — обучение-независимую структуру для детализированного объектно-ориентированного описания видео, которая позволяет создавать подробные описания выбранных пользователем объектов с течением времени. CAT-V объединяет три ключевых компонента: Сегментатор на основе SAMURAI для точного выделения объектов на кадрах, Временной Анализатор, работающий на базе TRACE-Uni для точного определения границ событий и временного анализа, и Описатель, использующий InternVL-2.5 для генерации детализированных объектно-ориентированных описаний. Благодаря пространственно-временным визуальным подсказкам и цепочке рассуждений, наша структура создает подробные, временно-осознанные описания атрибутов, действий, состояний, взаимодействий и контекстов окружающей среды объектов без необходимости дополнительных обучающих данных. CAT-V поддерживает гибкое взаимодействие с пользователем через различные визуальные подсказки (точки, ограничивающие рамки и неправильные области) и сохраняет временную чувствительность, отслеживая состояния и взаимодействия объектов на разных временных отрезках. Наш подход устраняет ограничения существующих методов описания видео, которые либо создают слишком абстрактные описания, либо не обладают точностью на уровне объектов, обеспечивая детализированные, объектно-специфичные описания с сохранением временной согласованности и пространственной точности. Репозиторий GitHub для этого проекта доступен по адресу https://github.com/yunlong10/CAT-V.

11

VideoChat-R1: Улучшение пространственно-временного восприятия с помощью тонкой настройки методом обучения с подкреплением
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9
ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang
12
2

Последние достижения в области обучения с подкреплением значительно расширили возможности рассуждения мультимодальных больших языковых моделей (MLLM). Хотя такие подходы, как оптимизация групповой относительной политики (GRPO) и механизмы вознаграждения на основе правил, демонстрируют перспективность в текстовых и визуальных доменах, их применение для понимания видео остается ограниченным. В данной статье представлено систематическое исследование тонкой настройки с подкреплением (RFT) с использованием GRPO для видео-MLLM, направленное на улучшение пространственно-временного восприятия при сохранении общих возможностей. Наши эксперименты показывают, что RFT является высокоэффективным с точки зрения данных для улучшения, специфичных для задач. Благодаря многоцелевой RFT на задачах пространственно-временного восприятия с ограниченным количеством образцов мы разработали VideoChat-R1 — мощную видео-MLLM, которая достигает передовых результатов в задачах пространственно-временного восприятия, не жертвуя способностью к диалогу, и демонстрирует зарождающиеся способности к пространственно-временному рассуждению. По сравнению с Qwen2.5-VL-7B, VideoChat-R1 значительно улучшает производительность в таких задачах, как временная локализация (+31,8) и отслеживание объектов (+31,2). Кроме того, она существенно улучшает результаты на общих бенчмарках вопросов и ответов, таких как VideoMME (+0,9), MVBench (+1,0) и Perception Test (+0,9). Наши результаты подчеркивают потенциал RFT для специализированного улучшения задач видео-MLLM. Мы надеемся, что наша работа предоставит ценные идеи для будущих исследований в области обучения с подкреплением для видео-MLLM.

12

WildGS-SLAM: Монохромное SLAM с использованием гауссовых сплайнов в динамических средах
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4
ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni
10
3

Мы представляем WildGS-SLAM — надежную и эффективную систему монокулярного RGB SLAM, разработанную для работы в динамических средах с использованием геометрического картографирования, учитывающего неопределенность. В отличие от традиционных SLAM-систем, которые предполагают статичные сцены, наш подход интегрирует информацию о глубине и неопределенности для улучшения отслеживания, картографирования и рендеринга в присутствии движущихся объектов. Мы вводим карту неопределенности, предсказываемую с помощью неглубокого многослойного перцептрона и признаков DINOv2, чтобы направлять удаление динамических объектов как при отслеживании, так и при картографировании. Эта карта неопределенности улучшает плотную настройку связок и оптимизацию карты Гаусса, повышая точность реконструкции. Наша система протестирована на нескольких наборах данных и демонстрирует синтез изображений без артефактов. Результаты показывают превосходство WildGS-SLAM в динамических средах по сравнению с современными методами.

13

DiTaiListener: Управляемая генерация высококачественных видео слушателя с использованием диффузии
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5
ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani
9
3

Создание естественных и детализированных движений слушателя в ходе продолжительных взаимодействий остается нерешенной задачей. Существующие методы часто полагаются на низкоразмерные коды движений для генерации мимики с последующим фотореалистичным рендерингом, что ограничивает как визуальное качество, так и выразительное богатство. Для решения этих проблем мы представляем DiTaiListener, основанный на модели видеодиффузии с мультимодальными условиями. Наш подход сначала генерирует короткие сегменты реакций слушателя, обусловленные речью и мимикой говорящего, с помощью DiTaiListener-Gen. Затем он уточняет переходные кадры через DiTaiListener-Edit для обеспечения плавного перехода. В частности, DiTaiListener-Gen адаптирует Diffusion Transformer (DiT) для задачи генерации портрета головы слушателя, вводя Causal Temporal Multimodal Adapter (CTM-Adapter) для обработки аудио- и визуальных сигналов говорящего. CTM-Adapter интегрирует входные данные говорящего в процесс генерации видео причинно-следственным образом, чтобы обеспечить временную согласованность реакций слушателя. Для генерации длинных видео мы представляем DiTaiListener-Edit, модель видеодиффузии для уточнения переходов. Эта модель объединяет видеосегменты в плавные и непрерывные видео, обеспечивая временную согласованность мимики и качества изображения при слиянии коротких видеосегментов, созданных DiTaiListener-Gen. Количественно DiTaiListener демонстрирует наилучшие результаты на эталонных наборах данных как в пространстве фотореализма (+73,8% по FID на RealTalk), так и в пространстве представления движений (+6,1% по метрике FD на VICO). Пользовательские исследования подтверждают превосходство DiTaiListener, причем модель явно предпочитается по отзывам, разнообразию и плавности, значительно опережая конкурентов.

14

Моделирование сцен с маскированием: сокращение разрыва между обучением с учителем и самообучением в понимании 3D-сцен
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9
ByPedro Hermosilla, Christian Stippel, Leon Sick
8
2

Самообучение произвело революцию в двумерной компьютерной зрении, позволив моделям, обученным на больших, неразмеченных наборах данных, предоставлять универсальные готовые функции, которые работают на уровне моделей, обученных с использованием меток. Однако в задачах понимания трехмерных сцен методы самообучения обычно используются только как этап инициализации весов для последующей тонкой настройки под конкретные задачи, что ограничивает их полезность для извлечения общих признаков. В данной статье мы устраняем этот недостаток, предлагая надежный протокол оценки, специально разработанный для проверки качества признаков, полученных с помощью самообучения, в задачах понимания 3D-сцен. Наш протокол использует многоуровневую выборку признаков из иерархических моделей для создания богатых точечных представлений, которые отражают семантические возможности модели и, следовательно, подходят для оценки с помощью линейного зондирования и методов ближайших соседей. Кроме того, мы представляем первую самообучаемую модель, которая демонстрирует результаты, сопоставимые с контролируемыми моделями, когда используются только готовые признаки в рамках линейного зондирования. В частности, наша модель обучается непосредственно в 3D с использованием нового подхода к самообучению, основанного на задаче Masked Scene Modeling, которая восстанавливает глубокие признаки замаскированных участков снизу вверх и специально адаптирована для иерархических 3D-моделей. Наши эксперименты не только показывают, что наш метод достигает конкурентоспособных результатов по сравнению с контролируемыми моделями, но и значительно превосходит существующие подходы к самообучению. Модель и код для обучения доступны в нашем репозитории на GitHub (https://github.com/phermosilla/msm).

15

RobustDexGrasp: Надежное ловкое захватывание произвольных объектов на основе однокадрового восприятия
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7
ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song
6
2

Надежный захват различных объектов на основе однокадрового восприятия является фундаментальной задачей для ловких роботов. Предыдущие работы часто полагаются на полностью наблюдаемые объекты, экспертные демонстрации или статические позы захвата, что ограничивает их способность к обобщению и адаптации к внешним возмущениям. В данной статье мы представляем основанный на обучении с подкреплением фреймворк, который позволяет выполнять динамический захват широкого спектра невидимых объектов на основе однокадрового восприятия с нулевым обучением, одновременно адаптируясь к внешним возмущениям. Мы используем представление объектов, центрированное на руке, для извлечения признаков формы, что подчеркивает локальные формы, релевантные взаимодействию, повышая устойчивость к вариациям формы и неопределенности. Для эффективной адаптации руки к возмущениям при ограниченных наблюдениях мы предлагаем смешанную стратегию обучения с постепенным усложнением, которая сначала использует имитационное обучение для извлечения политики, обученной с привилегированным визуально-тактильным обратным связью в реальном времени, а затем постепенно переходит к обучению с подкреплением для изучения адаптивных движений при возмущениях, вызванных шумами наблюдения и динамической рандомизацией. Наши эксперименты демонстрируют сильное обобщение в захвате невидимых объектов с случайными позами, достигая успешности 97,0% на 247 786 симулированных объектах и 94,6% на 512 реальных объектах. Мы также показываем устойчивость нашего метода к различным возмущениям, включая неожиданное движение объектов и внешние силы, с помощью количественных и качественных оценок. Страница проекта: https://zdchan.github.io/Robust_DexGrasp/

16

Закончили ли мы с объектно-ориентированным обучением?
Are We Done with Object-Centric Learning?

Apr 9
ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
5
2

Обучение с фокусом на объектах (Object-centric learning, OCL) стремится к изучению представлений, которые кодируют только объект, изолированный от других объектов или фоновых элементов в сцене. Этот подход лежит в основе различных целей, включая обобщение за пределами распределения (out-of-distribution, OOD), эффективное композиционирование с использованием малого числа примеров и моделирование структурированных сред. Большинство исследований сосредоточено на разработке неконтролируемых механизмов, которые разделяют объекты на дискретные слоты в пространстве представлений, оценивая их с помощью неконтролируемого обнаружения объектов. Однако с появлением современных моделей сегментации, эффективных по количеству примеров, мы можем разделять объекты в пространстве пикселей и кодировать их независимо. Это позволяет достичь впечатляющей производительности на тестах OOD для обнаружения объектов, масштабируется до базовых моделей и может работать с переменным числом слотов "из коробки". Таким образом, цель методов OCL — получение объектно-ориентированных представлений — в значительной степени достигнута. Несмотря на этот прогресс, ключевой вопрос остается: как способность разделять объекты в сцене способствует более широким целям OCL, таким как обобщение OOD? Мы исследуем эту проблему, рассматривая вызов OOD, вызванный ложными фоновыми элементами, через призму OCL. Мы предлагаем новый, не требующий обучения метод под названием "Классификация с фокусом на объектах с применением масок" (Object-Centric Classification with Applied Masks, OCCAM), демонстрируя, что кодирование отдельных объектов на основе сегментации значительно превосходит методы OCL, основанные на слотах. Однако в реальных приложениях остаются вызовы. Мы предоставляем инструментарий для сообщества OCL, позволяющий использовать масштабируемые объектно-ориентированные представления, и сосредотачиваемся на практических приложениях и фундаментальных вопросах, таких как понимание восприятия объектов в человеческом познании. Наш код доступен {здесь}(https://github.com/AlexanderRubinstein/OCCAM).

17

Предварительное обучение языковых моделей для обнаружения диахронических языковых изменений
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7
ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner
5
2

Крупные языковые модели (LLM) продемонстрировали потенциал в качестве инструментов для научных открытий. Это вызвало растущий интерес к их использованию в гуманитарных дисциплинах, таких как историческая лингвистика и литературоведение. В этих областях аргументы часто строятся на основе классификаций, таких как жанр, или более жестких критериев, таких как временной период. Хотя предпринимались попытки ограничить вывод моделей конкретными областями с помощью тонкой настройки или редактирования моделей, мы утверждаем, что единственной истинной гарантией является предварительное обучение в ограниченной области — как правило, ресурсоемкий процесс, требующий значительных объемов данных и вычислительных мощностей. Мы показываем, что эффективные методы предварительного обучения могут создавать полезные модели на корпусах, которые слишком велики для ручного анализа, но слишком малы для "типичных" подходов с использованием LLM. Мы применяем инновационный конвейер для атрибуции дат, чтобы получить временно сегментированный набор данных из пяти срезов по 10 миллионов слов. Мы обучаем две соответствующие группы из пяти моделей на этих сегментах корпуса: одну с использованием эффективного предварительного обучения, а другую — с эффективной тонкой настройкой модели Llama3-8B. Мы обнаруживаем, что модели, прошедшие предварительное обучение, обучаются быстрее, чем базовые модели с тонкой настройкой, и лучше учитывают исторические разделения нашего корпуса. Акцент на скорости и точности, а не на аисторической всеобъемлемости, позволяет разработать ряд новых подходов к обнаружению и проверке гипотез в наших целевых областях. Используя диахроническую лингвистику в качестве тестовой площадки, мы показываем, что наш метод позволяет обнаруживать разнообразные явления, включая массовые лексические изменения, нелексические (грамматические и морфологические) изменения, а также введение и устаревание значений слов. Мы предоставляем готовый к использованию конвейер, который позволяет адаптировать наш подход к другим целевым областям с минимальными изменениями.

18

RuOpinionNE-2024: Извлечение кортежей мнений из новостных текстов на русском языке
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9
ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko
3
3

В данной статье мы представляем задачу Dialogue Evaluation по извлечению структурированных мнений из русскоязычных новостных текстов. Цель конкурса заключается в извлечении кортежей мнений для заданного предложения; эти кортежи состоят из источника мнения, его объекта, выражения и настроения, направленного от источника к объекту. Всего на задачу было подано более 100 решений. Участники экспериментировали в основном с крупными языковыми моделями в форматах zero-shot, few-shot и тонкой настройки. Лучший результат на тестовом наборе данных был достигнут с использованием тонкой настройки крупной языковой модели. Мы также сравнили 30 промптов и 11 открытых языковых моделей с параметрами от 3 до 32 миллиардов в условиях 1-shot и 10-shot и определили лучшие модели и промпты.

19

Быстрое управляемое генерация из языковых моделей с адаптивным взвешенным методом отклоняющего сэмплирования
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7
ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira
2
2

Основной подход к генерации с использованием языковых моделей с учетом определенных ограничений — это локально ограниченное декодирование (LCD), при котором на каждом шаге пошагово выбираются токены, не нарушающие заданное ограничение. Обычно это достигается с помощью маскирования токенов: перебора всего словаря и исключения токенов, не соответствующих ограничению. Однако у этого подхода есть две важные проблемы. (i) Проверка ограничения для каждого токена может быть чрезмерно затратной — словари языковых моделей часто превышают 100 000 токенов. (ii) LCD может искажать глобальное распределение строк, выбирая токены только на основе локальной информации, даже если это ведет к тупиковым путям. В данной работе представлен новый алгоритм, который решает обе эти проблемы. Во-первых, чтобы избежать проверки ограничения на всем словаре на каждом шаге генерации, мы предлагаем адаптивный алгоритм отбраковки, который обычно требует на порядки меньше проверок ограничений. Во-вторых, мы показываем, как этот алгоритм можно расширить для получения низкодисперсионных и несмещенных оценок весов важности с минимальными дополнительными затратами — оценки, которые можно надежно использовать в ранее предложенных алгоритмах последовательного Монте-Карло для коррекции близорукого поведения локального применения ограничений. Благодаря обширной эмпирической оценке в областях текста в SQL, синтеза молекул, вывода целей, сопоставления шаблонов и JSON, мы показываем, что наш подход превосходит современные базовые методы, поддерживая более широкий класс ограничений и улучшая как время выполнения, так и производительность. Дополнительные теоретические и эмпирические анализы показывают, что эффективность времени выполнения нашего метода обусловлена динамическим использованием вычислений, масштабируемым в зависимости от расхождения между неограниченной и ограниченной языковой моделью, и, как следствие, улучшения времени выполнения более значительны для более качественных моделей.

20

SkillWeaver: Веб-агенты могут самостоятельно совершенствоваться, открывая и оттачивая навыки
SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills

Apr 9
ByBoyuan Zheng, Michael Y. Fatemi, Xiaolong Jin, Zora Zhiruo Wang, Apurva Gandhi, Yueqi Song, Yu Gu, Jayanth Srinivasa, Gaowen Liu, Graham Neubig, Yu Su
0
1

Чтобы выживать и процветать в сложных условиях, люди развили изощренные механизмы самосовершенствования через исследование окружающей среды, иерархическую абстракцию опыта в повторно используемые навыки и совместное создание постоянно растущего репертуара умений. Несмотря на недавние достижения, автономные веб-агенты все еще испытывают недостаток в ключевых способностях к самосовершенствованию, сталкиваясь с трудностями в абстракции процедурных знаний, улучшении навыков и их композиции. В данной работе мы представляем SkillWeaver — ориентированную на навыки структуру, которая позволяет агентам самосовершенствоваться путем автономного синтеза повторно используемых навыков в виде API. При работе с новым веб-сайтом агент самостоятельно обнаруживает навыки, выполняет их для практики и извлекает из опыта практики надежные API. Итеративное исследование непрерывно расширяет библиотеку легковесных, готовых к использованию API, значительно повышая возможности агента. Эксперименты на WebArena и реальных веб-сайтах демонстрируют эффективность SkillWeaver, достигая относительного улучшения показателей успешности на 31,8% и 39,8% соответственно. Кроме того, API, синтезированные сильными агентами, существенно улучшают возможности слабых агентов за счет передачи навыков, что приводит к улучшению до 54,3% на WebArena. Эти результаты подтверждают эффективность преобразования разнообразных взаимодействий с веб-сайтами в API, которые могут быть легко использованы различными веб-агентами.

Apr 9
Apr 10
Apr 11