HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

21 papers found

Виноград: Обобщение политики робота через выравнивание предпочтений
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

Несмотря на недавние достижения моделей вид-язык-действие (VLA) в различных задачах робототехники, они сталкиваются с критическими проблемами, такими как плохая обобщаемость на невиденные задачи из-за своей зависимости исключительно от клонирования поведения из успешных прогонов. Более того, они обычно донастраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит распределительный сдвиг и ограничивает их приспособляемость к разнообразным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Для преодоления этого разрыва мы представляем GRAPE: Обобщение политики робота через выравнивание предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как успешных, так и неудачных испытаний для увеличения обобщаемости на разнообразные задачи. Более того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через настраиваемые пространственно-временные ограничения с ключевыми точками, предложенными крупной моделью вид-язык. Заметим, что эти ограничения гибки и могут быть настроены для выравнивания модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE на разнообразных задачах как в реальных, так и в симулированных средах. Экспериментальные результаты показывают, что GRAPE улучшает производительность современных моделей VLA, увеличивая процент успеха на внутридоменных и невиденных задачах манипуляции соответственно на 51,79% и 60,36%. Кроме того, GRAPE может быть выровнен с различными целями, такими как безопасность и эффективность, снижая процент столкновений на 44,31% и длину шага прогона на 11,15% соответственно. Весь код, модели и данные доступны на https://grape-vla.github.io/

Глубина видео без моделей видео
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

Оценка глубины видео преобразует монокулярные видеоролики в 3D путем вывода плотной глубины на каждом кадре. Недавние достижения в оценке глубины по одному изображению, обусловленные появлением крупных базовых моделей и использованием синтетических обучающих данных, привели к возрождению интереса к глубине видео. Однако наивное применение оценщика глубины по одному изображению к каждому кадру видео игнорирует временную непрерывность, что не только приводит к мерцанию, но также может нарушиться, когда движение камеры вызывает внезапные изменения в диапазоне глубины. Очевидным и обоснованным решением было бы построение на основе базовых моделей видео, но они имеют свои ограничения, включая дорогостоящее обучение и вывод, недостаточную 3D согласованность и процедуры стежки для фиксированных (коротких) выходов. Мы отходим на шаг назад и демонстрируем, как превратить модель латентной диффузии по одному изображению (LDM) в передовой оценщик глубины видео. Наша модель, которую мы называем RollingDepth, имеет два основных компонента: (i) оценщик глубины на основе нескольких кадров, который происходит от модели латентной диффузии по одному изображению и отображает очень короткие видеофрагменты (обычно тройки кадров) в фрагменты глубины. (ii) надежный, оптимизационный алгоритм регистрации, который оптимально собирает фрагменты глубины, отобранные с различными частотами кадров, обратно в согласованное видео. RollingDepth способен эффективно обрабатывать длинные видео с сотнями кадров и предоставляет более точные видео глубины, чем как специализированные оценщики глубины видео, так и высокопроизводительные модели для одного кадра. Страница проекта: rollingdepth.github.io.

За пределами примеров: высокоуровневая парадигма автоматизированного рассуждения в контекстном обучении с использованием MCTS.
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

Обучение в контексте (ICL) позволяет крупным языковым моделям (LLM) решать последующие задачи с помощью сложных подсказок и высококачественных демонстраций. Однако традиционная парадигма ICL показывает ограничения при решении сложных математических задач, в основном из-за сильной зависимости от качества примеров и необходимости вмешательства человека в сложных сценариях. Для преодоления этих ограничений в данной статье представлена HiAR-ICL, парадигма автоматизированного высокоуровневого рассуждения в ICL, которая смещает фокус с конкретных примеров на абстрактные мыслительные шаблоны, расширяя традиционное понятие контекста в ICL. HiAR-ICL вводит пять атомарных действий рассуждения как фундаментальные компоненты для построения цепных структурных шаблонов. С помощью поиска по дереву Монте-Карло мы исследуем пути рассуждений и создаем карточки мыслей для направления последующего вывода. Затем мы разрабатываем когнитивную модель сложности, которая динамически подбирает проблемы к соответствующим карточкам мыслей. Экспериментальные результаты демонстрируют эффективность HiAR-ICL, достигая передовой точности (79.6%) на математическом бенчмарке MATH с Qwen2.5-7B-Instruct, превосходя GPT-4o (76.6%) и Claude 3.5 (71.1%).

О доменно-специфическом послетренировочном обучении для мультимодальных крупных языковых моделей.
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

В последние годы наблюдается быстрое развитие общих мультимодальных крупных языковых моделей (MLLMs). Однако адаптация общих MLLMs к конкретным областям, таким как научные области и промышленные приложения, остается менее исследованной. В данной статье систематически исследуется доменная адаптация MLLMs через послетренировку, с акцентом на синтезе данных, обучающих конвейерах и оценке задач. (1) Синтез данных: Используя модели с открытым исходным кодом, мы разрабатываем синтезатор визуальных инструкций, который эффективно генерирует разнообразные визуальные инструкционные задачи на основе пар изображение-подпись, специфичных для домена. Наши синтетические задачи превосходят те, которые генерируются вручную, GPT-4 и GPT-4V в улучшении доменной производительности MLLMs. (2) Обучающий конвейер: В то время как двухэтапное обучение - сначала на парах изображение-подпись, а затем на визуальных инструкционных задачах - обычно используется для разработки общих MLLMs, мы применяем одноэтапный обучающий конвейер для увеличения разнообразия задач для доменной послетренировки. (3) Оценка задач: Мы проводим эксперименты в двух областях, биомедицине и пищевой промышленности, послетренируя MLLMs разных источников и масштабов (например, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), а затем оцениваем производительность MLLM на различных доменно-специфических задачах. Для поддержки дальнейших исследований в области адаптации домена MLLM мы опубликуем наши реализации с открытым исходным кодом.

Технический отчет Yi-Lightning
Yi-Lightning Technical Report

Dec 2

By01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang

В данном техническом отчете представлен Yi-Lightning, наш последний флагманский крупный языковой модель (LLM). Он достигает исключительной производительности, занимая 6-е место в общем рейтинге на Chatbot Arena, с особенно сильными результатами (со 2-го по 4-е место) в специализированных категориях, включая китайский язык, математику, программирование и сложные запросы. Yi-Lightning использует улучшенную архитектуру Mixture-of-Experts (MoE), представляющую собой передовые механизмы сегментации и маршрутизации экспертов, совмещенные с оптимизированными техниками кэширования KV. Наш процесс разработки включает в себя всестороннюю предварительную тренировку, надзорное дообучение (SFT) и обучение с подкреплением на основе обратной связи от человека (RLHF), где мы разрабатываем целенаправленные стратегии для многоэтапного обучения, создания синтетических данных и моделирования вознаграждения. Более того, мы реализуем RAISE (Responsible AI Safety Engine), четырехкомпонентную структуру для решения проблем безопасности на этапах предварительной тренировки, последующей тренировки и обслуживания. Благодаря нашей масштабируемой суперкомпьютерной инфраструктуре, все эти инновации существенно снижают затраты на обучение, развертывание и вывод, сохраняя высокие стандарты производительности. После дальнейших оценок на общедоступных академических бенчмарках Yi-Lightning демонстрирует конкурентоспособную производительность по сравнению с моделями LLM высшего уровня, при этом мы наблюдаем значительное расхождение между традиционными, статическими результатами бенчмарков и динамическими предпочтениями людей в реальном мире. Это наблюдение подталкивает к критической переоценке полезности традиционных бенчмарков для направления развития более интеллектуальных и мощных ИИ-систем для практических применений. Yi-Lightning теперь доступен через нашу платформу разработчиков по адресу https://platform.lingyiwanwu.com.

Пространственно-временное руководство пропускания для улучшенной выборки диффузии видео.
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

Модели диффузии стали мощным инструментом для создания изображений, видео и трехмерного контента высокого качества. Хотя техники направленного сэмплирования, такие как CFG, улучшают качество, они снижают разнообразие и движение. Автонаправление смягчает эти проблемы, но требует дополнительного обучения слабой модели, что ограничивает ее практичность для моделей крупномасштабного использования. В данной работе мы представляем Пространственно-временное Пропускное Направление (STG) - простой метод направленного сэмплирования без обучения для улучшения видео-моделей диффузии на основе трансформеров. STG использует неявную слабую модель через самопертурбацию, избегая необходимости внешних моделей или дополнительного обучения. Путем выборочного пропуска пространственно-временных слоев STG создает выровненную, деградированную версию исходной модели для повышения качества выборки без ущерба разнообразию или динамике. Наши вклады включают: (1) представление STG как эффективной, высокопроизводительной техники направленного сэмплирования для видео-моделей диффузии, (2) устранение необходимости во вспомогательных моделях путем имитации слабой модели через пропуск слоев и (3) обеспечение улучшенного качества направления без ущерба разнообразию или динамике выборки, в отличие от CFG. Дополнительные результаты доступны по ссылке https://junhahyung.github.io/STGuidance.

Обратное мышление делает LLM более сильными рассудителями.
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

Обратное мышление играет ключевую роль в человеческом мышлении. Люди могут рассуждать не только от проблемы к решению, но и наоборот, то есть начинать с решения и рассуждать к проблеме. Это часто улучшает общую производительность мышления, поскольку позволяет проводить проверку согласованности между их прямым и обратным мышлением. Для того чтобы обеспечить возможность крупным языковым моделям (LLMs) выполнять обратное мышление, мы представляем Reverse-Enhanced Thinking (RevThink), фреймворк, состоящий из аугментации данных и целей обучения. В RevThink мы расширяем набор данных, собирая структурированные прямые и обратные рассуждения от модели-учителя, включающие: (1) исходный вопрос, (2) прямое рассуждение, (3) обратный вопрос и (4) обратное рассуждение. Затем мы используем три цели для обучения более маленькой модели-ученика в многозадачном режиме обучения: (a) генерация прямого рассуждения из вопроса, (b) генерация обратного вопроса из вопроса и (c) генерация обратного рассуждения из обратного вопроса. Эксперименты на 12 наборах данных, охватывающих здравый смысл, математику и логическое мышление, показывают среднее улучшение на 13,53% по сравнению с нулевой производительностью модели-ученика и на 6,84% по сравнению с самыми сильными базовыми моделями дистилляции знаний. Более того, наш метод демонстрирует эффективность использования образцов - используя только 10% правильных прямых рассуждений из обучающих данных, он превосходит стандартный метод донастройки, обученный на 10 раз большем количестве прямых рассуждений. RevThink также проявляет сильную обобщаемость на удерживаемых наборах данных, не входящих в распределение.

Встраивание временного шага говорит: пора кэшировать для модели диффузии видео.
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

В качестве фундаментальной основы для генерации видео диффузионные модели сталкиваются с низкой скоростью вывода из-за последовательной природы денойзинга. Предыдущие методы ускоряли модели путем кэширования и повторного использования выходов модели на равномерно выбранных временных шагах. Однако такая стратегия игнорирует тот факт, что различия между выходами модели неоднородны по временным шагам, что затрудняет выбор подходящих выходов модели для кэширования, что приводит к плохому балансу между эффективностью вывода и качеством изображения. В данном исследовании мы представляем подход TeaCache (Timestep Embedding Aware Cache) - подход к кэшированию без обучения, который оценивает и использует изменчивые различия между выходами модели по временным шагам. Вместо прямого использования времязатратных выходов модели TeaCache фокусируется на входах модели, которые имеют сильную корреляцию с выходами модели, при этом несут незначительные вычислительные затраты. TeaCache сначала модулирует шумные входы, используя вложения временных шагов, чтобы обеспечить лучшее приближение их различий к различиям выходов модели. Затем TeaCache вводит стратегию масштабирования для уточнения оцененных различий и использует их для указания кэширования выхода. Эксперименты показывают, что TeaCache достигает ускорения до 4,41 раза по сравнению с Open-Sora-Plan с незначительным (оценка Vbench -0,07%) ухудшением качества изображения.

Диффузия FAM: Частотная и модуляция внимания для генерации изображений высокого разрешения с устойчивой диффузией
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

Модели диффузии проявляют высокую эффективность в генерации изображений высокого качества. Однако они эффективны только при работе на разрешении, использованном во время обучения. Инференция на масштабированном разрешении приводит к повторяющимся узорам и структурным искажениям. Повторное обучение на более высоких разрешениях быстро становится невозможным. Таким образом, методы, позволяющие существующим моделям диффузии работать на гибких разрешениях во время тестирования, являются весьма желанными. Предыдущие работы страдают от частых артефактов и часто вносят значительные задержки. Мы предлагаем два простых модуля, которые в совокупности решают эти проблемы. Мы представляем модуль частотной модуляции (FM), который использует преобразование Фурье для улучшения глобальной структурной согласованности, и модуль модуляции внимания (AM), который улучшает согласованность локальных текстурных узоров, проблему, в значительной степени игнорируемую в предыдущих работах. Наш метод, названный Fam diffusion, может легко интегрироваться в любую модель диффузии латентного пространства и не требует дополнительного обучения. Обширные качественные результаты подчеркивают эффективность нашего метода в решении структурных и локальных артефактов, в то время как количественные результаты показывают современное качество работы. Кроме того, наш метод избегает избыточных трюков вывода для улучшения согласованности, таких как генерация на основе патчей или прогрессивная генерация, что приводит к незначительным задержкам.

Задача: Нейросетевая архитектура с оптимизацией вывода на основе дистилляции
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

ByAkhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv

Большие языковые модели (LLM) продемонстрировали выдающиеся возможности, но их принятие ограничено высокими вычислительными затратами во время вывода. Увеличение количества параметров повышает точность, но также увеличивает разрыв между возможностями передовых технологий и практической применимостью. Мы представляем Puzzle, фреймворк для ускорения вывода LLM на конкретном оборудовании с сохранением их возможностей. Через инновационное применение поиска нейронной архитектуры (NAS) в масштабах, ранее не встречавшихся, Puzzle систематически оптимизирует модели с десятками миллиардов параметров в рамках ограничений оборудования. Наш подход использует блочное локальное дистиллирование знаний (BLD) для параллельного исследования архитектуры и применяет смешанное целочисленное программирование для точной оптимизации ограничений. Мы демонстрируем реальное воздействие нашего фреймворка через Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), публично доступную модель, производную от Llama-3.1-70B-Instruct. Nemotron-51B достигает ускорения скорости вывода в 2,17 раза, помещаясь на одном графическом процессоре NVIDIA H100, сохраняя 98,4% возможностей оригинальной модели. В настоящее время Nemotron-51B является наиболее точной языковой моделью, способной к выводу на одном графическом процессоре с большими размерами пакетов. Замечательно, что для этого преобразования потребовалось всего 45 миллиардов обучающих токенов, в сравнении с более чем 15 триллионами токенов, использованными для модели на 70 миллиардов, от которой она была производной. Это устанавливает новый парадигму, где мощные модели могут быть оптимизированы для эффективного развертывания с незначительным ущербом их возможностям, демонстрируя, что производительность вывода, а не только количество параметров, должна направлять выбор модели. С выпуском Nemotron-51B и представлением фреймворка Puzzle мы предоставляем практикующим немедленный доступ к передовым возможностям языкового моделирования с значительно сниженными вычислительными затратами.

Внимание к траектории для управления мелкозернистым движением видео
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

Недавние достижения в области генерации видео были в значительной степени обусловлены моделями диффузии видео, причем управление движением камеры стало ключевой проблемой при создании персонализированного визуального контента. В данной статье представлен метод траекторного внимания, новый подход, который осуществляет внимание вдоль доступных пиксельных траекторий для тонкого управления движением камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным смещением, которое плавно внедряет информацию о траектории в процесс генерации видео. Важно отметить, что наш подход моделирует траекторное внимание как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временному вниманию и траекторному вниманию работать в синергии, обеспечивая как точное управление движением, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по управлению движением камеры для изображений и видео показывают значительное улучшение точности и долгосрочной согласованности при сохранении высокого качества генерации. Более того, мы показываем, что наш подход может быть расширен на другие задачи управления движением видео, такие как редактирование видео с управлением первого кадра, где он превосходит в поддержании согласованности контента на больших пространственных и временных диапазонах.

Масштабирование трансформеров для кодирования речи высокого качества при низкой скорости передачи данных
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

Токенизация речи с использованием нейронных моделей аудиокодеков является важной частью современных технологий искусственного интеллекта для генерации или понимания речи, как в одномодальном, так и в мультимодальном контексте. Традиционно такие модели токенизации сосредотачивались на архитектурах с низким количеством параметров, используя только компоненты с сильными индуктивными свойствами. В данной работе мы показываем, что масштабирование архитектуры трансформера с большим количеством параметров для данной задачи, а также применение гибкого узкого места на основе конечной скалярной квантизации (FSQ), позволяет достичь качества речи на уровне передовых достижений при крайне низких битрейтах 400 или 700 бит в секунду. Обученные модели значительно превосходят существующие базовые уровни как в объективных, так и в субъективных тестах.

DisCoRD: Преобразование дискретных токенов в непрерывное движение с помощью исправленного потока декодирования
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

Движение человека, по своей природе непрерывное и динамичное, представляет существенные вызовы для генеративных моделей. Несмотря на их доминирование, дискретные методы квантования, такие как VQ-VAE, сталкиваются с врожденными ограничениями, включая ограниченную выразительность и артефакты шума на уровне кадра. Непрерывные подходы, хотя и производят более плавные и естественные движения, часто терпят неудачу из-за высокой размерности и ограниченных данных для обучения. Для разрешения этого "разногласия" между дискретными и непрерывными представлениями, мы представляем DisCoRD: Дискретные Токены в Непрерывное Движение через Декодирование с Помощью Исправленного Потока, новый метод, который декодирует дискретные токены движения в непрерывное движение через исправленный поток. Применяя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает мелкозернистую динамику и обеспечивает более плавные и естественные движения. Совместимый с любой дискретной основой, наш метод улучшает естественность, не жертвуя верности сигналам условий. Обширные оценки показывают, что DisCoRD достигает передовой производительности, с FID 0.032 на HumanML3D и 0.169 на KIT-ML. Эти результаты закрепляют DisCoRD как надежное решение для преодоления разрыва между дискретной эффективностью и непрерывным реализмом. Наша страница проекта доступна по ссылке: https://whwjdqls.github.io/discord.github.io/.

Рассмотрим каждый кадр сразу: Video-Ma^2mba для эффективного понимания длинных видео с многозначным градиентным чекпоинтингом.
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

С увеличением масштаба и сложности видеоданных эффективная обработка длинных видеопоследовательностей ставит перед собой значительные вызовы из-за квадратичного увеличения требований к памяти и вычислительным ресурсам, связанным с существующими моделями Large Multi-modal Models (LMMs) на основе трансформеров. Для решения этих проблем мы представляем Video-Ma^2mba, новую архитектуру, которая включает модели пространства состояний (SSMs) в рамках фреймворка Mamba-2, заменяя механизмы внимания. Это позволяет LMMs масштабироваться линейно по времени и требованиям памяти, что делает возможным обработку видеоконтента большой продолжительности. Более того, мы улучшаем эффективность памяти, вводя метод Multi-Axis Gradient Checkpointing (MA-GC), который стратегически управляет памятью, сохраняя только необходимые активации по всем вычислительным осям. Наш подход значительно сокращает объем памяти по сравнению со стандартным градиентным чекпоинтингом. Эмпирические анализы показывают, что Video-Ma^2mba может обрабатывать обширные видеопоследовательности - эквивалентные миллионам токенов или более двух часов непрерывных последовательностей на частоте 1 кадр в секунду - на одном графическом процессоре. Подробно захватывая временную динамику, наша модель улучшает точность и актуальность ответов в задачах понимания длинных видео, демонстрируя существенные преимущества по сравнению с существующими фреймворками.

MATATA: слабо-надзорный математический инструмент для помощи в рассуждениях в табличных приложениях
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

Математические возможности рассуждения увеличиваются с помощью агентов на основе языка с инструментальным подходом, но методы часто зависят либо от закрытых исходных кодов, либо от крупных моделей, внешних данных или обширной инженерии запросов. В данной работе представлен метод MATATA, новый экономичный способ обучения агентов LLM для задач с табличными данными с использованием рассуждений, планирования и использования инструментов. С прогрессивной парадигмой самосовершенствования и итеративным слабым наблюдением он усиливает 3.8B/8B Малые Языковые Модели (SLM), особенно подходящие для локального размещения и чувствительных бизнес-контекстов, где конфиденциальность данных критична. Применяя гибкие и многократно используемые инструменты на различных наборах данных, он достигает надежной производительности с эффективной масштабируемостью по общим задачам. Эксперименты показывают, что MATATA достигает передовых результатов на FinQA и TAT-QA среди рассуждающих фреймворков на основе открытых моделей. Более того, модели MATATA конкурируют с фреймворками на основе GPT-4 на TabMWP, оставаясь при этом Малыми Языковыми Моделями.

AC3D: Анализ и улучшение управления 3D-камерой в видео-трансформерах
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

В последние время во многих работах было внедрено управление 3D-камерой в основные модели текст-видео, однако полученное управление камерой часто недостаточно точно, что отрицательно сказывается на качестве генерируемого видео. В данной работе мы анализируем движение камеры с точки зрения первых принципов, выявляя идеи, которые позволяют осуществлять точное 3D-управление камерой без ущерба для качества синтеза. Во-первых, мы определяем, что движение, вызванное движениями камеры в видео, имеет низкочастотный характер. Это мотивирует нас настройкой графика обучения и тестирования поз, ускоряя сходимость обучения и улучшая визуальное и движущееся качество. Затем, исследуя представления безусловного видео-трансформера диффузии, мы замечаем, что они неявно выполняют оценку позы камеры под капотом, и только подмножество их слоев содержат информацию о камере. Это побудило нас ограничить инъекцию условий камеры до подмножества архитектуры, чтобы избежать вмешательства в другие видео-функции, что привело к уменьшению количества параметров обучения в 4 раза, улучшению скорости обучения и на 10% выше визуального качества. Наконец, мы дополняем типичный набор данных для обучения управления камерой кураторским набором данных из 20 тыс. разнообразных динамических видео со стационарными камерами. Это помогает модели различить разницу между движением камеры и сцены, и улучшает динамику генерируемых видео с условиями позы. Мы объединяем эти результаты для разработки архитектуры Advanced 3D Camera Control (AC3D), новой передовой модели для генеративного моделирования видео с управлением камерой.

AlphaTablets: Обобщенное представление плоскости для трехмерной плоской реконструкции из монокулярных видео.
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

Мы представляем AlphaTablets - новое и универсальное представление трехмерных плоскостей, которое обладает непрерывной трехмерной поверхностью и точным определением границ. Представляя трехмерные плоскости в виде прямоугольников с альфа-каналами, AlphaTablets объединяют преимущества текущих двумерных и трехмерных представлений плоскостей, обеспечивая точное, последовательное и гибкое моделирование трехмерных плоскостей. Мы выводим дифференцируемую растеризацию поверх AlphaTablets для эффективного отображения трехмерных плоскостей на изображения и предлагаем новый конвейер снизу вверх для восстановления трехмерных плоскостей из монокулярных видеороликов. Начиная с двумерных суперпикселей и геометрических подсказок от предварительно обученных моделей, мы инициализируем трехмерные плоскости как AlphaTablets и оптимизируем их с помощью дифференцируемой растеризации. Вводится эффективная схема слияния для облегчения роста и улучшения AlphaTablets. Через итеративную оптимизацию и слияние мы восстанавливаем полные и точные трехмерные плоскости с прочными поверхностями и четкими границами. Обширные эксперименты на наборе данных ScanNet демонстрируют передовые результаты в восстановлении трехмерных плоскостей, подчеркивая великий потенциал AlphaTablets как универсального представления трехмерных плоскостей для различных приложений. Страница проекта доступна по адресу: https://hyzcluster.github.io/alphatablets

LLM Учитель-Студент Фреймворк для Классификации Текста Без Ручной Аннотированной Данных: Кейс-стади в Классификации Тем Новостей IPTC.
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

С увеличивающимся числом новостных материалов, доступных онлайн, их классификация по темам, независимо от языка написания, становится важной для улучшения доступа читателей к актуальному контенту. Для решения этой задачи мы предлагаем учебно-студенческую структуру на основе крупных языковых моделей (LLM) для разработки мультиязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. В рамках этой структуры используется модель Generative Pretrained Transformer (GPT) в качестве учебной модели для создания обучающего набора данных по темам СМИ IPTC Media Topic путем автоматической аннотации новостных статей на словенском, хорватском, греческом и каталонском языках. Учебная модель показывает высокую производительность на всех четырех языках при нулевой настройке. Ее согласованность с человеческими аннотаторами сравнима с согласованностью между самими аннотаторами. Для преодоления вычислительных ограничений, связанных с необходимостью обработки миллионов текстов ежедневно, небольшие модели-студенты, похожие на BERT, донастраиваются на аннотированном GPT наборе данных. Эти модели-студенты достигают высокой производительности, сравнимой с учебной моделью. Кроме того, мы исследуем влияние размера обучающих данных на производительность моделей-студентов и изучаем их монолингвальные, мультиязычные и нулевые кросс-языковые возможности. Полученные результаты показывают, что модели-студенты могут достигать высокой производительности с относительно небольшим количеством обучающих примеров и демонстрируют сильные нулевые кросс-языковые способности. Наконец, мы публикуем лучший классификатор тем новостей, обеспечивая мультиязычную классификацию с верхнеуровневыми категориями схемы тем СМИ IPTC Media Topic.

DeMo: Оптимизация с разделенным импульсом
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

Для обучения больших нейронных сетей обычно требуется обмен градиентами между ускорителями через специализированные высокоскоростные интерконнекты. Основываясь на принципах обработки сигналов частотного разложения и компактности энергии, мы демонстрируем, что синхронизация полных состояний оптимизатора и параметров модели во время обучения необязательна. Разделяя обновления импульса и позволяя контролируемое расхождение в состояниях оптимизатора между ускорителями, мы достигаем улучшенной сходимости по сравнению с оптимизаторами последнего поколения. Мы представляем {De}coupled {Mo}mentum (DeMo), объединенный оптимизатор и параллельный алгоритм обработки данных, который снижает требования к межускорительной коммуникации на несколько порядков. Это позволяет обучать большие нейронные сети даже при ограниченной пропускной способности сети и разнородном оборудовании. Наш метод не зависит от топологии и архитектуры и поддерживает масштабируемое распределенное обучение с незначительными вычислительными и памятьными издержками. Эмпирические результаты показывают, что модели, обученные с помощью DeMo, соответствуют или превосходят производительность эквивалентных моделей, обученных с помощью AdamW, при этом устраняется необходимость в высокоскоростных интерконнектах при предварительном обучении крупномасштабных базовых моделей. Ссылка на опубликованную на GitHub открытую реализацию на PyTorch: https://github.com/bloc97/DeMo

SpotLight: Переосвещение объектов с управляемыми тенями через диффузию
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Недавние исследования показали, что модели диффузии могут быть использованы в качестве мощных нейронных графических движков, которые могут быть задействованы для вставки виртуальных объектов на изображения. В отличие от типичных физически основанных рендереров, нейронные графические движки ограничены отсутствием ручного контроля над настройкой освещения, что часто является важным для улучшения или персонализации желаемого изображения. В данной статье мы показываем, что точный контроль освещения может быть достигнут для переосвещения объекта просто путем указания желаемых теней объекта. Довольно неожиданно мы показываем, что внедрение только тени объекта в предварительно обученный нейронный рендерер на основе диффузии позволяет ему точно затенять объект в соответствии с желаемым положением света, а также гармонично вписывать объект (и его тень) в целевое фоновое изображение. Наш метод, SpotLight, использует существующие подходы нейронного рендеринга и достигает управляемых результатов переосвещения без дополнительного обучения. В частности, мы демонстрируем его использование с двумя нейронными рендерерами из недавней литературы. Мы показываем, что SpotLight достигает превосходных результатов композирования объектов как количественно, так и восприятий, подтвержденных пользовательским исследованием, превосходя существующие модели на основе диффузии, специально разработанные для переосвещения.

Обучение обрезки токенов шума
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer

В данной работе мы представляем метод обучения с усечением токенов шума (TNT) для видео-трансформеров. Наш метод расслабляет условие дискретного отбрасывания токенов до непрерывного добавочного шума, обеспечивая плавную оптимизацию во время обучения, сохраняя при этом дискретные вычислительные преимущества отбрасывания в развертывающихся средах. Мы предоставляем теоретические связи с литературой по скорости искажения и эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами усечения.