Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ReCapture: Генеративные элементы управления видеокамерой для пользовательских видео с использованием маскированного тонкого настройки видео
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

В последнее время прорывы в области моделирования видео позволили создавать управляемые траектории камеры в генерируемых видеороликах. Однако эти методы не могут быть напрямую применены к видео, предоставленным пользователями, которые не были созданы с помощью видео-моделей. В данной статье мы представляем метод ReCapture, который позволяет генерировать новые видеоролики с новыми траекториями камеры на основе одного пользовательского видео. Наш метод позволяет воссоздавать исходное видео, включая все существующие движения сцены, под совершенно разными углами и с кинематографическим движением камеры. Важно отметить, что с использованием нашего метода можно также правдоподобно воссоздать части сцены, которые не были видны в исходном видео. Наш метод работает следующим образом: (1) создается зашумленное опорное видео с новой траекторией камеры с использованием многовидовых диффузионных моделей или рендеринга облака точек на основе глубины, а затем (2) опорное видео преобразуется в чистое и временно согласованное видео с новым углом съемки с использованием предложенной нами техники маскированного тонкого настройки видео.

Большие языковые модели, оркестрирующие структурированное мышление, достигают уровня Грандмастера на платформе Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

Мы представляем Агента К v1.0, полностью автономного агента по науке о данных, разработанного для автоматизации, оптимизации и обобщения различных задач науки о данных. Полностью автоматизированный Агент К v1.0 управляет всем жизненным циклом науки о данных, обучаясь на опыте. Он использует высоко гибкий структурированный каркас рассуждений, позволяющий ему динамически обрабатывать память во вложенной структуре, эффективно учась на накопленном опыте для решения сложных задач рассуждения. Он оптимизирует долговременную и кратковременную память, выборочно сохраняя и извлекая ключевую информацию, направляя будущие решения на основе окружающих вознаграждений. Этот итеративный подход позволяет ему улучшать решения без тонкой настройки или обратного распространения ошибки, достигая непрерывного улучшения через опытное обучение. Мы оцениваем возможности нашего агента, используя соревнования Kaggle в качестве кейс-стади. Следуя полностью автоматизированному протоколу, Агент К v1.0 систематически решает сложные и мультимодальные задачи науки о данных, используя байесовскую оптимизацию для настройки гиперпараметров и инженерии признаков. Наша новая система оценки строго оценивает конечные возможности Агента К v1.0 по генерации и отправке представлений, начиная с URL-адреса соревнования Kaggle. Результаты показывают, что Агент К v1.0 достигает успешности на уровне 92,5\% по всем задачам, охватывая табличные данные, компьютерное зрение, NLP и мультимодальные области. При сравнении с 5 856 участниками Kaggle с помощью расчета рейтингов Elo-MMR для каждого, Агент К v1.0 занимает место в топ-38\%, демонстрируя общий уровень навыков, сопоставимый с уровнем экспертов. Заметно, что его рейтинг Elo-MMR находится между первым и третьим квартилями рейтингов, достигнутых человеческими Гроссмейстерами. Более того, наши результаты показывают, что Агент К v1.0 достиг уровня производительности, эквивалентного Гроссмейстеру Kaggle, имея в своем активе 6 золотых, 3 серебряных и 7 бронзовых медалей, согласно системе прогрессирования Kaggle.

И текст, и изображения утекли! Систематический анализ мультимодального LLM: загрязнение данных
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

Быстрое развитие мультимодальных моделей больших языков (MLLM) продемонстрировало превосходную производительность на различных мультимодальных бенчмарках. Однако проблема загрязнения данных во время обучения создает вызовы при оценке производительности и сравнении. Хотя существует множество методов для обнаружения загрязнения набора данных в больших языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и нескольких этапов обучения. В данном исследовании мы представляем мультимодальную систему обнаружения загрязнения данных, MM-Detect, разработанную для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и способен выявлять значительные улучшения производительности из-за утечки обучающего набора мультимодальных бенчмарков. Кроме того, мы также исследуем возможность загрязнения, исходящего из этапа предварительного обучения LLM, используемого MLLM, и этапа донастройки MLLM, предлагая новые идеи о том, на каких этапах может быть внесено загрязнение.

Полиномиальные композиционные активации: раскрывая динамику крупных языковых моделей
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

Трансформеры нашли широкое применение в различных областях благодаря их мощным возможностям аппроксимации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в первоначальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для увеличения нелинейности и, следовательно, увеличения объема представления. В данной статье мы предлагаем новую категорию активаций полиномиальной композиции (PolyCom), разработанную для оптимизации динамики трансформеров. Теоретически мы предоставляем всесторонний математический анализ PolyCom, выделяя его улучшенную экспрессивность и эффективность по сравнению с другими функциями активации. Особенно мы демонстрируем, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на предварительной настройке крупных языковых моделей (LLM), включая как плотные, так и разреженные архитектуры. Заменяя традиционные функции активации на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, тем самым улучшая показатели производительности в терминах точности и скорости сходимости. Обширные результаты экспериментов демонстрируют эффективность нашего метода, показывая значительные улучшения по сравнению с другими функциями активации. Код доступен по ссылке https://github.com/BryceZhuo/PolyCom.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Video generation models are revolutionizing content creation, with image-to-video models drawing increasing attention due to their enhanced controllability, visual consistency, and practical applications. However, despite their popularity, these models rely on user-provided text and image prompts, and there is currently no dedicated dataset for studying these prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of over 1.70 million unique user-provided Text and Image Prompts specifically for Image-to-Video generation. Additionally, we provide the corresponding generated videos from five state-of-the-art image-to-video models. We begin by outlining the time-consuming and costly process of curating this large-scale dataset. Next, we compare TIP-I2V to two popular prompt datasets, VidProM (text-to-video) and DiffusionDB (text-to-image), highlighting differences in both basic and semantic information. This dataset enables advancements in image-to-video research. For instance, to develop better models, researchers can use the prompts in TIP-I2V to analyze user preferences and evaluate the multi-dimensional performance of their trained models; and to enhance model safety, they may focus on addressing the misinformation issue caused by image-to-video models. The new research inspired by TIP-I2V and the differences with existing datasets emphasize the importance of a specialized image-to-video prompt dataset. The project is publicly available at https://tip-i2v.github.io.

Оптимизация предпочтения самосогласованности
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

Самоподгонка, при которой модели учатся улучшать себя без участия человека, является быстрорастущей областью исследований. Однако существующие методики часто не способны улучшить сложные задачи рассуждения из-за трудностей в назначении правильных вознаграждений. Ортогональный подход, который известен своей способностью улучшать корректность, - это самосогласованность, метод, применяемый во время вывода на основе множественного выбора для нахождения наиболее согласованного ответа. В данной работе мы расширяем концепцию самосогласованности для помощи в обучении моделей. Мы представляем оптимизацию предпочтения самосогласованности (ScPO), которая итеративно обучает согласованные ответы предпочитаться несогласованным на неконтролируемых новых задачах. Мы показываем, что ScPO приводит к значительным улучшениям по сравнению с обычным обучением модели по вознаграждениям на задачах рассуждения, таких как GSM8K и MATH, сокращая разрыв с контролируемым обучением с золотыми ответами или предпочтениями, и что комбинирование ScPO со стандартным контролируемым обучением дает еще лучшие результаты. На ZebraLogic ScPO настраивает Llama-3 8B на более высокий уровень, чем Llama-3 70B, Gemma-2 27B и Claude-3 Haiku.

От Medprompt к o1: Исследование стратегий времени выполнения для медицинских проблем вызова и за их пределами
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

Стратегии управления времени выполнения, такие как Medprompt, ценны для направления крупных языковых моделей (LLM) на высокие результаты в сложных задачах. Medprompt демонстрирует, что общая LLM может быть сосредоточена на достижении передовых результатов в специализированных областях, таких как медицина, используя подсказку для вызова стратегии времени выполнения, включающей цепочку рассуждений и ансамблирование. Модель o1-preview от OpenAI представляет новый парадигму, где модель разработана для выполнения рассуждений времени выполнения перед генерацией окончательных ответов. Мы стремимся понять поведение модели o1-preview на разнообразном наборе медицинских бенчмарков. Продолжая исследование Medprompt с GPT-4, мы систематически оцениваем модель o1-preview на различных медицинских бенчмарках. Заметно, что даже без техник подсказок, модель o1-preview в значительной степени превосходит серию GPT-4 с Medprompt. Мы также систематически изучаем эффективность классических стратегий инженерии подсказок, представленных Medprompt, в новой парадигме моделей рассуждений. Мы обнаружили, что подсказка с небольшим числом примеров затрудняет производительность o1, что указывает на то, что обучение в контексте может больше не быть эффективным подходом к управлению для моделей с встроенным рассуждением. В то время как ансамблирование остается жизнеспособным, оно требует больших ресурсов и тщательной оптимизации стоимости и производительности. Наш анализ стоимости и точности стратегий времени выполнения показывает фронт Парето, где GPT-4o представляет собой более доступный вариант, а o1-preview достигает передовых результатов за более высокую цену. Хотя o1-preview предлагает передовые результаты, GPT-4o с такими стратегиями управления, как Medprompt, сохраняет ценность в конкретных контекстах. Более того, мы отмечаем, что модель o1-preview достигла почти полного насыщения на многих существующих медицинских бенчмарках, подчеркивая необходимость новых, сложных бенчмарков. Мы завершаем рассмотрение общих направлений для вычислений времени вывода с LLM.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ReCapture: Генеративные элементы управления видеокамерой для пользовательских видео с использованием маскированного тонкого настройки видео
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Большие языковые модели, оркестрирующие структурированное мышление, достигают уровня Грандмастера на платформе Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

И текст, и изображения утекли! Систематический анализ мультимодального LLM: загрязнение данных
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

Полиномиальные композиционные активации: раскрывая динамику крупных языковых моделей
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Оптимизация предпочтения самосогласованности
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

От Medprompt к o1: Исследование стратегий времени выполнения для медицинских проблем вызова и за их пределами
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz