ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Размышления LLM с учетом бюджета токенов
Token-Budget-Aware LLM Reasoning

Dec 24
ByTingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
46
2

Рассуждения являются критическими для успешного выполнения широкого спектра задач большими языковыми моделями (LLM). В то время как методы, такие как цепочка мыслей (CoT), улучшают производительность LLM, декомпозируя задачи на промежуточные шаги, они также вызывают значительные накладные расходы по токенам, что приводит к увеличению затрат. Мы обнаружили, что процесс рассуждения текущих LLM излишне длителен и его можно сжать, включив разумный бюджет токенов в подсказку, однако выбор бюджета токенов играет решающую роль в фактической эффективности сжатия. Затем мы предлагаем фреймворк рассуждения LLM, осведомленный о бюджете токенов, который динамически оценивает бюджеты токенов для различных задач на основе сложности рассуждений и использует оцененные бюджеты токенов для направления процесса рассуждения. Эксперименты показывают, что наш метод эффективно снижает затраты на токены в рассуждениях CoT с незначительным снижением производительности, предлагая практическое решение для балансировки эффективности и точности в рассуждениях LLM. Код: https://github.com/GeniusHTX/TALE.

2

Шелковица: Дарящая MLLM возможности рассуждения и отражения, подобные o1, через коллективный поиск по дереву методом Монте-Карло.
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Dec 24
ByHuanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
39
2

В данной работе мы стремимся разработать MLLM, который понимает и решает вопросы, изучая создание каждого промежуточного шага рассуждения до окончательного ответа. Для этого мы предлагаем Collective Monte Carlo Tree Search (CoMCTS) - новый метод обучения рассуждению для MLLM, который вводит концепцию коллективного обучения в "поиск по дереву" для эффективного и эффективного поиска пути рассуждения и обучения. Основная идея CoMCTS заключается в использовании коллективных знаний из нескольких моделей для совместного предположения, поиска и определения эффективных путей рассуждения к правильным ответам через четыре итеративные операции, включая Расширение, Симуляцию и Определение Ошибок, Обратное распространение и Выбор. С использованием CoMCTS мы создаем Mulberry-260k, мультимодальный набор данных с деревом богатых, явных и четко определенных узлов рассуждения для каждого вопроса. С помощью Mulberry-260k мы выполняем коллективное SFT для обучения нашей модели, Mulberry, серии MLLM с возможностями пошагового рассуждения и отражения, подобных o1. Обширные эксперименты демонстрируют превосходство наших предложенных методов на различных бенчмарках. Код будет доступен по адресу https://github.com/HJYao00/Mulberry

3

Видео-Панда: Параметро-эффективное выравнивание для моделей видео-языка без кодировщика
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

Dec 24
ByJinhui Yi, Syed Talal Wasim, Yanan Luo, Muzammal Naseer, Juergen Gall
17
2

Мы представляем эффективный подход без использования кодировщика для понимания видео-языка, который достигает конкурентоспособной производительности при значительном снижении вычислительной нагрузки. Текущие модели видео-языка обычно зависят от массивных кодировщиков изображений (300M-1.1B параметров) или видео-кодировщиков (1B-1.4B параметров), что создает значительную вычислительную нагрузку при обработке многофреймовых видео. Наш метод представляет новый блок пространственно-временного выравнивания (STAB), который напрямую обрабатывает видео-входы без необходимости предварительно обученных кодировщиков, используя всего 45M параметров для визуальной обработки - как минимум в 6.5 раз меньше по сравнению с традиционными подходами. Архитектура STAB объединяет локальное пространственно-временное кодирование для извлечения детализированных признаков, эффективное пространственное уменьшение через обученное внимание и отдельные механизмы для моделирования отношений на уровне кадра и видео. Наша модель достигает сравнимой или более высокой производительности по сравнению с подходами на основе кодировщика для ответов на вопросы по видео на стандартных бенчмарках. Оценка ответов на вопросы по видео с детализацией демонстрирует эффективность нашей модели, превосходя подходы на основе кодировщика Video-ChatGPT и Video-LLaVA в ключевых аспектах, таких как правильность и понимание времени. Обширные исследования абляции подтверждают наши архитектурные выборы и демонстрируют эффективность нашего подхода к пространственно-временному моделированию, обеспечивая скорости обработки в 3-4 раза быстрее, чем предыдущие методы. Код доступен по ссылке https://github.com/jh-yi/Video-Panda.

4

WavePulse: Аналитика контента радиовещаний в реальном времени
WavePulse: Real-time Content Analytics of Radio Livestreams

Dec 23
ByGovind Mittal, Sarthak Gupta, Shruti Wagle, Chirag Chopra, Anthony J DeMattee, Nasir Memon, Mustaque Ahamad, Chinmay Hegde
11
4

Радио остается всеобщим средством массовой информационной диссеминации, причем станции AM/FM охватывают больше американцев, чем социальные сети на смартфонах или прямое телевидение. Все чаще радиовещание также транслируется онлайн и доступно через Интернет. Мы представляем WavePulse, фреймворк, который записывает, документирует и анализирует радио контент в реальном времени. Хотя наш фреймворк в целом применим, мы демонстрируем эффективность WavePulse в совместном проекте с командой политологов, сосредоточенных на Президентских выборах 2024 года. Мы используем WavePulse для мониторинга прямых трансляций 396 новостных радиостанций в течение трех месяцев, обработав почти 500 000 часов аудиопотоков. Эти потоки были преобразованы во временные штампы, диаризованные транскрипты и проанализированы для отслеживания ключевых политологических вопросов как на национальном, так и на штатном уровнях. Наш анализ показал, как местные проблемы взаимодействуют с национальными тенденциями, предоставляя понимание потока информации. Наши результаты демонстрируют эффективность WavePulse в захвате и анализе контента с радио трансляций, доступных из Интернета. Код и набор данных можно найти по ссылке https://wave-pulse.io.

5

VidTwin: Видео VAE с разделенной структурой и динамикой
VidTwin: Video VAE with Decoupled Structure and Dynamics

Dec 23
ByYuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
9
3

Недавние достижения в области видео автоэнкодеров (Video AEs) значительно улучшили качество и эффективность генерации видео. В данной статье мы предлагаем новый и компактный видео автоэнкодер, VidTwin, который разделяет видео на два различных скрытых пространства: векторы скрытой структуры, которые захватывают общее содержание и глобальное движение, и векторы скрытой динамики, которые представляют мелкие детали и быстрые движения. Конкретно, наш подход использует основу Энкодер-Декодер, дополненную двумя подмодулями для извлечения этих скрытых пространств соответственно. Первый подмодуль использует Q-Former для извлечения низкочастотных тенденций движения, за которыми следуют блоки снижения частоты дискретизации для удаления избыточных деталей содержания. Второй усредняет скрытые векторы вдоль пространственного измерения для захвата быстрого движения. Обширные эксперименты показывают, что VidTwin достигает высокой степени сжатия 0,20% с высоким качеством восстановления (PSNR 28,14 на наборе данных MCL-JCV) и эффективно выполняет задачи генерации. Более того, наша модель демонстрирует объяснимость и масштабируемость, что открывает путь для будущих исследований в области представления и генерации скрытых представлений видео. Наш код доступен по ссылке https://github.com/microsoft/VidTok/tree/main/vidtwin.

6

Насколько "реальным" является ваша система одновременного перевода речи в текст в реальном времени?
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

Dec 24
BySara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček
9
2

Система одновременного перевода речи в текст (SimulST) переводит речь на исходном языке в текст на целевом языке параллельно с выступлением диктора, обеспечивая низкую задержку для лучшего понимания пользователем. Несмотря на то что ее предполагаемое применение охватывает неограниченную речь, большинство исследований сосредоточены на человеческой речи, предварительно разбитой на сегменты, что упрощает задачу и игнорирует значительные вызовы. Узкое фокусирование, в сочетании с широко распространенными терминологическими несоответствиями, ограничивает применимость результатов исследований к реальным приложениям, в конечном итоге замедляя прогресс в области. Наш обширный обзор литературы из 110 статей не только выявляет эти критические проблемы в текущих исследованиях, но также служит основой для наших ключевых вкладов. Мы 1) определяем этапы и основные компоненты системы SimulST, предлагая стандартизированную терминологию и таксономию; 2) проводим тщательный анализ тенденций в сообществе и 3) предлагаем конкретные рекомендации и перспективы для преодоления пробелов в существующей литературе, начиная от оценочных критериев до архитектур систем, для продвижения области к более реалистичным и эффективным решениям SimulST.

7

PepTune: Создание терапевтических пептидов де ниво с многокритериально-управляемым дискретным диффузией.
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Dec 23
BySophia Tang, Yinuo Zhang, Pranam Chatterjee
5
2

Пептидные препараты, важный класс лекарств, достигли замечательных успехов в лечении заболеваний, таких как диабет и рак, с примерами таких прорывов, как агонисты рецепторов GLP-1, революционизировавшие лечение сахарного диабета 2 типа и ожирения. Несмотря на успех, создание пептидов, удовлетворяющих нескольким противоречащим целям, таким как аффинность связывания с мишенью, растворимость и проницаемость мембраны, остается серьезной проблемой. Классическое развитие лекарств и конструктивное проектирование неэффективны для таких задач, поскольку не способны оптимизировать глобальные функциональные свойства, критические для терапевтической эффективности. Существующие генеративные фреймворки в основном ограничены непрерывными пространствами, неусловными выходами или руководством с одной целью, что делает их непригодными для дискретной оптимизации последовательностей по нескольким свойствам. Для решения этой проблемы мы представляем PepTune, многокритериальную дискретную модель диффузии для одновременного создания и оптимизации терапевтических пептидов SMILES. Основанный на фреймворке Маскированной Дискретной Языковой Модели (MDLM), PepTune обеспечивает допустимые структуры пептидов с расписаниями маскировки, зависящими от состояния, и целями на основе штрафов. Для направления процесса диффузии мы предлагаем стратегию на основе Монте-Карло поиска по дереву (MCTS), которая балансирует исследование и использование для итеративного улучшения Парето-оптимальных последовательностей. MCTS интегрирует классификаторные награды с расширением дерева поиска, преодолевая вызовы оценки градиента и разреженности данных, присущих дискретным пространствам. С использованием PepTune мы создаем разнообразные химически модифицированные пептиды, оптимизированные для нескольких терапевтических свойств, включая аффинность связывания с мишенью, проницаемость мембраны, растворимость, гемолиз и антифулинговые характеристики на различных целях, связанных с заболеваниями. В целом, наши результаты демонстрируют, что MCTS-управляемая дискретная диффузия является мощным и модульным подходом для многокритериального проектирования последовательностей в дискретных пространствах состояний.

Dec 25
Dec 26
Dec 27