Ежедневно отобранные исследовательские статьи по ИИ с переводами
Рассуждения являются критическими для успешного выполнения широкого спектра задач большими языковыми моделями (LLM). В то время как методы, такие как цепочка мыслей (CoT), улучшают производительность LLM, декомпозируя задачи на промежуточные шаги, они также вызывают значительные накладные расходы по токенам, что приводит к увеличению затрат. Мы обнаружили, что процесс рассуждения текущих LLM излишне длителен и его можно сжать, включив разумный бюджет токенов в подсказку, однако выбор бюджета токенов играет решающую роль в фактической эффективности сжатия. Затем мы предлагаем фреймворк рассуждения LLM, осведомленный о бюджете токенов, который динамически оценивает бюджеты токенов для различных задач на основе сложности рассуждений и использует оцененные бюджеты токенов для направления процесса рассуждения. Эксперименты показывают, что наш метод эффективно снижает затраты на токены в рассуждениях CoT с незначительным снижением производительности, предлагая практическое решение для балансировки эффективности и точности в рассуждениях LLM. Код: https://github.com/GeniusHTX/TALE.
В данной работе мы стремимся разработать MLLM, который понимает и решает вопросы, изучая создание каждого промежуточного шага рассуждения до окончательного ответа. Для этого мы предлагаем Collective Monte Carlo Tree Search (CoMCTS) - новый метод обучения рассуждению для MLLM, который вводит концепцию коллективного обучения в "поиск по дереву" для эффективного и эффективного поиска пути рассуждения и обучения. Основная идея CoMCTS заключается в использовании коллективных знаний из нескольких моделей для совместного предположения, поиска и определения эффективных путей рассуждения к правильным ответам через четыре итеративные операции, включая Расширение, Симуляцию и Определение Ошибок, Обратное распространение и Выбор. С использованием CoMCTS мы создаем Mulberry-260k, мультимодальный набор данных с деревом богатых, явных и четко определенных узлов рассуждения для каждого вопроса. С помощью Mulberry-260k мы выполняем коллективное SFT для обучения нашей модели, Mulberry, серии MLLM с возможностями пошагового рассуждения и отражения, подобных o1. Обширные эксперименты демонстрируют превосходство наших предложенных методов на различных бенчмарках. Код будет доступен по адресу https://github.com/HJYao00/Mulberry
Мы представляем эффективный подход без использования кодировщика для понимания видео-языка, который достигает конкурентоспособной производительности при значительном снижении вычислительной нагрузки. Текущие модели видео-языка обычно зависят от массивных кодировщиков изображений (300M-1.1B параметров) или видео-кодировщиков (1B-1.4B параметров), что создает значительную вычислительную нагрузку при обработке многофреймовых видео. Наш метод представляет новый блок пространственно-временного выравнивания (STAB), который напрямую обрабатывает видео-входы без необходимости предварительно обученных кодировщиков, используя всего 45M параметров для визуальной обработки - как минимум в 6.5 раз меньше по сравнению с традиционными подходами. Архитектура STAB объединяет локальное пространственно-временное кодирование для извлечения детализированных признаков, эффективное пространственное уменьшение через обученное внимание и отдельные механизмы для моделирования отношений на уровне кадра и видео. Наша модель достигает сравнимой или более высокой производительности по сравнению с подходами на основе кодировщика для ответов на вопросы по видео на стандартных бенчмарках. Оценка ответов на вопросы по видео с детализацией демонстрирует эффективность нашей модели, превосходя подходы на основе кодировщика Video-ChatGPT и Video-LLaVA в ключевых аспектах, таких как правильность и понимание времени. Обширные исследования абляции подтверждают наши архитектурные выборы и демонстрируют эффективность нашего подхода к пространственно-временному моделированию, обеспечивая скорости обработки в 3-4 раза быстрее, чем предыдущие методы. Код доступен по ссылке https://github.com/jh-yi/Video-Panda.
Радио остается всеобщим средством массовой информационной диссеминации, причем станции AM/FM охватывают больше американцев, чем социальные сети на смартфонах или прямое телевидение. Все чаще радиовещание также транслируется онлайн и доступно через Интернет. Мы представляем WavePulse, фреймворк, который записывает, документирует и анализирует радио контент в реальном времени. Хотя наш фреймворк в целом применим, мы демонстрируем эффективность WavePulse в совместном проекте с командой политологов, сосредоточенных на Президентских выборах 2024 года. Мы используем WavePulse для мониторинга прямых трансляций 396 новостных радиостанций в течение трех месяцев, обработав почти 500 000 часов аудиопотоков. Эти потоки были преобразованы во временные штампы, диаризованные транскрипты и проанализированы для отслеживания ключевых политологических вопросов как на национальном, так и на штатном уровнях. Наш анализ показал, как местные проблемы взаимодействуют с национальными тенденциями, предоставляя понимание потока информации. Наши результаты демонстрируют эффективность WavePulse в захвате и анализе контента с радио трансляций, доступных из Интернета. Код и набор данных можно найти по ссылке https://wave-pulse.io.
Система одновременного перевода речи в текст (SimulST) переводит речь на исходном языке в текст на целевом языке параллельно с выступлением диктора, обеспечивая низкую задержку для лучшего понимания пользователем. Несмотря на то что ее предполагаемое применение охватывает неограниченную речь, большинство исследований сосредоточены на человеческой речи, предварительно разбитой на сегменты, что упрощает задачу и игнорирует значительные вызовы. Узкое фокусирование, в сочетании с широко распространенными терминологическими несоответствиями, ограничивает применимость результатов исследований к реальным приложениям, в конечном итоге замедляя прогресс в области. Наш обширный обзор литературы из 110 статей не только выявляет эти критические проблемы в текущих исследованиях, но также служит основой для наших ключевых вкладов. Мы 1) определяем этапы и основные компоненты системы SimulST, предлагая стандартизированную терминологию и таксономию; 2) проводим тщательный анализ тенденций в сообществе и 3) предлагаем конкретные рекомендации и перспективы для преодоления пробелов в существующей литературе, начиная от оценочных критериев до архитектур систем, для продвижения области к более реалистичным и эффективным решениям SimulST.
Пептидные препараты, важный класс лекарств, достигли замечательных успехов в лечении заболеваний, таких как диабет и рак, с примерами таких прорывов, как агонисты рецепторов GLP-1, революционизировавшие лечение сахарного диабета 2 типа и ожирения. Несмотря на успех, создание пептидов, удовлетворяющих нескольким противоречащим целям, таким как аффинность связывания с мишенью, растворимость и проницаемость мембраны, остается серьезной проблемой. Классическое развитие лекарств и конструктивное проектирование неэффективны для таких задач, поскольку не способны оптимизировать глобальные функциональные свойства, критические для терапевтической эффективности. Существующие генеративные фреймворки в основном ограничены непрерывными пространствами, неусловными выходами или руководством с одной целью, что делает их непригодными для дискретной оптимизации последовательностей по нескольким свойствам. Для решения этой проблемы мы представляем PepTune, многокритериальную дискретную модель диффузии для одновременного создания и оптимизации терапевтических пептидов SMILES. Основанный на фреймворке Маскированной Дискретной Языковой Модели (MDLM), PepTune обеспечивает допустимые структуры пептидов с расписаниями маскировки, зависящими от состояния, и целями на основе штрафов. Для направления процесса диффузии мы предлагаем стратегию на основе Монте-Карло поиска по дереву (MCTS), которая балансирует исследование и использование для итеративного улучшения Парето-оптимальных последовательностей. MCTS интегрирует классификаторные награды с расширением дерева поиска, преодолевая вызовы оценки градиента и разреженности данных, присущих дискретным пространствам. С использованием PepTune мы создаем разнообразные химически модифицированные пептиды, оптимизированные для нескольких терапевтических свойств, включая аффинность связывания с мишенью, проницаемость мембраны, растворимость, гемолиз и антифулинговые характеристики на различных целях, связанных с заболеваниями. В целом, наши результаты демонстрируют, что MCTS-управляемая дискретная диффузия является мощным и модульным подходом для многокритериального проектирования последовательностей в дискретных пространствах состояний.