Ежедневно отобранные исследовательские статьи по ИИ с переводами
Растущее распространение устройств XR стимулирует высокий спрос на качественное стереовидео, однако его производство остается дорогостоящим и склонным к артефактам. Для решения этой проблемы мы представляем StereoWorld — сквозную структуру, которая адаптирует предварительно обученный генератор видео для высококачественного моно-стерео преобразования. Наша система совместно кондиционирует модель на входном моноскопическом видео, одновременно явно контролируя генерацию с помощью геометрически осознанной регуляризации для обеспечения структурной достоверности в 3D. Для эффективного синтеза видео высокого разрешения дополнительно интегрирована пространственно-временная схему тайлинга. Для обеспечения масштабируемого обучения и оценки мы создали высококачественный набор данных стереовидео, содержащий более 11 миллионов кадров, выровненных по естественному межзрачковому расстоянию человека. Многочисленные эксперименты демонстрируют, что StereoWorld существенно превосходит существующие методы, генерируя стереовидео с превосходной визуальной достоверностью и геометрической согласованностью. Страница проекта доступна по адресу https://ke-xing.github.io/StereoWorld/.
Последние достижения в области диффузионных моделей значительно улучшили генерацию и редактирование изображений, однако создание или реконструкция многослойных PSD-файлов с прозрачными альфа-каналами остаются чрезвычайно сложными задачами. Мы предлагаем OmniPSD — унифицированную диффузионную архитектуру, построенную на экосистеме Flux, которая позволяет осуществлять как генерацию PSD из текста, так и декомпозицию изображения в PSD посредством контекстного обучения. Для генерации PSD из текста OmniPSD пространственно размещает несколько целевых слоёв на едином холсте и изучает их композиционные взаимосвязи через механизм пространственного внимания, создавая семантически согласованные и иерархически структурированные слои. Для декомпозиции изображения в PSD модель выполняет итеративное контекстное редактирование, постепенно извлекая и удаляя текстовые и переднеплановые компоненты для реконструкции редактируемых PSD-слоёв из единого растрового изображения. RGBA-VAE используется как вспомогательный модуль представления для сохранения прозрачности без влияния на обучение структуры. Многочисленные эксперименты на нашем новом наборе данных с RGBA-слоями демонстрируют, что OmniPSD достигает высокой точности генерации, структурной согласованности и учёта прозрачности, предлагая новую парадигму для генерации и декомпозиции многослойного дизайна с помощью диффузионных трансформеров.
Понимание того, как человеческий мозг репрезентирует зрительные концепции и в каких областях мозга кодируются эти репрезентации, остается давней научной проблемой. Десятилетия исследований углубили наше понимание зрительных репрезентаций, однако сигналы мозга остаются объемными и сложными, а пространство возможных зрительных концепций — огромным. Как следствие, большинство исследований остаются ограниченными по масштабу, опираются на ручной анализ, фокусируются на конкретных областях и свойствах и редко включают систематическую валидацию. Мы представляем крупномасштабный автоматизированный фреймворк для обнаружения и объяснения зрительных репрезентаций по всей коре головного человека. Наш метод включает две основные стадии. Сначала мы обнаруживаем кандидатные интерпретируемые паттерны в активности фМРТ с помощью методов неконтролируемого, управляемого данными разложения. Затем мы объясняем каждый паттерн, идентифицируя набор натуральных изображений, которые наиболее сильно его вызывают, и генерируя текстовое описание их общего визуального значения. Для масштабирования этого процесса мы внедряем автоматизированный конвейер, который тестирует множество кандидатных объяснений, присваивает количественные оценки надежности и выбирает наиболее последовательное описание для каждого воксельного паттерна. Наш фреймворк выявляет тысячи интерпретируемых паттернов, охватывающих множество различных зрительных концепций, включая ранее не зарегистрированные тонко дифференцированные репрезентации.
Композиция визуальных концепций, направленная на объединение различных элементов из изображений и видео в единое связное визуальное представление, до сих пор сталкивается с трудностями в точном извлечении сложных концепций из визуальных данных и гибком комбинировании концепций как из изображений, так и из видео. Мы представляем метод Bind & Compose, который позволяет осуществлять гибкую композицию визуальных концепций за один проход, связывая визуальные концепции с соответствующими токенами запросов и формируя целевой запрос из связанных токенов из различных источников. Метод использует иерархическую структуру связывания для кросс-аттенционной кондиции в Diffusion Transformers, кодируя визуальные концепции в соответствующие токены запросов для точной декомпозиции сложных визуальных концепций. Для повышения точности связывания концепций с токенами разработан Механизм диверсификации и поглощения, использующий дополнительный поглощающий токен для устранения влияния нерелевантных деталей при обучении на диверсифицированных запросах. Для улучшения совместимости между концепциями изображений и видео предложена Стратегия темпорального разделения, которая разбивает процесс обучения видеоконцепций на два этапа с двухветвевой структурой связывания для темпорального моделирования. Оценки показывают, что наш метод превосходит существующие подходы по согласованности концепций, соответствию запросу и качеству движения, открывая новые возможности для визуального творчества.
Мы представляем MotionEdit — новый набор данных для модификации изображений с акцентом на движение — задачи изменения действий и взаимодействий объектов с сохранением идентичности, структуры и физической правдоподобности. В отличие от существующих наборов данных для редактирования изображений, которые сосредоточены на статических изменениях внешнего вида или содержат лишь редкие низкокачественные модификации движения, MotionEdit предоставляет высококачественные парные изображения, отображающие реалистичные преобразования движения, извлеченные и проверенные из непрерывных видеопоследовательностей. Эта новая задача представляет не только научный интерес, но и имеет практическую значимость, обеспечивая работу таких приложений, как синтез видео с контролем кадров и анимация. Для оценки производительности моделей на новой задаче мы представляем MotionEdit-Bench — эталонный тест, который проверяет модели на модификациях с акцентом на движение и измеряет их производительность с помощью генеративных, дискриминативных и предпочтительных метрик. Результаты тестирования показывают, что редактирование движения остается крайне сложной задачей для современных диффузионных моделей редактирования. Для преодоления этого разрыва мы предлагаем MotionNFT (Motion-guided Negative-aware Fine Tuning) — посттренировочный фреймворк, который вычисляет награды за согласованность движения на основе того, насколько точно поток движения между входными и отредактированными моделью изображениями соответствует эталонному движению, направляя модели к точным преобразованиям движения. Многочисленные эксперименты на моделях FLUX.1 Kontext и Qwen-Image-Edit показывают, что MotionNFT последовательно улучшает качество редактирования и достоверность движения обеих базовых моделей в задаче модификации движения без ущерба для общей способности к редактированию, что подтверждает его эффективность.
Цепочка рассуждений (CoT) доказала свою высокую эффективность при решении сложных задач в обработке естественного языка, а современные мультимодальные большие языковые модели (MLLM) распространили этот подход на рассуждения в видеообласти. Однако такие модели обычно опираются на пространные цепочки рассуждений и большое количество входных визуальных токенов. Основываясь на эмпирических наблюдениях нашего сравнительного исследования, мы выдвигаем гипотезу, что для эффективного видеоанализа может быть достаточно лаконичных рассуждений в сочетании с сокращенным набором визуальных токенов. Для проверки данной гипотезы мы разрабатываем и валидируем эффективную框架 пост-обучения и вывода, которая усиливает способность видео-MLLM к рассуждениям. Наша框架 позволяет моделям работать со сжатыми визуальными токенами и генерировать краткие траектории рассуждений перед формированием ответа. Получившиеся модели демонстрируют существенное улучшение эффективности вывода, показывают конкурентоспособные результаты на различных бенчмарках и не требуют ручной разметки CoT или обучения с учителем. В совокупности наши результаты свидетельствуют, что длинные, подобные человеческим, рассуждения CoT могут быть не обязательны для общего видеоанализа, а лаконичные рассуждения могут быть одновременно эффективными и экономичными. Наш код будет доступен по адресу https://github.com/LaVi-Lab/Rethink_CoT_Video.
Оконное внимание и линейное внимание представляют собой две основные стратегии для снижения квадратичной сложности и постоянно растущего кэша ключей-значений (KV) в визуально-языковых моделях (VLM). Однако мы наблюдаем, что оконные VLM демонстрируют снижение производительности, когда длина последовательности превышает размер окна, в то время как линейное внимание показывает худшие результаты в задачах, требующих интенсивной обработки информации, таких как OCR и понимание документов. Чтобы преодолеть эти ограничения, мы предлагаем InfiniteVL — VLM-архитектуру с линейной сложностью, которая сочетает скользящее оконное внимание (SWA) с Gated DeltaNet. Для достижения конкурентоспособной мультимодальной производительности при ограниченных ресурсах мы разработали трехэтапную стратегию обучения, включающую предварительное обучение дистилляцией, инструктивное тонкое настройку и SFT на длинных последовательностях. Примечательно, что используя менее 2% данных, необходимых для обучения ведущих VLM, InfiniteVL не только значительно превосходит предыдущие VLM с линейной сложностью, но и соответствует производительности ведущих Transformer- based VLM, демонстрируя при этом эффективное сохранение долговременной памяти. По сравнению с аналогичными по размеру Transformer-based VLM, ускоренными с помощью FlashAttention-2, InfiniteVL обеспечивает более чем 3.6-кратное ускорение вывода при поддержании постоянной задержки и объема потребляемой памяти. В сценариях потокового понимания видео модель поддерживает стабильную скорость предзаполнения в реальном времени 24 кадра/с, сохраняя долговременный кэш памяти. Код и модели доступны по адресу https://github.com/hustvl/InfiniteVL.
Системы автономного вождения сталкиваются с трудностями в редких сценариях из-за ограниченных знаний о мире и слабого моделирования визуальной динамики. Существующие методы на основе "визуальный язык-действие" не могут использовать неразмеченные видео для визуального причинного обучения, в то время как методы на основе моделей мира лишены возможностей логического вывода больших языковых моделей. В данной работе мы создаем несколько специализированных наборов данных с аннотациями логических рассуждений и планирования для сложных сценариев. Затем предлагается унифицированная архитектура Understanding-Generation-Planning (UniUGP), которая объединяет анализ сцены, генерацию будущих видео и планирование траектории через гибридную экспертизу. Интегрируя предобученные визуально-языковые модели и модели генерации видео, UniUGP использует визуальную динамику и семантические рассуждения для улучшения планирования. Принимая многокадровые наблюдения и языковые инструкции на вход, система производит интерпретируемую цепочку рассуждений, физически согласованные траектории и последовательные видео будущих состояний. Представлена четырехэтапная стратегия обучения, поэтапно формирующая эти возможности на множестве существующих наборов данных по автономному вождению вместе с предложенными специализированными наборами. Эксперименты демонстрируют передовые результаты в восприятии, рассуждении и принятии решений с превосходной обобщающей способностью для сложных редких ситуаций.
Модели «Видение-Язык-Действие» (VLA) недавно позволили реализовать роботизированное манипулирование, связывая визуальные и лингвистические сигналы с действиями. Однако большинство VLA-моделей предполагают марковское свойство, полагаясь лишь на текущее наблюдение, что приводит к темпоральной миопии, ухудшающей согласованность на длительных горизонтах. В данной работе мы рассматриваем движение как более компактное и информативное представление временного контекста и динамики мира, которое фиксирует межсостоятельные изменения, фильтруя статический шум на уровне пикселей. Основываясь на этой идее, мы предлагаем HiF-VLA — унифицированную структуру, использующую движение для двунаправленного временного анализа. HiF-VLA кодирует прошлую динамику через априорные данные ретроспективного анализа, предвосхищает будущее движение с помощью проспективного рассуждения и интегрирует оба подхода через совместный экспертный модуль, модулируемый ретроспективой, что реализует парадигму «думай-во-время-действия» для манипулирования на длительных горизонтах. В результате HiF-VLA превосходит сильные базовые линии на бенчмарках LIBERO-Long и CALVIN ABC-D, обеспечивая при этом незначительную дополнительную задержку вывода. Более того, HiF-VLA демонстрирует существенное улучшение в реальных задачах длительного манипулирования, подтверждая свою широкую эффективность в практических робототехнических сценариях.
Мы представляем WonderZoom — новый подход к генерации 3D-сцен с контентом на множественных пространственных масштабах из одного изображения. Существующие модели генерации 3D-миров остаются ограниченными синтезом в едином масштабе и не способны создавать согласованное содержимое сцен на различных уровнях детализации. Ключевая проблема заключается в отсутствии масштабно-адаптивного 3D-представления, способного генерировать и визуализировать объекты с сильно различающимися пространственными размерами. WonderZoom решает эту задачу с помощью двух основных инноваций: (1) масштабно-адаптивных гауссовских серфелов для генерации и реального времени рендеринга многомасштабных 3D-сцен, и (2) прогрессивного синтезатора деталей, который итеративно генерирует 3D-контент на более тонких масштабах. Наш подход позволяет пользователям «приближаться» к области 3D-сцены и авторегрессивно синтезировать ранее отсутствующие детали — от ландшафтов до микроскопических особенностей. Эксперименты демонстрируют, что WonderZoom существенно превосходит современные модели генерации видео и 3D как по качеству, так и по соответствию исходному изображению, обеспечивая создание многомасштабных 3D-миров из одного изображения. Видео-результаты и интерактивный просмотр сгенерированных многомасштабных 3D-миров доступны по адресу https://wonderzoom.github.io/.
Диффузионные большие языковые модели (dLLM) представляют перспективную альтернативу авторегрессионным моделям, однако их практическая полезность серьезно ограничена медленным итеративным сэмплированием. Мы представляем SchED — не требующий дообучения и агностичный к модели алгоритм раннего выхода, который агрегирует маргиналы логитов на всем промежутке и останавливает декодирование, как только достигается плавный порог уверенности, зависящий от прогресса. Мы оценили SchED на двух семействах dLLM (Dream и LLaDA) в базовых и инструктивно-настроенных вариантах на десяти тестовых наборах, охватывающих такие задачи, как ответы на вопросы с множественным выбором (MCQ), математика, вопросы/суммаризация длинной формы и перевод. SchED обеспечивает значительное и стабильное ускорение: на инструктивно-настроенных моделях он достигает ускорения в 3,8–4,0 раза при сохранении в среднем 99,8–100% балла базового уровня. На базовых моделях SchED дает стабильный выигрыш в скорости при сохранении 99,1–100% производительности, с увеличением до 2,34 раза в более агрессивных настройках. Используя консервативную метрику скорости, которая строго штрафует за потерю качества (QPS, γ=4), мы показываем, что SchED надежен и явно превосходит предыдущие методы раннего выхода на основе уверенности, которые не работают на генерации длинной формы. Анализ энтропии токенных предсказаний модели показывает, что инструктивная настройка ускоряет затухание прогностической энтропии. Превращая реальную стабилизацию уверенности в вычислительную экономию, SchED делает декодирование dLLM существенно более эффективным.
Редактирование знаний направлено на обновление конкретных фактов в больших языковых моделях (LLM) без полного переобучения. Предыдущие исследования были сосредоточены на настройке слоев знаний LLM, доказав свою эффективность для выборочных изменений. Однако существует значительный разрыв между их производительностью в контролируемых оценках с учителем и их реальной эффективностью в сценариях непрерывного обучения, что серьезно ограничивает их практическую применимость. Эмпирический анализ данной работы выявляет две повторяющиеся проблемы, связанные с этим разрывом: (1) Большинство традиционных методов приводят отредактированную модель к переобучению на новый факт, ухудшая предварительно обученные способности; (2) Отсутствует критически важный этап консолидации знаний, в результате чего новые факты недостаточно интегрируются в поведение LLM во время логического вывода при авторегрессионной генерации, что приводит к рассогласованию между параметрическими знаниями и фактическим поведением генерации. Для решения этих проблем мы предлагаем Edit-then-Consolidate — новую парадигму редактирования знаний, призванную устранить разрыв между теоретическими методами и их практической применимостью. В частности, (1) наша framework-система смягчает переобучение с помощью целевой проксимальной supervised fine-tuning (TPSFT), которая локализует правку с помощью trust-region целевой функции для ограничения дрейфа политики; (2) Затем этап консолидации с использованием Group Relative Policy Optimization (GRPO) согласует отредактированные знания с политикой вывода на основе Chain-of-Thought (CoT), оптимизируя поведение на уровне траекторий с помощью комплексных reward-сигналов. Многочисленные эксперименты демонстрируют, что наша framework-система последовательно повышает надежность и обобщающую способность редактирования в условиях реалистичных оценок, одновременно лучше сохраняя локальность и предварительно обученные capabilities.
Агенты — системы на основе языковых моделей (LM), способные к рассуждениям, планированию и действиям, становятся доминирующей парадигмой для реальных приложений искусственного интеллекта. Несмотря на широкое распространение, принципы, определяющие их производительность, остаются недостаточно изученными, что заставляет практиков полагаться на эвристики, а не на принципиальные проектные решения. Мы устраняем этот пробел, выводя количественные принципы масштабирования для агентных систем. Мы оцениваем их на четырех различных бенчмарках: Finance-Agent, BrowseComp-Plus, PlanCraft и Workbench. Используя пять канонических архитектур (Одиночный, Независимый, Централизованный, Децентрализованный, Гибридный), реализованных на трех семействах LLM, мы проводим контролируемое оценивание, охватывающее 180 конфигураций со стандартизированными инструментами и бюджетом токенов. Мы выводим прогностическую модель, используя эмпирические метрики координации, включая эффективность, накладные расходы, усиление ошибок и избыточность, которая достигает перекрёстно проверенного R²=0,513. Мы идентифицируем три доминирующих эффекта: (1) компромисс между инструментами и координацией: при фиксированных вычислительных бюджетах задачи с интенсивным использованием инструментов непропорционально страдают от накладных расходов многоагентности; (2) насыщение возможностей: координация приносит убывающую или отрицательную отдачу (β=-0,408, p<0,001), когда базовые показатели одиночного агента превышают ~45%; (3) топологически зависимое усиление ошибок: независимые агенты усиливают ошибки в 17,2 раза из-за неконтролируемого распространения, в то время как централизованная координация ограничивает это значение до 4,4 раза. Централизованная координация улучшает производительность на 80,9% в параллелизуемых задачах, таких как финансовые рассуждения, тогда как децентрализованная координация превосходит в динамической веб-навигации (+9,2% против +0,2%). Однако для последовательных задач рассуждения все многоагентные варианты ухудшали производительность на 39–70%. Данная framework-модель предсказывает оптимальную стратегию координации для 87% проверочных конфигураций, предоставляя прогностический принцип агентного масштабирования на основе измеримых свойств задачи.
Опираясь на успех метода 3D Gaussian Splatting (3DGS) в представлении статических 3D-сцен, его расширение для динамических сцен, часто обозначаемое как 4DGS или динамический 3DGS, привлекает все больше внимания. Однако проектирование более компактных и эффективных схем деформации в сочетании с оптимизированными по критерию "скорость-искажение" стратегиями сжатия для динамических 3DGS-представлений остается малоизученной областью. Существующие методы либо полагаются на пространственно-временной 4DGS с избыточно заданными, короткоживущими гауссовыми примитивами, либо на канонический 3DGS с деформацией, лишенной явного временного контроля. Для решения этой проблемы мы представляем TED-4DGS — схему деформации на основе временной активации и векторных представлений (эмбеддингов), предназначенную для оптимизированного по критерию "скорость-искажение" сжатия 4DGS, которая объединяет преимущества обоих подходов. TED-4DGS построена на разреженном 3DGS-представлении с использованием якорей. Каждому каноническому якорю назначаются обучаемые параметры временной активации, определяющие его появление и исчезновение во времени, в то время как легковесное временное векторное представление для каждого якоря запрашивает общий банк деформаций для генерации специфичной для якоря деформации. Для сжатия с учетом критерия "скорость-искажение" мы включаем гипераприор на основе неявного нейросетевого представления (INR) для моделирования распределений атрибутов якорей, а также покомпонентную авторегрессионную модель для учета внутри-якорных корреляций. Благодаря этим новым элементам наша схема достигает наилучших показателей по критерию "скорость-искажение" на нескольких наборах реальных данных. Насколько нам известно, данная работа является одним из первых исследований, направленных на создание оптимизированной по критерию "скорость-искажение" системы сжатия для динамических 3DGS-представлений.
Диффузионные (крупные) языковые модели (dLLM) в настоящее время достигают аналогичной производительности на последующих задачах по сравнению с их авторегрессионными аналогами, сохраняя при этом перспективу большей эффективности на этапе вывода. Особенно успешным вариантом является дискретная диффузия с маскированием, при которой буфер, заполненный специальными маскирующими токенами, постепенно заменяется токенами, сэмплированными из словаря модели. Повышение эффективности может быть достигнуто за счет параллельного раскрытия нескольких токенов, однако одновременное раскрытие слишком большого их количества чревато снижением качества генерации. Таким образом, ключевым аспектом проектирования dLLM является процедура выборки, которая на каждом шаге диффузионного процесса определяет, какие токены заменить. Действительно, недавние исследования показали, что эвристические стратегии, такие как пороговая фильтрация по уверенности, приводят к более высокому качеству и пропускной способности по токенам по сравнению со случайным раскрытием. Однако у таких эвристик есть недостатки: они требуют ручной настройки, и мы наблюдаем, что их производительность ухудшается с увеличением размера буфера. В данной работе мы вместо этого предлагаем обучать процедуры выборки с помощью обучения с подкреплением. В частности, мы формализуем выборку в маскированной диффузии как марковский процесс принятия решений, в котором dLLM выступает в качестве среды, и предлагаем облегченную архитектуру политики на основе однослойного трансформера, которая отображает уверенности токенов dLLM в решения о раскрытии. Наши эксперименты показывают, что эти обученные политики соответствуют производительности передовых эвристик в сочетании с полуавторегрессионной генерацией, превосходя их в условиях полной диффузии. Мы также исследуем переносимость этих политик, обнаруживая, что они способны обобщаться на новые базовые dLLM и большие длины последовательностей. Однако мы также наблюдаем, что их производительность снижается при применении к данным из других предметных областей, и что тонкая настройка компромисса между точностью и эффективностью может быть сложной задачей в нашем подходе.
Последние достижения в области мультимодальных больших языковых моделей (MLLM) привели к значительному прогрессу в различных тестах. Однако их способность к пониманию инфракрасных изображений оставалась неизученной. Чтобы восполнить этот пробел, мы представляем IF-Bench — первый высококачественный бенчмарк, разработанный для оценки мультимодального понимания инфракрасных изображений. IF-Bench состоит из 499 изображений, полученных из 23 инфракрасных наборов данных, и 680 тщательно отобранных визуальных вопросно-ответных пар, охватывающих 10 ключевых аспектов понимания изображений. На основе этого бенчмарка мы систематически оцениваем более 40 открытых и проприетарных MLLM, применяя циклическую оценку, двуязычное тестирование и гибридные стратегии оценивания для повышения надежности результатов. Наш анализ выявляет, как масштаб модели, архитектура и парадигмы вывода влияют на понимание инфракрасных изображений, предоставляя ценные инсайты для данной области. Кроме того, мы предлагаем не требующий обучения метод генеративного визуального prompting (GenViP), который использует передовые модели редактирования изображений для преобразования инфракрасных изображений в семантически и пространственно согласованные RGB-аналоги, тем самым смягчая сдвиги доменного распределения. Многочисленные эксперименты демонстрируют, что наш метод стабильно обеспечивает значительное улучшение производительности для широкого спектра MLLM. Бенчмарк и код доступны по адресу https://github.com/casiatao/IF-Bench.
Авторегрессионная (AR) диффузия позволяет осуществлять потоковое интерактивное генерацию длинных видео, создавая кадры причинно-следственным образом, однако сохранение согласованности на минутных масштабах остается сложной задачей из-за накопления ошибок, дрейфа движения и повторения контента. Мы подходим к этой проблеме с точки зрения памяти, рассматривая синтез видео как рекуррентный динамический процесс, требующий скоординированного краткосрочного и долгосрочного контекста. Мы предлагаем VideoSSM, модель длинных видео, которая объединяет AR-диффузию с гибридной памятью на основе пространства состояний. Модель пространства состояний (SSM) служит развивающейся глобальной памятью динамики сцены на протяжении всей последовательности, в то время как контекстное окно обеспечивает локальную память для подсказок движения и мелких деталей. Такая гибридная конструкция сохраняет глобальную согласованность без застывших повторяющихся паттернов, поддерживает адаптивное к запросам взаимодействие и масштабируется за линейное время от длины последовательности. Эксперименты на бенчмарках для коротких и длинных дистанций демонстрируют передовую временную согласованность и стабильность движения среди авторегрессионных генераторов видео, особенно на минутных масштабах, обеспечивая разнообразие контента и интерактивное управление на основе промптов, тем самым устанавливая масштабируемую, учитывающую память структуру для генерации длинных видео.
Легковесные системы преобразования текста в речь в реальном времени играют ключевую роль для обеспечения доступности. Однако наиболее эффективные модели TTS часто полагаются на упрощенные фонимизаторы, которые плохо справляются с контекстно-зависимыми задачами. В то же время, более продвинутые фонимизаторы с глубоким лингвистическим анализом обычно требуют высоких вычислительных затрат, что препятствует работе в реальном времени. В данной статье исследуется компромисс между качеством фонимизации и скоростью вывода в TTS-системах с графем-фонемным преобразованием (G2P) и предлагается практическая архитектура для преодоления этого разрыва. Мы представляем легковесные стратегии для контекстно-зависимой фонимизации и сервис-ориентированную архитектуру TTS, которая выполняет эти модули как независимые сервисы. Такой подход отделяет ресурсоемкие контекстно-зависимые компоненты от основного движка TTS, эффективно преодолевая барьер задержек и позволяя использовать высококачественные модели фонимизации в реальном времени. Экспериментальные результаты подтверждают, что предложенная система улучшает корректность произношения и лингвистическую точность при сохранении отзывчивости в реальном времени, что делает ее хорошо подходящей для автономных и устройственных TTS-приложений.
Для решения проблемы компромисса между устойчивостью и производительностью в robust VLM мы наблюдаем, что служебные слова могут вызывать уязвимость VLMs к кросс-модальным атакам, и предлагаем метод Function-word De-Attention (FDA) для снижения влияния служебных слов. По аналогии с дифференциальными усилителями, наш FDA вычисляет исходное кросс-внимание и кросс-внимание служебных слов внутри голов внимания и дифференциально вычитает последнее из первого для получения более выровненных и устойчивых VLMs. Комплексные эксперименты включают 2 современных базовых метода при 6 различных атаках на 2 downstream-задачи, 3 набора данных и 3 модели. В целом, наш FDA обеспечивает среднее снижение ASR на 18/13/53% при падении производительности всего на 0.2/0.3/0.6% на 3 тестируемых моделях для retrieval и снижение ASR на 90% с приростом производительности на 0.3% для visual grounding. Мы экспериментально демонстрируем масштабируемость, способность к обобщению и zero-shot производительность FDA, а также проводим детальные ablation-исследования и анализ. Код будет общедоступен по адресу https://github.com/michaeltian108/FDA.
Клинический диалог представляет собой сложную дуальность, требующую как эмпатической беглости естественной беседы, так и строгой точности доказательной медицины. Хотя большие языковые модели обладают беспрецедентными лингвистическими возможностями, их архитектурная зависимость от реактивной и несохраняющей состояние обработки часто отдает предпочтение вероятностной правдоподобности, а не фактической достоверности. Это структурное ограничение инициировало смену парадигмы в медицинском ИИ: от генеративного прогнозирования текста к агентной автономии, где модель функционирует как центральный механизм рассуждений, способный к обдуманному планированию и устойчивой памяти. Выходя за рамки существующих обзоров, которые в основном каталогизируют прикладные применения, данное исследование предлагает анализ на основе первых принципов когнитивной архитектуры, лежащей в основе этого сдвига. Мы вводим новую таксономию, структурированную по ортогональным осям источника знаний и цели агентности, чтобы разграничить происхождение клинических знаний и операционный охват системы. Эта структура позволяет провести систематический анализ внутренних компромиссов между креативностью и надежностью, классифицируя методы на четыре архетипа: Клиницисты в латентном пространстве, Эмерджентные планировщики, Обоснованные синтезаторы и Верифицируемые автоматизаторы рабочих процессов. Для каждой парадигмы мы деконструируем техническую реализацию во всей когнитивной цепочке, включая стратегическое планирование, управление памятью, выполнение действий, коллаборацию и эволюцию, чтобы раскрыть, как различные архитектурные выборы балансируют напряжение между автономией и безопасностью.
Последние достижения в области генерации видео по текстовому описанию позволили добиться впечатляющего реализма, однако точный контроль над движением и ориентацией камеры остается сложной задачей. Существующие подходы обычно кодируют траектории камеры с помощью относительных или неоднозначных представлений, что ограничивает явный геометрический контроль. Мы представляем GimbalDiffusion — фреймворк, который обеспечивает управление камерой, основанное на координатах реального мира, с использованием силы тяжести в качестве глобального ориентира. Вместо описания движения относительно предыдущих кадров наш метод определяет траектории камеры в абсолютной системе координат, позволяя осуществлять точный и интерпретируемый контроль параметрами камеры без необходимости в начальном опорном кадре. Мы используем панорамные 360-градусные видео для построения широкого разнообразия траекторий камеры, далеко выходящих за пределы преимущественно прямолинейных, направленных вперед траекторий, характерных для традиционных видеоданных. Для дальнейшего улучшения управления камерой мы вводим условное нулевое тангажное условие — стратегию аннотирования, которая снижает зависимость модели от текстового содержания при его конфликте с параметрами камеры (например, генерация травы, когда камера направлена в небо). Наконец, мы создаем эталон для оценки генерации видео с учетом параметров камеры, перебалансировав набор данных SpatialVID-HQ для всестороннего тестирования при широком диапазоне изменения тангажа камеры. В совокупности эти достижения повышают управляемость и надежность моделей генерации видео по тексту, обеспечивая точное, согласованное с гравитацией управление камерой в рамках генеративных фреймворков.
Приобретение оборудования для майнинга биткойнов требует стратегического выбора времени из-за волатильности рынков, быстрого технологического устаревания и циклов доходности, определяемых протоколом. Несмотря на эволюцию майнинга в капиталоемкую отрасль, существует мало рекомендаций о том, когда следует покупать новые специализированные интегральные схемы (ASIC), и ранее не существовало вычислительных моделей для решения этой проблемы принятия решений. Мы восполняем этот пробел, сформулировав задачу приобретения оборудования как задачу классификации временных рядов, предсказывая, приведет ли покупка ASIC-машин к прибыльной (окупаемость инвестиций (ROI) >= 1), маржинальной (0 < ROI < 1) или убыточной (ROI <= 0) отдаче в течение одного года. Мы предлагаем MineROI-Net, открытую архитектуру на основе трансформеров, разработанную для выявления временных паттернов доходности майнинга в различных масштабах. Оценка на данных по 20 ASIC-майнерам, выпущенным в период с 2015 по 2024 год в различных рыночных режимах, показала, что MineROI-Net превосходит базовые модели на основе LSTM и TSLANet, достигая точности 83,7% и макро-показателя F1 83,1%. Модель демонстрирует высокую экономическую значимость, достигая точности 93,6% в выявлении убыточных периодов и 98,5% для прибыльных, при этом избегая ошибок классификации прибыльных сценариев как убыточных и наоборот. Эти результаты указывают на то, что MineROI-Net предлагает практический, основанный на данных инструмент для выбора времени закупок майнингового оборудования, потенциально снижая финансовые риски в капиталоемких майнинговых операциях. Модель доступна по адресу: https://github.com/AMAAI-Lab/MineROI-Net.