HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

13 papers found

Диффузионные языковые модели — это супер-обучаемые данные
Diffusion Language Models are Super Data Learners

Nov 5

ByJinjie Ni, Qian Liu, Longxu Dou, Chao Du, Zili Wang, Hang Yan, Tianyu Pang, Michael Qizhe Shieh

121

В строго контролируемых условиях предварительного обучения мы наблюдаем переломный момент: когда объем уникальных данных ограничен, диффузионные языковые модели (DLM) последовательно превосходят авторегрессионные (AR) модели за счет обучения на большем количестве эпох. Этот переломный момент смещается на более поздние этапы при увеличении объема или повышении качества данных, на более ранние — при увеличении размера моделей, и сохраняется как для плотных, так и для разреженных архитектур. Мы объясняем это преимущество совокупным действием трех факторов: (1) моделирование в произвольном порядке, (2) сверхплотные вычисления за счет итеративного двунаправленного шумоподавления и (3) встроенная аугментация методом Монте-Карло; добавление шума во входные данные или параметры улучшает работу AR-моделей при ограничении данных, но не позволяет устранить разрыв. В крупном масштабе DLM с 1.7 млрд параметров, обученная с вычислительным бюджетом ~1.5 трлн токенов на 10 млрд уникальных токенов Python, превосходит AR-кодера, обученного в строго идентичных условиях. Кроме того, DLM с 1 млрд параметров достигает точности >56% на HellaSwag и >33% на MMLU, используя всего 1 млрд токенов, без каких-либо специальных приемов, исключительно за счет повторения стандартных данных предварительного обучения. Мы также показываем, что в данном режиме рост перекрестной энтропии на валидации не свидетельствует о снижении производительности на последующих задачах.

UniAVGen: Унифицированное генерирование аудио и видео с асимметричными кросс-модальными взаимодействиями
UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

Nov 5

ByGuozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang

Из-за отсутствия эффективного кросс-модального моделирования существующие методы генерации аудио-видео с открытым исходным кодом часто демонстрируют нарушенную синхронизацию губ и недостаточную семантическую согласованность. Для устранения этих недостатков мы предлагаем UniAVGen — унифицированную архитектуру для совместной генерации аудио и видео. В основе UniAVGen лежит двухканальная структура совместного синтеза, включающая два параллельных диффузионных трансформера (DiT) для построения единого кросс-модального латентного пространства. Ключевым элементом является механизм асимметричного кросс-модального взаимодействия, обеспечивающий двунаправленное, временнó́е кросс-внимание, что гарантирует точную пространственно-временную синхронизацию и семантическую согласованность. Кроме того, это взаимодействие усиливается модулем лице-ориентированной модуляции, который динамически выделяет значимые области в процессе взаимодействия. Для повышения достоверности генерации на этапе вывода мы дополнительно вводим модально-ориентированное управление без классификатора — новую стратегию, явно усиливающую сигналы кросс-модальной корреляции. Примечательно, что благодаря продуманной архитектуре совместного синтеза UniAVGen позволяет объединять ключевые задачи аудио-видео обработки в единой модели, такие как совместная генерация и продолжение аудио-видео, озвучивание видео и аудио-управляемый видеосинтез. Комплексные эксперименты подтверждают, что при значительно меньшем объеме обучающих данных (1,3 млн против 30,1 млн) UniAVGen демонстрирует общие преимущества в синхронизации аудио-видео, согласованности тембра и эмоциональной согласованности.

LEGO-Eval: в сторону детальной оценки синтеза воплощенных 3D-сред с инструментальным расширением
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

Nov 4

ByGyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo

Несмотря на недавний прогресс в использовании больших языковых моделей (LLM) для автоматического создания 3D-сцен, генерируемые сцены часто лишены реалистичных пространственных компоновок и атрибутов объектов, характерных для реальных сред. Поскольку эта проблема проистекает из недостаточно детализированных, грубых инструкций, становится критически важным продвижение синтеза 3D-сцен, направляемого более детальными, тонкими инструкциями, отражающими реальные среды. Без таких реалистичных сцен обучение воплощенных агентов в нереалистичных условиях может привести к формированию у них представлений, значительно расходящихся с реальной физикой и семантикой мира, что ухудшает их производительность при развертывании. Таким образом, проверка соответствия между детализированной инструкцией и сгенерированной сценой необходима для эффективного обучения. Однако современные методы оценки, такие как CLIPScore и визуально-языковые модели (VLM), часто неспособны надежно оценить такое соответствие. Этот недостаток возникает в основном из-за их поверхностного понимания 3D-сцен, что часто приводит к неправильной обоснованности компонентов сцены. Чтобы решить эту проблему, мы представляем LEGO-Eval, фреймворк для оценки, оснащенный разнообразными инструментами, предназначенными для явного обоснования компонентов сцены, что позволяет проводить более точную оценку соответствия. Мы также представляем LEGO-Bench, эталонный набор детализированных инструкций, которые задают сложные компоновки и атрибуты реальных сред. Эксперименты показывают, что LEGO-Eval превосходит подход "VLM-как-судья" на 0,41 балла F1 при оценке соответствия сцены и инструкции. Тестирование с помощью LEGO-Bench выявляет значительные ограничения современных методов генерации. Для всех оцененных подходов процент успеха составил не более 10% в создании сцен, полностью соответствующих детализированным инструкциям.

CostBench: Оценка многопроходного стоимостно-оптимального планирования и адаптации в динамических средах для LLM-агентов, использующих инструменты
CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

Nov 4

ByJiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung

Современные подходы к оценке агентов на основе больших языковых моделей (LLM) в основном фокусируются на выполнении задач, часто упуская из виду эффективность использования ресурсов и адаптивность. Это игнорирует ключевую способность: возможность агентов разрабатывать и корректировать экономически оптимальные планы в ответ на изменения окружающей среды. Для устранения этого пробела мы представляем CostBench — масштабируемый бенчмарк с акцентом на стоимость, предназначенный для оценки экономического мышления агентов и их способности к перепланированию. Основанный на области планирования путешествий, CostBench включает задачи, решаемые с помощью множества последовательностей атомарных и составных инструментов с разнообразными настраиваемыми стоимостями. Он также поддерживает четыре типа динамических блокирующих событий, таких как сбои инструментов и изменения стоимости, для моделирования реальной непредсказуемости и необходимости адаптации агентов в реальном времени. Оценка ведущих открытых и проприетарных моделей на CostBench выявляет значительный разрыв в стоимости-ориентированном планировании: агенты часто не могут определить оптимальные по стоимости решения в статических условиях (даже GPT-5 демонстрирует менее 75% точных совпадений на самых сложных задачах), а производительность дополнительно снижается примерно на 40% в динамических условиях. Диагностируя эти слабые места, CostBench закладывает основу для разработки будущих агентов, которые будут одновременно экономически рациональными и устойчивыми.

Orion-MSP: Многомасштабное разреженное внимание для табличного обучения в контексте
Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning

Nov 4

ByMohamed Bouadi, Pratinav Seth, Aditya Tanna, Vinay Kumar Sankarapu

Табличные данные остаются преобладающим форматом для реальных приложений. Однако разработка эффективных нейросетевых моделей для табличных данных остается сложной задачей из-за неоднородных типов признаков и сложных взаимодействий, происходящих на множественных масштабах. Недавние достижения в области контекстного обучения (ICL) для табличных данных, такие как TabPFN и TabICL, позволили достичь производительности на уровне современных методов, сравнимой с градиентным бустингом деревьев (GBT), без специфичной для задачи тонкой настройки. Однако современные архитектуры обладают ключевыми ограничениями: (1) одномасштабная обработка признаков, игнорирующая иерархические зависимости; (2) плотные механизмы внимания с квадратичным ростом вычислительной сложности от ширины таблицы; и (3) строго последовательная обработка компонентов, препятствующая итеративному уточнению представлений и межкомпонентному взаимодействию. Для решения этих проблем мы представляем Orion-MSP — архитектуру для табличного ICL, включающую три ключевых нововведения: (1) многомасштабную обработку для захвата иерархических взаимодействий признаков; (2) блочно-разреженное внимание, сочетающее оконные, глобальные и случайные паттерны для масштабируемой эффективности и связности на больших расстояниях; и (3) память в стиле Perceiver, обеспечивающую безопасный двунаправленный поток информации между компонентами. На различных бенчмарках Orion-MSP демонстрирует производительность на уровне или выше современных аналогов, эффективно масштабируясь для высокоразмерных таблиц, и устанавливает новый стандарт эффективного контекстного обучения для табличных данных. Модель общедоступна по адресу https://github.com/Lexsi-Labs/Orion-MSP.

TabTune: Унифицированная библиотека для вывода и тонкой настройки табличных фундаментальных моделей
TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models

Nov 4

ByAditya Tanna, Pratinav Seth, Mohamed Bouadi, Utsav Avaiya, Vinay Kumar Sankarapu

Табличные фундаментальные модели представляют собой растущую парадигму в области обучения на структурированных данных, распространяя преимущества крупномасштабного предварительного обучения на табличные домены. Однако их внедрение остается ограниченным из-за неоднородных конвейеров предобработки, фрагментированных API, несогласованных процедур тонкой настройки и отсутствия стандартизированной оценки метрик, ориентированных на развертывание, таких как калибровка и справедливость. Мы представляем TabTune — унифицированную библиотеку, которая стандартизирует полный рабочий процесс для табличных фундаментальных моделей через единый интерфейс. TabTune обеспечивает согласованный доступ к семи современным моделям, поддерживающим множество стратегий адаптации, включая вывод без дообучения (zero-shot), мета-обучение, контролируемую тонкую настройку (SFT) и параметрически-эффективную тонкую настройку (PEFT). Фреймворк автоматизирует учитывающую модель предобработку, внутренне управляет архитектурной гетерогенностью и интегрирует модули оценки производительности, калибровки и справедливости. Разработанный для расширяемости и воспроизводимости, TabTune позволяет проводить согласованное сравнительное тестирование стратегий адаптации табличных фундаментальных моделей. Библиотека имеет открытый исходный код и доступна по адресу https://github.com/Lexsi-Labs/TabTune.

Kinematify: Синтез сочлененных объектов с высокой степенью свободы на основе открытого словаря
Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

Nov 3

ByJiawei Wang, Dingyou Wang, Jiaming Hu, Qixuan Zhang, Jingyi Yu, Lan Xu

Глубокое понимание кинематических структур и подвижных компонентов крайне важно для обеспечения способности роботов манипулировать объектами и моделировать свои собственные шарнирные формы. Такое понимание фиксируется в виде шарнирных объектов, которые необходимы для таких задач, как физическое моделирование, планирование движений и обучение стратегиям. Однако создание этих моделей, особенно для объектов с высокой степенью подвижности (DoF), остается серьезной проблемой. Существующие методы обычно опираются на последовательности движений или строгие допущения, основанные на тщательно отобранных наборах данных, что ограничивает их масштабируемость. В данной статье мы представляем Kinematify — автоматизированную систему, которая синтезирует шарнирные объекты непосредственно из произвольных RGB-изображений или текстовых описаний. Наш метод решает две ключевые задачи: (i) вывод кинематических топологий для объектов с высокой DoF и (ii) оценку параметров сочленений по статической геометрии. Для этого мы сочетаем поиск методом MCTS для структурного вывода с геометрически-ориентированной оптимизацией для анализа сочленений, получая физически согласованные и функционально корректные описания. Мы оцениваем Kinematify на разнообразных входных данных из синтетических и реальных сред, демонстрируя улучшения в точности регистрации и кинематической топологии по сравнению с предыдущими работами.

LiveTradeBench: Поиск реальной альфы с помощью больших языковых моделей
LiveTradeBench: Seeking Real-World Alpha with Large Language Models

Nov 5

ByHaofei Yu, Fenghai Li, Jiaxuan You

Крупные языковые модели (LLM) демонстрируют высокие результаты в различных тестах — от викторин на знание и математических рассуждений до задач веб-агентов — но эти испытания проводятся в статичных условиях, лишенных реальной динамики и неопределенности. Как следствие, они оценивают изолированные рассуждения или решение проблем, а не принятие решений в условиях неопределенности. Чтобы решить эту проблему, мы представляем LiveTradeBench — живую торговую среду для оценки агентов на основе LLM в реалистичных и изменяющихся рыночных условиях. LiveTradeBench следует трем принципам проектирования: (i) Потоковая передача живых данных о рыночных ценах и новостях, что устраняет зависимость от офлайн-бэктестинга, предотвращает утечку информации и учитывает неопределенность в реальном времени; (ii) абстракция управления портфелем, расширяющая контроль от действий с одним активом до распределения нескольких активов, интегрирующая управление рисками и межактивные рассуждения; и (iii) оценка на нескольких рынках с структурно различными средами — акциями США и прогнозными рынками Polymarket — отличающимися волатильностью, ликвидностью и потоком информации. На каждом шаге агент наблюдает за ценами, новостями и своим портфелем, а затем выдает процентные распределения, балансирующие риск и доходность. Используя LiveTradeBench, мы провели 50-дневные живые оценки 21 LLM из разных семейств. Результаты показывают, что (1) высокие баллы в LMArena не гарантируют превосходных торговых результатов; (2) модели демонстрируют различные стили управления портфелем, отражающие аппетит к риску и динамику рассуждений; и (3) некоторые LLM эффективно используют живые сигналы для адаптации решений. Эти результаты выявляют разрыв между статической оценкой и реальной компетентностью, обосновывая необходимость тестов, проверяющих последовательное принятие решений и устойчивость в условиях живой неопределенности.

MME-CC: Сложный мультимодальный эталонный тест для оценки когнитивных способностей
MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

Nov 5

ByKaiyuan Zhang, Chenghao Yang, Zhoufutu Wen, Sihang Yuan, Qiuyue Wang, Chaoyi Huang, Guosheng Zhu, He Wang, Huawenyu Lu, Jianing Wen, Jianpeng Jiao, Lishu Luo, Longxiang Liu, Sijin Wu, Xiaolei Zhu, Xuanliang Zhang, Ge Zhang, Yi Lin, Guang Shi, Chaoyou Fu, Wenhao Huang

По мере стремительного масштабирования моделей рассуждений ключевая роль мультимодальности в человеческом познании становится все более очевидной, что стимулирует растущую потребность в исследовании визуально-центрированных когнитивных поведений. Однако существующие мультимодальные бенчмарки либо чрезмерно акцентируют текстовые рассуждения, либо не способны систематически охватить визуально-центрированные когнитивные поведения, что приводит к недостаточной оценке когнитивных способностей MLLM. Для устранения этого ограничения мы представляем MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity) — визуально-обоснованный бенчмарк, который организует 11 репрезентативных задач рассуждений в три фундаментальные категории визуальной информации: пространственные, геометрические и основанные на знаниях рассуждения, и предоставляет детализированный анализ когнитивных способностей MLLM по этим направлениям. На основе MME-CC мы провели масштабные эксперименты с 16 репрезентативными MLLM. Наше исследование показывает, что закрытые модели в настоящее время лидируют в общем зачете (например, 42.66 у Gemini-2.5-Pro против 30.45 у GLM-4.5V), в то время как пространственные и геометрические рассуждения остаются в целом слабыми (≤30%). Мы также выявили типичные ошибки, включая ошибки ориентации, хрупкое сохранение идентичности между видами и слабое следование контрфактическим инструкциям, и наблюдали, что Chain-of-Thought обычно следует трехэтапному процессу (извлечение → рассуждение → проверка) с сильной зависимостью от визуального извлечения. Мы надеемся, что эта работа послужит катализатором смещения акцентов в сторону рассмотрения когнитивных способностей MLLM как центрального элемента как оценки, так и проектирования моделей.

Последовательное преимущество: метод обратной энтропийной голосования превосходит параллельную самосогласованность при равных вычислительных затратах
The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

Nov 4

ByAman Sharma, Paras Chopra

Мы возвращаемся к вопросу масштабирования на этапе тестирования для рассуждений языковых моделей и задаем фундаментальный вопрос: при равном бюджете токенов и вычислений, что лучше — запускать несколько независимых цепочек параллельно или запускать меньше цепочек, которые итеративно улучшаются за счет последовательных шагов? В результате всесторонней оценки пяти современных открытых моделей и трех сложных бенчмарков на рассуждение мы обнаружили, что последовательное масштабирование, при котором цепочки явно строятся на предыдущих попытках, стабильно превосходит доминирующую парадигму параллельного самосогласования в 95.6% конфигураций с повышением точности до 46.7%. Кроме того, мы представляем взвешенное голосование по обратной энтропии — новый метод без обучения, который дополнительно повышает точность последовательного масштабирования. Взвешивая ответы пропорционально обратной энтропии их цепочек рассуждений, мы увеличиваем наш показатель успеха по сравнению с параллельным мажоритарным голосованием и устанавливаем его как оптимальную стратегию масштабирования на этапе тестирования. Наши выводы фундаментально оспаривают ортодоксию параллельных рассуждений, которая доминировала в масштабировании на этапе тестирования со времен декодирования самосогласованности Ванга и др. (Wang et al., 2022), позиционируя последовательное уточнение как надежный вариант по умолчанию для современных LLM-рассуждений и требуя смены парадигмы в подходе к оптимизации на этапе вывода.

Обоснованные недопонимания в асимметричном диалоге: перспективистская схема аннотации для задачи картографирования
Grounded Misunderstandings in Asymmetric Dialogue: A Perspectivist Annotation Scheme for MapTask

Nov 5

ByNan Li, Albert Gatt, Massimo Poesio

Коллаборативный диалог основывается на постепенном установлении общего контекста участниками, однако в асимметричных условиях они могут полагать, что достигли согласия, в то время как ссылаются на разные сущности. Мы представляем перспективистскую схему разметки для корпуса HCRC MapTask (Anderson et al., 1991), которая отдельно фиксирует интерпретации, закрепленные за говорящим и адресатом, для каждой референциальной выражения, позволяя отслеживать, как понимание возникает, расходится и восстанавливается во времени. Используя конвейер разметки с помощью LLM, ограниченный схемой, мы получаем 13 тыс. размеченных референциальных выражений с оценками надежности и анализируем результирующие состояния понимания. Результаты показывают, что полные недопонимания редки после унификации лексических вариантов, но расхождения в множественности систематически приводят к дивергенциям, раскрывая, как видимое закрепление контекста может маскировать референциальное несоответствие. Наша система предоставляет как ресурс, так и аналитический инструмент для изучения закрепленных недопониманий и для оценки способности (V)LLM моделировать зависящее от перспективы закрепление контекста в коллаборативном диалоге.

Позволим многомодальным эмбеддерам изучать, когда расширять запрос с помощью адаптивного расширения запросов
Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

Nov 4

ByWongyu Kim, Hochang Lee, Sanghak Lee, Yoonsung Kim, Jaehyun Park

Расширение запросов делает их более содержательными за счет добавления дополнительной информации для поиска релевантных документов. Современные исследования предложили эмбеддеры на основе больших языковых моделей (LLM), которые изучают представления для векторизации и генерации расширений запросов в многозадачном режиме, используя генеративные возможности LLM. На этапе вывода такие совместно обученные эмбеддеры выполняют расширение запроса с последующей векторизацией, демонстрируя эффективные результаты. Однако расширение каждого запроса приводит к значительной задержке векторизации, а для некоторых запросов оно может ухудшить производительность. Кроме того, предыдущие методы не исследовались в мультимодальных средах. Для решения этих проблем мы предлагаем M-Solomon — универсальный мультимодальный эмбеддер, который адаптивно определяет необходимость расширения запросов. Наш подход сначала разделяет запросы обучающих наборов данных на две группы на уровне набора данных: одна включает запросы, требующие расширения, а другая — запросы, которые в нём не нуждаются. Затем мы вводим процесс синтеза, который генерирует подходящие расширения для требующих их запросов с помощью мощной мультимодальной LLM (MLLM). Далее представлено адаптивное расширение запросов. На этом этапе M-Solomon может выполнять расширение запросов только при необходимости, обучаясь генерировать синтетические расширения с префиксом /augment для запросов, которые в них нуждаются, и простую строку /embed для остальных. Результаты экспериментов показали, что M-Solomon не только значительно превзошел базовый метод без расширения, но и превзошел базовый метод с постоянным расширением, обеспечив значительно более высокую скорость векторизации.

Младший специалист по ИИ и его отчет о рисках: Автономное научное исследование на основе базовой публикации
Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Nov 6

ByAtsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa

Понимание текущих возможностей и рисков систем «ИИ-ученый» крайне важно для обеспечения надежного и устойчивого научного прогресса, управляемого искусственным интеллектом, при сохранении целостности академической экосистемы. С этой целью мы разработали Jr. AI Scientist — передовую автономную систему-ученого, которая имитирует ключевой исследовательский workflow студента-исследователя начального уровня: получив базовую статью от человека-наставника, система анализирует ее ограничения, формулирует новые гипотезы для улучшения, проверяет их с помощью строгого экспериментального подхода и пишет статью с результатами. В отличие от предыдущих подходов, предполагающих полную автоматизацию или работающих с небольшими фрагментами кода, Jr. AI Scientist следует четко определенному исследовательскому workflow и использует современные coding-агенты для работы со сложными, многокомпонентными реализациями, что приводит к научно ценным результатам. Для оценки мы провели автоматизированное тестирование с помощью ИИ-рецензентов, оценку авторами и подачу работ на конференцию Agents4Science, посвященную научным достижениям на основе ИИ. Результаты показывают, что статьи, сгенерированные Jr. AI Scientist, получают более высокие оценки рецензентов, чем существующие полностью автоматизированные системы. Тем не менее, мы выявили существенные ограничения как по оценке авторов, так и по отзывам с Agents4Science, что указывает на потенциальные риски прямого применения современных систем «ИИ-ученый» и ключевые вызовы для будущих исследований. Наконец, мы всесторонне описываем различные риски, обнаруженные в процессе разработки. Мы надеемся, что эти наблюдения углубят понимание текущего прогресса и рисков в развитии технологий «ИИ-ученый».

LEGO-Eval: в сторону детальной оценки синтеза воплощенных 3D-сред с инструментальным расширением
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

Nov 4

ByGyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo